このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240408となっている論文です。

PDF登録状況(公開日: 20240408)

TitleAuthorsAbstract論文公表日・翻訳日
# 正規化流を用いた変分ベイズ最適実験設計

Variational Bayesian Optimal Experimental Design with Normalizing Flows ( http://arxiv.org/abs/2404.13056v1 )

ライセンス: Link先を確認
Jiayuan Dong, Christian Jacobsen, Mehdi Khalloufi, Maryam Akram, Wanjiao Liu, Karthik Duraisamy, Xun Huan, (参考訳) ベイズ最適実験設計(OED)は、モデルパラメータにおける期待情報ゲイン(EIG)を最大化する実験を求める。 ネストしたモンテカルロを用いて直接EIGを推定することは計算コストが高く、明確な可能性を必要とする。 一方、変分 OED (vOED) は、後部分布を変分形式で近似し、その変分パラメータを最適化することにより、EIGの下位境界を推定する。 我々は,vOEDの変分分布を表すために正規化フロー(NFs)を導入し,この手法をvOED-NFsと呼ぶ。 具体的には、結合層の合成から構築された条件付き可逆ニューラルネットワークアーキテクチャを持つNFを採用し、データ次元削減のための要約ネットワークで拡張する。 変分パラメータと設計変数の勾配に基づく同時最適化を可能にするために、勾配式とともに下界にモンテカルロ推定器を提示する。 vOED-NFsアルゴリズムは2つのベンチマーク問題で検証され、カソード電気泳動堆積の偏微分方程式が支配する応用と、アフィド集団の確率的モデリングを伴う暗黙の確率ケースで実証される。 その結果,4--5結合層の組成は,前向きモデル実行の固定予算下において,より低いEIG推定バイアスを達成できることが示唆された。 結果として得られるNFは、真の後部とよく一致する近似的な後部を生成し、非ガウス的およびマルチモーダル的特徴を効果的に捉えることができる。

Bayesian optimal experimental design (OED) seeks experiments that maximize the expected information gain (EIG) in model parameters. Directly estimating the EIG using nested Monte Carlo is computationally expensive and requires an explicit likelihood. Variational OED (vOED), in contrast, estimates a lower bound of the EIG without likelihood evaluations by approximating the posterior distributions with variational forms, and then tightens the bound by optimizing its variational parameters. We introduce the use of normalizing flows (NFs) for representing variational distributions in vOED; we call this approach vOED-NFs. Specifically, we adopt NFs with a conditional invertible neural network architecture built from compositions of coupling layers, and enhanced with a summary network for data dimension reduction. We present Monte Carlo estimators to the lower bound along with gradient expressions to enable a gradient-based simultaneous optimization of the variational parameters and the design variables. The vOED-NFs algorithm is then validated in two benchmark problems, and demonstrated on a partial differential equation-governed application of cathodic electrophoretic deposition and an implicit likelihood case with stochastic modeling of aphid population. The findings suggest that a composition of 4--5 coupling layers is able to achieve lower EIG estimation bias, under a fixed budget of forward model runs, compared to previous approaches. The resulting NFs produce approximate posteriors that agree well with the true posteriors, able to capture non-Gaussian and multi-modal features effectively.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-08
# 頭皮脳波における発作検出のための機械学習アルゴリズムの臨床翻訳 : 系統的検討

Clinical translation of machine learning algorithms for seizure detection in scalp electroencephalography: a systematic review ( http://arxiv.org/abs/2404.15332v1 )

ライセンス: Link先を確認
Nina Moutonnet, Steven White, Benjamin P Campbell, Danilo Mandic, Gregory Scott, (参考訳) 発作検出のための機械学習アルゴリズムは大きな診断可能性を示しており、最近の報告では100%に達する。 しかし、臨床翻訳を成功させるための要件を完全に解決したアルゴリズムは、ほとんどない。 例えば、トレーニングデータの特性はアルゴリズムの汎用性を著しく制限し、アルゴリズムはEEG取得ハードウェア間のばらつきに敏感であり、実行時の処理コストはそれらをリアルタイムの臨床的ユースケースでは不可能にすることができる。 本稿では,一般性,実行時コスト,説明可能性,臨床関連パフォーマンス指標などの基準で評価し,臨床翻訳性に着目して機械学習の発作検出アルゴリズムを体系的にレビューする。 非スペシャリストにとって、モデルの開発と評価を文脈化するのに必要なドメイン固有の知識を提供する。 実世界の潜在的な有効性に関する機械学習アルゴリズムの批判的評価は、臨床翻訳を加速させ、現在の発作検出文献のギャップを識別するのに役立ちます。

Machine learning algorithms for seizure detection have shown great diagnostic potential, with recent reported accuracies reaching 100%. However, few published algorithms have fully addressed the requirements for successful clinical translation. For example, the properties of training data may critically limit the generalisability of algorithms, algorithms may be sensitive to variability across EEG acquisition hardware, and run-time processing costs may render them unfeasible for real-time clinical use cases. Here, we systematically review machine learning seizure detection algorithms with a focus on clinical translatability, assessed by criteria including generalisability, run-time costs, explainability, and clinically-relevant performance metrics. For non-specialists, we provide domain-specific knowledge necessary to contextualise model development and evaluation. Our critical evaluation of machine learning algorithms with respect to their potential real-world effectiveness can help accelerate clinical translation and identify gaps in the current seizure detection literature.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-08
# EB-GAME:ECG心拍異常検出用ゲームチェンジャー

EB-GAME: A Game-Changer in ECG Heartbeat Anomaly Detection ( http://arxiv.org/abs/2404.15333v1 )

ライセンス: Link先を確認
JuneYoung Park, Da Young Kim, Yunsoo Kim, Jisu Yoo, Tae Joon Kim, (参考訳) 心臓科医は不整脈の検出に心電図(ECG)を使用する。 しかし、心臓異常を検出するための心電図信号の連続的なモニタリングには、かなりの時間と人的資源が必要である。 その結果,不整脈の自動検出に先立って,いくつかの深層学習研究が実施されている。 これらのモデルは教師あり学習において比較的高い性能を示すが、訓練例が少ない場合には適用できない。 これは、ほとんどの実世界の臨床環境において、異常な心電図データが通常のデータに比べて少ないためである。 そこで本研究では,データ不均衡の問題に対処するために,GANに基づく非教師なし学習,すなわち非教師なし学習が採用された。 本稿では, 心電図における異常信号の検出に, 正規信号のラベルのみをトレーニングデータとして用いた。 イメージをパッチに分割して学習する自己教師型視覚変換器と、パッチ再構築と情報冗長性の解決に有効なマスク付き自動エンコーダに着想を得て、ECG心拍異常検出モデルEB-GAMEを導入する。 EB-GAMEはMIT-BIH Arrhythmia Datasetでトレーニングと検証が行われ、このベンチマークで最先端のパフォーマンスを達成した。

Cardiologists use electrocardiograms (ECG) for the detection of arrhythmias. However, continuous monitoring of ECG signals to detect cardiac abnormal-ities requires significant time and human resources. As a result, several deep learning studies have been conducted in advance for the automatic detection of arrhythmia. These models show relatively high performance in supervised learning, but are not applicable in cases with few training examples. This is because abnormal ECG data is scarce compared to normal data in most real-world clinical settings. Therefore, in this study, GAN-based anomaly detec-tion, i.e., unsupervised learning, was employed to address the issue of data imbalance. This paper focuses on detecting abnormal signals in electrocardi-ograms (ECGs) using only labels from normal signals as training data. In-spired by self-supervised vision transformers, which learn by dividing images into patches, and masked auto-encoders, known for their effectiveness in patch reconstruction and solving information redundancy, we introduce the ECG Heartbeat Anomaly Detection model, EB-GAME. EB-GAME was trained and validated on the MIT-BIH Arrhythmia Dataset, where it achieved state-of-the-art performance on this benchmark.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-08
# AI"から確率的自動化へ:技術的システム記述の擬人化は信頼にどのように影響するか?

From "AI" to Probabilistic Automation: How Does Anthropomorphization of Technical Systems Descriptions Influence Trust? ( http://arxiv.org/abs/2404.16047v1 )

ライセンス: Link先を確認
Nanna Inie, Stefania Druga, Peter Zukerman, Emily M. Bender, (参考訳) 本稿では,いわゆる「AI」の人為的な記述の影響について考察する。 (芸術知能) システムの信頼の自己評価に関するシステム。 先行研究に基づいて、人類形態化の4つのカテゴリを定義する。 (1。 識別器の特性 2.庁 3.生物の比喩・比喩 4.コミュニケータの特性) 私たちはサーベイベースアプローチを使用します (n=954) 参加者が2つのうちの1つを信頼できるかどうか (虚構) 「AI」制度は、人をランダムに人為的形態化または非人為的形態化記述のどちらかを見るように割り当てる。 参加者は、全体的な非人為的製品記述よりも、人為的な製品記述を信頼しがちである。 異なる人為的分類と組み合わせた製品やシステムの種類は、人為的形態化言語単独よりも信頼に強い影響を与えているようであり、年齢は、人の人的形態化または非人的形態化記述に対する嗜好と大きく相関する唯一の人口統計学的要因である。 選択において、参加者は、製品AとBの選択におけるモチベーションの動機として、2つの悪の低さや、利害関係の低さ、人間の好意などの要因を、その製品の人為的形態化または非人為的形態化の記述に拘わらず強調する。 以上の結果から,「AI」記述における「擬人化」は,異なる集団に異なる影響を及ぼす可能性のある集合概念であり,「AI」として販売されるシステムにおいて,人為的形態化が一般大衆の信頼と過度な信頼につながるかという議論にニュアンスを与えていることが示唆された。

This paper investigates the influence of anthropomorphized descriptions of so-called "AI" (artificial intelligence) systems on people's self-assessment of trust in the system. Building on prior work, we define four categories of anthropomorphization (1. Properties of a cognizer, 2. Agency, 3. Biological metaphors, and 4. Properties of a communicator). We use a survey-based approach (n=954) to investigate whether participants are likely to trust one of two (fictitious) "AI" systems by randomly assigning people to see either an anthropomorphized or a de-anthropomorphized description of the systems. We find that participants are no more likely to trust anthropomorphized over de-anthropmorphized product descriptions overall. The type of product or system in combination with different anthropomorphic categories appears to exert greater influence on trust than anthropomorphizing language alone, and age is the only demographic factor that significantly correlates with people's preference for anthropomorphized or de-anthropomorphized descriptions. When elaborating on their choices, participants highlight factors such as lesser of two evils, lower or higher stakes contexts, and human favoritism as driving motivations when choosing between product A and B, irrespective of whether they saw an anthropomorphized or a de-anthropomorphized description of the product. Our results suggest that "anthropomorphism" in "AI" descriptions is an aggregate concept that may influence different groups differently, and provide nuance to the discussion of whether anthropomorphization leads to higher trust and over-reliance by the general public in systems sold as "AI".
翻訳日:2024-04-28 10:36:53 公開日:2024-04-08
# ドメイン特化大言語モデルファインチューニングによる研究合成の自動化

Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning ( http://arxiv.org/abs/2404.08680v1 )

ライセンス: Link先を確認
Teo Susnjak, Peter Hwang, Napoleon H. Reyes, Andre L. C. Barczak, Timothy R. McIntosh, Surangika Ranathunga, (参考訳) この研究は、SLR(Systematic Literature Reviews)の自動化にLLM( fine-tuned Large Language Models)の使用を開拓し、学術研究方法論の強化にAIを統合する上で、重要かつ斬新な貢献を提示する。 本研究は,オープンソースLLMとともに最新の微調整手法を採用し,知識合成を含むSLRプロセスの最終実行段階を自動化するための実用的で効率的な手法を実証した。 その結果, LLM応答の精度は高く, 既存のPRISMAコンフォーミングSLRの複製により検証された。 本研究は,LLM幻覚を緩和する手法と,その情報源に対するLSM応答の追跡機構を提案し,この手法が学術研究の厳密な要求にどのように応えるかを実証した。 この結果は、様々な労働集約的な文献レビューのプロセスの合理化における微調整LDMの可能性を確認した。 このアプローチの可能性を考慮し、すべての研究領域に適用可能であることを踏まえ、この基礎研究は、AI駆動プロセスを統合するためのPRISMAレポートガイドラインを更新し、将来のSLRにおける方法論的透明性と信頼性を確保することを提唱した。 この研究は、さまざまな学術分野や研究分野にAIを応用したツールの魅力を拡大し、学術研究が絶え間なく増え続ける中で、より効率的な総合的かつ正確な文献レビューを行うための新しい標準を設定した。

This research pioneers the use of fine-tuned Large Language Models (LLMs) to automate Systematic Literature Reviews (SLRs), presenting a significant and novel contribution in integrating AI to enhance academic research methodologies. Our study employed the latest fine-tuning methodologies together with open-sourced LLMs, and demonstrated a practical and efficient approach to automating the final execution stages of an SLR process that involves knowledge synthesis. The results maintained high fidelity in factual accuracy in LLM responses, and were validated through the replication of an existing PRISMA-conforming SLR. Our research proposed solutions for mitigating LLM hallucination and proposed mechanisms for tracking LLM responses to their sources of information, thus demonstrating how this approach can meet the rigorous demands of scholarly research. The findings ultimately confirmed the potential of fine-tuned LLMs in streamlining various labor-intensive processes of conducting literature reviews. Given the potential of this approach and its applicability across all research domains, this foundational study also advocated for updating PRISMA reporting guidelines to incorporate AI-driven processes, ensuring methodological transparency and reliability in future SLRs. This study broadens the appeal of AI-enhanced tools across various academic and research fields, setting a new standard for conducting comprehensive and accurate literature reviews with more efficiency in the face of ever-increasing volumes of academic studies.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-08
# EFSA:イベントレベル金融センチメント分析に向けて

EFSA: Towards Event-Level Financial Sentiment Analysis ( http://arxiv.org/abs/2404.08681v1 )

ライセンス: Link先を確認
Tianyu Chen, Yiming Zhang, Guoxin Yu, Dapeng Zhang, Li Zeng, Qing He, Xiang Ao, (参考訳) 本稿では、金融感情分析~(FSA)をイベントレベルにまで拡張する。 ファイナンシャルテキストからイベントを抽出することは、正確な感情予測につながるかもしれないが、財務テキスト内のイベントの長大かつ不連続性のために、特別な課題がある。 そこで我々は,大まかな,きめの細かいイベントカテゴリからなる分類を設計することで,イベント抽出を分類タスクとして再認識する。 この設定の下では、金融テキストから(企業、業界、大まかなイベント、きめ細かいイベント、感情など)クインタプルを出力するタスクの \textbf{E}vent-Level \textbf{F}inancial \textbf{S}entiment \textbf{A}nalysis~(\textbf{EFSA}) を定式化する。 12,160ドルのニュース記事と13,725ドルのクインタプルを含む大規模な中国のデータセットが、私たちのタスクの新たなテストベッドとして公開されています。 この目的のために, 4-hop Chain-of-Thought LLMベースのアプローチが考案された。 提案手法は,既存の手法のベンチマークスコアを実証し,提案手法が現在の最先端に到達できることを実証した。 私たちのデータセットとフレームワークの実装はhttps://anonymous.4open.science/r/EFSA-645Eで利用可能です。

In this paper, we extend financial sentiment analysis~(FSA) to event-level since events usually serve as the subject of the sentiment in financial text. Though extracting events from the financial text may be conducive to accurate sentiment predictions, it has specialized challenges due to the lengthy and discontinuity of events in a financial text. To this end, we reconceptualize the event extraction as a classification task by designing a categorization comprising coarse-grained and fine-grained event categories. Under this setting, we formulate the \textbf{E}vent-Level \textbf{F}inancial \textbf{S}entiment \textbf{A}nalysis~(\textbf{EFSA} for short) task that outputs quintuples consisting of (company, industry, coarse-grained event, fine-grained event, sentiment) from financial text. A large-scale Chinese dataset containing $12,160$ news articles and $13,725$ quintuples is publicized as a brand new testbed for our task. A four-hop Chain-of-Thought LLM-based approach is devised for this task. Systematically investigations are conducted on our dataset, and the empirical results demonstrate the benchmarking scores of existing methods and our proposed method can reach the current state-of-the-art. Our dataset and framework implementation are available at https://anonymous.4open.science/r/EFSA-645E
翻訳日:2024-04-21 19:54:47 公開日:2024-04-08
# 法的文脈におけるデータ拡張へのテキストクラスタリングの適用

Text clustering applied to data augmentation in legal contexts ( http://arxiv.org/abs/2404.08683v1 )

ライセンス: Link先を確認
Lucas José Gonçalves Freitas, Thaís Rodrigues, Guilherme Rodrigues, Pamella Edokawa, Ariane Farias, (参考訳) データ分析と機械学習は、特にクラスタリングやテキスト分類といったタスクにおいて、法律分野において重要な意味を持つ。 本研究では,自然言語処理ツールの力を利用して,専門家が慎重にキュレートしたデータセットの強化を行った。 このプロセスは、機械学習技術を用いた法的テキストの分類ワークフローを大幅に改善した。 我々は、国連2030アジェンダの持続可能な開発目標(SDG)データを実践的なケーススタディとして検討した。 データ拡張クラスタリングベースの戦略は、分類モデルの精度と感度の指標を著しく向上させた。 2030年のアジェンダの特定のSDGでは、パフォーマンスが15%以上向上した。 ある場合、サンプルベースは注目すべき因子5で拡張される。 非分類の法的テキストを扱う場合、クラスタリングを中心としたデータ拡張戦略は非常に効果的であることが証明されている。 労働集約的な手作業による分類を必要とせずに、既存の知識基盤を拡張する貴重な手段を提供する。

Data analysis and machine learning are of preeminent importance in the legal domain, especially in tasks like clustering and text classification. In this study, we harnessed the power of natural language processing tools to enhance datasets meticulously curated by experts. This process significantly improved the classification workflow for legal texts using machine learning techniques. We considered the Sustainable Development Goals (SDGs) data from the United Nations 2030 Agenda as a practical case study. Data augmentation clustering-based strategy led to remarkable enhancements in the accuracy and sensitivity metrics of classification models. For certain SDGs within the 2030 Agenda, we observed performance gains of over 15%. In some cases, the example base expanded by a noteworthy factor of 5. When dealing with unclassified legal texts, data augmentation strategies centered around clustering prove to be highly effective. They provide a valuable means to expand the existing knowledge base without the need for labor-intensive manual classification efforts.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-08
# 英語は新しいプログラミング言語か?擬似符号工学はどうか?

Is English the New Programming Language? How About Pseudo-code Engineering? ( http://arxiv.org/abs/2404.08684v1 )

ライセンス: Link先を確認
Gian Alexandre Michaelsen, Renato P. dos Santos, (参考訳) 背景: 人工知能(AI)の日常生活への統合、特に自然言語処理(NLP)を利用したチャットボットは、革命的な可能性とユニークな課題の両方を提示する。 これは、異なる入力形式が、OpenAIのリード言語モデルであるChatGPT、複雑なマルチインテンションタスクの理解と実行のパフォーマンスにどのように影響するかを調査することを目的としている。 設計: 談話分析によって補足されたケーススタディ手法を用いて、自然言語から擬似コード工学への入力に対するChatGPTの応答を分析する。 この研究は、意図、解釈可能性、完全性、創造性の4つのカテゴリにまたがるモデルの習熟度を具体的に調べている。 設定と参加者:AIインタラクションの理論的な探索として,ChatGPTによって処理された構造的および非構造的入力の分析に焦点を当てた。 データ収集と分析: この研究は、ChatGPTの自然言語と擬似コード工学の両方におけるプロンプトに対する応答を評価するために、「週ごとの食事計画」と「買い物リスト」の編成を含む、合成ケースシナリオを利用する。 この分析は、異なる入力形式にまたがるパターン、矛盾、ユニークな応答要素の識別に基礎を置いている。 結果: 擬似符号工学入力はChatGPT応答の明瞭さと決定性を著しく向上させ, 自然言語に固有の曖昧さを低減させることがわかった。 迅速なエンジニアリング技術によって構築された強化された自然言語は、同様にモデルの解釈可能性と創造性を向上する。 結論: この研究は、人間とAIのインタラクションを洗練し、より決定論的、簡潔、そして直接的な結果を達成する上で、疑似コードエンジニアリングの可能性を強調し、AIの正確な応答を必要とする分野にまたがる幅広い適用を提唱する。

Background: The integration of artificial intelligence (AI) into daily life, particularly through chatbots utilizing natural language processing (NLP), presents both revolutionary potential and unique challenges. This intended to investigate how different input forms impact ChatGPT, a leading language model by OpenAI, performance in understanding and executing complex, multi-intention tasks. Design: Employing a case study methodology supplemented by discourse analysis, the research analyzes ChatGPT's responses to inputs varying from natural language to pseudo-code engineering. The study specifically examines the model's proficiency across four categories: understanding of intentions, interpretability, completeness, and creativity. Setting and Participants: As a theoretical exploration of AI interaction, this study focuses on the analysis of structured and unstructured inputs processed by ChatGPT, without direct human participants. Data collection and analysis: The research utilizes synthetic case scenarios, including the organization of a "weekly meal plan" and a "shopping list," to assess ChatGPT's response to prompts in both natural language and pseudo-code engineering. The analysis is grounded in the identification of patterns, contradictions, and unique response elements across different input formats. Results: Findings reveal that pseudo-code engineering inputs significantly enhance the clarity and determinism of ChatGPT's responses, reducing ambiguity inherent in natural language. Enhanced natural language, structured through prompt engineering techniques, similarly improves the model's interpretability and creativity. Conclusions: The study underscores the potential of pseudo-code engineering in refining human-AI interaction and achieving more deterministic, concise, and direct outcomes, advocating for its broader application across disciplines requiring precise AI responses.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-08
# 抽象テキスト要約における文脈理解の強化を目的としたディープラーニングアーキテクチャの活用による意図に基づくニューラルシーケンス・ツー・シーケンスモデリング

Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization ( http://arxiv.org/abs/2404.08685v1 )

ライセンス: Link先を確認
Bhavith Chandra Challagundla, Chakradhar Peddavenkatagari, (参考訳) 自動テキスト要約(TS)は、大量の情報を簡潔で一貫性のある要約に集約する上で重要な役割を担い、効率的な情報検索と理解を容易にする。 本稿では,構造的,意味的,ニューラルベースという3つの主要な側面を統合した,単一文書の抽象的 TS のための新しいフレームワークを提案する。 このフレームワークは、機械学習と知識に基づく技術を融合して、統一された方法論を実現する。 このフレームワークは、前処理、機械学習、後処理という3つの主要なフェーズで構成されている。 前処理フェーズでは、曖昧な単語を一般化し、内容の一般化を高めるために、知識に基づく単語センス曖昧化(WSD)技術が使用される。 セマンティック・コンテント・ジェネレーション(Semantic Content Generalization)は、アウト・オブ・ボキャブラリ(OOV)またはレアワードに対処し、入力文書の包括的カバレッジを保証する。 その後、一般化されたテキストは、ニューラルネットワーク処理技術を用いて連続ベクトル空間に変換される。 注意機構を持つ深部シーケンス・ツー・シーケンス(seq2seq)モデルを用いて、ベクトル表現に基づいて一般化された要約を予測する。 後処理フェーズでは、ヒューリスティックアルゴリズムとテキスト類似度メトリクスを使用して、生成された要約をさらに洗練する。 一般化された要約の概念は特定の実体と一致し、一貫性と可読性を高める。 Gigaword,Duc 2004,CNN/DailyMailなどの著名なデータセットで行った実験により,提案フレームワークの有効性が示された。 その結果、希少語やOOV語を扱う場合の大幅な改善が示され、既存の最先端のディープラーニング技術よりも優れていた。 提案するフレームワークは、抽象TSに対する包括的かつ統一的なアプローチを示し、構造、意味論、およびニューラルベース方法論の強みを組み合わせたものである。

Automatic text summarization (TS) plays a pivotal role in condensing large volumes of information into concise, coherent summaries, facilitating efficient information retrieval and comprehension. This paper presents a novel framework for abstractive TS of single documents, which integrates three dominant aspects: structural, semantic, and neural-based approaches. The proposed framework merges machine learning and knowledge-based techniques to achieve a unified methodology. The framework consists of three main phases: pre-processing, machine learning, and post-processing. In the pre-processing phase, a knowledge-based Word Sense Disambiguation (WSD) technique is employed to generalize ambiguous words, enhancing content generalization. Semantic content generalization is then performed to address out-of-vocabulary (OOV) or rare words, ensuring comprehensive coverage of the input document. Subsequently, the generalized text is transformed into a continuous vector space using neural language processing techniques. A deep sequence-to-sequence (seq2seq) model with an attention mechanism is employed to predict a generalized summary based on the vector representation. In the post-processing phase, heuristic algorithms and text similarity metrics are utilized to refine the generated summary further. Concepts from the generalized summary are matched with specific entities, enhancing coherence and readability. Experimental evaluations conducted on prominent datasets, including Gigaword, Duc 2004, and CNN/DailyMail, demonstrate the effectiveness of the proposed framework. Results indicate significant improvements in handling rare and OOV words, outperforming existing state-of-the-art deep learning techniques. The proposed framework presents a comprehensive and unified approach towards abstractive TS, combining the strengths of structure, semantics, and neural-based methodologies.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-08
# δ_θ=nθ$のダイヨン

Dyons with phase $δ_θ=nθ$ ( http://arxiv.org/abs/2404.11622v1 )

ライセンス: Link先を確認
Ricardo Heras, (参考訳) Heras in $\href{https://doi.org/10.1140/epjp/s13360-023-03914-5}{{\rm Eur。 Phys J. Plus\, 138: 329, 2023}}$) では、陽イオンが電気および磁気束を囲む無限に長いソレノイドを囲むとき、その波動関数は電磁双対変換の下で量子相不変量を蓄積することを示した。 本稿では、この位相がウィッテン効果とともに真空角$\theta$に比例した位相位相となり、CP違反に結びつくことを示す。 この位相は真空状態 $\delta_{\theta}=n\theta$ で量子化され、この量子化に関連する最も一般的な真空状態は、$\theta$-vacua のアベリア形式と同一視される。 真空中における2つの仮定的干渉効果について論じ、そこでは角$\theta$が現れる。

In a recent paper (Heras in $\href{https://doi.org/10.1140/epjp/s13360-023-03914-5}{{\rm Eur. Phys. J. Plus\, 138: 329, 2023}}$), we have demonstrated that when a dyon encircles an infinitely long solenoid enclosing electric and magnetic fluxes, its wave function accumulates a quantum phase invariant under electromagnetic duality transformations. In this paper, we show that this phase, in conjunction with the Witten effect, gives rise to a topological phase proportional to the vacuum angle $\theta$ and thereby connected with CP violation. We show that this phase becomes quantised in a vacuum state $\delta_{\theta}=n\theta$ and that the most general vacuum state associated with this quantisation identifies with an Abelian form of the $\theta$-vacua. We discuss two hypothetical interference effects in the vacuum where the angle $\theta$ could manifest.
翻訳日:2024-04-21 19:45:03 公開日:2024-04-08
# Xiwu:高エネルギー物理のための柔軟な学習可能なLCM

Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics ( http://arxiv.org/abs/2404.08001v1 )

ライセンス: Link先を確認
Zhengde Zhang, Yiyu Zhang, Haodong Yao, Jianwen Luo, Rui Zhao, Bo Huang, Jiameng Zhao, Yipu Liao, Ke Li, Lina Zhao, Jun Cao, Fazhi Qi, Changzheng Yuan, (参考訳) 大規模言語モデル(LLM)は急激な更新と変更の期間にあり、SOTA(State-of-the-art)モデルを頻繁に置き換えている。 LLMを特定の科学分野に適用する場合、モデル自体を前進させながら独自のドメイン知識を取得することは困難です。 この課題に対処するため、Xiwuという名前の洗練された大規模言語モデルシステムが開発され、最も高度な基礎モデルの切り替えを可能にし、モデルドメインの知識を素早く教えることができる。 本稿では,LLMを高エネルギー物理(HEP)分野に適用するためのベストプラクティスについて報告する。例えば,シードフィッション技術を提案し,いくつかのデータ収集・クリーニングツールを開発し,ドメインAI-Readyデータセットを迅速に取得し,ベクトルストア技術に基づいてジャストインタイム学習システムを実装した。 その結果、XiwuはLLaMA、Vicuna、ChatGLM、Grok-1といった基礎モデルの切り替えを円滑に行うことができた。 訓練されたXiwuモデルは、HEP知識質問およびコード生成のベンチマークモデルよりも大幅に優れています。 この戦略は,オープンソースモデルの発展とともに,GPT-4を超越して,我々のモデルの性能向上の可能性を大幅に向上させる。 この作業は、HEPのフィールド用にカスタマイズされたLLMを提供し、他のフィールドにLLMを適用するためのリファレンスを提供する。

Large Language Models (LLMs) are undergoing a period of rapid updates and changes, with state-of-the-art (SOTA) model frequently being replaced. When applying LLMs to a specific scientific field, it's challenging to acquire unique domain knowledge while keeping the model itself advanced. To address this challenge, a sophisticated large language model system named as Xiwu has been developed, allowing you switch between the most advanced foundation models and quickly teach the model domain knowledge. In this work, we will report on the best practices for applying LLMs in the field of high-energy physics (HEP), including: a seed fission technology is proposed and some data collection and cleaning tools are developed to quickly obtain domain AI-Ready dataset; a just-in-time learning system is implemented based on the vector store technology; an on-the-fly fine-tuning system has been developed to facilitate rapid training under a specified foundation model. The results show that Xiwu can smoothly switch between foundation models such as LLaMA, Vicuna, ChatGLM and Grok-1. The trained Xiwu model is significantly outperformed the benchmark model on the HEP knowledge question-and-answering and code generation. This strategy significantly enhances the potential for growth of our model's performance, with the hope of surpassing GPT-4 as it evolves with the development of open-source models. This work provides a customized LLM for the field of HEP, while also offering references for applying LLM to other fields, the corresponding codes are available on Github.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-08
# ApproxDARTS: 近似乗算器を用いた微分可能なニューラルネットワーク探索

ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers ( http://arxiv.org/abs/2404.08002v1 )

ライセンス: Link先を確認
Michal Pinos, Lukas Sekanina, Vojtech Mrazek, (参考訳) ハードウェア対応ディープニューラルネットワーク(DNN)の設計に近似コンピューティングの原理を統合することで、DNNの実装は優れた出力品質と低レイテンシや推論エネルギーなどの高度に最適化されたハードウェアパラメータを示すようになった。 本研究では,DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法であるAproxDARTSを提案する。 CIFAR-10データセットでは、ApproxDARTSが10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成できることを示した。 例えば、ApproxDARTSは、エネルギー消費の削減を示すCNNを作成しました。 (a)32ドルの浮動小数点乗算器と32ドルのネイティブな浮動小数点乗算器を利用するCNNと比較して、推論フェーズの算術演算において53.84\%$ (b)正確な8ドルビットの固定点乗算器を利用するCNNと比較して5.97ドル%の費用がかかる。 さらに、ApproxDARTSはEvoApproxNASと呼ばれる類似のアルゴリズムベースの手法よりも2.3\times$高速である。

Integrating the principles of approximate computing into the design of hardware-aware deep neural networks (DNN) has led to DNNs implementations showing good output quality and highly optimized hardware parameters such as low latency or inference energy. In this work, we present ApproxDARTS, a neural architecture search (NAS) method enabling the popular differentiable neural architecture search method called DARTS to exploit approximate multipliers and thus reduce the power consumption of generated neural networks. We showed on the CIFAR-10 data set that the ApproxDARTS is able to perform a complete architecture search within less than $10$ GPU hours and produce competitive convolutional neural networks (CNN) containing approximate multipliers in convolutional layers. For example, ApproxDARTS created a CNN showing an energy consumption reduction of (a) $53.84\%$ in the arithmetic operations of the inference phase compared to the CNN utilizing the native $32$-bit floating-point multipliers and (b) $5.97\%$ compared to the CNN utilizing the exact $8$-bit fixed-point multipliers, in both cases with a negligible accuracy drop. Moreover, the ApproxDARTS is $2.3\times$ faster than a similar but evolutionary algorithm-based method called EvoApproxNAS.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-08
# 資源制約環境のための軽量ディープラーニング:サーベイ

Lightweight Deep Learning for Resource-Constrained Environments: A Survey ( http://arxiv.org/abs/2404.07236v1 )

ライセンス: Link先を確認
Hou-I Liu, Marco Galindo, Hongxia Xie, Lai-Kuan Wong, Hong-Han Shuai, Yung-Yui Li, Wen-Huang Cheng, (参考訳) 過去10年間で、ディープラーニングの優位性は、自然言語処理、コンピュータビジョン、バイオメディカル信号処理など、人工知能のさまざまな分野に広まりました。 モデル精度は著しく改善されているが、携帯電話やマイクロコントローラなどの軽量デバイスにこれらのモデルをデプロイすることは、限られたリソースによって制限されている。 本調査では, 軽量モデル, 圧縮方法, ハードウェアアクセラレーション戦略の厳密な設計を詳述する。 この研究の主目的は、モデルの精度を損なうことなく、ハードウェア制約を回避する方法や概念を探ることである。 さらに,TinyMLとLarge Language Modelsのデプロイメントテクニックという,ライトウェイトなディープラーニングのための2つの重要なパスについても検討する。 これらの経路には間違いなく潜在的な可能性があるが、探索されていない領域の研究を奨励する重要な課題も提示している。

Over the past decade, the dominance of deep learning has prevailed across various domains of artificial intelligence, including natural language processing, computer vision, and biomedical signal processing. While there have been remarkable improvements in model accuracy, deploying these models on lightweight devices, such as mobile phones and microcontrollers, is constrained by limited resources. In this survey, we provide comprehensive design guidance tailored for these devices, detailing the meticulous design of lightweight models, compression methods, and hardware acceleration strategies. The principal goal of this work is to explore methods and concepts for getting around hardware constraints without compromising the model's accuracy. Additionally, we explore two notable paths for lightweight deep learning in the future: deployment techniques for TinyML and Large Language Models. Although these paths undoubtedly have potential, they also present significant challenges, encouraging research into unexplored areas.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-08
# 指数データのない「ゼロショット」:マルチモーダルモデルの性能を規定する概念周波数の事前学習

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance ( http://arxiv.org/abs/2404.04125v2 )

ライセンス: Link先を確認
Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge, (参考訳) ウェブクロールプレトレーニングデータセットは、分類/検索のためのCLIPや画像生成のための安定拡散といったマルチモーダルモデルの印象的な「ゼロショット」評価性能を提供する。 しかしながら、「ゼロショット」の一般化の概念がそのようなマルチモーダルモデルにとってどの程度意味があるのかは、その事前学習データセットが「ゼロショット」評価時にターゲットとする下流の概念をどの程度包含しているかは分かっていない。 事前学習データセットにおけるこれらの概念の頻度に影響された下流概念のマルチモーダルモデルの性能は、どのように影響されるのか? この問題を、34のモデルと5つの標準事前トレーニングデータセット(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics)で包括的に調査し、300GB以上のデータアーティファクトを生成する。 マルチモーダルモデルは「ゼロショット」の一般化を示すことよりも、下流の「ゼロショット」性能の線形改善を実現するために指数関数的に多くのデータを必要とする。 この傾向は、事前学習データセットと下流データセットのサンプルレベルの類似性を制御したり、純粋に合成されたデータ分布をテストする場合にも継続する。 さらに,本分析に基づいてサンプリングした長期データに対するベンチマークモデルを用いて,ボード全体のマルチモーダルモデルの性能が低かったことを実証した。 我々はこのロングテールテストセットを"Let it Wag!"ベンチマークとして、この方向のさらなる研究に貢献する。 本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵はいまだ発見されていないことを示唆する,トレーニングデータに対する指数関数的なニーズを明らかにした。

Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-08
# 異常発見のための木に基づくアンサンブルの有効性:洞察、バッチ、ストリーミングアクティブラーニング

Effectiveness of Tree-based Ensembles for Anomaly Discovery: Insights, Batch and Streaming Active Learning ( http://arxiv.org/abs/1901.08930v2 )

ライセンス: Link先を確認
Shubhomoy Das, Md Rakibul Islam, Nitthilan Kannappan Jayakodi, Janardhan Rao Doppa, (参考訳) コンピュータセキュリティや不正防止を含む現実のADアプリケーションでは、偽陽性の労力を最小限に抑えるために、人間のアナリストによって異常検出装置を設定できなければならない。 検出器を構成する重要な方法の1つは、いくつかのインスタンスに対して真のラベル(nominalまたはanomaly)を提供することである。 アクティブな異常発見に関する最近の研究は、トップスコーリングのインスタンスを優雅にクエリし、ラベルフィードバックに基づいてアンサンブル検出器の重みを調整することで、真の異常を迅速に発見できることを示した。 本論文は,木に基づくアンサンブルを用いた異常発見の最先端化に大きく貢献する。 まず、教師なしのツリーベースのアンサンブルと、欲求クエリ選択戦略に基づくアクティブラーニングの実践的成功を説明する重要な洞察を提供する。 また、実世界のデータに経験的な結果を提示し、私たちの洞察と理論分析をサポートし、活発な学習を支援する。 第2に,発見異常を記述するためのコンパクト記述という形式主義に基づいて,発見異常の多様性を向上させるためのバッチ能動的学習アルゴリズムを開発した。 第3に、ストリーミングデータ設定を処理するための新しいアクティブな学習アルゴリズムを開発する。 本稿では, ドリフトを頑健に検出するだけでなく, 異常検出を原理的に適応するための補正行動を行えるデータドリフト検出アルゴリズムを提案する。 第4に、我々の洞察と木に基づくアクティブな異常発見アルゴリズムを、バッチおよびストリーミングデータ設定の両方で評価するための広範な実験を提示する。 その結果、アクティブな学習により、最先端の教師なしベースラインよりもはるかに多くの異常を発見でき、バッチなアクティブな学習アルゴリズムは多様な異常を発見し、ストリーミングデータ設定下のアルゴリズムはバッチ設定と競合することがわかった。

In many real-world AD applications including computer security and fraud prevention, the anomaly detector must be configurable by the human analyst to minimize the effort on false positives. One important way to configure the detector is by providing true labels (nominal or anomaly) for a few instances. Recent work on active anomaly discovery has shown that greedily querying the top-scoring instance and tuning the weights of ensemble detectors based on label feedback allows us to quickly discover true anomalies. This paper makes four main contributions to improve the state-of-the-art in anomaly discovery using tree-based ensembles. First, we provide an important insight that explains the practical successes of unsupervised tree-based ensembles and active learning based on greedy query selection strategy. We also present empirical results on real-world data to support our insights and theoretical analysis to support active learning. Second, we develop a novel batch active learning algorithm to improve the diversity of discovered anomalies based on a formalism called compact description to describe the discovered anomalies. Third, we develop a novel active learning algorithm to handle streaming data setting. We present a data drift detection algorithm that not only detects the drift robustly, but also allows us to take corrective actions to adapt the anomaly detector in a principled manner. Fourth, we present extensive experiments to evaluate our insights and our tree-based active anomaly discovery algorithms in both batch and streaming data settings. Our results show that active learning allows us to discover significantly more anomalies than state-of-the-art unsupervised baselines, our batch active learning algorithm discovers diverse anomalies, and our algorithms under the streaming-data setup are competitive with the batch setup.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-08
# コンフォーマルアレイ型UAVMmWaveネットワークのためのコードブックに基づくビームトラッキング

Codebook-Based Beam Tracking for Conformal ArrayEnabled UAV MmWave Networks ( http://arxiv.org/abs/2005.14064v2 )

ライセンス: Link先を確認
Jinglin Zhang, Wenjun Xu, Hui Gao, Miao Pan, Zhu Han, Ping Zhang, (参考訳) ミリ波(mmWave)通信は無人航空機(UAV)ネットワークの高データレート要件を満たす可能性がある。 しかし,mmWave通信の前提条件として,UAVの3次元移動と姿勢変化のため,狭方向ビーム追跡は非常に困難である。 ビームトラッキングの難しさに対処するため,高ダイナミックUAVmmWaveネットワークにおける全空間カバレッジとアジャイルビームトラッキングを実現するために,各UAVの表面に共形アレイ(CA)を統合することを提案する。 より具体的に言うと、私たちの仕事の重要な貢献は3倍です。 1)CA対応UAVmmWaveネットワークのための新しいmmWaveビームトラッキングフレームワークを構築した。 2) 角ビームパターンとサブアレイパターンの両方を含む指向性放射素子(DRE)被覆円筒形状アレー(CCA)を駆動してCAのポテンシャルを完全に活用するために、特殊な階層コードブックを構築する。 3) コードブックに基づくマルチユーザビームトラッキング方式を提案し, ガウスプロセス機械学習によりUAV位置/姿勢の予測が可能となり, トラッキングエラーを意識したアダプティブビーム幅制御とともに, ビームトラッキング効率の向上が図られた。 シミュレーションの結果、CA対応UAV mmWaveネットワークにおけるコードブックに基づくビームトラッキング方式の有効性を検証し、高ダイナミックシナリオにおけるスペクトル効率と停止確率の観点から、従来のプランナーアレイよりもCAの利点を実証した。

Millimeter wave (mmWave) communications can potentially meet the high data-rate requirements of unmanned aerial vehicle (UAV) networks. However, as the prerequisite of mmWave communications, the narrow directional beam tracking is very challenging because of the three-dimensional (3D) mobility and attitude variation of UAVs. Aiming to address the beam tracking difficulties, we propose to integrate the conformal array (CA) with the surface of each UAV, which enables the full spatial coverage and the agile beam tracking in highly dynamic UAV mmWave networks. More specifically, the key contributions of our work are three-fold. 1) A new mmWave beam tracking framework is established for the CA-enabled UAV mmWave network. 2) A specialized hierarchical codebook is constructed to drive the directional radiating element (DRE)-covered cylindrical conformal array (CCA), which contains both the angular beam pattern and the subarray pattern to fully utilize the potential of the CA. 3) A codebook-based multiuser beam tracking scheme is proposed, where the Gaussian process machine learning enabled UAV position/attitude predication is developed to improve the beam tracking efficiency in conjunction with the tracking-error aware adaptive beamwidth control. Simulation results validate the effectiveness of the proposed codebook-based beam tracking scheme in the CA-enabled UAV mmWave network, and demonstrate the advantages of CA over the conventional planner array in terms of spectrum efficiency and outage probability in the highly dynamic scenarios.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-08
# 単純ステップによる一般化自己協和関数のスケーラブルFrank-Wolfe

Scalable Frank-Wolfe on Generalized Self-concordant Functions via Simple Steps ( http://arxiv.org/abs/2105.13913v8 )

ライセンス: Link先を確認
Alejandro Carderera, Mathieu Besançon, Sebastian Pokutta, (参考訳) 一般化自己一致は、多くの重要な学習問題の目的関数に存在する重要な特性である。 オープンループのステップサイズ戦略である $\gamma_t = 2/(t+2)$ を用いて、原始ギャップとフランク=ウルフギャップの観点から、このクラスの函数に対して $\mathcal{O}(1/t)$ 収束率を求める。 これにより、二階情報の使用や、前の作業の局所的滑らか度パラメータを見積もる必要がない。 また,検討対象領域が一様凸あるいは多面体である場合に,様々な症例に対する収束率の改善を示す。

Generalized self-concordance is a key property present in the objective function of many important learning problems. We establish the convergence rate of a simple Frank-Wolfe variant that uses the open-loop step size strategy $\gamma_t = 2/(t+2)$, obtaining a $\mathcal{O}(1/t)$ convergence rate for this class of functions in terms of primal gap and Frank-Wolfe gap, where $t$ is the iteration count. This avoids the use of second-order information or the need to estimate local smoothness parameters of previous work. We also show improved convergence rates for various common cases, e.g., when the feasible region under consideration is uniformly convex or polyhedral.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-08
# ブール比

Boolean proportions ( http://arxiv.org/abs/2109.00388v8 )

ライセンス: Link先を確認
Christian Antić, (参考訳) 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。 本稿では,2つの元素0と1からなるブール領域の類似比について検討する。 我々のブール比の概念は、異なる設定の文献から得られた2つの顕著なモデルと一致することが判明した。 これは、数学的に魅力的であり、一般的なフレームワークの堅牢性と適用性に関するさらなる証拠を提供する単一のフレームワーク内で、ブール比の2つの別々のモデリングをキャプチャできることを意味している。

The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. This paper studies analogical proportions in the boolean domain consisting of two elements 0 and 1 within his framework. It turns out that our notion of boolean proportions coincides with two prominent models from the literature in different settings. This means that we can capture two separate modellings of boolean proportions within a single framework which is mathematically appealing and provides further evidence for the robustness and applicability of the general framework.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-08
# 単一原子の多重フォノン状態の量子非ガウス性

Quantum non-Gaussianity of multi-phonon states of a single atom ( http://arxiv.org/abs/2111.10129v2 )

ライセンス: Link先を確認
Lukas Podhora, Lukas Lachman, Tuan Pham, Adam Lesundak, Ondrej Cip, Lukas Slodicka, Radim Filip, (参考訳) 本質的に非線形な量子プロセスからの量子非ガウス力学状態は、量子センシングから連続変数を持つ量子コンピューティングまで、様々なアプリケーションで既に必要とされている。 そのような状態の離散的な構成要素はエネルギー固有状態、フォック状態である。 準備の進展にもかかわらず、残りの不完全性は依然として、応用に関連するフォノン分布の臨界量子非ガウス的側面の損失を引き起こす可能性がある。 我々は、個々のメカニカルフォック状態に対する量子非ガウス的基準の最も難しい階層を導出し、その実装を最大10〜フォノンまでの単一イオン発振器状態のキャラクタリゼーションで示す。 我々は、機械的加熱下での量子非ガウス的特徴の深さを解析し、量子センシングへの応用を予測する。 これらの結果は、ガウス的でない重要な量子的特徴が、応用において量子的優位に達するために要求されていることを明らかにした。

Quantum non-Gaussian mechanical states from inherently nonlinear quantum processes are already required in a range of applications spanning from quantum sensing up to quantum computing with continuous variables. The discrete building blocks of such states are the energy eigenstates - Fock states. Despite the progress in their preparation, the remaining imperfections can still invisibly cause loss of the critical quantum non-Gaussian aspects of the phonon distribution relevant in the applications. We derive the most challenging hierarchy of quantum non-Gaussian criteria for the individual mechanical Fock states and demonstrate its implementation on the characterization of single trapped-ion oscillator states up to 10~phonons. We analyze the depth of quantum non-Gaussian features under mechanical heating and predict their application in quantum sensing. These results uncover that the crucial quantum non-Gaussian features are demanded to reach quantum advantage in the applications.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-08
# ストリーム暗号に対する代数的攻撃と非線形フィルタ発生器およびWG-PRNGへの応用

An algebraic attack on stream ciphers with application to nonlinear filter generators and WG-PRNG ( http://arxiv.org/abs/2112.12268v3 )

ライセンス: Link先を確認
Carla Mascia, Enrico Piccione, Massimiliano Sala, (参考訳) 本稿では,ストリーム暗号に対する新たな代数的攻撃を提案する。 Courtois と Meier によるよく知られた攻撃から始まり、非線形フィルタ発生器に対して特に効果的な攻撃を設計する。 2つのおもちゃのストリーム暗号でテストし、NISTコンペティションに提出されたストリーム暗号のうちの1つ、WG-PRNGのセキュリティレベルが、これまで述べたよりも低いことを示す。

In this paper, we propose a new algebraic attack on stream ciphers. Starting from the well-known attack due to Courtois and Meier, we design an attack especially effective against nonlinear filter generators. We test it on two toy stream ciphers and we show that the level of security of one of stream ciphers submitted to the NIST competition on Lightweight Cryptography, WG-PRNG, is less than that stated before now.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-08
# ターゲット認識変換器による知識蒸留

Knowledge Distillation via the Target-aware Transformer ( http://arxiv.org/abs/2205.10793v2 )

ライセンス: Link先を確認
Sihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang, Gang Wang, (参考訳) 知識蒸留は、小さなニューラルネットワークの性能を向上させるためのデファクトスタンダードとなる。 従来の研究の多くは、教師から生徒への表現的特徴を1対1の空間的マッチング方式で表現することを提案する。 しかし、建築の違いにより、同じ空間上の意味情報が通常異なるという事実を人々は見落としがちである。 これは1対1の蒸留法の基礎となる仮定を大きく損なう。 そこで本研究では,新しい一対一空間マッチング知識蒸留手法を提案する。 具体的には,教師特徴の各画素を,その類似性から生徒特徴の空間的位置すべてに蒸留することができる。 我々のアプローチは、ImageNet、Pascal VOC、COCOStuff10kなど、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。 コードはhttps://github.com/sihaoevery/TaT.comで入手できる。

Knowledge distillation becomes a de facto standard to improve the performance of small neural networks. Most of the previous works propose to regress the representational features from the teacher to the student in a one-to-one spatial matching fashion. However, people tend to overlook the fact that, due to the architecture differences, the semantic information on the same spatial location usually vary. This greatly undermines the underlying assumption of the one-to-one distillation approach. To this end, we propose a novel one-to-all spatial matching knowledge distillation approach. Specifically, we allow each pixel of the teacher feature to be distilled to all spatial locations of the student features given its similarity, which is generated from a target-aware transformer. Our approach surpasses the state-of-the-art methods by a significant margin on various computer vision benchmarks, such as ImageNet, Pascal VOC and COCOStuff10k. Code is available at https://github.com/sihaoevery/TaT.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-08
# 標準セルアプローチによる効率的な量子回路設計と中性原子量子コンピュータへの応用

Efficient Quantum Circuit Design with a Standard Cell Approach, with an Application to Neutral Atom Quantum Computers ( http://arxiv.org/abs/2206.04990v3 )

ライセンス: Link先を確認
Evan E. Dobbs, Joseph S. Friedman, Alexandru Paler, (参考訳) 従来の回路設計から借用した標準セルアプローチを用いて量子回路を設計し,回路のレイアウトを正規構造で高速化する。 私たちの標準セルは汎用的で、あらゆる種類の量子回路で使用できます。 標準セルアプローチはレイアウト対応ルーティングアルゴリズムの定式化を可能にする。 本手法は、量子ビットシャットリングをサポートする中性原子量子コンピュータに直接適用可能である。 このようなコンピュータは、メモリ、処理、測定のためのゾーンアーキテクチャを可能にし、量子ビットストレージ(メモリと測定ゾーン)と標準セル(処理ゾーン)を使用して回路を設計する。 そこで我々は,Toffoliゲートに立方体標準セルを用い,まず3次元アーキテクチャから乗算回路を設計する。 自動ルーティング方式と比較して、レイアウト対応ルータは大幅に高速で、より浅い3D回路(少なくとも2.5倍)を実現し、ルーティングコストが低いことを示す。 さらに、我々の共同設計手法は、複雑なコンパイル手法を使わずに、量子計算に必要なリソースを見積もることができる。 我々は、レイアウト対応ルーティングをサポートする標準セルが、量子回路コンパイルのための非常に大規模な方法への道を開くことを結論付けている。

We design quantum circuits by using the standard cell approach borrowed from classical circuit design, which can speed-up the layout of circuits with a regular structure. Our standard cells are general and can be used for all types of quantum circuits: error-corrected or not. The standard cell approach enables the formulation of layout-aware routing algorithms. Our method is directly applicable to neutral atom quantum computers supporting qubit shuttling. Such computers enable zoned architectures for memory, processing and measurement, and we design circuits using qubit storages (memory and measurement zones) and standard cells (processing zones). Herein, we use cubic standard cells for Toffoli gates and, starting from a 3D architecture, we design a multiplication circuit. We present evidence that, when compared with automatic routing methods, our layout-aware routers are significantly faster and achieve shallower 3D circuits (by at least 2.5x) and with a lower routing cost. Additionally, our co-design approach can be used to estimate the resources necessary for a quantum computation without using complex compilation methods. We conclude that standard cells, with the support of layout-aware routing, pave the way to very large scale methods for quantum circuit compilation.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-08
# 熱力学にインスパイアされた人工知能の解説

Thermodynamics-inspired Explanations of Artificial Intelligence ( http://arxiv.org/abs/2206.13475v3 )

ライセンス: Link先を確認
Shams Mehdi, Pratyush Tiwary, (参考訳) 近年,様々な分野において予測機械学習手法が注目されている。 しかしながら、ブラックボックスの性質のため、これらのモデルに正確性を受け入れる前に信頼を確立することが不可欠である。 信頼を割り当てるための有望な戦略の1つは、人間が理解できる方法でブラックボックスモデルの予測の背後にある根拠を解明する説明技法を採用することである。 しかし、そのような方法によって生成される論理の人間の解釈可能性の度合いを評価することは、非常に難しい課題である。 本研究では,任意の線形モデルに関連する人間の解釈可能性の程度を評価するための普遍解として解釈エントロピーを導入する。 この概念を応用し、古典的熱力学からインスピレーションを得た、モデルに依存しない方法でブラックボックス予測のための正確で人間の解釈可能な説明を生成する方法である、AIや他のブラックボックスパラダイムの説明可能な表現(TERP)を提示する。 TERPの広範適用性を実証するため,分子シミュレーションやテキスト,画像分類など,ディープラーニングオートエンコーダ,リカレントニューラルネットワーク,畳み込みニューラルネットワークなど,さまざまなブラックボックスモデルアーキテクチャの解説に成功している。

In recent years, predictive machine learning methods have gained prominence in various scientific domains. However, due to their black-box nature, it is essential to establish trust in these models before accepting them as accurate. One promising strategy for assigning trust involves employing explanation techniques that elucidate the rationale behind a black-box model's predictions in a manner that humans can understand. However, assessing the degree of human interpretability of the rationale generated by such methods is a nontrivial challenge. In this work, we introduce interpretation entropy as a universal solution for assessing the degree of human interpretability associated with any linear model. Using this concept and drawing inspiration from classical thermodynamics, we present Thermodynamics-inspired Explainable Representations of AI and other black-box Paradigms (TERP), a method for generating accurate, and human-interpretable explanations for black-box predictions in a model-agnostic manner. To demonstrate the wide-ranging applicability of TERP, we successfully employ it to explain various black-box model architectures, including deep learning Autoencoders, Recurrent Neural Networks, and Convolutional Neural Networks, across diverse domains such as molecular simulations, text, and image classification.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-08
# i-MAE: マスクオートエンコーダの潜在表現は線形分離可能か?

i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? ( http://arxiv.org/abs/2210.11470v2 )

ライセンス: Link先を確認
Kevin Zhang, Zhiqiang Shen, (参考訳) マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。 しかし、そのようなスキームによる学習された表現のメカニズムと性質、および表現をさらに強化する方法は、今のところ十分に解明されていない。 本稿では,2つの側面から表現能力を高めるための対話型マスクオートエンコーダ (i-MAE) フレームワークを検討することを目的とする。(1) 双方向画像再構成と,(2) 蒸留損失を伴う潜在特徴再構成を用いて,より良い特徴を学習すること,(2) セマンティクス強化のためのセマンティクス強化サンプリング戦略を提案する。 提案したi-MAEアーキテクチャでは,Masked Autoencodersにおける潜在表現の分離性はモデル性能に有用か? 入力を1つではなく2つの画像の混合として強制的に研究する。 2)マスケオートエンコーダのサンプリング中に意味論の程度を制御して潜在特徴空間の表現を拡張できるか。 そこで本研究では,トレーニングサンプルのセマンティクスに基づくミニバッチ内のサンプリング戦略を提案し,その側面について検討する。 CIFAR-10/100、Tiny-ImageNet、ImageNet-1Kで大規模な実験を行い、我々が発見した観測を検証した。 さらに,潜在表現の特徴を質的に解析することに加えて,2つの評価スキームを提案することにより,潜在空間における線形分離性と意味論の程度について検討する。 意外で一貫した結果は、i-MAEがMAEフレームワークを理解するための優れたフレームワーク設計であり、表現能力の向上を図っている。 コードはhttps://github.com/vision-learning-acceleration-lab/i-maeで入手できる。

Masked image modeling (MIM) has been recognized as a strong self-supervised pre-training approach in the vision domain. However, the mechanism and properties of the learned representations by such a scheme, as well as how to further enhance the representations are so far not well-explored. In this paper, we aim to explore an interactive Masked Autoencoders (i-MAE) framework to enhance the representation capability from two aspects: (1) employing a two-way image reconstruction and a latent feature reconstruction with distillation loss to learn better features; (2) proposing a semantics-enhanced sampling strategy to boost the learned semantics in MAE. Upon the proposed i-MAE architecture, we can address two critical questions to explore the behaviors of the learned representations in MAE: (1) Whether the separability of latent representations in Masked Autoencoders is helpful for model performance? We study it by forcing the input as a mixture of two images instead of one. (2) Whether we can enhance the representations in the latent feature space by controlling the degree of semantics during sampling on Masked Autoencoders? To this end, we propose a sampling strategy within a mini-batch based on the semantics of training samples to examine this aspect. Extensive experiments are conducted on CIFAR-10/100, Tiny-ImageNet and ImageNet-1K to verify the observations we discovered. Furthermore, in addition to qualitatively analyzing the characteristics of the latent representations, we examine the existence of linear separability and the degree of semantics in the latent space by proposing two evaluation schemes. The surprising and consistent results demonstrate that i-MAE is a superior framework design for understanding MAE frameworks, as well as achieving better representational ability. Code is available at https://github.com/vision-learning-acceleration-lab/i-mae.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-08
# PAIR-Diffusion: 総合的なマルチモーダルなオブジェクトレベルイメージエディタ

PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor ( http://arxiv.org/abs/2303.17546v3 )

ライセンス: Link先を確認
Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Xingqian Xu, Nicu Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi, (参考訳) 生成的な画像編集は、最近非常に速いペースで成長しているのを目撃している。 テキストのような高レベルな条件付けを使うものもあれば、低レベルな条件付けを使うものもある。 しかし、それらの多くは、画像に存在する異なるオブジェクトの性質、すなわちオブジェクトレベルの画像編集に対するきめ細かい制御を欠いている。 本研究では,様々な物体のアマルガメーションとしてイメージを知覚し,各物体の特性をきめ細かな方法で制御することを目的とする。 これらの特性のうち、構造と外観を最も直感的に理解し、編集に役立ちます。 画像中の各オブジェクトの構造と外観特性を拡散モデルで制御できる汎用フレームワークであるPAIR Diffusionを提案する。 画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。 我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。 私たちの設計のおかげで、逆のステップは一切必要ありません。 さらに,本手法を基礎拡散モデルを用いて用いる際に,参照画像とテキストの両方を用いて画像の編集を可能にするマルチモーダル分類器フリーガイダンスを提案する。 非条件拡散モデルと基礎拡散モデルの両方について、我々の枠組みを広範囲に評価することにより、上記の主張を検証する。 コードとモデルリリースについては、https://vidit98.github.io/publication/conference-paper/pair_diff.htmlを参照してください。

Generative image editing has recently witnessed extremely fast-paced growth. Some works use high-level conditioning such as text, while others use low-level conditioning. Nevertheless, most of them lack fine-grained control over the properties of the different objects present in the image, i.e. object-level image editing. In this work, we tackle the task by perceiving the images as an amalgamation of various objects and aim to control the properties of each object in a fine-grained manner. Out of these properties, we identify structure and appearance as the most intuitive to understand and useful for editing purposes. We propose PAIR Diffusion, a generic framework that can enable a diffusion model to control the structure and appearance properties of each object in the image. We show that having control over the properties of each object in an image leads to comprehensive editing capabilities. Our framework allows for various object-level editing operations on real images such as reference image-based appearance editing, free-form shape editing, adding objects, and variations. Thanks to our design, we do not require any inversion step. Additionally, we propose multimodal classifier-free guidance which enables editing images using both reference images and text when using our approach with foundational diffusion models. We validate the above claims by extensively evaluating our framework on both unconditional and foundational diffusion models. Please refer to https://vidit98.github.io/publication/conference-paper/pair_diff.html for code and model release.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-08
# マルチベクター検索におけるトークン検索の役割の再考

Rethinking the Role of Token Retrieval in Multi-Vector Retrieval ( http://arxiv.org/abs/2304.01982v3 )

ライセンス: Link先を確認
Jinhyuk Lee, Zhuyun Dai, Sai Meher Karthik Duddu, Tao Lei, Iftekhar Naim, Ming-Wei Chang, Vincent Y. Zhao, (参考訳) ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にし、多くの情報検索ベンチマークの最先端を達成する。 しかし、その非線形スコアリング機能は数百万のドキュメントにスケールできないため、トークン検索による初期候補の検索、トークンベクトルへのアクセス、初期候補文書のスコアリングといった3段階のプロセスが必要になる。 非線形スコアリング関数は、各候補文書の全てのトークンベクトルに適用され、推論処理が複雑で遅くなる。 本稿では,トークン検索の役割を再考することにより,マルチベクタ検索を簡略化することを目的とする。 提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。 トークン検索の改善により、XTRは文書中のすべてのトークンではなく、検索したトークンを使って候補をランク付けできるようになり、ColBERTより2~3桁安い新しく設計されたスコアリングステージが実現された。 有名なBEIRベンチマークでは、XTRは蒸留なしで2.8nDCG@10で最先端を推し進めている。 詳細な分析により、XTRはColBERTに比べてトークン検索段階のリコールがはるかに優れていることを示すため、トークン検索段階を再検討する決定が確定する。

Multi-vector retrieval models such as ColBERT [Khattab and Zaharia, 2020] allow token-level interactions between queries and documents, and hence achieve state of the art on many information retrieval benchmarks. However, their non-linear scoring function cannot be scaled to millions of documents, necessitating a three-stage process for inference: retrieving initial candidates via token retrieval, accessing all token vectors, and scoring the initial candidate documents. The non-linear scoring function is applied over all token vectors of each candidate document, making the inference process complicated and slow. In this paper, we aim to simplify the multi-vector retrieval by rethinking the role of token retrieval. We present XTR, ConteXtualized Token Retriever, which introduces a simple, yet novel, objective function that encourages the model to retrieve the most important document tokens first. The improvement to token retrieval allows XTR to rank candidates only using the retrieved tokens rather than all tokens in the document, and enables a newly designed scoring stage that is two-to-three orders of magnitude cheaper than that of ColBERT. On the popular BEIR benchmark, XTR advances the state-of-the-art by 2.8 nDCG@10 without any distillation. Detailed analysis confirms our decision to revisit the token retrieval stage, as XTR demonstrates much better recall of the token retrieval stage compared to ColBERT.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-08
# Shadow Cones: 部分順序埋め込みのための汎用フレームワーク

Shadow Cones: A Generalized Framework for Partial Order Embeddings ( http://arxiv.org/abs/2305.15215v3 )

ライセンス: Link先を確認
Tao Yu, Toni J. B. Liu, Albert Tseng, Christopher De Sa, (参考訳) 双曲空間は木や有向非巡回グラフのようなデータにおける階層的関係を捉えるのに適していることが証明されている。 以前の研究はエンテーメント・コーンの概念を導入しており、これはポアンカーの球のネストされた円錐によって定義される部分的な順序を使って階層をモデル化している。 ここでは、物理学に着想を得たエンテーメントコーン構築である「シャドウコーン」フレームワークを紹介する。 具体的には、光源によって形成される影と双曲空間における不透明物体との間の部分的順序を部分的関係としてモデル化する。 シャドウ・コーン・フレームワークは、ポアンカー・イ・ボールの向こうの広いクラスの定式化と双曲空間モデルにエンテーメント・コーンを一般化する。 この結果、既存の構成に対して明らかな利点がある: 例えば、シャドウコーンはポアンカーボールに制限された構成よりもより良い最適化特性を持つ。 種々の大きさのデータセットと階層構造に関する実験により、シャドーコーンは、既存のエンテーメントコーン構造よりも一貫して、著しく優れていることが示された。 これらの結果は、影の円錐が双曲空間における部分順序をモデル化する有効な方法であり、そのような構造の性質に関する物理的に直感的で新しい洞察を提供することを示している。

Hyperbolic space has proven to be well-suited for capturing hierarchical relations in data, such as trees and directed acyclic graphs. Prior work introduced the concept of entailment cones, which uses partial orders defined by nested cones in the Poincar\'e ball to model hierarchies. Here, we introduce the ``shadow cones" framework, a physics-inspired entailment cone construction. Specifically, we model partial orders as subset relations between shadows formed by a light source and opaque objects in hyperbolic space. The shadow cones framework generalizes entailment cones to a broad class of formulations and hyperbolic space models beyond the Poincar\'e ball. This results in clear advantages over existing constructions: for example, shadow cones possess better optimization properties over constructions limited to the Poincar\'e ball. Our experiments on datasets of various sizes and hierarchical structures show that shadow cones consistently and significantly outperform existing entailment cone constructions. These results indicate that shadow cones are an effective way to model partial orders in hyperbolic space, offering physically intuitive and novel insights about the nature of such structures.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-08
# AV2Wav: 音声音声強調のための連続自己教師機能からの拡散に基づく再合成

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2309.08030v4 )

ライセンス: Link先を確認
Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu, (参考訳) 音声強調システムは典型的には、清潔でうるさい音声のペアを使って訓練される。 オーディオ・ヴィジュアル音声強調(AVSE)では、音声・ヴィジュアル・データセットは、背景雑音や残響を伴う現実世界の環境で収集され、AVSEの開発を妨げている。 本研究では,実世界の学習データの課題にもかかわらずクリーンな音声を生成できる再生型音声視覚音声強調手法であるAV2Wavを紹介する。 ニューラルクオリティ推定器を用いて音声・視覚コーパスからほぼクリーンな音声のサブセットを取得し、このサブセット上で拡散モデルを訓練し、ノイズロバストトレーニングによりAV-HuBERTから連続した音声表現に条件付けられた波形を生成する。 我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。 このボイコーディングタスクだけで、モデルはマスキングベースのベースラインよりも優れた音声強調を行うことができる。 さらに、クリーン/ノイズの多い発話対上で拡散モデルを微調整し、性能を向上する。 提案手法は,自動測定と人間の聴力テストの両面でマスキングベースベースラインより優れており,聴力テストにおけるターゲット音声にほぼ近い品質である。 オーディオサンプルはhttps://home.ttic.edu/~jcchou/demo/avse/avse_demo.htmlで見ることができる。

Speech enhancement systems are typically trained using pairs of clean and noisy speech. In audio-visual speech enhancement (AVSE), there is not as much ground-truth clean data available; most audio-visual datasets are collected in real-world environments with background noise and reverberation, hampering the development of AVSE. In this work, we introduce AV2Wav, a resynthesis-based audio-visual speech enhancement approach that can generate clean speech despite the challenges of real-world training data. We obtain a subset of nearly clean speech from an audio-visual corpus using a neural quality estimator, and then train a diffusion model on this subset to generate waveforms conditioned on continuous speech representations from AV-HuBERT with noise-robust training. We use continuous rather than discrete representations to retain prosody and speaker information. With this vocoding task alone, the model can perform speech enhancement better than a masking-based baseline. We further fine-tune the diffusion model on clean/noisy utterance pairs to improve the performance. Our approach outperforms a masking-based baseline in terms of both automatic metrics and a human listening test and is close in quality to the target speech in the listening test. Audio samples can be found at https://home.ttic.edu/~jcchou/demo/avse/avse_demo.html.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-08
# ランダム合金GaBi$_{x}$As$_{1-x}$バリアのInAs量子ドット分子への導入:合金ひずみとトンネル強化への軌道効果

Incorporation of random alloy GaBi$_{x}$As$_{1-x}$ barriers in InAs quantum dot molecules: alloy strain and orbital effects towards enhanced tunneling ( http://arxiv.org/abs/2309.10115v4 )

ライセンス: Link先を確認
Arthur Lin, Matthew F. Doty, Garnett W. Bryant, (参考訳) 自己組立InAs量子ドット(QD)は、長いホールスピンコヒーレンス時間を持ち、光学制御スキームに適しており、キュービットアーキテクチャのビルディングブロックとして長い間研究されてきた。 そのような設計の一つは、量子ドット分子(QDM)を作るために2つのQDを垂直に積み重ねることである。 2つのドットは共振的に調整され、各ドットに非局在化されたホール状態のハイブリダイゼーションから「分子様」結合穴状態を形成する。 さらに、ドットの積層方向に沿ってオフセットされたハイブリッド状態のスピンミキシングにより、クビット回転を光学的に駆動することができ、全光量子制御方式が可能である。 このスピン混合の大きさの増大は、光量子制御プロトコルにおいて重要である。 ドット間のトンネル結合とスピン混合を強化するため、GaAs間障壁にBiを導入する。 従来,InAs/GaBiAsを原子性強結合形式でモデル化する方法,および合金によるドットエネルギーレベルの影響について検討した。 本稿では, 7%合金の存在下でトンネルの接合強度を3倍に向上させるトンネル障壁の低下について論じる。 さらに, 合金による2点間の非対称ひずみが共鳴をいかにシフトさせるかを示す。 最後に、Biの導入が最も有利なデバイス測地について論じる。

Self-assembled InAs quantum dots (QDs), which have long hole-spin coherence times and are amenable to optical control schemes, have long been explored as building blocks for qubit architectures. One such design consists of vertically stacking two QDs to create a quantum dot molecule (QDM). The two dots can be resonantly tuned to form "molecule-like" coupled hole states from the hybridization of hole states otherwise localized in each respective dot. Furthermore, spin-mixing of the hybridized states in dots offset along their stacking direction enables qubit rotation to be driven optically, allowing for an all-optical qubit control scheme. Increasing the magnitude of this spin mixing is important for optical quantum control protocols. To enhance the tunnel coupling and spin-mixing across the dots, we introduce Bi in the GaAs inter-dot barrier. Previously, we showed how to model InAs/GaBiAs in an atomistic tight-binding formalism, and how the dot energy levels are affected by the alloy. In this paper, we discuss the lowering of the tunnel barrier, which results in a three fold increase of hole tunnel coupling strength in the presence of a 7% alloy. Additionally, we show how an asymmetric strain between the two dots caused by the alloy shifts the resonance. Finally, we discuss device geometries for which the introduction of Bi is most advantageous.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-08
# シャープネスを考慮した最小化と安定性の限界

Sharpness-Aware Minimization and the Edge of Stability ( http://arxiv.org/abs/2309.12488v5 )

ライセンス: Link先を確認
Philip M. Long, Peter L. Bartlett, (参考訳) 最近の実験では、勾配降下(GD)をステップサイズ$\eta$でトレーニングする場合、損失のHessianの演算ノルムは、約2/\eta$に達するまで増加し、その後、この値に変動する。 2/\eta$は、この損失の局所的な二次近似を考慮して「安定性の端」と呼ばれる。 我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。 GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。 3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。

Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the "edge of stability" based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an "edge of stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-08
# 関数オーバーラップによるニューラルコード生成の強化

Neural Code Generation Enhancement via Functional Overlap Reranking ( http://arxiv.org/abs/2311.03366v2 )

ライセンス: Link先を確認
Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui, (参考訳) Code Large Language Models (CodeLLMs) は、コード生成技術の新たな時代を告げている。 しかし、可能なすべてのCodeLLMソリューションから最高のソリューションを選択することは、依然として課題である。 それまでの手法では、複雑な機能的類似性やクラスタ間の相互作用がしばしば見過ごされ、結果として準最適結果が得られた。 本稿では, クラスタ間の関係をモデル化することに焦点を当てた, コード生成から最良のソリューションを選択するための, 新たな優先順位付け戦略である \textit{SRank} を紹介する。 クラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。 実験結果から,pass@1のスコアで顕著な結果が得られた。 例えば、Human-Evalベンチマークでは、Codex002で69.66\%、WizardCoderで75.31\%、StarCoderで53.99\%、CodeGenで60.55\%を達成しています。 サンプル化されたソリューションやテストケースが限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たなベンチマークを再評価します。

Code Large Language Models (CodeLLMs) have marked a new era in code generation advancements. However, selecting the best solutions from all possible CodeLLM solutions remains a challenge. Previous methods frequently overlooked the intricate functional similarities and interactions between clusters, resulting in suboptimal results. In this work, we introduce \textit{SRank}, a novel reranking strategy for selecting the best solution from code generation that focuses on modeling the relationship between clusters of solutions. By quantifying the functional overlap between clusters, our approach provides a better ranking strategy of code solutions. Empirical results show that our method achieves remarkable results on pass@1 score. For instance, on the Human-Eval benchmark, we achieve 69.66\% in pass@1 with Codex002, 75.31\% for WizardCoder, 53.99\% for StarCoder and 60.55\% for CodeGen, which surpass the state-of-the-arts solution ranking methods, such as CodeT and Coder-Reviewer on the same CodeLLM with significant margin ($\approx 6.1\%$ improvement on average). Even in scenarios with a limited number of sampled solutions and test cases, our approach demonstrates robustness and superiority, marking a new benchmark in code generation reranking.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# PetShopデータセット - マイクロサービス全体のパフォーマンス問題の原因を見つける

The PetShop Dataset -- Finding Causes of Performance Issues across Microservices ( http://arxiv.org/abs/2311.04806v2 )

ライセンス: Link先を確認
Michaela Hardt, William R. Orchard, Patrick Blöbaum, Shiva Kasiviswanathan, Elke Kirschbaum, (参考訳) 複雑なシステムにおける予期せぬ、あるいは望ましくない振る舞いの根本原因を特定することは、大きな課題である。 この問題は、多数のマイクロサービスを使用する現代的なクラウドアプリケーションにおいて特に重要になる。 機械学習とシステム研究コミュニティは、この問題に対処するための様々なテクニックを提案しているが、現在、定量ベンチマークのための標準化されたデータセットが不足している。 その結果、研究グループは実験のために独自のデータセットを作成せざるを得なくなった。 本稿では,マイクロサービスベースのアプリケーションにおける根本原因分析を評価するためのデータセットを提案する。 データセットは、分散アプリケーションから5分間隔で出力されるレイテンシ、リクエスト、可用性メトリクスを含んでいる。 通常の運用メトリクスに加えて、データセットには68のインジェクトされたパフォーマンス問題が含まれており、レイテンシが増加し、システム全体の可用性が低下する。 本稿では,根本原因分析問題の因果的特徴と非因果的特徴にまたがる様々な手法の精度を評価するために,このデータセットをどのように利用できるかを紹介する。 この新しいデータセットはhttps://github.com/amazon-science/petshop-root- because-analysisで利用可能で、この重要な領域でさらなる技術開発を可能にすることを願っています。

Identifying root causes for unexpected or undesirable behavior in complex systems is a prevalent challenge. This issue becomes especially crucial in modern cloud applications that employ numerous microservices. Although the machine learning and systems research communities have proposed various techniques to tackle this problem, there is currently a lack of standardized datasets for quantitative benchmarking. Consequently, research groups are compelled to create their own datasets for experimentation. This paper introduces a dataset specifically designed for evaluating root cause analyses in microservice-based applications. The dataset encompasses latency, requests, and availability metrics emitted in 5-minute intervals from a distributed application. In addition to normal operation metrics, the dataset includes 68 injected performance issues, which increase latency and reduce availability throughout the system. We showcase how this dataset can be used to evaluate the accuracy of a variety of methods spanning different causal and non-causal characterisations of the root cause analysis problem. We hope the new dataset, available at https://github.com/amazon-science/petshop-root-cause-analysis/ enables further development of techniques in this important area.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# サイズを超えて: 大規模言語モデルにおけるグラディエント・プルーニングの決定方法

Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models ( http://arxiv.org/abs/2311.04902v2 )

ライセンス: Link先を確認
Rocktim Jyoti Das, Mingjie Sun, Liqun Ma, Zhiqiang Shen, (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。 マグニチュードプルーニング、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、疎度のための活性化を伴う統合重みに集中していた。 しかし、彼らは事前訓練されたLSMから得られた情報的勾配を見落としていた。 本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。 GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用してプルーニングメトリックを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。 興味深いことに、勾配を組み込んだ非構造プルーニングは、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する構造パターンを明らかにする傾向にある。 さらに、GBLM-Prunerは後続の再トレーニングや重み付けの更新なしに機能し、その単純さを他の機能として維持する。 LLaMA-1 と LLaMA-2 を様々なベンチマークで広範囲に評価した結果,GBLM-Pruner はプルーニング,ワンダ,スパースGPT を大きく上回っていることがわかった。 視覚変換器のアプローチをさらに拡張する。 私たちのコードとモデルはhttps://github.com/VILA-Lab/GBLM-Pruner.comで公開されています。

Large Language Models (LLMs) with billions of parameters are prime targets for network pruning, removing some model weights without hurting performance. Prior approaches such as magnitude pruning, SparseGPT, and Wanda, either concentrated solely on weights or integrated weights with activations for sparsity. However, they overlooked the informative gradients derived from pretrained LLMs. In this paper, we present a novel sparsity-centric pruning method for pretrained LLMs, termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner leverages the first-order term of the Taylor expansion, operating in a training-free manner by harnessing properly normalized gradients from a few calibration samples to determine the pruning metric, and substantially outperforms competitive counterparts like SparseGPT and Wanda in multiple benchmarks. Intriguingly, by incorporating gradients, unstructured pruning with our method tends to reveal some structural patterns, which mirrors the geometric interdependence inherent in the LLMs' parameter structure. Additionally, GBLM-Pruner functions without any subsequent retraining or weight updates to maintain its simplicity as other counterparts. Extensive evaluations on LLaMA-1 and LLaMA-2 across various benchmarks show that GBLM-Pruner surpasses magnitude pruning, Wanda and SparseGPT by significant margins. We further extend our approach on Vision Transformer. Our code and models are available at https://github.com/VILA-Lab/GBLM-Pruner.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# ADaPT: 言語モデルによる無意味な分解と計画

ADaPT: As-Needed Decomposition and Planning with Language Models ( http://arxiv.org/abs/2311.05772v2 )

ライセンス: Link先を確認
Archiki Prasad, Alexander Koller, Mareike Hartmann, Peter Clark, Ashish Sabharwal, Mohit Bansal, Tushar Khot, (参考訳) 大規模言語モデル(LLM)は、環境への計画と適応を必要とする対話的な意思決定タスクにますます使われています。 最近の研究は LLM を広く2つの方法で採用している: 反復的に次の行動(暫定執行者)を決定すること、計画を生成すること、および LLM を用いてサブタスクを実行すること(計画と実行)。 しかし、これらのメソッドはタスクの複雑さに悩まされ、サブタスクを実行できないとタスクが失敗する可能性がある。 これらの欠点に対処するため,複雑なタスクに対するAs-Needed Decomposition and Planning(ADaPT)を導入する。 ADaPTはタスク複雑性とLLM能力の両方に対応するために、サブタスクを再帰的に分解する。 以上の結果から,ALFWorldでは最大28.3%,WebShopでは27%,TextCraftでは33%,ADaPTは高いベースラインを確立した。 本稿では,多段階分解の重要性を概説し,ADaPTが実行者LLMの能力とタスクの複雑さを動的に調整することを示す。

Large Language Models (LLMs) are increasingly being used for interactive decision-making tasks requiring planning and adapting to the environment. Recent works employ LLMs-as-agents in broadly two ways: iteratively determining the next action (iterative executors) or generating plans and executing sub-tasks using LLMs (plan-and-execute). However, these methods struggle with task complexity, as the inability to execute any sub-task may lead to task failure. To address these shortcomings, we introduce As-Needed Decomposition and Planning for complex Tasks (ADaPT), an approach that explicitly plans and decomposes complex sub-tasks as-needed, i.e., when the LLM is unable to execute them. ADaPT recursively decomposes sub-tasks to adapt to both task complexity and LLM capability. Our results demonstrate that ADaPT substantially outperforms established strong baselines, achieving success rates up to 28.3% higher in ALFWorld, 27% in WebShop, and 33% in TextCraft -- a novel compositional dataset that we introduce. Through extensive analysis, we illustrate the importance of multilevel decomposition and establish that ADaPT dynamically adjusts to the capabilities of the executor LLM as well as to task complexity.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# 信頼と仕事を見せる - 信頼のバンドをチューニングする

Show Your Work with Confidence: Confidence Bands for Tuning Curves ( http://arxiv.org/abs/2311.09480v2 )

ライセンス: Link先を確認
Nicholas Lourie, Kyunghyun Cho, He He, (参考訳) ハイパーパラメータの選択は自然言語処理の性能に大きな影響を及ぼす。 多くの場合、あるメソッドが他のメソッドよりも優れているか、単にチューニングされているだけなのかを判断するのは困難です。 チューニング曲線は、チューニングの労力を考慮して、この曖昧さを修正します。 具体的には、これまで試みてきたハイパーパラメータ選択数の関数として、検証性能をプロットする。 これらの曲線にはいくつかの推定器が存在するが、点推定を用いるのが一般的であり、これは静かに失敗し、データが少ないと矛盾する結果を与える。 点推定を超えて、信頼バンドは異なるアプローチ間の関係を厳格に確立するために必要である。 そこで我々は,曲線のチューニングに有効な信頼帯域を構築するための最初の方法を提案する。 バンドは正確で、同時であり、分布のないため、メソッドを比較するための堅牢な基盤を提供する。 実験的な分析によると、ベースラインとして機能するブートストラップの信頼バンドは、ターゲットの信頼度を近似できないが、正確には達成できない。 提案手法と比較し,提案手法の有効性を検証し,サンプルサイズの影響を解析し,モデルの比較に関するガイダンスを提供する。 今後の作業における確実な比較を促進するため,我々は,pipでインストール可能な,使いやすいライブラリであるopdaをリリースした。 https://github.com/nicholaslourie/opda

The choice of hyperparameters greatly impacts performance in natural language processing. Often, it is hard to tell if a method is better than another or just better tuned. Tuning curves fix this ambiguity by accounting for tuning effort. Specifically, they plot validation performance as a function of the number of hyperparameter choices tried so far. While several estimators exist for these curves, it is common to use point estimates, which we show fail silently and give contradictory results when given too little data. Beyond point estimates, confidence bands are necessary to rigorously establish the relationship between different approaches. We present the first method to construct valid confidence bands for tuning curves. The bands are exact, simultaneous, and distribution-free, thus they provide a robust basis for comparing methods. Empirical analysis shows that while bootstrap confidence bands, which serve as a baseline, fail to approximate their target confidence, ours achieve it exactly. We validate our design with ablations, analyze the effect of sample size, and provide guidance on comparing models with our method. To promote confident comparisons in future work, we release opda: an easy-to-use library that you can install with pip. https://github.com/nicholaslourie/opda
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# SQATIN: 改善された対話型NLUに対する質問回答

SQATIN: Supervised Instruction Tuning Meets Question Answering for Improved Dialogue NLU ( http://arxiv.org/abs/2311.09502v2 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Goran Glavaš, Anna Korhonen, Ivan Vulić, (参考訳) タスク指向対話(ToD)システムは、ユーザがさまざまなドメイン(例えば、$\textit{flight booking}$または$\textit{food ordering}$)で明確に定義されたタスクを実行するのに役立つ。 ほとんどのドメインでは、ラベル付きNLUデータが不足しているため、サンプル効率のよい学習 -- 効果的な転送パラダイムの実現 -- が最重要である。 本研究では,対話型NLUのための新しいフレームワークであるSQATINを紹介する。 (i)調律・調律 (II)IDとVEタスクの質問応答に基づく定式化。 確立されたNLUベンチマークの評価によると、SQATINは、ドメイン内トレーニングとクロスドメイン転送の両方において、標準的な微調整目標に基づいて、現在のモデルの性能を大幅に上回る、新しい最先端の対話型NLUを設定する。 SQATINは、ドメイン間のクラス(スロットとインテント)の自然言語記述の類似性を活用するため、ドメイン間転送において特に大きなパフォーマンス向上をもたらす。

Task-oriented dialogue (ToD) systems help users execute well-defined tasks across a variety of domains (e.g., $\textit{flight booking}$ or $\textit{food ordering}$), with their Natural Language Understanding (NLU) components being dedicated to the analysis of user utterances, predicting users' intents ($\textit{Intent Detection}$, ID) and extracting values for informational slots ($\textit{Value Extraction}$, VE). In most domains, labelled NLU data is scarce, making sample-efficient learning -- enabled with effective transfer paradigms -- paramount. In this work, we introduce SQATIN, a new framework for dialog NLU based on (i) instruction tuning and (ii) question-answering-based formulation of ID and VE tasks. According to the evaluation on established NLU benchmarks, SQATIN sets the new state of the art in dialogue NLU, substantially surpassing the performance of current models based on standard fine-tuning objectives in both in-domain training and cross-domain transfer. SQATIN yields particularly large performance gains in cross-domain transfer, owing to the fact that our QA-based instruction tuning leverages similarities between natural language descriptions of classes (i.e., slots and intents) across domains.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# Babelにおけるファムブル:ChatGPTの言語識別能力の検討

Fumbling in Babel: An Investigation into ChatGPT's Language Identification Ability ( http://arxiv.org/abs/2311.09696v2 )

ライセンス: Link先を確認
Wei-Rui Chen, Ife Adebara, Khai Duy Doan, Qisheng Liao, Muhammad Abdul-Mageed, (参考訳) ChatGPTは最近、さまざまなタスクを実行できる強力なNLPツールとして登場した。 しかし、ChatGPTが扱える言語の範囲はいまだに謎のままである。 いずれの言語がChatGPT `knows'であるかを明らかにするために,言語識別能力(LID)について検討する。 この目的のために,5大陸で話されている24の言語族を表す670の言語からなるベンチマークであるBabel-670をコンパイルする。 Babel-670の言語は、非常に高リソースから非常に低リソースにガムを実行する。 次にChatGPT(GPT-3.5とGPT-4の両方)の能力について研究する。 一 言語名及び言語コードを特定すること。 (ii)ゼロショット条件と少数ショット条件 三 ラベルセットを交付し、かつ、提供しないもの 小型のLIDツールと比較すると、ChatGPTが遅れていることが分かります。 例えば、アフリカの言語ではパフォーマンスが劣っている。 現在の大規模言語モデルは、多様なコミュニティに十分なサービスを提供する前に、さらなる開発から恩恵を受けるだろうと結論付けている。

ChatGPT has recently emerged as a powerful NLP tool that can carry out a variety of tasks. However, the range of languages ChatGPT can handle remains largely a mystery. To uncover which languages ChatGPT `knows', we investigate its language identification (LID) abilities. For this purpose, we compile Babel-670, a benchmark comprising 670 languages representing 24 language families spoken in five continents. Languages in Babel-670 run the gamut from the very high-resource to the very low-resource. We then study ChatGPT's (both GPT-3.5 and GPT-4) ability to (i) identify language names and language codes (ii) under zero- and few-shot conditions (iii) with and without provision of a label set. When compared to smaller finetuned LID tools, we find that ChatGPT lags behind. For example, it has poor performance on African languages. We conclude that current large language models would benefit from further development before they can sufficiently serve diverse communities.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# GMISeg:再検査なしの一般医用画像分割

GMISeg: General Medical Image Segmentation without Re-Training ( http://arxiv.org/abs/2311.12539v2 )

ライセンス: Link先を確認
Jing Xu, (参考訳) 深層学習モデルは医用画像セグメンテーションの主要な方法となっているが、新しい解剖学的構造、画像形状、ラベルを含む未知のセグメンテーションタスクに拡張することはできない。 新しいセグメンテーションのタスクでは、研究者はしばしばモデルを再トレーニングまたは微調整しなければなりませんが、これは時間がかかり、ニューラルネットワークを訓練するリソースや専門知識が不足している臨床研究者にとって重大な障害となる。 そこで本研究では,未知の医用画像分割タスクを,追加の訓練を必要とせずに解決できる汎用手法を提案する。 新しいセグメンテーションタスクを定義するためのイメージセットとプロンプトが与えられたGMISegは、SAM(Segment Anything Model)イメージエンコーダに提案されたアプローチに基づいた、新しい低ランクの微調整戦略を適用し、プロンプトエンコーダとマスクデコーダと連携して、追加のトレーニングを必要とせずにラベル付きデータセットを微調整する。 新しいタスクを一般化するために、異なる部分のイメージングモードを持つ医療画像データセットを使用した。 GMISegを他のサイトデータセットの心臓画像を用いて,解剖学的,画像学的に異なるモードで訓練し,一般化した。 我々は,GMISegが未知タスクにおける最新の手法よりも優れており,提案手法の重要な性能に関する総合的な分析と要約を行っていることを実証した。

Although deep learning models have become the main method for medical image segmentation, they often cannot be extended to unknown segmentation tasks involving new anatomical structures, image shapes, or labels. For new segmentation tasks, researchers often have to retrain or fine-tune the model, which is time-consuming and poses a significant obstacle to clinical researchers, who often lack the resources and professional knowledge to train neural networks. Therefore, we proposed a general method that can solve unknown medical image segmentation tasks without requiring additional training. Given an example set of images and prompts for defining new segmentation tasks, GMISeg applies a novel low-rank fine-tuning strategy based on the proposed approach to the SAM (Segment Anything Model) image encoder, and works with the prompt encoder and mask decoder to fine-tune the labeled dataset without the need for additional training. To achieve generalization of new tasks, we used medical image datasets with different imaging modes for different parts. We trained and generalized GMISeg on a different set of anatomical and imaging modes using cardiac images on other site datasets. We have demonstrated that GMISeg outperforms the latest methods on unknown tasks and have conducted a comprehensive analysis and summary of the important performance of the proposed method.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-08
# 数秒で飛ぶことを学ぶ

Learning to Fly in Seconds ( http://arxiv.org/abs/2311.13081v2 )

ライセンス: Link先を確認
Jonas Eschmann, Dario Albani, Giuseppe Loianno, (参考訳) 学習に基づく手法、特に強化学習(RL)は、展開の合理化、性能の向上、自律型マルチロータ航空機の制御における一般化の達成を大いに約束する。 ディープ・RLは、シミュレーションにおいて印象的な忠実さと俊敏さを持つ複雑なシステムを制御することができたが、シミュレーションから現実への移動は、しばしば困難からブリッジへの現実のギャップをもたらす。 さらに、RLは違法に長い訓練時間で悩まされることが多い。 本研究では,非対称なアクター・クリティカル・ベース・アーキテクチャと,エンドツーエンドのクァロタ制御のための信頼性の高いRLベースのトレーニングパラダイムを提案する。 カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。 低レベル/エンドツーエンドのマルチロータ制御に関わる課題を正確に議論するために、既存の制御抽象化のレベルと非線形性、ドメインパラメータを分類する分類法も導入する。 我々のフレームワークは、コンシューマ級ラップトップでの18秒のトレーニング後に直接RPM制御のためのシミュレーション・トゥ・リアル(Sim2Real)転送を可能にするとともに、マイクロコントローラへのデプロイにより、リアルタイムの保証の下でマルチロータを制御することができる。 最後に,本手法は,実際のクラジフリーナノ四極子を用いた既存の最先端制御ソリューションと比較して,トラジェクトリトラッキングにおける競合性能を示す。 我々は、非常に高速なマルチロータダイナミックスシミュレータを含むコードをオープンソース化し、ラップトップGPU上で毎秒約5ヶ月のフライトをシミュレートできる。 高速なトレーニング時間と、安価なオフザシェルフのクアロータへの展開により、導入障壁を低くし、これらのシステムの研究と開発を民主化するのに役立ちます。

Learning-based methods, particularly Reinforcement Learning (RL), hold great promise for streamlining deployment, enhancing performance, and achieving generalization in the control of autonomous multirotor aerial vehicles. Deep RL has been able to control complex systems with impressive fidelity and agility in simulation but the simulation-to-reality transfer often brings a hard-to-bridge reality gap. Moreover, RL is commonly plagued by prohibitively long training times. In this work, we propose a novel asymmetric actor-critic-based architecture coupled with a highly reliable RL-based training paradigm for end-to-end quadrotor control. We show how curriculum learning and a highly optimized simulator enhance sample complexity and lead to fast training times. To precisely discuss the challenges related to low-level/end-to-end multirotor control, we also introduce a taxonomy that classifies the existing levels of control abstractions as well as non-linearities and domain parameters. Our framework enables Simulation-to-Reality (Sim2Real) transfer for direct RPM control after only 18 seconds of training on a consumer-grade laptop as well as its deployment on microcontrollers to control a multirotor under real-time guarantees. Finally, our solution exhibits competitive performance in trajectory tracking, as demonstrated through various experimental comparisons with existing state-of-the-art control solutions using a real Crazyflie nano quadrotor. We open source the code including a very fast multirotor dynamics simulator that can simulate about 5 months of flight per second on a laptop GPU. The fast training times and deployment to a cheap, off-the-shelf quadrotor lower the barriers to entry and help democratize the research and development of these systems.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-08
# DGInStyle:画像拡散モデルとスティル化セマンティック制御によるドメイン一般化可能なセマンティックセマンティックセグメンテーション

DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control ( http://arxiv.org/abs/2312.03048v2 )

ライセンス: Link先を確認
Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov, (参考訳) 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的なコンテンツを生成し、数ショットの微調整によってユーザーデータに特化し、セマンティックマップのような他のモダリティに出力を条件付けるという異常な能力を示した。 しかし、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できるだろうか? 自律運転の文脈でこの疑問を調査し,それを「はい」という言い換えで答える。 DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。 まず,学習済みの LDM を,狭い領域内で意味的に制御された生成に限定する問題について検討する。 第2に、学習した意味制御に先立って、リッチな生成を支援するスタイルスワップ手法を提案する。 第3に, LDMの主対象への偏りを克服する多分解能ラテント融合法を設計する。 DGInStyleを用いて、街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、複数の人気のある自動運転データセット上でモデルを評価する。 提案手法は,従来の最先端手法と比較して,いくつかの領域一般化手法の性能を一貫して向上させる。 ソースコードとデータセットはhttps://dginstyle.github.io.comで入手できる。

Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding "yes". We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Third, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods compared to the previous state-of-the-art methods. Source code and dataset are available at https://dginstyle.github.io.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-08
# テクスチャ生成のためのフィールド遅延をもつ単一メッシュ拡散モデル

Single Mesh Diffusion Models with Field Latents for Texture Generation ( http://arxiv.org/abs/2312.09250v2 )

ライセンス: Link先を確認
Thomas W. Mitchel, Carlos Esteves, Ameesh Makadia, (参考訳) 高品質なテクスチャを合成することを目的として、3次元形状の表面に直接作用する固有潜在拡散モデルの枠組みを導入する。 提案手法は,2つのコントリビューション,メッシュ頂点上の離散ベクトル場としてテクスチャを符号化する潜時表現,および学習された潜時空間における拡散過程を学習する場潜時拡散モデルである。 私たちは、メッシュ上の特定のテクスチャのバリエーションを生成するために、モデルがトレーニングされる、単一テクスチャ・メシュのパラダイムを考えています。 合成テクスチャは,既存の単一テクスチャ・メシュ生成モデルと比較すると,優れた忠実度を示す。 我々のモデルは、インペイントやラベル誘導生成などのユーザ制御編集タスクにも適応できる。 提案手法の有効性は, アイソメトリー下でのフレームワークの等価性に起因し, 局所的に類似した領域の細部をシームレスに再現し, 生成的テクスチャ伝達の概念への扉を開くことができる。

We introduce a framework for intrinsic latent diffusion models operating directly on the surfaces of 3D shapes, with the goal of synthesizing high-quality textures. Our approach is underpinned by two contributions: field latents, a latent representation encoding textures as discrete vector fields on the mesh vertices, and field latent diffusion models, which learn to denoise a diffusion process in the learned latent space on the surface. We consider a single-textured-mesh paradigm, where our models are trained to generate variations of a given texture on a mesh. We show the synthesized textures are of superior fidelity compared those from existing single-textured-mesh generative models. Our models can also be adapted for user-controlled editing tasks such as inpainting and label-guided generation. The efficacy of our approach is due in part to the equivariance of our proposed framework under isometries, allowing our models to seamlessly reproduce details across locally similar regions and opening the door to a notion of generative texture transfer.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-08
# 非退化パラメトリック増幅器のベリー位相とマンデルパラメータ

Berry phase and the Mandel parameter of the non-degenerate parametric amplifier ( http://arxiv.org/abs/2312.15114v2 )

ライセンス: Link先を確認
J. C. Vega, E. Choreño, D. Ojeda-Guillén, R. D. Mota, (参考訳) 我々は、$SU(1,1)$群の代数的アプローチから非退化パラメトリック増幅問題を研究する。 我々は、この問題のハミルトニアンを$SU(1,1)$群のボソン生成子と差分作用素の項で記述する。 我々は、このハミルトニアンを正確に解くために傾き変換を適用し、そのエネルギースペクトルと固有関数を得る。 そして、ハミルトニアンが時間の明示的な関数であると仮定することで、ベリー位相を計算する。 最後に、光子数 $n_a$ と $n_b$ の Mandel $Q-$parameter を得る。

We study the non-degenerate parametric amplifier problem from an algebraic approach of the $SU(1,1)$ group. We write the Hamiltonian of this problem in terms of the boson generators of the $SU(1,1)$ group and the difference operator. We apply the tilting transformation to our results to exactly solve this Hamiltonian and obtain its energy spectrum and eigenfunctions. Then, by assuming that our Hamiltonian is an explicit function of time we calculate its Berry phase. Finally we obtain the Mandel $Q-$parameter of the photon numbers $n_a$ and $n_b$.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-08
# 単純性バイアス、アルゴリズム確率およびランダムロジスティックマップ

Simplicity bias, algorithmic probability, and the random logistic map ( http://arxiv.org/abs/2401.00593v2 )

ライセンス: Link先を確認
Boumediene Hamzi, Kamaludin Dingle, (参考訳) 単純さバイアス(Simplicity bias)は、様々な入力出力マップでよく見られる興味深い現象であり、より単純でより規則的で対称な出力を好むのが特徴である。 特に、これらの写像は通常、単純なパターンを持つ高確率出力を特徴とするが、複雑なパターンは指数関数的には確率が低い。 このバイアスは、アルゴリズム情報理論とアルゴリズム確率から導かれた原理により、広く研究され、評価されている。 顕著な進歩として、有名なロジスティックマップや他の一次元地図は、入力出力系として概念化されたとき、単純さのバイアスを示すことが示されている。 この研究に基づいて、ランダムロジスティックマップ内の単純さバイアスの顕在化について、特に加法雑音を含むシナリオに焦点を当てた研究を行った。 ランダムなロジスティック・マップにおいて、単純さのバイアスは、$\mu$とノイズ・マグニチュードの特定の範囲で観測可能であることを発見した。 さらに、このバイアスは、小さな測定ノイズを発生しても持続するが、ノイズレベルが増加するにつれて減少する。 また,ノイズによるカオス現象,特に$\mu=3.83$の場合には,複雑性確率プロットによってその特性を明らかにする。 興味深いことに、データ分析のパラドックス的な側面を説明するためにロジスティックマップを用いる: 一貫性のある傾向に固執するより多くのデータが時折、外挿予測に対する 'emph{reduced' の信頼を導き、従来の知恵に挑戦する。 本稿では,動的システム解析における確率・複雑性の観点から,時系列予測と解析に関する統計的学習理論を著しく強化することを提案する。 このアプローチは、単純さのバイアスとその意味を深く理解するだけでなく、複雑なシステムの振る舞いを予測する新しい方法論の道を開く。

Simplicity bias is an intriguing phenomenon prevalent in various input-output maps, characterized by a preference for simpler, more regular, or symmetric outputs. Notably, these maps typically feature high-probability outputs with simple patterns, whereas complex patterns are exponentially less probable. This bias has been extensively examined and attributed to principles derived from algorithmic information theory and algorithmic probability. In a significant advancement, it has been demonstrated that the renowned logistic map and other one-dimensional maps exhibit simplicity bias when conceptualized as input-output systems. Building upon this work, our research delves into the manifestations of simplicity bias within the random logistic map, specifically focusing on scenarios involving additive noise. We discover that simplicity bias is observable in the random logistic map for specific ranges of $\mu$ and noise magnitudes. Additionally, we find that this bias persists even with the introduction of small measurement noise, though it diminishes as noise levels increase. Our studies also revisit the phenomenon of noise-induced chaos, particularly when $\mu=3.83$, revealing its characteristics through complexity-probability plots. Intriguingly, we employ the logistic map to illustrate a paradoxical aspect of data analysis: more data adhering to a consistent trend can occasionally lead to \emph{reduced} confidence in extrapolation predictions, challenging conventional wisdom. We propose that adopting a probability-complexity perspective in analyzing dynamical systems could significantly enrich statistical learning theories related to series prediction and analysis. This approach not only facilitates a deeper understanding of simplicity bias and its implications but also paves the way for novel methodologies in forecasting complex systems behavior.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-08
# TrailBlazer:拡散映像生成のための軌道制御

TrailBlazer: Trajectory Control for Diffusion-Based Video Generation ( http://arxiv.org/abs/2401.00896v2 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn, (参考訳) テキスト・ツー・ビデオ(T2V)生成への最近のアプローチでは、合成ビデオの制御性を達成することがしばしば課題である。 通常、この問題はエッジマップ、深度マップ、あるいは変更すべき既存のビデオという形で、低レベルのフレーム単位のガイダンスを提供することによって解決される。 しかし、そのような指導を得る過程は労働集約的である。 本稿では、ニューラルネットワークのトレーニング、微調整、推論時の最適化、既存のビデオの使用を必要とせず、素直なバウンディングボックスを用いることで、映像合成における制御性の向上に焦点をあてる。 我々のアルゴリズムであるTraceBlazerは、事前訓練された(T2V)モデルに基づいて構築されており、実装が容易である。 対象は、提案した空間的・時間的注意マップの編集を通じて、バウンディングボックスによって指示される。 さらに,キーフレーミングの概念を導入し,移動境界ボックスと対応するプロンプトの両方で対象の軌跡や外観をガイドできるようにし,詳細なマスクを提供する必要がなくなる。 この方法は効率的であり、基礎となる事前訓練されたモデルに対する追加計算は無視できる。 箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。

Within recent approaches to text-to-video (T2V) generation, achieving controllability in the synthesized video is often a challenge. Typically, this issue is addressed by providing low-level per-frame guidance in the form of edge maps, depth maps, or an existing video to be altered. However, the process of obtaining such guidance can be labor-intensive. This paper focuses on enhancing controllability in video synthesis by employing straightforward bounding boxes to guide the subject in various ways, all without the need for neural network training, finetuning, optimization at inference time, or the use of pre-existing videos. Our algorithm, TrailBlazer, is constructed upon a pre-trained (T2V) model, and easy to implement. The subject is directed by a bounding box through the proposed spatial and temporal attention map editing. Moreover, we introduce the concept of keyframing, allowing the subject trajectory and overall appearance to be guided by both a moving bounding box and corresponding prompts, without the need to provide a detailed mask. The method is efficient, with negligible additional computation relative to the underlying pre-trained model. Despite the simplicity of the bounding box guidance, the resulting motion is surprisingly natural, with emergent effects including perspective and movement toward the virtual camera as the box size increases.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-08
# リニア・非線形ディラックデルタ相互作用による高調波振動子ポテンシャルとボース・アインシュタイン凝縮への応用

The Harmonic Oscillator Potential Perturbed by a Combination of Linear and Non-linear Dirac Delta Interactions with Application to Bose-Einstein Condensation ( http://arxiv.org/abs/2402.02169v2 )

ライセンス: Link先を確認
Cenk Akyüz, Fatih Erman, Haydar Uncu, (参考訳) 本稿では,Schr\"{o}dinger方程式の1次元非線形バージョンを$\delta$電位で摂動する調和振動子ポテンシャルに対する有界状態解析を行い,非線形項は$\delta(x) |\psi(x)|^2 \psi(x)$に比例する。 境界状態波動関数は明示的に発見され、系の有界エネルギーは暗黙の方程式の解によって代数的に決定される。 次に, このモデルを用いて, 二重ポテンシャルを持つハーモニックトラップ内のボース気体のボース・アインシュタイン凝縮について検討する。 ボース気体の多体相互作用は、Schr\"{o}dinger 方程式の非線形項によって効果的に説明できる。 次に, 臨界温度, 凝縮率, 密度分布を数値的に検討した。

In this paper, we study the bound state analysis of a one dimensional nonlinear version of the Schr\"{o}dinger equation for the harmonic oscillator potential perturbed by a $\delta$ potential, where the nonlinear term is taken to be proportional to $\delta(x) |\psi(x)|^2 \psi(x)$. The bound state wave functions are explicitly found and the bound state energy of the system is algebraically determined by the solution of an implicit equation. Then, we apply this model to the Bose-Einstein condensation of a Bose gas in a harmonic trap with a dimple potential. We propose that the many-body interactions of the Bose gas can be effectively described by the nonlinear term in the Schr\"{o}dinger equation. Then, we investigate the critical temperature, the condensate fraction, and the density profile of this system numerically.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-08
# ディバイドとコンカー:メモリ効率の良いタイドアンサンブルによる高分解能産業異常検出

Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble ( http://arxiv.org/abs/2403.04932v2 )

ライセンス: Link先を確認
Blaž Rolih, Dick Ameln, Ashwin Vaidya, Samet Akcay, (参考訳) 産業的異常検出はコンピュータビジョンにおける重要な課題であり、幅広い実用的なユースケースがある。 多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。 これはしばしば、モデルトレーニングと推論段階でのメモリ消費に関する重大な問題を引き起こし、既存のメソッドは広く採用するには実用的でない。 この課題を克服するために,入力画像をタイルのグリッドに分割し,タイル位置ごとに専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。 タイル付きアンサンブルは、基盤となるアーキテクチャを変更することなく既存の異常検出モデルと互換性がある。 重なり合うタイルを導入することで、従来の積み重ねアンサンブルの利点を生かし、高解像度以外の異常検出能力をさらに改善する。 我々は、MVTecとVisAという2つの標準異常検出データセット上で、Padim、PatchCore、FastFlow、Reverse Distillationを含むさまざまな基盤アーキテクチャを使用して包括的な分析を行う。 提案手法は,GPUメモリ制約内に留まり,単一のモデルで1つのタイルを処理するために必要なGPUメモリだけを消費しながら,セットアップ全体の顕著な改善を実証する。

Industrial anomaly detection is an important task within computer vision with a wide range of practical use cases. The small size of anomalous regions in many real-world datasets necessitates processing the images at a high resolution. This frequently poses significant challenges concerning memory consumption during the model training and inference stages, leaving some existing methods impractical for widespread adoption. To overcome this challenge, we present the tiled ensemble approach, which reduces memory consumption by dividing the input images into a grid of tiles and training a dedicated model for each tile location. The tiled ensemble is compatible with any existing anomaly detection model without the need for any modification of the underlying architecture. By introducing overlapping tiles, we utilize the benefits of traditional stacking ensembles, leading to further improvements in anomaly detection capabilities beyond high resolution alone. We perform a comprehensive analysis using diverse underlying architectures, including Padim, PatchCore, FastFlow, and Reverse Distillation, on two standard anomaly detection datasets: MVTec and VisA. Our method demonstrates a notable improvement across setups while remaining within GPU memory constraints, consuming only as much GPU memory as a single model needs to process a single tile.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-08
# 潜伏変数を用いた極端グラフィカルモデリング

Extremal graphical modeling with latent variables ( http://arxiv.org/abs/2403.09604v2 )

ライセンス: Link先を確認
Sebastian Engelke, Armeen Taeb, (参考訳) 極端グラフィカルモデルは多変量極度の条件独立構造を符号化し、稀な事象のリスクを定量化する強力なツールを提供する。 データからこれらのグラフを学習する以前の作業は、すべての関連する変数が観察される設定に焦点を当てていた。 H\"usler-Reissモデルの一般的なクラスに対しては、潜在変数の存在下での極端グラフィカルモデル学習のための抽出可能な凸プログラムである \texttt{eglatent} 法を提案する。 提案手法は,H\"usler-Reiss精度行列を,潜伏変数の条件付け後の観測変数間のグラフィカルな構造を符号化するスパース成分と,観測変数に対する少数の潜伏変数の影響を符号化するローランク成分に分解する。 我々は、texttt{eglatent} の有限サンプル保証を提供し、条件付きグラフと潜在変数の数を一貫して回復することを示す。 我々は、合成および実データに対するアプローチの改善性能を強調した。

Extremal graphical models encode the conditional independence structure of multivariate extremes and provide a powerful tool for quantifying the risk of rare events. Prior work on learning these graphs from data has focused on the setting where all relevant variables are observed. For the popular class of H\"usler-Reiss models, we propose the \texttt{eglatent} method, a tractable convex program for learning extremal graphical models in the presence of latent variables. Our approach decomposes the H\"usler-Reiss precision matrix into a sparse component encoding the graphical structure among the observed variables after conditioning on the latent variables, and a low-rank component encoding the effect of a few latent variables on the observed variables. We provide finite-sample guarantees of \texttt{eglatent} and show that it consistently recovers the conditional graph as well as the number of latent variables. We highlight the improved performances of our approach on synthetic and real data.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-08
# BirdSet: 計算鳥類バイオ音響学の分類のためのマルチタスクベンチマーク

BirdSet: A Multi-Task Benchmark for Classification in Computational Avian Bioacoustics ( http://arxiv.org/abs/2403.10380v2 )

ライセンス: Link先を確認
Lukas Rauch, Raphael Schwinger, Moritz Wirth, René Heinrich, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz, (参考訳) 深層学習(DL)モデルは、環境の健康と生物多様性を診断するために、鳥類のバイオ音響学において強力なツールとして登場した。 しかし、研究の不整合は、進歩を妨げる顕著な課題を引き起こしている。 信頼性の高いDLモデルは、費用対効果の高い受動的音響監視シナリオにおいて生体音響学の可能性を完全に活用するために、様々な種や環境の鳥の鳴き声を柔軟に分析する必要がある。 研究におけるデータの断片化と不透明度は、モデル性能の包括的な評価を複雑にする。 これらの課題を克服するために,我々は,鳥の鳴き声の分類のための総合的なアプローチで研究活動を統合する統一的なフレームワークであるBirdSetベンチマークを提案する。 BirdSetは、オープンソースのバードレコーディングをキュレートされたデータセットコレクションに集約する。 この統一されたアプローチは、モデルパフォーマンスの深い理解を提供し、異なるタスクにまたがる潜在的な欠点を特定する。 現行モデルのベースライン結果を提供することで,新参者に対するコンパラビリティとアクセシビリティの容易化を図る。 さらに、私たちは、https://github.com/DBD-research-group/BirdSetで利用可能な、簡単かつ高速なモデル評価を可能にする包括的なデータパイプラインを含む、オープンソースのパッケージ \benchmark をリリースしました。

Deep learning (DL) models have emerged as a powerful tool in avian bioacoustics to diagnose environmental health and biodiversity. However, inconsistencies in research pose notable challenges hindering progress. Reliable DL models need to analyze bird calls flexibly across various species and environments to fully harness the potential of bioacoustics in a cost-effective passive acoustic monitoring scenario. Data fragmentation and opacity across studies complicate a comprehensive evaluation of model performance. To overcome these challenges, we present the BirdSet benchmark, a unified framework consolidating research efforts with a holistic approach for the classification of bird vocalizations in computational avian bioacoustics. BirdSet aggregates open-source bird recordings into a curated dataset collection. This unified approach provides an in-depth understanding of model performance and identifies potential shortcomings across different tasks. By providing baseline results of current models, we aim to facilitate comparability and ease accessibility for newcomers. Additionally, we release an open-source package \benchmark containing a comprehensive data pipeline that enables easy and fast model evaluation, available at https://github.com/DBD-research-group/BirdSet.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-08
# LLM生成フェイクニュースの知覚力を探る:実世界検出課題の検討

Exploring the Deceptive Power of LLM-Generated Fake News: A Study of Real-World Detection Challenges ( http://arxiv.org/abs/2403.18249v2 )

ライセンス: Link先を確認
Yanshen Sun, Jianfeng He, Limeng Cui, Shuo Lei, Chang-Tien Lu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特に医療のような複雑な分野において、フェイクニュースの作成を可能にしている。 研究は、LLMが生成した偽ニュースの人的援助なしでの偽ニュースの認知力のギャップを浮き彫りにするが、その可能性については完全には研究されていない。 このように、この研究は、戦略の推進がこのギャップを効果的に狭めることができるかどうかを判断することを目的としている。 現在のLLMベースのフェイクニュース攻撃は、情報収集のための人間の介入を必要とし、しばしば詳細を見逃し、コンテキスト整合性の維持に失敗する。 そこで本稿では,脅威戦術をよりよく理解するために,条件付き変分オートエンコーダライズプロンプト (VLPrompt) と呼ばれる,強力なフェイクニュース攻撃手法を提案する。 現行の方法とは異なり、VLPromptはコンテキストコヒーレンスを維持しながら元のテキストの複雑さを保ちながら、追加のデータ収集の必要性を排除している。 VLPrompt攻撃の検出に関する今後の研究を推進すべく、実テキストと偽テキストを含むVLPrompt偽ニュース(VLPFN)という新しいデータセットを作成しました。 さまざまな検出方法や新しい人間の研究指標を含む実験を,データセット上での性能評価のために実施し,多くの知見を得た。

Recent advancements in Large Language Models (LLMs) have enabled the creation of fake news, particularly in complex fields like healthcare. Studies highlight the gap in the deceptive power of LLM-generated fake news with and without human assistance, yet the potential of prompting techniques has not been fully explored. Thus, this work aims to determine whether prompting strategies can effectively narrow this gap. Current LLM-based fake news attacks require human intervention for information gathering and often miss details and fail to maintain context consistency. Therefore, to better understand threat tactics, we propose a strong fake news attack method called conditional Variational-autoencoder-Like Prompt (VLPrompt). Unlike current methods, VLPrompt eliminates the need for additional data collection while maintaining contextual coherence and preserving the intricacies of the original text. To propel future research on detecting VLPrompt attacks, we created a new dataset named VLPrompt fake news (VLPFN) containing real and fake texts. Our experiments, including various detection methods and novel human study metrics, were conducted to assess their performance on our dataset, yielding numerous findings.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-08
# スマートコントラクトの脆弱性と緩和策:包括的調査

Vulnerabilities of smart contracts and mitigation schemes: A Comprehensive Survey ( http://arxiv.org/abs/2403.19805v2 )

ライセンス: Link先を確認
Wejdene Haouari, Abdelhakim Senhaji Hafid, Marios Fokaefs, (参考訳) Ethereumスマートコントラクトは強力で不変であり、大量のトークンを保持することができる。 しかし、スマートコントラクトは、スマートコントラクトの欠陥やEthereumの予期せぬ振る舞いの恩恵を受けるために、攻撃者を惹きつけ続けている。 このように、セキュアなスマートコントラクトの実装を支援し、すでにデプロイされているスマートコントラクトのセキュリティを評価するために、方法論とツールが提案されている。 ほとんどの関連する調査は、背後にあるロジックを議論せずにツールに焦点を当てている。 さらに、ツールのテストやコミュニティからのフィードバックの収集よりも、論文に基づいてツールを評価する。 他の調査では、スマートコントラクト機能に特化したツールの使い方に関するガイドラインがない。 本論文は,NFTの所有権を取引可能な単位に分割することのユニークなリスクに対処することで,NFTの分別化による課題と脆弱性に新たな重点を置いて,開発者がセキュアなスマートな技術を開発するのを支援することを目的とした,実験的なレポートと組み合わせて述べる。 頻繁な脆弱性とそれに対応する緩和ソリューションのリストを提供する。 さらに、サンプルのスマートコントラクト上でそれらを実行し、テストすることで、コミュニティで最も広く使用されているツールを評価します。 最後に、セキュアなスマートコントラクトの実装に関する包括的なガイドを紹介する。

Ethereum smart contracts are highly powerful, immutable, and able to retain massive amounts of tokens. However, smart contracts keep attracting attackers to benefit from smart contract flaws and Ethereum unexpected behavior. Thus, methodologies and tools have been proposed to help implement secure smart contracts and to evaluate the security of smart contracts already deployed. Most related surveys focus on tools without discussing the logic behind them. in addition, they assess the tools based on papers rather than testing the tools and collecting community feedback. Other surveys lack guidelines on how to use tools specific to smart contract functionalities. This paper presents a literature review combined with an experimental report that aims to assist developers in developing secure smarts, with a novel emphasis on the challenges and vulnerabilities introduced by NFT fractionalization by addressing the unique risks of dividing NFT ownership into tradeable units called fractions. It provides a list of frequent vulnerabilities and corresponding mitigation solutions. In addition, it evaluates the community most widely used tools by executing and testing them on sample smart contracts. Finally, a comprehensive guide on implementing secure smart contracts is presented.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-08
# Slowly Varying Sequencesによる安定機械学習モデルの訓練に向けて

Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences ( http://arxiv.org/abs/2403.19871v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Vassilis Digalakis Jr, Yu Ma, Phevos Paschalidis, (参考訳) 機械学習モデルのリトレーニングは、現実の機械学習モデルのデプロイにおいて依然として重要なタスクである。 既存の手法は主に、訓練されたモデル構造の異なる再学習進化に対する安定性を考慮せずに、最高の性能のモデルを見つけるための欲求的なアプローチに焦点を当てている。 本研究では,異なるデータバッチ更新における機械学習モデルの再学習問題について,一意に考察した混合整数最適化アルゴリズムを提案する。 本手法は、最適化問題に直接組み込むことができるカスタム定義距離メトリクスを使用することにより、一貫した分析的洞察(解釈可能性のモデル化、実装の容易さ、ユーザとの信頼の促進)を維持することに焦点を当てる。 重要なことは,本手法は実世界の生産事例研究において,小型で制御可能なモデル性能の犠牲を伴って,厳格に訓練されたモデルよりも強い安定性を示すことである。 最後に、SHAP機能の重要性を実証した重要な分析的洞察は、再学習イテレーション間で一貫性があることが示されている。

Retraining machine learning models remains an important task for real-world machine learning model deployment. Existing methods focus largely on greedy approaches to find the best-performing model without considering the stability of trained model structures across different retraining evolutions. In this study, we develop a mixed integer optimization algorithm that holistically considers the problem of retraining machine learning models across different data batch updates. Our method focuses on retaining consistent analytical insights - which is important to model interpretability, ease of implementation, and fostering trust with users - by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Importantly, our method shows stronger stability than greedily trained models with a small, controllable sacrifice in model performance in a real-world production case study. Finally, important analytical insights, as demonstrated using SHAP feature importance, are shown to be consistent across retraining iterations.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-08
# STMGF: 交通予測のための効果的な空間時間マルチグラニュラリティフレームワーク

STMGF: An Effective Spatial-Temporal Multi-Granularity Framework for Traffic Forecasting ( http://arxiv.org/abs/2404.05774v1 )

ライセンス: Link先を確認
Zhengyang Zhao, Haitao Yuan, Nan Jiang, Minxiao Chen, Ning Liu, Zengxiang Li, (参考訳) 正確な交通予測は、道路網の空間的・時間的側面により、インテリジェント交通において困難な課題である。 ロードネットワークのトラフィックは、既存のメソッドがモデリングに不足している場合、長距離または長期の依存関係によって影響を受ける可能性がある。 本稿では,道路網の長距離・長期情報収集を促進するため,時空間多言語フレームワーク(STMGF)と呼ばれる新しいフレームワークを提案する。 STMGFは、道路網の粒度情報を完全に活用し、階層的インタラクティブな方法で情報を集めることにより、長距離および長期の情報をモデル化する。 さらに、トラフィックシーケンスの固有の周期性を活用して、最新のトラフィックデータにマッチして予測結果を洗練する。 実世界の2つのデータセットで実験を行い、STMGFが全てのベースラインモデルより優れ、最先端のパフォーマンスを達成することを示した。

Accurate Traffic Prediction is a challenging task in intelligent transportation due to the spatial-temporal aspects of road networks. The traffic of a road network can be affected by long-distance or long-term dependencies where existing methods fall short in modeling them. In this paper, we introduce a novel framework known as Spatial-Temporal Multi-Granularity Framework (STMGF) to enhance the capture of long-distance and long-term information of the road networks. STMGF makes full use of different granularity information of road networks and models the long-distance and long-term information by gathering information in a hierarchical interactive way. Further, it leverages the inherent periodicity in traffic sequences to refine prediction results by matching with recent traffic data. We conduct experiments on two real-world datasets, and the results demonstrate that STMGF outperforms all baseline models and achieves state-of-the-art performance.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-08
# 電気自動車のバッテリ出力電圧予測:予測モデリングアプローチ

Forecasting Electric Vehicle Battery Output Voltage: A Predictive Modeling Approach ( http://arxiv.org/abs/2404.05776v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Ashish K, Ullas M S, Anwesh Reddy Paduri, (参考訳) バッテリー管理システムは、電気自動車とハイブリッド車の安全性と信頼性を確保する上で重要な役割を担っている。 状態評価、監視、電荷制御、セルバランシングなど、BMSに統合されたさまざまな機能に責任がある。 それでも、バッテリー性能に関する不確実性のため、これらの機能を実装することは大きな課題となる。 本研究では,バッテリ状態を評価するための最新のアプローチについて検討し,バッテリ管理システム(BMS)の顕著な進歩に注目し,現行のBMS技術における課題に対処し,バッテリ充電電圧を予測するための解決策を提示する。

The battery management system plays a vital role in ensuring the safety and dependability of electric and hybrid vehicles. It is responsible for various functions, including state evaluation, monitoring, charge control, and cell balancing, all integrated within the BMS. Nonetheless, due to the uncertainties surrounding battery performance, implementing these functionalities poses significant challenges. In this study, we explore the latest approaches for assessing battery states, highlight notable advancements in battery management systems (BMS), address existing issues with current BMS technology, and put forth possible solutions for predicting battery charging voltage.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-08
# IA2: 分散ワークロードの強化学習によるインスタンス対応インデックスアドバイザの活用

IA2: Leveraging Instance-Aware Index Advisor with Reinforcement Learning for Diverse Workloads ( http://arxiv.org/abs/2404.05777v1 )

ライセンス: Link先を確認
Taiyi Wang, Eiko Yoneki, (参考訳) 本研究は,候補候補の大きな行動空間に直面したデータベースにおけるインデックス選択を最適化するための,DRLに基づく新しいアプローチである Instance-A}ware Index A}dvisor (IA2) を紹介する。 IA2 では Twin Delayed Deep Deterministic Policy Gradient - Temporal difference State-Wise Action Refinery (TD3-TD-SWAR) モデルを導入している。 この方法は、包括的なワークロードモデルを含み、目に見えないワークロードに適応する能力を高め、さまざまなデータベース環境における堅牢なパフォーマンスを保証する。 TPC-Hなどのベンチマークによる評価では、IA2が推奨する実行時インデックスのパフォーマンス向上、複雑なTPC-Hワークロードのランタイムの40%削減、既存の最先端DRLベースのインデックスアドバイザよりも20%改善されている。

This study introduces the Instance-A}ware Index A}dvisor (IA2), a novel deep reinforcement learning (DRL)-based approach for optimizing index selection in databases facing large action spaces of potential candidates. IA2 introduces the Twin Delayed Deep Deterministic Policy Gradient - Temporal Difference State-Wise Action Refinery (TD3-TD-SWAR) model, enabling efficient index selection by understanding workload-index dependencies and employing adaptive action masking. This method includes a comprehensive workload model, enhancing its ability to adapt to unseen workloads and ensuring robust performance across diverse database environments. Evaluation on benchmarks such as TPC-H reveals IA2's suggested indexes' performance in enhancing runtime, securing a 40% reduction in runtime for complex TPC-H workloads compared to scenarios without indexes, and delivering a 20% improvement over existing state-of-the-art DRL-based index advisors.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-08
# AIのためのデータ準備:360度調査

Data Readiness for AI: A 360-Degree Survey ( http://arxiv.org/abs/2404.05779v1 )

ライセンス: Link先を確認
Kaveen Hiniduma, Suren Byna, Jean Luca Bez, (参考訳) データは人工知能(AI)モデルにとって重要な燃料である。 粗悪な品質データは不正確で非効率なAIモデルを生成し、不正確または不安全な使用につながる可能性がある。 データ準備性をチェックすることは、データ品質を改善するための重要なステップである。 データ品質の改善に多くの研究開発努力が費やされている。 しかし、AIトレーニングで使用するデータ準備性を評価するための標準化されたメトリクスはまだ進化している。 本研究では、AIのデータ準備性を検証するために使用されるメトリクスの総合的な調査を行う。 この調査では、ACM Digital Library、IEEE Xplore、その他の信頼できるジャーナルが発行する120以上の論文と、著名なAI専門家がWeb上で公開した記事を調査している。 この調査は、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案することを目的としている。 我々はこの分類が、AIトレーニングと推論の品質と精度を高めるために使われるDRAIメトリクスの新しい標準につながることを予測している。

Data are the critical fuel for Artificial Intelligence (AI) models. Poor quality data produces inaccurate and ineffective AI models that may lead to incorrect or unsafe use. Checking for data readiness is a crucial step in improving data quality. Numerous R&D efforts have been spent on improving data quality. However, standardized metrics for evaluating data readiness for use in AI training are still evolving. In this study, we perform a comprehensive survey of metrics used for verifying AI's data readiness. This survey examines more than 120 papers that are published by ACM Digital Library, IEEE Xplore, other reputable journals, and articles published on the web by prominent AI experts. This survey aims to propose a taxonomy of data readiness for AI (DRAI) metrics for structured and unstructured datasets. We anticipate that this taxonomy can lead to new standards for DRAI metrics that would be used for enhancing the quality and accuracy of AI training and inference.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# グループ特異的判別分析による脳機能ネットワークの側方化における性差の統計的検証

Group-specific discriminant analysis reveals statistically validated sex differences in lateralization of brain functional network ( http://arxiv.org/abs/2404.05781v1 )

ライセンス: Link先を確認
Shuo Zhou, Junhao Luo, Yaya Jiang, Haolin Wang, Haiping Lu, Gaolang Gong, (参考訳) 側方化は、性差が観察された人間の脳の基本的な特徴である。 神経科学における性特化に関する従来の研究は、典型的には男性と女性のグループ間の一変量統計比較で行われている。 しかし、これらの分析は群特異性の有効検証を欠いていることが多い。 ここでは、機能的ネットワークの側方化における性差を、左と右の機能的ネットワークの1次分類と男性と女性モデルの2次分類からなる二重分類問題としてモデル化する。 性特化パターンを捉えるため,一階分類のためのグループ識別分析(GSDA)を開発した。 2つのパブリックなニューロイメージングデータセットの評価は、機能的ネットワークから性特化モデルを学習する上でGSDAの有効性を示し、ベースライン法よりもグループ特異性を大幅に改善した。 性差の主な要因は、側方化の強さと、葉の内外相互作用である。 GSDAをベースとしたこの手法は、本質的には汎用的であり、ハンドネス特異的または疾患特異的な分析のような他のグループ固有の分析に適応することができる。

Lateralization is a fundamental feature of the human brain, where sex differences have been observed. Conventional studies in neuroscience on sex-specific lateralization are typically conducted on univariate statistical comparisons between male and female groups. However, these analyses often lack effective validation of group specificity. Here, we formulate modeling sex differences in lateralization of functional networks as a dual-classification problem, consisting of first-order classification for left vs. right functional networks and second-order classification for male vs. female models. To capture sex-specific patterns, we develop the Group-Specific Discriminant Analysis (GSDA) for first-order classification. The evaluation on two public neuroimaging datasets demonstrates the efficacy of GSDA in learning sex-specific models from functional networks, achieving a significant improvement in group specificity over baseline methods. The major sex differences are in the strength of lateralization and the interactions within and between lobes. The GSDA-based method is generic in nature and can be adapted to other group-specific analyses such as handedness-specific or disease-specific analyses.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# ニューラルネットワークの訓練過程における動的安定性とカオス

Dynamical stability and chaos in artificial neural network trajectories along training ( http://arxiv.org/abs/2404.05782v1 )

ライセンス: Link先を確認
Kaloyan Danovski, Miguel C. Soriano, Lucas Lacasa, (参考訳) ニューラルネットワークをトレーニングするプロセスでは、学習タスクに直面した際のネットワークの予測エラーを最小限に抑えるために、パラメータを反復的に適応させる。 この反復的変化は、ネットワーク空間(ネットワークの時系列)における軌道として自然に解釈できるので、トレーニングアルゴリズム(例えば、適切な損失関数の勾配勾配の最適化)は、グラフ空間における力学系として解釈できる。 この解釈を説明するために、このレンズを通して浅層ニューラルネットワークのネットワーク軌跡を解析し、その進化を簡単な分類課題の学習を通して研究する。 学習速度の異なる範囲を体系的に検討し、得られたネットワーク軌跡の動的および軌道的安定性を探索し、学習速度の規則的およびカオス的行動のヒントを求める。 ニューラルネットワークの収束特性と力学系理論の共通知恵とは対照的である。 この研究は、動的システム理論、ネットワーク理論、機械学習の間のアイデアのクロスファーティライズにも貢献する。

The process of training an artificial neural network involves iteratively adapting its parameters so as to minimize the error of the network's prediction, when confronted with a learning task. This iterative change can be naturally interpreted as a trajectory in network space -- a time series of networks -- and thus the training algorithm (e.g. gradient descent optimization of a suitable loss function) can be interpreted as a dynamical system in graph space. In order to illustrate this interpretation, here we study the dynamical properties of this process by analyzing through this lens the network trajectories of a shallow neural network, and its evolution through learning a simple classification task. We systematically consider different ranges of the learning rate and explore both the dynamical and orbital stability of the resulting network trajectories, finding hints of regular and chaotic behavior depending on the learning rate regime. Our findings are put in contrast to common wisdom on convergence properties of neural networks and dynamical systems theory. This work also contributes to the cross-fertilization of ideas between dynamical systems theory, network theory and machine learning
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 責任ある生成AI:何を生成するか、何ができないか

Responsible Generative AI: What to Generate and What Not ( http://arxiv.org/abs/2404.05783v1 )

ライセンス: Link先を確認
Jindong Gu, (参考訳) 近年,大規模言語モデルやテキスト・ツー・イメージモデルのような生成型AI(GenAI)が,さまざまな領域で注目されている。 しかし、これらのモデルによるコンテンツの責任ある生成を保証することは、実際の適用性にとって不可欠である。 これは興味深い質問を提起する: \textit{What should responsible GenAI generate, and not it should not? そこで本研究では,テキスト生成モデルと視覚生成モデルの両方において,真理コンテンツの生成,有害な内容の回避,有害な指導の拒否,データ関連コンテンツの漏洩,生成内容の確認という5つの重要事項を概説する。 具体的には、これらの要件に対処する上での最近の進歩と課題について概観する。 さらに、医療、教育、金融、人工知能分野における責任あるGenAIの重要性を議論し、強調する。 本稿では,テキスト生成モデルと視覚生成モデルの両方について統一的な視点で検討し,実践的安全性に関する知見を提供するとともに,コミュニティの責任を負うGenAI構築にさらなる利益をもたらすことを目的とする。

In recent years, generative AI (GenAI), like large language models and text-to-image models, has received significant attention across various domains. However, ensuring the responsible generation of content by these models is crucial for their real-world applicability. This raises an interesting question: \textit{What should responsible GenAI generate, and what should it not?} To answer the question, this paper investigates the practical responsible requirements of both textual and visual generative models, outlining five key considerations: generating truthful content, avoiding toxic content, refusing harmful instruction, leaking no training data-related content, and ensuring generated content identifiable. Specifically, we review recent advancements and challenges in addressing these requirements. Besides, we discuss and emphasize the importance of responsible GenAI across healthcare, education, finance, and artificial general intelligence domains. Through a unified perspective on both textual and visual generative models, this paper aims to provide insights into practical safety-related issues and further benefit the community in building responsible GenAI.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 量子シミュレーションのためのハイブリッドツリーテンソルネットワーク

Hybrid Tree Tensor Networks for quantum simulation ( http://arxiv.org/abs/2404.05784v1 )

ライセンス: Link先を確認
Julian Schuhmacher, Marco Ballarin, Alberto Baiardi, Giuseppe Magnifico, Francesco Tacchino, Simone Montangero, Ivano Tavernelli, (参考訳) ハイブリッドテンソルネットワーク (Hybrid Tensor Networks, HTN) は、効率的な古典的手法やノイズの多い量子コンピュータ以外の変分量子状態を符号化する有望なソリューションを提供する。 しかし、hTNアルゴリズムの実用性と多くの運用面、例えばhTNの最適化、ハイブリッド環境への標準収縮規則の一般化、アプリケーション指向アーキテクチャの設計は、まだ十分に研究されていない。 本研究では,ハイブリッドツリーテンソルネットワーク (hTTN) を用いた基底状態最適化手法を提案する。 我々は、2つのパラダイムモデル、すなわち臨界点におけるイジングモデルとトーリック符号ハミルトニアンにアプローチをベンチマークする。 どちらの場合も、hTTNsは古典的部分における等しい結合次元を持つ古典的同値に対して改善できることを示す。

Hybrid Tensor Networks (hTN) offer a promising solution for encoding variational quantum states beyond the capabilities of efficient classical methods or noisy quantum computers alone. However, their practical usefulness and many operational aspects of hTN-based algorithms, like the optimization of hTNs, the generalization of standard contraction rules to an hybrid setting, and the design of application-oriented architectures have not been thoroughly investigated yet. In this work, we introduce a novel algorithm to perform ground state optimizations with hybrid Tree Tensor Networks (hTTNs), discussing its advantages and roadblocks, and identifying a set of promising applications. We benchmark our approach on two paradigmatic models, namely the Ising model at the critical point and the Toric code Hamiltonian. In both cases, we successfully demonstrate that hTTNs can improve upon classical equivalents with equal bond dimension in the classical part.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 強結合極限から離れたカゴメハバードモデル:フラットバンド局在と非フェルミ液体シグネチャ

Kagome Hubbard model away from the strong coupling limit: Flat band localization and non Fermi liquid signatures ( http://arxiv.org/abs/2404.05787v1 )

ライセンス: Link先を確認
Shashikant Singh Kunwar, Madhuparna Karmakar, (参考訳) 加ごめ材料における金属相の最近の実験的実現を手がかりに,非摂動数値的アプローチを用いて,加ごめ金属と絶縁体の低温シグネチャと温度スケールを加ごめハバードモデルの枠組みで決定したことを報告する。 既存のコンセンサスとは対照的に、弱いカップリング状態において非フェルミ液体(NFL)金属に交差する平坦なバンド局在絶縁体を確立し、次いで強いカップリング状態において第1次金属-モット絶縁体遷移を行う。 本稿では,このモデルの温度スケールを初めて正確に推定し,回復力のある準粒子と短距離磁気相関の点からNFL位相を解析する。 低温相への前例のないアクセスと十分に大きなシステムサイズにより、熱力学、分光、輸送シグネチャの観点から、カゴメ金属および絶縁体に関する先進的な実験に欠かせないベンチマークを提供する。

Taking cue from the recent experimental realization of metallic phases in Kagome materials we report the low temperature signatures and thermal scales of Kagome metals and insulators, determined in the framework of the Kagome Hubbard model, using a non perturbative numerical approach. In contrast to the existing consensus we establish a flat band localized insulator in the weak coupling regime which crosses over to a non Fermi liquid (NFL) metal at intermediate coupling, followed by a first order metal-Mott insulator transition in the strong coupling regime. We provide the first accurate estimates of the thermal scales of this model and analyze the NFL phases in terms of resilient quasiparticles and short range magnetic correlations. With our unprecedented access to the low temperature phases and sufficiently large system sizes, we provide the essential benchmarks for the prospective experiments on the Kagome metal and insulators in terms of their thermodynamic, spectroscopic and transport signatures.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# いくつかのシンプレクティック弱超正則化における行列化

Majorization in some symplectic weak supermajorizations ( http://arxiv.org/abs/2404.05795v1 )

ライセンス: Link先を確認
Shaowu Huang, Hemant K. Mishra, (参考訳) シンプレクティック固有値は、いくつかの古典的固有値の不等式のアナログを満たすことが知られている。 これらのうち、シンプレクティック固有値に関する弱い超磁化関係は、固有値に対応するいくつかの偏化関係の弱いアナログである。 本書簡の目的は,多角化によるシンプレクティック・弱い超並列化関係の飽和に必要かつ十分な条件を確立することである。

Symplectic eigenvalues are known to satisfy analogs of several classic eigenvalue inequalities. Of these is a set of weak supermajorization relations concerning symplectic eigenvalues that are weaker analogs of some majorization relations corresponding to eigenvalues. The aim of this letter is to establish necessary and sufficient conditions for the saturation of the symplectic weak supermajorization relations by majorization.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# コヒーレント熱伝達による連続機関の性能向上

Coherent Heat Transfer Leads to Genuine Quantum Enhancement in Performances of Continuous Engines ( http://arxiv.org/abs/2404.05799v1 )

ライセンス: Link先を確認
Brij Mohan, Rajeev Gangwar, Tanmoy Pandit, Mohit Lal Bera, Maciej Lewenstein, Manabendra Nath Bera, (参考訳) 従来の連続量子熱エンジンは、浴槽との非コヒーレントな熱伝達に依存しており、古典的な熱伝達よりも優れた性能を持つ。 本研究では, 浴槽とのコヒーレント熱伝達を利用した連続量子熱機関の導入により, 性能が著しく向上することを示す。 連続エンジンはコヒーレントエンジンと呼ばれ、1つのキュートリット系と2つのフォトニックバスで構成され、システムとホットとコールドバスの間の3体間相互作用を含む2光子遷移によるコヒーレント熱伝達を可能にする。 最も近い量子的非コヒーレントアナログは、キュートリットと浴の間の非コヒーレントな熱伝達のみをシステムと熱いまたは冷たい浴の間の2体相互作用に依存する1光子遷移によって許容するアナログである。 我々は、コヒーレントエンジンが、非コヒーレントエンジンと比較してエンジンの信頼性を示すパワーにおいて、出力がはるかに高く、信号-雑音比がはるかに低いことを実証した。 コヒーレントエンジンは非コヒーレントエンジンよりも古典的でない特徴を示す。 重要なことに、コヒーレントエンジンは熱力学の不確実性関係の量子バージョンによって与えられる信頼性の基本的な低い限界に近づき、信頼性が高い。 何百回もの不整合エンジンによる性能向上とコヒーレントエンジンによる量子限界の飽和は、コヒーレント熱伝達の結果である高エネルギーコヒーレンスを利用する能力に直接起因している。 コヒーレントエンジンの実験的実現可能性と、量子特性がどのように性能を高めるかの理解の改善は、新興量子技術において重要な意味を持つ可能性がある。

The conventional continuous quantum heat engines rely on incoherent heat transfer with the baths and, thus, have limited capability to outperform their classical counterparts. In this work, we introduce distinct continuous quantum heat engines that utilize coherent heat transfer with baths, yielding significant quantum enhancement in performance. These continuous engines, termed as coherent engines, consist of one qutrit system and two photonic baths and enable coherent heat transfer via two-photon transitions involving three-body interactions between the system and hot and cold baths. The closest quantum incoherent analogs are those that only allow incoherent heat transfer between the qutrit and the baths via one-photon transitions relying on two-body interactions between the system and hot or cold baths. We demonstrate that coherent engines deliver much higher power output and a much lower signal-to-noise ratio in power, where the latter signifies the reliability of an engine, compared to incoherent engines. Coherent engines manifest more non-classical features than incoherent engines because they violate the classical thermodynamic uncertainty relation by a greater amount and for a wider range of parameters. Importantly, coherent engines can operate close to or at the fundamental lower limit on reliability given by the quantum version of the thermodynamic uncertainty relation, making them highly reliable. These genuine enhancements in performance by hundreds of folds over incoherent engines and the saturation of the quantum limit by coherent engines are directly attributed to its capacity to harness higher energetic coherence which is, again, a consequence of coherent heat transfer. The experimental feasibility of coherent engines and the improved understanding of how quantum properties can enhance performance may find important implications in emerging quantum technologies.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# BatSort:バッテリソーティングとリサイクルのためのトランスファーラーニングによるバッテリ分類の強化

BatSort: Enhanced Battery Classification with Transfer Learning for Battery Sorting and Recycling ( http://arxiv.org/abs/2404.05802v1 )

ライセンス: Link先を確認
Yunyi Zhao, Wei Zhang, Erhai Hu, Qingyu Yan, Cheng Xiang, King Jet Tseng, Dusit Niyato, (参考訳) 電池リサイクルは、使用済み電池の環境被害と資源の無駄を最小化するための重要なプロセスである。 しかし、バッテリーの分類が高価であり、電池の種類に基づいてバッテリーをグループ化する自動化がほとんどないため、これは難しい。 本稿では,バッテリタイプ分類のための機械学習によるアプローチを導入し,アプリケーションにおけるデータ不足の問題に対処する。 本研究では、大規模なデータセットに最適化された既存の知識を活用するために転送学習を適用し、バッテリータイプを分類するためのResNetをカスタマイズするBatSortを提案する。 筆者らは,小規模の社内バッテリー型データセットを収集し,事例研究として知識伝達を指導し,システム性能の評価を行った。 実験により,BatSortは平均92.1%,最大96.2%の精度を達成でき,バッテリタイプの分類では性能が安定であることが確認された。 我々のソリューションは、低コストで高速かつ自動化されたバッテリーソートを実現するのに役立ち、データ不足の関連業界アプリケーションに転送することができる。

Battery recycling is a critical process for minimizing environmental harm and resource waste for used batteries. However, it is challenging, largely because sorting batteries is costly and hardly automated to group batteries based on battery types. In this paper, we introduce a machine learning-based approach for battery-type classification and address the daunting problem of data scarcity for the application. We propose BatSort which applies transfer learning to utilize the existing knowledge optimized with large-scale datasets and customizes ResNet to be specialized for classifying battery types. We collected our in-house battery-type dataset of small-scale to guide the knowledge transfer as a case study and evaluate the system performance. We conducted an experimental study and the results show that BatSort can achieve outstanding accuracy of 92.1% on average and up to 96.2% and the performance is stable for battery-type classification. Our solution helps realize fast and automated battery sorting with minimized cost and can be transferred to related industry applications with insufficient data.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# Slax:スパイキングニューラルネットワークの高速かつ柔軟なプロトタイピングのための構成可能なJAXライブラリ

Slax: A Composable JAX Library for Rapid and Flexible Prototyping of Spiking Neural Networks ( http://arxiv.org/abs/2404.05807v1 )

ライセンス: Link先を確認
Thomas M. Summe, Siddharth Joshi, (参考訳) スパイキングニューラルネットワーク(SNN)をトレーニングするアルゴリズムの最近の進歩は、しばしば独自のダイナミクスを活用する。 代理勾配を持つバックプロパゲーション (BPTT) がこの分野を支配している一方で、代替品の豊富な風景は、パフォーマンス、生物の楽観性、複雑さの風景において様々な点でアルゴリズムをシチュレートすることができる。 アルゴリズムの評価と比較は、現在、面倒でエラーを起こしやすいプロセスであり、繰り返し再実装する必要がある。 我々は、SNNアルゴリズム設計を加速するために設計されたJAXベースのライブラリであるSlaxを紹介します。 Slaxは多様なトレーニングアルゴリズムの最適化実装を提供し、直接性能比較を可能にする。 そのツールキットには、損失ランドスケープ、勾配類似性、その他のトレーニング中のモデルの振る舞いのメトリクスを通じて、アルゴリズムを視覚化し、デバッグする方法が含まれている。

Recent advances to algorithms for training spiking neural networks (SNNs) often leverage their unique dynamics. While backpropagation through time (BPTT) with surrogate gradients dominate the field, a rich landscape of alternatives can situate algorithms across various points in the performance, bio-plausibility, and complexity landscape. Evaluating and comparing algorithms is currently a cumbersome and error-prone process, requiring them to be repeatedly re-implemented. We introduce Slax, a JAX-based library designed to accelerate SNN algorithm design, compatible with the broader JAX and Flax ecosystem. Slax provides optimized implementations of diverse training algorithms, allowing direct performance comparison. Its toolkit includes methods to visualize and debug algorithms through loss landscapes, gradient similarities, and other metrics of model behavior during training.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 適応型機械学習における多変量因果関係の自己ラベル化と定量化

Self-Labeling in Multivariate Causality and Quantification for Adaptive Machine Learning ( http://arxiv.org/abs/2404.05809v1 )

ライセンス: Link先を確認
Yutian Ren, Aaron Haohua Yen, G. P. Li, (参考訳) 適応機械学習(Adaptive Machine Learning, ML)は、MLモデルがモデルデプロイ後のコンセプトドリフトの可能性を秘めた、絶えず変化する環境への適応を可能にすることを目的とする。 従来、アダプティブMLは、データ分散を変更するためにデプロイされたモデルを手動でカスタマイズするために、新しいデータセットをラベル付けする必要がある。 近年、ドメイン適応のための因果関係データストリームを自律的に関連付けるための対話型因果関係に基づく自己ラベル手法が提案され、従来の特徴類似性に基づく半教師付き学習と比較して有望な結果が得られた。 自己ラベルの多変量因果関係との整合性や、自己ラベルに使用される補助モデルの定量的解析など、いくつかの未解決の研究課題が残っている。 補助モデル、相互作用時間モデル(ITM)とエフェクト状態検出器(ESD)は、自己ラベルの成功に不可欠である。 本稿では,これらの研究課題に対処する自己ラベルフレームワークとその理論的基盤をさらに発展させる。 多変量因果グラフへの自己ラベル適用のためのフレームワークを4つの基本因果関係を用いて提案し、非理想的IMMとESD性能の影響を解析した。 多変量因果グラフに基づいてシミュレーション実験を行い,提案理論を検証した。

Adaptive machine learning (ML) aims to allow ML models to adapt to ever-changing environments with potential concept drift after model deployment. Traditionally, adaptive ML requires a new dataset to be manually labeled to tailor deployed models to altered data distributions. Recently, an interactive causality based self-labeling method was proposed to autonomously associate causally related data streams for domain adaptation, showing promising results compared to traditional feature similarity-based semi-supervised learning. Several unanswered research questions remain, including self-labeling's compatibility with multivariate causality and the quantitative analysis of the auxiliary models used in the self-labeling. The auxiliary models, the interaction time model (ITM) and the effect state detector (ESD), are vital to the success of self-labeling. This paper further develops the self-labeling framework and its theoretical foundations to address these research questions. A framework for the application of self-labeling to multivariate causal graphs is proposed using four basic causal relationships, and the impact of non-ideal ITM and ESD performance is analyzed. A simulated experiment is conducted based on a multivariate causal graph, validating the proposed theory.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 動的冷却による地盤状態の調製

Ground State Preparation via Dynamical Cooling ( http://arxiv.org/abs/2404.05810v1 )

ライセンス: Link先を確認
Danial Motlagh, Modjtaba Shokrian Zini, Juan Miguel Arrazola, Nathan Wiebe, (参考訳) 量子系の基底状態特性を探索するための量子アルゴリズムは、良好な初期状態を必要とする。 固有値フィルタリングのような射影に基づく手法は、大きな強相関系では困難である低エネルギー部分空間と大きな重なりを持つ入力に依存する。 この問題は、熱力学的冷却のような物理的に着想を得た動的アプローチの研究を動機付けている。 本研究では,量子力学シミュレーションに基づく基底状態生成アルゴリズムを提案する。 我々の主な洞察は、量子信号処理によってシフト符号関数によってハミルトンを変換し、固有値を大きなギャップで分離された正および負の部分空間に効果的にマッピングすることである。 これにより、各部分空間内のすべての状態が変換されたハミルトニアンに対してエネルギーを保存することが自動的に保証される。 その後、摂動ハミルトニアンによる時間進化は、不要な高エネルギー状態へのジャンプを防止しながら、低エネルギー状態への遷移を誘導する。 このアプローチはエネルギーギャップの事前知識に頼らず、入浴をモデル化するために追加のキュービットを必要としない。 さらに、システムの時間進化演算子に対する$\tilde{\mathcal{O}}(d^{\,3/2}/\epsilon)$クエリと、摂動のブロックエンコーディングに対する$$\tilde{\mathcal{O}}(d^{\,3/2})$クエリを、$d$冷却ステップと$\epsilon$正確なエネルギー解決のために$\tilde{\mathcal{O}}(d^{\,3/2})$にする。 本研究は,量子信号処理とハミルトンシミュレーションを組み合わせて,地中準備のためのヒューリスティックな量子アルゴリズムを設計するための枠組みを提供する。

Quantum algorithms for probing ground-state properties of quantum systems require good initial states. Projection-based methods such as eigenvalue filtering rely on inputs that have a significant overlap with the low-energy subspace, which can be challenging for large, strongly-correlated systems. This issue has motivated the study of physically-inspired dynamical approaches such as thermodynamic cooling. In this work, we introduce a ground-state preparation algorithm based on the simulation of quantum dynamics. Our main insight is to transform the Hamiltonian by a shifted sign function via quantum signal processing, effectively mapping eigenvalues into positive and negative subspaces separated by a large gap. This automatically ensures that all states within each subspace conserve energy with respect to the transformed Hamiltonian. Subsequent time-evolution with a perturbed Hamiltonian induces transitions to lower-energy states while preventing unwanted jumps to higher energy states. The approach does not rely on a priori knowledge of energy gaps and requires no additional qubits to model a bath. Furthermore, it makes $\tilde{\mathcal{O}}(d^{\,3/2}/\epsilon)$ queries to the time-evolution operator of the system and $\tilde{\mathcal{O}}(d^{\,3/2})$ queries to a block-encoding of the perturbation, for $d$ cooling steps and an $\epsilon$-accurate energy resolution. Our results provide a framework for combining quantum signal processing and Hamiltonian simulation to design heuristic quantum algorithms for ground-state preparation.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 説明可能な自律神経解剖学を目指して

Towards Explainable Automated Neuroanatomy ( http://arxiv.org/abs/2404.05814v1 )

ライセンス: Link先を確認
Kui Qian, Litao Qiao, Beth Friedman, Edward O'Donnell, David Kleinfeld, Yoav Freund, (参考訳) 脳組織の微細構造を定量化する新しい方法を提案する。 これは、細胞の形状を分析することによって得られる解釈可能な特徴の自動認識に基づいている。 これは、脳解剖学的分析の一般的な方法とは2つの点で対照的である。 まず,解剖学的画像のスムーズ化バージョンから得られたグレースケールの値を用いて,画像のテクスチャから貴重な情報を抽出する。 第二に、現代の分析では、ブラックボックスの畳み込みニューラルネットワークの出力を用いており、一方、本システムは、個々の細胞の形状を分析して得られる解釈可能な特徴に基づいて決定を行う。 このオープンボックスアプローチの重要な利点は、解剖学者がコンピュータによってなされた決定を理解し、修正できることである。 提案システムは,既存の脳構造を正確に同定する。 これは脳のアライメントとコアギスターに利用することができ、脳回路のリバースエンジニアリングのためのコネクトロミクス研究を促進する。

We present a novel method for quantifying the microscopic structure of brain tissue. It is based on the automated recognition of interpretable features obtained by analyzing the shapes of cells. This contrasts with prevailing methods of brain anatomical analysis in two ways. First, contemporary methods use gray-scale values derived from smoothed version of the anatomical images, which dissipated valuable information from the texture of the images. Second, contemporary analysis uses the output of black-box Convolutional Neural Networks, while our system makes decisions based on interpretable features obtained by analyzing the shapes of individual cells. An important benefit of this open-box approach is that the anatomist can understand and correct the decisions made by the computer. Our proposed system can accurately localize and identify existing brain structures. This can be used to align and coregistar brains and will facilitate connectomic studies for reverse engineering of brain circuitry.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 確率密度関数の集中度推定器

Centrality Estimators for Probability Density Functions ( http://arxiv.org/abs/2404.05816v1 )

ライセンス: Link先を確認
Djemel Ziou, (参考訳) 本稿では,集中度を最大化する推定器群に導かれるデータ選択について検討する。 この族は、我々が定義したいくつかの基準に従って、正確で頑健な確率密度関数に適合する良い性質を許す。 中心性推定器と最大極大度との関係を確立し、後者が特定の場合であることを示す。 そのため、フィッシャー最大値の新しい確率解釈が提供される。 我々は、H\older と Lehmer という2つの特定の中心性を紹介し、研究する。 機械学習、データマイニング、統計、データ分析における新しい概念とアルゴリズムの開発への扉を開く推定器のファミリーの有効性を示す数値シミュレーションが提供される。

In this report, we explore the data selection leading to a family of estimators maximizing a centrality. The family allows a nice properties leading to accurate and robust probability density function fitting according to some criteria we define. We establish a link between the centrality estimator and the maximum likelihood, showing that the latter is a particular case. Therefore, a new probability interpretation of Fisher maximum likelihood is provided. We will introduce and study two specific centralities that we have named H\"older and Lehmer estimators. A numerical simulation is provided showing the effectiveness of the proposed families of estimators opening the door to development of new concepts and algorithms in machine learning, data mining, statistics, and data analysis.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 物理インフォームドニューラルネットワークとガウス過程のためのラベル伝搬学習手法

Label Propagation Training Schemes for Physics-Informed Neural Networks and Gaussian Processes ( http://arxiv.org/abs/2404.05817v1 )

ライセンス: Link先を確認
Ming Zhong, Dehao Liu, Raymundo Arroyave, Ulisses Braga-Neto, (参考訳) 本稿では,物理情報を用いた機械学習手法の訓練のための半教師付き方法論を提案する。 これには、物理インフォームドニューラルネットワークの自己学習、物理インフォームドガウス過程の分離、コトレーニングによる2つの統合が含まれる。 物理インフォームド・機械学習の一般的な障害モードである情報伝達の時間を延ばすという問題を,これらの手法がいかに改善できるかを,広範な数値実験で実証する。

This paper proposes a semi-supervised methodology for training physics-informed machine learning methods. This includes self-training of physics-informed neural networks and physics-informed Gaussian processes in isolation, and the integration of the two via co-training. We demonstrate via extensive numerical experiments how these methods can ameliorate the issue of propagating information forward in time, which is a common failure mode of physics-informed machine learning.
翻訳日:2024-04-10 18:48:28 公開日:2024-04-08
# 正解:マルコフ系列における欠落質量の最適推定

Just Wing It: Optimal Estimation of Missing Mass in a Markovian Sequence ( http://arxiv.org/abs/2404.05819v1 )

ライセンス: Link先を確認
Ashwin Pananjady, Vidya Muthukumar, Andrew Thangaraj, (参考訳) 我々は、離散時間エルゴード型マルコフ連鎖の1つの軌道から欠落している静止質量(ユニグラム質量とも呼ばれる)を推定する問題を研究する。 この問題にはいくつかの応用があり、例えば、定常欠落質量の推定は、シーケンスモデルにおける確率推定を正確に滑らかにするために重要である。1950年代の古典的グッドチューリング推定器は、i.d.データに対して魅力的な性質を持っているが、マルコフ設定では偏りがあることが知られており、他のヒューリスティック推定器には保証が備わっていない。 状態空間のサイズが軌跡の長さ$n$よりもはるかに大きいような一般的な設定で、我々は 'emph{Windowed Good-Turing} (\textsc{WingIt}) と呼ばれる線形実行時推定器を開発し、そのリスクが$\widetilde{\mathcal{O}}(\mathsf{T_{mix}}/n)$として崩壊することを示す。 特に、この速度は状態空間のサイズとは独立であり、対数係数が$n / \mathsf{T_{mix}}$までミニマックス最適化される。 また、欠落したマスランダム変数のばらつきについて、独立な興味を持つかもしれない境界を示す。 我々は、X^n$の小さな周波数で発生する要素上の定常質量を近似するために、推定器を拡張した。 最後に、正規鎖上のシミュレーションと、人気のある自然言語コーパスから構築されたシーケンスにおける推定器の有効性を実証する。

We study the problem of estimating the stationary mass -- also called the unigram mass -- that is missing from a single trajectory of a discrete-time, ergodic Markov chain. This problem has several applications -- for example, estimating the stationary missing mass is critical for accurately smoothing probability estimates in sequence models. While the classical Good--Turing estimator from the 1950s has appealing properties for i.i.d. data, it is known to be biased in the Markov setting, and other heuristic estimators do not come equipped with guarantees. Operating in the general setting in which the size of the state space may be much larger than the length $n$ of the trajectory, we develop a linear-runtime estimator called \emph{Windowed Good--Turing} (\textsc{WingIt}) and show that its risk decays as $\widetilde{\mathcal{O}}(\mathsf{T_{mix}}/n)$, where $\mathsf{T_{mix}}$ denotes the mixing time of the chain in total variation distance. Notably, this rate is independent of the size of the state space and minimax-optimal up to a logarithmic factor in $n / \mathsf{T_{mix}}$. We also present a bound on the variance of the missing mass random variable, which may be of independent interest. We extend our estimator to approximate the stationary mass placed on elements occurring with small frequency in $X^n$. Finally, we demonstrate the efficacy of our estimators both in simulations on canonical chains and on sequences constructed from a popular natural language corpus.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# 被覆通信路のCPUクロック変調

Exploiting CPU Clock Modulation for Covert Communication Channel ( http://arxiv.org/abs/2404.05823v1 )

ライセンス: Link先を確認
Shariful Alam, Jidong Xiao, Nasir U. Eisty, (参考訳) 隠蔽チャネル攻撃はシステムセキュリティに対する重大な脅威であり、共有リソースを利用して高度にセキュアなシステムから情報を秘密裏に送信し、システムのセキュリティポリシーに違反する。 これらの攻撃は共有リソースを通信チャネルとして利用し、リソース分割と分離を対策として必要とします。 しかし、最新のプロセッサのハードウェア機能を利用して情報を漏洩させる攻撃は、チャネルの存在を隠蔽できるため、困難である。 本稿では,現代のx86プロセッサのデューティサイクル変調機能を利用した新しい隠蔽チャネルを公表する。 具体的には、送信機と受信機という2つの共同作業プロセスが、この機能を操作し、機密情報を漸近的に送信する方法について説明する。 我々のライブシステム実装は、この秘密チャネルが最大55.24ビット/秒のデータ転送速度を達成できることを実証している。

Covert channel attacks represent a significant threat to system security, leveraging shared resources to clandestinely transmit information from highly secure systems, thereby violating the system's security policies. These attacks exploit shared resources as communication channels, necessitating resource partitioning and isolation techniques as countermeasures. However, mitigating attacks exploiting modern processors' hardware features to leak information is challenging because successful attacks can conceal the channel's existence. In this paper, we unveil a novel covert channel exploiting the duty cycle modulation feature of modern x86 processors. Specifically, we illustrate how two collaborating processes, a sender and a receiver can manipulate this feature to transmit sensitive information surreptitiously. Our live system implementation demonstrates that this covert channel can achieve a data transfer rate of up to 55.24 bits per second.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# カーネル法における量子逆学習

Quantum Adversarial Learning for Kernel Methods ( http://arxiv.org/abs/2404.05824v1 )

ライセンス: Link先を確認
Giuseppe Montalbano, Leonardo Banchi, (参考訳) 量子カーネル法およびサポートベクトルマシンに基づくハイブリッド量子分類器は、敵攻撃に対して脆弱であることを示す。 それにもかかわらず、データ拡張に基づく単純な防御戦略が、いくつかの手作りの摂動によって、新たな攻撃に対して、分類器を堅牢にすることができることも示している。 この結果から,セキュリティクリティカルな学習問題や,攻撃者が周囲の環境の一部として理解できるため,ある種の量子ノイズの影響を軽減できる可能性が示唆された。

We show that hybrid quantum classifiers based on quantum kernel methods and support vector machines are vulnerable against adversarial attacks, namely small engineered perturbations of the input data can deceive the classifier into predicting the wrong result. Nonetheless, we also show that simple defence strategies based on data augmentation with a few crafted perturbations can make the classifier robust against new attacks. Our results find applications in security-critical learning problems and in mitigating the effect of some forms of quantum noise, since the attacker can also be understood as part of the surrounding environment.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# LLM強化検索:言語モデルとドキュメントレベル埋め込みによる検索モデルの強化

LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding ( http://arxiv.org/abs/2404.05825v1 )

ライセンス: Link先を確認
Mingrui Wu, Sheng Cao, (参考訳) 近年, 埋込型検索や密集型検索は, 従来のスパースやバッグ・オブ・ワードによる手法と比較して, 最先端の結果を示している。 本稿では,大規模言語モデル(LLM)によるモデルに依存しないドキュメントレベルの埋め込みフレームワークを提案する。 さらに、ネガティブサンプリングや損失関数など、検索モデルトレーニングプロセスの重要なコンポーネントも改善されている。 このLLM拡張検索フレームワークを実装することで、Biエンコーダ(Contriever, DRAGON)やレイト・インタラクション・モデル(ColBERTv2)といった広く使われている検索モデルの有効性を大幅に向上し、LoTTEデータセットとBEIRデータセットの最先端結果を得ることができた。

Recently embedding-based retrieval or dense retrieval have shown state of the art results, compared with traditional sparse or bag-of-words based approaches. This paper introduces a model-agnostic doc-level embedding framework through large language model (LLM) augmentation. In addition, it also improves some important components in the retrieval model training process, such as negative sampling, loss function, etc. By implementing this LLM-augmented retrieval framework, we have been able to significantly improve the effectiveness of widely-used retriever models such as Bi-encoders (Contriever, DRAGON) and late-interaction models (ColBERTv2), thereby achieving state-of-the-art results on LoTTE datasets and BEIR datasets.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# ICSE技術論文と関連アーティファクトの長期利用パターン

Decade-long Utilization Patterns of ICSE Technical Papers and Associated Artifacts ( http://arxiv.org/abs/2404.05826v1 )

ライセンス: Link先を確認
Sharif Ahmed, Rey Ortiz, Nasir U. Eisty, (参考訳) コンテキスト: ICSEは毎年,さまざまな論文を認識します。そのサブセットは,ソースコードやデータセット,補足資料といった研究成果物と組み合わせて,オープンサイエンスポリシーに準拠しています。 しかし, ICSE論文の影響について, アーティファクト属性を用いた事前の系統的な調査は行われていない。 目的:10年以上にわたってICSEで発表されたアーティファクトと関連する論文の相互影響について検討する。 方法: 論文とそのアーティファクトから利用属性のデータを収集し, 違いを特定する統計的評価を行い, 各属性カテゴリの上位5論文を分析した。 結果: 論文引用と関連するアーティファクトの使用には大きな違いがある。 統計分析では、論文引用とGitHubのスターの間に顕著な違いはないが、資料やアーティファクトのビューやダウンロードに違いがある。 結論: ICSEが過去10年間に受理した論文の概要を概観し, 研究論文とアーティファクトとの複雑な関係を強調した。 ソフトウェア研究におけるアーティファクトの影響を評価するため、あるプラットフォームに存在するが別のプラットフォームには存在しない重要な属性を検討することを推奨する。

Context: Annually, ICSE acknowledges a range of papers, a subset of which are paired with research artifacts such as source code, datasets, and supplementary materials, adhering to the Open Science Policy. However, no prior systematic inquiry dives into gauging the influence of ICSE papers using artifact attributes. Objective: We explore the mutual impact between artifacts and their associated papers presented at ICSE over ten years. Method: We collect data on usage attributes from papers and their artifacts, conduct a statistical assessment to identify differences, and analyze the top five papers in each attribute category. Results: There is a significant difference between paper citations and the usage of associated artifacts. While statistical analyses show no notable difference between paper citations and GitHub stars, variations exist in views and/or downloads of papers and artifacts. Conclusion: We provide a thorough overview of ICSE's accepted papers from the last decade, emphasizing the intricate relationship between research papers and their artifacts. To enhance the assessment of artifact influence in software research, we recommend considering key attributes that may be present in one platform but not in another.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# 安全なタスク学習のための変形可能な演算子を用いたプライバシー保護深層学習

Privacy-Preserving Deep Learning Using Deformable Operators for Secure Task Learning ( http://arxiv.org/abs/2404.05828v1 )

ライセンス: Link先を確認
Fabian Perez, Jhon Lopez, Henry Arguello, (参考訳) クラウドコンピューティングとデータ駆動アプリケーションの時代において、機密情報を保護し、データのプライバシを維持し、真に信頼できるシステムを保証することが不可欠である。 その結果,ディープラーニングシステムにおけるプライバシ保護が重要な問題となっている。 既存のプライバシー保護方法は、画像暗号化や知覚変換アプローチに依存している。 しかし、それらはしばしばタスク性能の低下と高い計算コストに悩まされる。 これらの課題に対処するために,変形可能な演算子の集合をセキュアなタスク学習に用いる新しいプライバシ保存フレームワークを提案する。 本手法では,アナログ・デジタル変換プロセス中に画素をシャッフルして視覚的に保護されたデータを生成する。 それらは、変形可能な演算子によって強化されたよく知られたネットワークにフィードされる。 提案手法を用いることで,秘密鍵を用いた追加トレーニングを行なわずに,オリジナル画像と同等のパフォーマンスを達成できる。 さらに,認証されていないユーザに対してアクセス制御を行う方法を提案する。 実験により,クラウドベースのシナリオやプライバシに敏感なアプリケーションにおいて,本手法の有効性が示された。

In the era of cloud computing and data-driven applications, it is crucial to protect sensitive information to maintain data privacy, ensuring truly reliable systems. As a result, preserving privacy in deep learning systems has become a critical concern. Existing methods for privacy preservation rely on image encryption or perceptual transformation approaches. However, they often suffer from reduced task performance and high computational costs. To address these challenges, we propose a novel Privacy-Preserving framework that uses a set of deformable operators for secure task learning. Our method involves shuffling pixels during the analog-to-digital conversion process to generate visually protected data. Those are then fed into a well-known network enhanced with deformable operators. Using our approach, users can achieve equivalent performance to original images without additional training using a secret key. Moreover, our method enables access control against unauthorized users. Experimental results demonstrate the efficacy of our approach, showcasing its potential in cloud-based scenarios and privacy-sensitive applications.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# SambaLingo: 大規模言語モデルに新しい言語を教える

SambaLingo: Teaching Large Language Models New Languages ( http://arxiv.org/abs/2404.05829v1 )

ライセンス: Link先を確認
Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker, (参考訳) LLMが広く利用可能であるにもかかわらず、その能力と様々な言語での可用性には大きなギャップが残っている。 これらの問題に対処する1つのアプローチは、既存のトレーニング済みのLLMを新しい言語でトレーニングし続けることである。 以前の研究は言語適応を実験してきたが、ベストプラクティスや方法論に関する多くの質問はカバーされていない。 本稿では,LLMの新たな言語への適応について,包括的に検討する。 本研究は、語彙拡張、直接選好最適化、低リソース言語における人間のアライメントのためのデータ不足問題など、このプロセスにおける重要な要素について述べる。 9つの言語と2つのパラメータスケール(7Bと70B)にまたがってこれらの実験をスケールします。 Llama 2、Aya-101、XGLM、BLOOM、および既存の言語専門家に対して、我々のモデルを比較した。 さらに、将来の研究を促進するため、すべての評価コードとチェックポイントが公開されています。

Despite the widespread availability of LLMs, there remains a substantial gap in their capabilities and availability across diverse languages. One approach to address these issues has been to take an existing pre-trained LLM and continue to train it on new languages. While prior works have experimented with language adaptation, many questions around best practices and methodology have not been covered. In this paper, we present a comprehensive investigation into the adaptation of LLMs to new languages. Our study covers the key components in this process, including vocabulary extension, direct preference optimization and the data scarcity problem for human alignment in low-resource languages. We scale these experiments across 9 languages and 2 parameter scales (7B and 70B). We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing language experts, outperforming all prior published baselines. Additionally, all evaluation code and checkpoints are made public to facilitate future research.
翻訳日:2024-04-10 18:38:40 公開日:2024-04-08
# パラメータ適応近似MPC:再学習不要なニューラルネットワーク制御器のチューニング

Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Re-Training ( http://arxiv.org/abs/2404.05835v1 )

ライセンス: Link先を確認
Henrik Hose, Alexander Gräfe, Sebastian Trimpe, (参考訳) モデル予測制御(MPC)は、安定性と制約満足度を保証する非線形システムを制御する手法であるが、高い計算時間に悩まされている。 ニューラルネットワーク(NN)を備えた近似MPC(AMPC)がこの制限に対処するために登場し、リソースに制約のある組み込みシステムへのデプロイを可能にした。 しかし、現実世界のシステム向けにAMPCをチューニングする場合、大きなデータセットを再生し、チューニングステップ毎にNNを再トレーニングする必要がある。 この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。 非線形プログラムの局所的な感度を取り入れることで、最適MPC入力を模倣するだけでなく、線形予測を用いてモデルの物理パラメータの変化を調整し、安定性を保証できる。 資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。 異なるパラメータを持つ両方のシステムインスタンスで同じNNを使用します。 この研究は、低コストのMCU上での高速移動システムのためのAMPCの実証実験を、私たちの知識の最大限に活用するだけでなく、システムインスタンス間の一般化やパラメータ適応手法によるバリエーションも示している。 これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。

Model Predictive Control (MPC) is a method to control nonlinear systems with guaranteed stability and constraint satisfaction but suffers from high computation times. Approximate MPC (AMPC) with neural networks (NNs) has emerged to address this limitation, enabling deployment on resource-constrained embedded systems. However, when tuning AMPCs for real-world systems, large datasets need to be regenerated and the NN needs to be retrained at every tuning step. This work introduces a novel, parameter-adaptive AMPC architecture capable of online tuning without recomputing large datasets and retraining. By incorporating local sensitivities of nonlinear programs, the proposed method not only mimics optimal MPC inputs but also adjusts to changes in physical parameters of the model using linear predictions while still guaranteeing stability. We showcase the effectiveness of parameter-adaptive AMPC by controlling the swing-ups of two different real cartpole systems with a severely resource-constrained microcontroller (MCU). We use the same NN across both system instances that have different parameters. This work not only represents the first experimental demonstration of AMPC for fast-moving systems on low-cost MCUs to the best of our knowledge, but also showcases generalization across system instances and variations through our parameter-adaptation method. Taken together, these contributions represent a marked step toward the practical application of AMPC in real-world systems.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# ロボットプロセス自動化における潜時トピックの展開 -潜時ディリクレ割当スマートレビューに基づくアプローチ-

Unveiling Latent Topics in Robotic Process Automation -- an Approach based on Latent Dirichlet Allocation Smart Review ( http://arxiv.org/abs/2404.05836v1 )

ライセンス: Link先を確認
Petr Prucha, Peter Madzik, Lukas Falat, Hajo A. Reijers, (参考訳) ロボットプロセス自動化(RPA)は、近年多くの注目を集め、人気を集めているソフトウェア技術である。 RPAの研究は、これまで複数の研究ストリームに広がってきた。 本研究は, RPA研究の関心, 影響, 時間的発達に関連する潜在トピックを明らかにすることで, RPAとその側面の科学マップを作成することを目的とする。 我々は,この技術のさらなる研究に役立つ体系的な枠組みを提供する。 遅延ディリクレ割当に基づく教師なし機械学習手法を用いて2000以上の論文の要約を分析することができた。 このうち、100の異なる研究トピックが発見され、そのうち15のトピックが私たちが提供しているサイエンスマップに含まれています。

Robotic process automation (RPA) is a software technology that in recent years has gained a lot of attention and popularity. By now, research on RPA has spread into multiple research streams. This study aims to create a science map of RPA and its aspects by revealing latent topics related to RPA, their research interest, impact, and time development. We provide a systematic framework that is helpful to develop further research into this technology. By using an unsupervised machine learning method based on Latent Dirichlet Allocation, we were able to analyse over 2000 paper abstracts. Among these, we found 100 distinct study topics, 15 of which have been included in the science map we provide.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# 2024年エヴァラティンのラテンパイプ:ラテンのモルフォシンタクティック分析

ÚFAL LatinPipe at EvaLatin 2024: Morphosyntactic Analysis of Latin ( http://arxiv.org/abs/2404.05839v1 )

ライセンス: Link先を確認
Milan Straka, Jana Straková, Federica Gamba, (参考訳) 我々は、EvaLatin 2024 Dependency Parsing 共有タスクの受賞申請である LatinPipe を提示する。 本システムでは, 基本および大型の事前学習型LMの微調整による連結と, 係り受け解析と形態解析の両方を共同で学習する形態学用ドット積アテンションヘッド, ソフトマックス分類ヘッドから構成される。 これは、より統一されたアノテーションスタイルを達成するために、アノテーションの追加調和を利用して、利用可能な7つのラテンコーパスからのサンプリングによって訓練される。 微調整の前に、凍結重量のあるいくつかの初期エポックでシステムを訓練する。 また、Transformer(s)上にBiLSTMレイヤを積み重ねることで、局所的な相対的コンテキスト化も追加します。 最後に、7つのランダムにインスタンス化されたネットワークから出力された確率分布を最終提出のためにアンサンブルする。 コードはhttps://github.com/ufal/evalatin2024-latinpipeで公開されている。

We present LatinPipe, the winning submission to the EvaLatin 2024 Dependency Parsing shared task. Our system consists of a fine-tuned concatenation of base and large pre-trained LMs, with a dot-product attention head for parsing and softmax classification heads for morphology to jointly learn both dependency parsing and morphological analysis. It is trained by sampling from seven publicly available Latin corpora, utilizing additional harmonization of annotations to achieve a more unified annotation style. Before fine-tuning, we train the system for a few initial epochs with frozen weights. We also add additional local relative contextualization by stacking the BiLSTM layers on top of the Transformer(s). Finally, we ensemble output probability distributions from seven randomly instantiated networks for the final submission. The code is available at https://github.com/ufal/evalatin2024-latinpipe.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# 注意駆動型マルチエージェント強化学習:エキスパートインフォームドタスクによる意思決定の強化

Attention-Driven Multi-Agent Reinforcement Learning: Enhancing Decisions with Expertise-Informed Tasks ( http://arxiv.org/abs/2404.05840v1 )

ライセンス: Link先を確認
Andre R Kuroswiski, Annie S Wu, Angelo Passaro, (参考訳) 本稿では,ドメイン知識とアテンションに基づく政策機構を統合することで,MARL(Multi-Agent Reinforcement Learning)を強化するための代替手法を提案する。 本手法は,協調行動の開発を簡略化する学習プロセスにドメイン特化専門知識を取り入れることに重点を置いている。 このアプローチは、エージェントが複雑なタスクの本質的な側面に集中できるようにし、学習曲線を最適化することにより、MARLに典型的な複雑性と学習オーバーヘッドを減らすことを目的としている。 注意機構の利用は,我々のモデルにおいて重要な役割を担っている。 動的コンテキストデータの効率的な処理とニュアンスされたエージェントインタラクションを可能にし、より洗練された意思決定につながる。 本手法は,Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spreadなどの標準的なMARLシナリオに適用し,学習効率と協調行動の有効性を両立させる。 その結果、我々の注意に基づくアプローチは、MARLトレーニングプロセスの効率を向上し、ドメイン固有の知識をアクションレベルで統合するための有効なアプローチである可能性が示唆された。

In this paper, we introduce an alternative approach to enhancing Multi-Agent Reinforcement Learning (MARL) through the integration of domain knowledge and attention-based policy mechanisms. Our methodology focuses on the incorporation of domain-specific expertise into the learning process, which simplifies the development of collaborative behaviors. This approach aims to reduce the complexity and learning overhead typically associated with MARL by enabling agents to concentrate on essential aspects of complex tasks, thus optimizing the learning curve. The utilization of attention mechanisms plays a key role in our model. It allows for the effective processing of dynamic context data and nuanced agent interactions, leading to more refined decision-making. Applied in standard MARL scenarios, such as the Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spread, our method has been shown to improve both learning efficiency and the effectiveness of collaborative behaviors. The results indicate that our attention-based approach can be a viable approach for improving the efficiency of MARL training process, integrating domain-specific knowledge at the action level.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# トークンあたりのコストを一定に設定したSoftmaxアテンション

Softmax Attention with Constant Cost per Token ( http://arxiv.org/abs/2404.05843v1 )

ライセンス: Link先を確認
Franz A. Heinsen, (参考訳) そこで我々は,Transformers が適用した従来の注意機構の簡単な修正を提案し,拡張ドット積とペアワイズクエリキーの類似性を定量化するのではなく,指数関数のスケールドット積の対数で定量化する。 注意は、線形化可能な指数関数の対数の合成として表現され、一定の大きさの潜在空間を持ち、トークンあたりの時間と空間の複雑さの連続的な適用を可能にする。 われわれは修正を実施し、実際に動作していることを確認し、従来の注意の代替として有望なものであると結論づける。

We propose a simple modification to the conventional attention mechanism applied by Transformers: Instead of quantifying pairwise query-key similarity with scaled dot-products, we quantify it with the logarithms of scaled dot-products of exponentials. Attention becomes expressible as a composition of log-sums of exponentials that is linearizable, with a latent space of constant size, enabling sequential application with constant time and space complexity per token. We implement our modification, verify that it works in practice, and conclude that it is a promising alternative to conventional attention.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# 非線形ホロノミック量子計算の実行に必要な時間の推定

Estimate of the time required to perform a nonadiabatic holonomic quantum computation ( http://arxiv.org/abs/2404.05844v1 )

ライセンス: Link先を確認
Ole Sönnerborn, (参考訳) 非断熱ホロノミック量子計算は、断熱ホロノミック量子計算と同じ堅牢性を持つが、実行時間が短い量子論理ゲートを実装する方法として提案されている。 本稿では,量子ゲートの等ホロノミック不等式を確立し,特定のゲートを生成する計算空間の巡回変換の長さを低くする。 その後,ホロノミックゲートの非断熱的実行時間推定を導出する。 さらに、ある次元条件下では、計算空間上の全てのゲートを時間-最適にホロノミカルかつ一元的に実装できるという意味で、等ホロノミック不等式が厳密であることを示す。 本稿では, 非線形ホロノミック量子計算の先駆的な論文で提案された普遍的なホロノミックゲートの実装手順がイソノミック不等式を飽和させ, 時間的最適であることを示す。

Nonadiabatic holonomic quantum computation has been proposed as a method for implementing quantum logic gates with the same robustness as adiabatic holonomic quantum computation but with shorter execution times. In this paper, we establish an isoholonomic inequality for quantum gates, which provides a lower bound on the lengths of cyclic transformations of the computational space that generate a specific gate. Then, as a corollary, we derive a nonadiabatic execution time estimate for holonomic gates. In addition, we demonstrate that under certain dimensional conditions, the isoholonomic inequality is tight in the sense that every gate on the computational space can be implemented holonomically and unitarily in a time-optimal way. We illustrate the results by showing that the procedures for implementing a universal set of holonomic gates proposed in a pioneering paper on nonadiabatic holonomic quantum computation saturate the isoholonomic inequality and are thus time-optimal.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# ツリーベースとハイブリッドグラフィカルテキストモデルエディタ:テスト仕様に関する実証的研究

Tree-Based versus Hybrid Graphical-Textual Model Editors: An Empirical Study of Testing Specifications ( http://arxiv.org/abs/2404.05846v1 )

ライセンス: Link先を確認
Ionut Predoaia, James Harbin, Simos Gerasimou, Christina Vasiliou, Dimitris Kolovos, Antonio García-Domínguez, (参考訳) ツリーベースのモデルエディタとハイブリッドなグラフィカルテキストモデルエディタは、ドメインモデルを編集する際の利点と制限がある。 データは木ベースのモデルエディターに階層的に表示されるが、ハイブリッドなグラフィカルテキストモデルエディターは高レベルのドメイン概念をグラフィカルに、低レベルのドメインの詳細をテキスト的にキャプチャする。 筆者らは22名の被験者を対象に実験を行い,ハイブリッド表記が優れているというシステムモデラーの暗黙の仮定を評価し,ツリーベースとハイブリッドモデルエディタのトレードオフについて検討した。 ユーザスタディの結果は、ユーザが主にハイブリッドエディタを好んでおり、条件の意味を理解するためのハイブリッド表記に自信があることを示唆している。 さらに,モデル要素の順序付きリストを解析する上で,ツリーエディタが優れており,複雑な条件の理解やモデル化が必要なアクティビティが,ハイブリッドエディタによってより高速に実行されることがわかった。

Tree-based model editors and hybrid graphical-textual model editors have advantages and limitations when editing domain models. Data is displayed hierarchically in tree-based model editors, whereas hybrid graphical-textual model editors capture high-level domain concepts graphically and low-level domain details textually. We conducted an empirical user study with 22 participants, to evaluate the implicit assumption of system modellers that hybrid notations are superior, and to investigate the tradeoffs between tree-based and hybrid model editors. The results of the user study indicate that users largely prefer hybrid editors and are more confident with hybrid notations for understanding the meaning of conditions. Furthermore, we found that tree editors provide superior performance for analysing ordered lists of model elements, whereas activities requiring the comprehension or modelling of complex conditions are carried out faster through a hybrid editor.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# 創発的リスクへのアプローチ:金融組織における人工知能リスクマネジメントの探索的研究

Approaching Emergent Risks: An Exploratory Study into Artificial Intelligence Risk Management within Financial Organisations ( http://arxiv.org/abs/2404.05847v1 )

ライセンス: Link先を確認
Finlay McGee, (参考訳) 世界的には、人工知能(AI)の実装が増加しており、組織的なプロセスや意思決定を根本的に変更する能力を持っている。 同時に、これは組織に多数の緊急リスクをもたらし、既存のリスク管理フレームワークの脆弱性を露呈する。 このことは、組織がそれに対応する上でどのように自らを位置づけるかを、より深く理解する必要がある。 この問題は金融セクターにおいて特に重要であり、比較的成熟したAIアプリケーションは潜在的なリスクイベントの深刻な社会的反感と一致している。 それにもかかわらず、学術的リスクマネジメントの文献は、AI実装のスピードに遅れを取っている。 本研究は,組織におけるAIリスク管理の理解に資することを目的として,これらの実践に関する探索的実証的研究を行った。 深い洞察は、英国金融セクター内の異なる組織の9人の実践者へのインタビューを通じて得られる。 組織的な収束と分散の領域を調べることで,リスク管理フレームワークの即応性と,プロセスレベルと組織レベルでのリスク管理に対する一般的なアプローチを解明する。 AIリスク管理フレームワークの運用開発において,実践者にとって重要なガイダンスを提供すると同時に,組織内のAIリスク管理に関する文献の充実も図っている。

Globally, artificial intelligence (AI) implementation is growing, holding the capability to fundamentally alter organisational processes and decision making. Simultaneously, this brings a multitude of emergent risks to organisations, exposing vulnerabilities in their extant risk management frameworks. This necessitates a greater understanding of how organisations can position themselves in response. This issue is particularly pertinent within the financial sector with relatively mature AI applications matched with severe societal repercussions of potential risk events. Despite this, academic risk management literature is trailing behind the speed of AI implementation. Adopting a management perspective, this study aims to contribute to the understanding of AI risk management in organisations through an exploratory empirical investigation into these practices. In-depth insights are gained through interviews with nine practitioners from different organisations within the UK financial sector. Through examining areas of organisational convergence and divergence, the findings of this study unearth levels of risk management framework readiness and prevailing approaches to risk management at both a processual and organisational level. Whilst enhancing the developing literature concerning AI risk management within organisations, the study simultaneously offers a practical contribution, providing key areas of guidance for practitioners in the operational development of AI risk management frameworks.
翻訳日:2024-04-10 18:38:39 公開日:2024-04-08
# 自閉症スペクトラム障害児の映像における行動の局所化

Localizing Moments of Actions in Untrimmed Videos of Infants with Autism Spectrum Disorder ( http://arxiv.org/abs/2404.05849v1 )

ライセンス: Link先を確認
Halil Ismail Helvaci, Sen-ching Samson Cheung, Chen-Nee Chuah, Sally Ozonoff, (参考訳) 自閉症スペクトラム障害(ASD)は早期診断と介入において重大な課題を示し、子供とその家族に影響を与える。 頻度が上昇するにつれて、アクセス可能で効率的なスクリーニングツールが不可欠である。 機械学習(ML)技術の活用、特にTemporal Action Localization(TAL)は、ASDスクリーニングの自動化を約束している。 本稿では,乳児ビデオにおけるASD関連行動の同定を目的とした自己注意型TALモデルを提案する。 既存の手法とは異なり、我々の手法は複雑なモデリングを単純化し、現実のシナリオにおける実践的な展開に欠かせない効率を強調する。 重要なことは、この研究は、ASDスクリーニングにおける重要な課題に対処するため、設備制御の少ない自然環境で操作できるコンピュータビジョンの開発の重要性を浮き彫りにしている。 本研究は, 乳児の早期介入と支援の道筋として, 乳児の非トリミングビデオにおいて, エンド・ツー・エンドの時間的行動の局所化を初めて行ったものである。 本稿では,本モデルを用いた行動検出のベースライン結果について報告する。 顔の70%の精度、顔の79%の精度、笑顔の72%、発声の65%を実現した。

Autism Spectrum Disorder (ASD) presents significant challenges in early diagnosis and intervention, impacting children and their families. With prevalence rates rising, there is a critical need for accessible and efficient screening tools. Leveraging machine learning (ML) techniques, in particular Temporal Action Localization (TAL), holds promise for automating ASD screening. This paper introduces a self-attention based TAL model designed to identify ASD-related behaviors in infant videos. Unlike existing methods, our approach simplifies complex modeling and emphasizes efficiency, which is essential for practical deployment in real-world scenarios. Importantly, this work underscores the importance of developing computer vision methods capable of operating in naturilistic environments with little equipment control, addressing key challenges in ASD screening. This study is the first to conduct end-to-end temporal action localization in untrimmed videos of infants with ASD, offering promising avenues for early intervention and support. We report baseline results of behavior detection using our TAL model. We achieve 70% accuracy for look face, 79% accuracy for look object, 72% for smile and 65% for vocalization.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 共鳴非弾性X線散乱による量子絡み合い

Witnessing Quantum Entanglement Using Resonant Inelastic X-ray Scattering ( http://arxiv.org/abs/2404.05850v1 )

ライセンス: Link先を確認
Tianhao Ren, Yao Shen, Sophia F. R. TenHuisen, Jennifer Sears, Wei He, Mary H. Upton, Diego Casa, Petra Becker, Matteo Mitrano, Mark P. M. Dean, Robert M. Konik, (参考訳) 絡み合いは、量子多体系の理解において中心的な要素であり、量子技術にとって不可欠な資源でもあるが、実際の量子材料における絡み合いを定量化する能力は限られている。 これまでのところ、量子材料の絡み合い距離は、非弾性中性子散乱を用いたスピン絡みの検出など、エルミート作用素を含む測定に限られている。 そこで本研究では,非エルミート作用素から量子フィッシャー情報(QFI)を抽出し,共振非弾性X線散乱(RIXS)のための絡み込み証人を定式化する手法を提案する。 次に, 入射二量体モデルBa$_3$CeIr$_2$O$_9$に適用し, 隣接するIrサイト間の電子軌道の絡み合いを直接試験する。 エンタングルメントは標準条件下では検出が難しいが、進行するX線偏光を解析したり、運動量やエネルギーの特定の選択によって達成できる。 提案プロトコルは, 絡み付き検出のための新しいハンドラを提供し, 関連タイプの絡み付き目撃者(軌道分解測定など)への経路と, 超高速な設定でアクセスされる平衡外設定への一般化を提供する。

Although entanglement is both a central ingredient in our understanding of quantum many-body systems and an essential resource for quantum technologies, we only have a limited ability to quantify entanglement in real quantum materials. Thus far, entanglement metrology in quantum materials has been limited to measurements involving Hermitian operators, such as the detection of spin entanglement using inelastic neutron scattering. Here, we devise a method to extract the quantum Fisher information (QFI) from non-Hermitian operators and formulate an entanglement witness for resonant inelastic x-ray scattering (RIXS). Our approach is then applied to the model iridate dimer system Ba$_3$CeIr$_2$O$_9$ and used to directly test for entanglement of the electronic orbitals between neighboring Ir sites. We find that entanglement is challenging to detect under standard conditions, but that it could be achieved by analyzing the outgoing x-ray polarization or via specific choices of momentum and energy. Our protocol provides a new handle for entanglement detection, which offers routes to related types of entanglement witness (such as orbitally-resolved measurements) and to the generalization to out-of-equilibrium settings accessed in ultrafast settings.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 剛体回転多成分超流動における非渦格子とトポロジカル欠陥

Unvortex Lattice and Topological Defects in Rigidly Rotating Multicomponent Superfluids ( http://arxiv.org/abs/2404.05857v1 )

ライセンス: Link先を確認
Roy Rabaglia, Ryan Barnett, Ari M. Turner, (参考訳) 回転する強磁性スピノルの特性を大きなスピンの観点から調べることで、磁化テクスチャに新しい種類のトポロジカルな点欠陥が見つかる。 これらの欠陥は、従来のホモトピー群解析ではなく、リーマン・フルヴィッツの公式によって予測される。 系のスピンテクスチャは、平面から磁化の球面への等距離写像によって記述され、一様電荷のスカイミオンの格子を形成する。 この格子は、二重量子化された(巻数 = 2)点欠陥を四面体配置で球面上に配置する。 流体は、渦が消える点の欠陥を除いて、固く回転している。 この渦構造は、スカラー回転する超流体においてよく知られた渦格子とは対照的であり、この渦構造は欠陥点にのみ集中し、非伝統的な「非渦格子」を形成する。 以上の予測と一致する数値結果が提示される。

By examining the characteristics of a rotating ferromagnetic spinor condensate through the perspective of large spin, we uncover a novel kind of topological point defect in the magnetization texture. These defects are predicted not by the conventional homotopy group analysis but by the Riemann-Hurwitz formula. The spin texture in the system is described by an equal-area mapping from the plane to the sphere of magnetization, forming a lattice of uniformly charged Skyrmions. This lattice carries doubly-quantized (winding number = 2) point defects arranged on the sphere in a tetrahedral configuration. The fluid is found to be rotating rigidly, except at the point defects where the vorticity vanishes. This vorticity structure contrasts with the well-known vortex lattice in scalar rotating superfluids, where vorticity concentrates exclusively within defect points, forming an unconventional "unvortex" lattice. Numerical results are presented, which are in agreement with the aforementioned predictions.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# ロボット操作における障害物回避のためのニューロモルフィックアプローチ

A Neuromorphic Approach to Obstacle Avoidance in Robot Manipulation ( http://arxiv.org/abs/2404.05858v1 )

ライセンス: Link先を確認
Ahmed Faisal Abdelrahman, Matias Valdenegro-Toro, Maren Bennewitz, Paul G. Plöger, (参考訳) ニューロモルフィックコンピューティングは、$\textit{silico}$で脳の計算原理を模倣し、イベントベースのビジョンとスパイクニューラルネットワーク(SNN)の研究を動機付けている。 イベントカメラ(EC)は局所的な強度の変化のみを捉え、優れた消費電力、応答遅延、ダイナミックレンジを提供する。 SNNは生物学的神経力学を再現し、エネルギー支出の削減や視覚分類における推論時間といった従来の人工ニューラルネットワーク(ANN)の代替としての可能性を示した。 しかしながら、これらの新しいパラダイムは、空飛ぶロボットの領域外ではほとんど探索されていない。 脳にインスパイアされたセンシングとデータ処理の有用性を検討するため,カメラ搭載マニピュレータにおける障害物回避のためのニューロモルフィックアプローチを開発した。 提案手法は、畳み込みSNNでエミュレートされたイベントデータを処理し、ニューラルアクティベーションを回避動作にデコードし、ダイナミックモーションプリミティブを用いて計画を調整することにより、反応操作による高レベルの軌道計画に適応する。 我々は,Kinova Gen3アームを用いて,異なるタスクシナリオのセットにおける障害を含む単純な到達タスクを実行し,非適応的ベースラインと比較して実験を行った。 我々のニューロモルフィックアプローチは、ベースラインが一貫して失敗するシミュレーションおよび実世界の実験において、差し迫った衝突の確実な回避を助長した。 軌道適応は安全性と予測可能性の基準に低い影響を及ぼした。 注目すべきSNN特性は、知覚運動の大きさとの計算の相関と、異なる事象エミュレーション法に対するロバスト性である。 DAVIS346 ECを用いた実験では同様の性能を示し,実験イベントエミュレーションを検証した。 本研究は,SNN学習の導入,ニューロモルフィックプロセッサの利用,さらにニューロモルフィック手法の可能性を探ることを目的としている。

Neuromorphic computing mimics computational principles of the brain in $\textit{silico}$ and motivates research into event-based vision and spiking neural networks (SNNs). Event cameras (ECs) exclusively capture local intensity changes and offer superior power consumption, response latencies, and dynamic ranges. SNNs replicate biological neuronal dynamics and have demonstrated potential as alternatives to conventional artificial neural networks (ANNs), such as in reducing energy expenditure and inference time in visual classification. Nevertheless, these novel paradigms remain scarcely explored outside the domain of aerial robots. To investigate the utility of brain-inspired sensing and data processing, we developed a neuromorphic approach to obstacle avoidance on a camera-equipped manipulator. Our approach adapts high-level trajectory plans with reactive maneuvers by processing emulated event data in a convolutional SNN, decoding neural activations into avoidance motions, and adjusting plans using a dynamic motion primitive. We conducted experiments with a Kinova Gen3 arm performing simple reaching tasks that involve obstacles in sets of distinct task scenarios and in comparison to a non-adaptive baseline. Our neuromorphic approach facilitated reliable avoidance of imminent collisions in simulated and real-world experiments, where the baseline consistently failed. Trajectory adaptations had low impacts on safety and predictability criteria. Among the notable SNN properties were the correlation of computations with the magnitude of perceived motions and a robustness to different event emulation methods. Tests with a DAVIS346 EC showed similar performance, validating our experimental event emulation. Our results motivate incorporating SNN learning, utilizing neuromorphic processors, and further exploring the potential of neuromorphic methods.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# SEMI-SuperYOLO-NASに基づく高NAEUVL用半導体欠陥検査の改善に向けて

Towards Improved Semiconductor Defect Inspection for high-NA EUVL based on SEMI-SuperYOLO-NAS ( http://arxiv.org/abs/2404.05862v1 )

ライセンス: Link先を確認
Ying-Lin Chen, Jacob Deforce, Vic De Ridder, Bappaditya Dey, Victor Blanco, Sandip Halder, Philippe Leray, (参考訳) ピッチ低下の可能性があるため、半導体産業はハイNAEUVL技術を採用している。 しかし, 集中度が低いことから, 大量生産の課題が浮かび上がっている。 これを解決するために、サプライヤーはより薄いフォトレジストと新しい下層/ハードマスクを探索している。 これらは、欠陥検出を複雑にするSNRの低下に悩まされる可能性がある。 ビジョンベースのMLアルゴリズムは半導体欠陥検査に有望なソリューションを提供する。 しかし、明示的なトレーニングを伴わない様々な画像解像度で堅牢なMLモデルを開発することは、ナノスケール欠陥検査の課題である。 本研究の目的は、画像のスケールアップが可能なスケール不変ADCDフレームワークを提案し、この問題に対処することである。 ベースラインのYOLO-NASアーキテクチャ上に構築されたSEMI-SuperYOLO-NASとして、即興ADCDフレームワークを提案する。 このフレームワークはSR支援ブランチを統合し、欠陥検出バックボーンによるHR特徴の学習、特にLR画像からのナノスケール欠陥インスタンスの検出を支援する。 さらに、SR支援ブランチは、対応するダウンスケール画像からアップスケール画像を再帰的に生成することができ、明示的なトレーニングを必要とせずに、様々な画像解像度にわたって欠陥検出推論を可能にする。 さらに,モデル性能を向上させるために,多種多様で現実的なトレーニングデータセットを生成するための改良されたデータ拡張戦略について検討した。 提案手法は、2つの異なるプロセスから得られた2つのFABデータセットを用いて評価し、2つの異なる撮像ツールを用いて解析した。 最後に、トレーニングデータセットとは異なるプロセス条件と異なるピッチ特性を持つプロセス条件に基づいて、新しいモデル上で、モデルに対するゼロショット推論を実証する。 提案するADCDフレームワークは,画像画素解像度を小さくすることで,欠陥検査のための画像検査ツールのスループット向上に有効であることを示す。

Due to potential pitch reduction, the semiconductor industry is adopting High-NA EUVL technology. However, its low depth of focus presents challenges for High Volume Manufacturing. To address this, suppliers are exploring thinner photoresists and new underlayers/hardmasks. These may suffer from poor SNR, complicating defect detection. Vision-based ML algorithms offer a promising solution for semiconductor defect inspection. However, developing a robust ML model across various image resolutions without explicit training remains a challenge for nano-scale defect inspection. This research's goal is to propose a scale-invariant ADCD framework capable to upscale images, addressing this issue. We propose an improvised ADCD framework as SEMI-SuperYOLO-NAS, which builds upon the baseline YOLO-NAS architecture. This framework integrates a SR assisted branch to aid in learning HR features by the defect detection backbone, particularly for detecting nano-scale defect instances from LR images. Additionally, the SR-assisted branch can recursively generate upscaled images from their corresponding downscaled counterparts, enabling defect detection inference across various image resolutions without requiring explicit training. Moreover, we investigate improved data augmentation strategy aimed at generating diverse and realistic training datasets to enhance model performance. We have evaluated our proposed approach using two original FAB datasets obtained from two distinct processes and captured using two different imaging tools. Finally, we demonstrate zero-shot inference for our model on a new, originating from a process condition distinct from the training dataset and possessing different Pitch characteristics. Experimental validation demonstrates that our proposed ADCD framework aids in increasing the throughput of imaging tools for defect inspection by reducing the required image pixel resolutions.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# GeniL: 言語一般化のための多言語データセット

GeniL: A Multilingual Dataset on Generalizing Language ( http://arxiv.org/abs/2404.05866v1 )

ライセンス: Link先を確認
Aida Mostafazadeh Davani, Sagar Gubbi, Sunipa Dev, Shachi Dave, Vinodkumar Prabhakaran, (参考訳) LLMは私たちのデジタルエコシステムを変えつつあるが、トレーニングデータから学んだ社会的バイアス、例えば特定の属性と特定のアイデンティティグループを関連付けるステレオタイプを継承することが多い。 これらのバイアスを緩和する方法は、特定のユースケースに依存するかもしれないが、ステレオタイプの永続性のインスタンスを効果的に検出できることは、重要な第一歩である。 生成言語におけるステレオタイプの存在を評価するための現在の手法は、それらが示すさまざまなセンセーショナルコンテキストを考慮せずに、単純なテンプレートや共起に基づく尺度に依存している。 意味的文脈を理解することは一般化の事例を検出するために重要であると論じる。 1) 一般化の存在を単に言及する言語(フランス語は非常に無作法であると考える人々)と(2) 一般化を補強する言語(フランス語では無作法でなければならない)とを、非一般化的な文脈から区別する("My French friends think I are rude")。 意味のあるステレオタイプ評価には、そのような一般化の例を確実に区別する必要がある。 我々は、言語の一般化を検出するための新しいタスクを導入し、一般化の例に注釈を付けた9言語(英語、アラビア語、ベンガル語、スペイン語、フランス語、ヒンディー語、インドネシア語、マレー語、ポルトガル語)から50K以上の文からなる多言語データセットGeniLを構築した。 一般化の例である共起の可能性は通常低く、異なる言語、アイデンティティ群、属性によって異なることを示す。 言語全体のPR-AUCは58.7で、言語間の性能は様々である。 我々の研究は、より包括的で責任ある言語技術への重要なステップである、ステレオタイプパーペチュエーションのニュアンスな理解を可能にするデータとツールを提供する。

LLMs are increasingly transforming our digital ecosystem, but they often inherit societal biases learned from their training data, for instance stereotypes associating certain attributes with specific identity groups. While whether and how these biases are mitigated may depend on the specific use cases, being able to effectively detect instances of stereotype perpetuation is a crucial first step. Current methods to assess presence of stereotypes in generated language rely on simple template or co-occurrence based measures, without accounting for the variety of sentential contexts they manifest in. We argue that understanding the sentential context is crucial for detecting instances of generalization. We distinguish two types of generalizations: (1) language that merely mentions the presence of a generalization ("people think the French are very rude"), and (2) language that reinforces such a generalization ("as French they must be rude"), from non-generalizing context ("My French friends think I am rude"). For meaningful stereotype evaluations, we need to reliably distinguish such instances of generalizations. We introduce the new task of detecting generalization in language, and build GeniL, a multilingual dataset of over 50K sentences from 9 languages (English, Arabic, Bengali, Spanish, French, Hindi, Indonesian, Malay, and Portuguese) annotated for instances of generalizations. We demonstrate that the likelihood of a co-occurrence being an instance of generalization is usually low, and varies across different languages, identity groups, and attributes. We build classifiers to detect generalization in language with an overall PR-AUC of 58.7, with varying degrees of performance across languages. Our research provides data and tools to enable a nuanced understanding of stereotype perpetuation, a crucial step towards more inclusive and responsible language technologies.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 厳密な地域法則は通勤親ハミルトニアンを暗示する

Strict area law implies commuting parent Hamiltonian ( http://arxiv.org/abs/2404.05867v1 )

ライセンス: Link先を確認
Isaac H. Kim, Ting-Chun Lin, Daniel Ranard, Bowen Shi, (参考訳) 2つの空間次元において、量子状態が厳密な領域法則に従って絡み合うエントロピーを持つとき、定数 $S(A)=\alpha |\partial A| - \gamma$ for constants $\alpha, \gamma$ independent of lattice region $A$ とすると、交換親ハミルトニアンが成立する。 より一般に、2次元における絡み合いブートストラップ公理は、安定なスペクトルギャップを持つ通勤親ハミルトニアンの存在を意味することを証明している。 私たちはまた、ギャップのあるドメインの壁を記述する状態にまで証明を拡張します。 これらの結果は、絡み合いブートストラッププログラムで研究された状態が、いくつかの局所ハミルトンの基底状態に対応し、安定な物質相を記述することを示唆している。 この結果は、キラルなギャップのないエッジモードを持つ系は、有限局所ヒルベルト空間を持つような厳密な領域法則に従えないことを示唆している。

We show that in two spatial dimensions, when a quantum state has entanglement entropy obeying a strict area law, meaning $S(A)=\alpha |\partial A| - \gamma$ for constants $\alpha, \gamma$ independent of lattice region $A$, then it admits a commuting parent Hamiltonian. More generally, we prove that the entanglement bootstrap axioms in 2D imply the existence of a commuting, local parent Hamiltonian with a stable spectral gap. We also extend our proof to states that describe gapped domain walls. Physically, these results imply that the states studied in the entanglement bootstrap program correspond to ground states of some local Hamiltonian, describing a stable phase of matter. Our result also suggests that systems with chiral gapless edge modes cannot obey a strict area law provided they have finite local Hilbert space.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 負の選好最適化:破滅的な崩壊から効果的な未学習へ

Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning ( http://arxiv.org/abs/2404.05868v1 )

ライセンス: Link先を確認
Ruiqi Zhang, Licong Lin, Yu Bai, Song Mei, (参考訳) LLM(Large Language Models)は、事前トレーニング中に機密データ、プライベートデータ、著作権データを記憶する。 LLMアンラーニングは、学習済みのモデルから望ましくないデータの影響を排除し、モデルのユーティリティを他のタスクに保存することを目的としている。 LLMアンラーニングのためのいくつかの実践的手法が提案されているが、その大部分は望ましくないデータの損失に基づく勾配上昇(GA)に基づいている。 しかし、特定の未学習タスクでは、これらのメソッドはターゲットデータを効果的に解き放つことができず、あるいは破滅的な崩壊に苦しむ。 本稿では、ターゲットデータセットを効率よく効果的に解放できる単純なアライメントにインスパイアされた方法であるNPO(Negative Preference Optimization)を提案する。 NPO損失の最小化による破滅的崩壊の進行がGAよりも指数関数的に遅いことを理論的に示す。 合成データとベンチマークTOFUデータセットの実験を通じて、NPOベースの手法が、望ましくないデータの学習とモデルのユーティリティの維持のバランスを改善することを実証した。 また,NPO法はGA法よりも高感度な出力を生成する。 注目すべきは、TOFUでは、NPOベースの手法がトレーニングデータの50%(またはそれ以上)を忘れる上で、適切な未学習結果を達成するのに最初に苦労しているのに対して、既存の手法では、トレーニングデータの10%を忘れることに苦労していることだ。

Large Language Models (LLMs) often memorize sensitive, private, or copyrighted data during pre-training. LLM unlearning aims to eliminate the influence of undesirable data from the pre-trained model while preserving the model's utilities on other tasks. Several practical methods have recently been proposed for LLM unlearning, mostly based on gradient ascent (GA) on the loss of undesirable data. However, on certain unlearning tasks, these methods either fail to effectively unlearn the target data or suffer from catastrophic collapse -- a drastic degradation of the model's utilities. In this paper, we propose Negative Preference Optimization (NPO), a simple alignment-inspired method that could efficiently and effectively unlearn a target dataset. We theoretically show that the progression toward catastrophic collapse by minimizing the NPO loss is exponentially slower than GA. Through experiments on synthetic data and the benchmark TOFU dataset, we demonstrate that NPO-based methods achieve a better balance between unlearning the undesirable data and maintaining the model's utilities. We also observe that NPO-based methods generate more sensible outputs than GA-based methods, whose outputs are often gibberish. Remarkably, on TOFU, NPO-based methods are the first to achieve reasonable unlearning results in forgetting 50% (or more) of the training data, whereas existing methods already struggle with forgetting 10% of training data.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# TabConv: テーブルルックアップによる低計算CNN推論

TabConv: Low-Computation CNN Inference via Table Lookups ( http://arxiv.org/abs/2404.05872v1 )

ライセンス: Link先を確認
Neelesh Gupta, Narayanan Kannan, Pengmiao Zhang, Viktor Prasanna, (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野を通じて顕著な能力を示している。 しかし、CNN推論は大量の演算を必要とするため、ハードウェアにデプロイするのにコストがかかる。 現在のアプローチでは、空間畳み込み関数を単純化するハードウェア支援のアルゴリズムプロセスを開発することでこの問題を緩和している。 しかし、これらの手法は依然として行列乗法に大きく依存しており、計算オーバーヘッドが大きくなった。 ハードウェア,アルゴリズムアクセラレーション,近似行列乗算のギャップを埋めるため,推論中の算術演算を大幅に削減する畳み込みのためのテーブルベースの新しい近似であるTabConvを提案する。 さらに,コサイン類似性に基づく優先度マスキング手法を導入し,モデル性能の維持を図る。 我々は、人気のあるCNN、ResNet-18、ResNet-34、NetworkInNetwork(NIN)に対するアプローチを評価した。 TabConvは算術演算を36.5%、25.8%、99.4%でCIFAR-10、CIFAR-100、MNISTで35.6%、99.3%でCIFAR-10、MNISTでResNet-34、98.9%で減らし、MNISTでNINを98.9%減らした。

Convolutional Neural Networks (CNNs) have demonstrated remarkable ability throughout the field of computer vision. However, CNN inference requires a large number of arithmetic operations, making them expensive to deploy in hardware. Current approaches alleviate this issue by developing hardware-supported, algorithmic processes to simplify spatial convolution functions. However, these methods still heavily rely on matrix multiplication, leading to significant computational overhead. To bridge the gap between hardware, algorithmic acceleration, and approximate matrix multiplication, we propose TabConv, a novel, table-based approximation for convolution to significantly reduce arithmetic operations during inference. Additionally, we introduce a priority masking technique based on cosine similarity to select layers for table-based approximation, thereby maintaining the model performance. We evaluate our approach on popular CNNs: ResNet-18, ResNet-34, and NetworkInNetwork (NIN). TabConv preserves over 93% of the original model's performance while reducing arithmetic operations by 36.5%, 25.8%, and 99.4% for ResNet-18 on CIFAR-10, CIFAR-100, and MNIST, respectively, 35.6% and 99.3% for ResNet-34 on CIFAR-10 and MNIST, and 98.9% for NIN on MNIST, achieving low-computation inference.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# ピアオーディタとしての若者: 機械学習応用のアルゴリズム監査によるティーンエイジャーの育成

Youth as Peer Auditors: Engaging Teenagers with Algorithm Auditing of Machine Learning Applications ( http://arxiv.org/abs/2404.05874v1 )

ライセンス: Link先を確認
Luis Morales-Navarro, Yasmin B. Kafai, Vedya Konda, Danaë Metaxa, (参考訳) 人工知能/機械学習(AI/ML)アプリケーションが若者の生活においてより広く普及するにつれて、それらが相互作用し、設計し、アプリケーションを評価するのをサポートすることが不可欠である。 本稿では,アルゴリズムシステムの不透明な内部動作と外的影響をよりよく理解するために,ピアのMLを活用したアプリケーションの監査役として青少年を位置づける。 2週間のワークショップで、13人の若者(14~15歳)がMLベースのアプリケーションを設計し、監査した。 若年者に対して監査課題を提示する前・後臨床面接の分析を行った。 この分析は、ワークショップの後、若者全員がアルゴリズムバイアスと推論されたデータセットとモデル設計の問題を特定したことを示している。 Youth氏はアルゴリズム上の正義問題やMLモデルの改善についても論じている。 さらに、若者は、監査がモデル機能とアイデアを自身のモデルを改善するための新しい視点を提供することを反映した。 本研究は,(1)若年者に対するアルゴリズム監査の概念化,(2)監査の潜在的メリットの実証的証拠である。 本稿では,学習と児童とコンピュータのインタラクション研究におけるアルゴリズム監査の可能性について論じる。

As artificial intelligence/machine learning (AI/ML) applications become more pervasive in youth lives, supporting them to interact, design, and evaluate applications is crucial. This paper positions youth as auditors of their peers' ML-powered applications to better understand algorithmic systems' opaque inner workings and external impacts. In a two-week workshop, 13 youth (ages 14-15) designed and audited ML-powered applications. We analyzed pre/post clinical interviews in which youth were presented with auditing tasks. The analyses show that after the workshop all youth identified algorithmic biases and inferred dataset and model design issues. Youth also discussed algorithmic justice issues and ML model improvements. Furthermore, youth reflected that auditing provided them new perspectives on model functionality and ideas to improve their own models. This work contributes (1) a conceptualization of algorithm auditing for youth; and (2) empirical evidence of the potential benefits of auditing. We discuss potential uses of algorithm auditing in learning and child-computer interaction research.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# CodecLM: テーラー合成データによる言語モデルの調整

CodecLM: Aligning Language Models with Tailored Synthetic Data ( http://arxiv.org/abs/2404.05875v1 )

ライセンス: Link先を確認
Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister, (参考訳) 大規模言語モデル(LLM)を特定のタスク命令と整合させる鍵としてインストラクションチューニングが登場し,次世代の予測目標とユーザの実際の目標との相違を緩和している。 人間によるデータの収集や注釈作成に要する時間と労力を削減するため、研究者はLLMを使用して命令に整合した合成データを生成する。 最近の研究は、様々な命令を生成し、LLMを適用して命令の複雑さを高めることに集中しており、しばしば下流のユースケースを無視している。 異なるターゲット命令分布とLLMにおいて、より優れた命令追従能力を実現するために、高品質なデータをどのように調整するかは、まだ不明である。 そこで本研究では,下流の命令分布の異なるLLMアライメントのための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。 Encode-Decodeの原則に基づいて、私たちはLLMをコーデックとして、データ生成プロセスのガイドに使用しています。 まず、ターゲットの命令分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードし、その後、メタデータをデコードして、カスタマイズされた命令を生成する。 また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。 ベンチマークによる4つのオープンドメイン命令に対する大規模な実験は、現在の最先端技術に対するCodecLMの有効性を検証する。

Instruction tuning has emerged as the key in aligning large language models (LLMs) with specific task instructions, thereby mitigating the discrepancy between the next-token prediction objective and users' actual goals. To reduce the labor and time cost to collect or annotate data by humans, researchers start to explore the use of LLMs to generate instruction-aligned synthetic data. Recent works focus on generating diverse instructions and applying LLM to increase instruction complexity, often neglecting downstream use cases. It remains unclear how to tailor high-quality data to elicit better instruction-following abilities in different target instruction distributions and LLMs. To this end, we introduce CodecLM, a general framework for adaptively generating high-quality synthetic data for LLM alignment with different downstream instruction distributions and LLMs. Drawing on the Encode-Decode principles, we use LLMs as codecs to guide the data generation process. We first encode seed instructions into metadata, which are concise keywords generated on-the-fly to capture the target instruction distribution, and then decode metadata to create tailored instructions. We also introduce Self-Rubrics and Contrastive Filtering during decoding to tailor data-efficient samples. Extensive experiments on four open-domain instruction following benchmarks validate the effectiveness of CodecLM over the current state-of-the-arts.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 女性の生殖医療アプリのプライバシーとセキュリティ

Privacy and Security of Women's Reproductive Health Apps in a Changing Legal Landscape ( http://arxiv.org/abs/2404.05876v1 )

ライセンス: Link先を確認
Shalini Saini, Nitesh Saxena, (参考訳) FemTechはモバイルアプリの急成長傾向にあり、女性が健康や家族計画をデジタルで管理できるようにする。 しかし、期間追跡および妊婦監視アプリのプライバシーとセキュリティの脆弱性は、意図しない妊娠や法的結果など、重大なリスクをもたらす。 このアプローチでは、複数の評価フレームワークを使用した動的および静的な分析とともに、プライバシポリシとアプリのパーミッションを手動で観察する。 私たちの研究によると、これらのアプリの多くは個人識別可能な情報(PII)と機密医療データを集めています。 さらに分析の結果,アプリのコード脆弱性の61%が,上位10のOpen Web Application Security Project(OWASP)の脆弱性に分類されていることがわかった。 我々の研究は、周期追跡および肥育監視モバイルアプリに存在するプライバシーとセキュリティの脆弱性に取り組むことの重要性を強調している。 これらの重要なリスクを強調して、重要な議論を開始し、女性の健康のためのデジタルツールのアカウンタビリティと透明性の向上を提唱する。 当社は業界に対して、ユーザのプライバシとセキュリティを優先し、最終的に女性の健康管理にとってより安全でより安全な環境を促進することを推奨しています。

FemTech, a rising trend in mobile apps, empowers women to digitally manage their health and family planning. However, privacy and security vulnerabilities in period-tracking and fertility-monitoring apps present significant risks, such as unintended pregnancies and legal consequences. Our approach involves manual observations of privacy policies and app permissions, along with dynamic and static analysis using multiple evaluation frameworks. Our research reveals that many of these apps gather personally identifiable information (PII) and sensitive healthcare data. Furthermore, our analysis identifies that 61% of the code vulnerabilities found in the apps are classified under the top-ten Open Web Application Security Project (OWASP) vulnerabilities. Our research emphasizes the significance of tackling the privacy and security vulnerabilities present in period-tracking and fertility-monitoring mobile apps. By highlighting these crucial risks, we aim to initiate a vital discussion and advocate for increased accountability and transparency of digital tools for women's health. We encourage the industry to prioritize user privacy and security, ultimately promoting a safer and more secure environment for women's health management.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 統合木ニューラルネットワークによる高速かつ高精度なトポロジ比較

Rapid and Precise Topological Comparison with Merge Tree Neural Networks ( http://arxiv.org/abs/2404.05879v1 )

ライセンス: Link先を確認
Yu Qin, Brittany Terese Fasy, Carola Wenk, Brian Summa, (参考訳) マージツリーは、スカラーフィールドの科学的可視化に有用なツールであるが、現在のマージツリー比較法は、主にツリーノード間の徹底的なマッチングのために、計算的に高価である。 この課題に対処するために、マージツリー比較用に設計された学習ニューラルネットワークモデルであるマージツリーニューラルネットワーク(MTNN)を導入する。 MTNNは高速で高品質な類似性計算を可能にする。 まず、グラフの効率的なエンコーダとして登場したグラフニューラルネットワーク(GNN)を用いて、ベクトル空間にマージツリーの埋め込みを学習し、効率的な類似性比較を可能にする方法を示す。 次に,木とノードの埋め込みを新しいトポロジカルアテンション機構に統合することにより,類似性の比較をさらに改善する新しいMTNNモデルを定式化する。 本研究では,異なる領域における実世界のデータに対するモデルの有効性を実証し,様々なデータセットにおけるモデルの一般化可能性について検討する。 我々の実験分析は, 精度と効率性におけるアプローチの優位性を示すものである。 特に、ベンチマークデータセットで従来の最先端を100倍以上スピードアップし、エラー率を0.1%以下に維持しています。

Merge trees are a valuable tool in scientific visualization of scalar fields; however, current methods for merge tree comparisons are computationally expensive, primarily due to the exhaustive matching between tree nodes. To address this challenge, we introduce the merge tree neural networks (MTNN), a learned neural network model designed for merge tree comparison. The MTNN enables rapid and high-quality similarity computation. We first demonstrate how graph neural networks (GNNs), which emerged as an effective encoder for graphs, can be trained to produce embeddings of merge trees in vector spaces that enable efficient similarity comparison. Next, we formulate the novel MTNN model that further improves the similarity comparisons by integrating the tree and node embeddings with a new topological attention mechanism. We demonstrate the effectiveness of our model on real-world data in different domains and examine our model's generalizability across various datasets. Our experimental analysis demonstrates our approach's superiority in accuracy and efficiency. In particular, we speed up the prior state-of-the-art by more than 100x on the benchmark datasets while maintaining an error rate below 0.1%.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# Eraser: 未学習の有害知識による大規模言語モデルにおけるジェイルブレイク防御

Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge ( http://arxiv.org/abs/2404.05880v1 )

ライセンス: Link先を確認
Weikai Lu, Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Zelin Chen, Huiping Zhuang, Cen Chen, (参考訳) 脱獄攻撃により、Large Language Models (LLM) は保護をバイパスし、有害なコンテンツを生成することができる。 既存のジェイルブレイク防御手法は、有害な知識がモデル内に存在するという根本的な問題に対処できず、LCMにとって潜在的にジェイルブレイクのリスクをもたらす。 本稿では,有害な知識の学習,一般知識の保持,安全性の維持という3つの目標を主目的として,エラザーと呼ばれる新しい防衛手法を提案する。 直感的には、LLMが有害な質問に答えるために必要な特定の知識を忘れてしまうと、有害な質問に答える能力はなくなる。 Eraseのトレーニングは、モデル自身の有害な知識を実際に必要とせず、有害なクエリに関連する非学習的な一般的な回答の恩恵を受ける可能性がある。 実験結果から, 各種攻撃における脱獄成功率を, モデル全体の性能を損なうことなく著しく低減できることが示された。

Jailbreaking attacks can enable Large Language Models (LLMs) to bypass the safeguard and generate harmful content. Existing jailbreaking defense methods have failed to address the fundamental issue that harmful knowledge resides within the model, leading to potential jailbreak risks for LLMs. In this paper, we propose a novel defense method called Eraser, which mainly includes three goals: unlearning harmful knowledge, retaining general knowledge, and maintaining safety alignment. The intuition is that if an LLM forgets the specific knowledge required to answer a harmful question, it will no longer have the ability to answer harmful questions. The training of Erase does not actually require the model's own harmful knowledge, and it can benefit from unlearning general answers related to harmful queries, which means it does not need assistance from the red team. The experimental results show that Eraser can significantly reduce the jailbreaking success rate for various attacks without compromising the general capabilities of the model.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 強い量子非局所性: 拡張不可能な積基底を超える拡張不可能な双分離性

Strong quantum nonlocality: Unextendible biseparability beyond unextendible product basis ( http://arxiv.org/abs/2404.05882v1 )

ライセンス: Link先を確認
Atanu Bhunia, Subrata Bera, Indranil Biswas, Indrani Chattopadhyay, Debasis Sarkar, (参考訳) 拡張不能双分離基底 (unextendible biseparable basis, UBB) は、与えられたヒルベルト空間の部分空間にまたがる直交純双分離状態の集合であり、補部分空間は真に絡み合った状態のみを含む。 これらの分岐可能な基底は、真の絡み合った部分空間を多部システムで生成するのに有用である。 そのような部分空間は、この部分空間の各状態から各二分割の蒸留可能な絡み合いを抽出できるなら、情報理論の応用にとってより有益である。 本稿では,強い量子非局所性の現象を示すようなUBBのクラスを構築するための規則を導出した。 この結果は Agrawal et al [Phys. Rev. A 99, 032335 (2019)] によって提起されたオープンな問題に肯定的に答える。

An unextendible biseparable basis (UBB) is a set of orthogonal pure biseparable states which span a subspace of a given Hilbert space while the complementary subspace contains only genuinely entangled states. These biseparable bases are useful to produce genuinely entangled subspace in multipartite system. Such a subspace could be more beneficial for information theoretic applications if we are able to extract distillable entanglement across every bipartition from each state of this subspace. In this manuscript, we have derived a rule for constructing such a class of UBB which exhibits the phenomenon of strong quantum nonlocality. This result positively answers the open problem raised by Agrawal et al. [Phys. Rev. A 99, 032335 (2019)]; that there exists a UBB which can demonstrate the phenomenon of strong quantum nonlocality in the perspective of local irreducibility paradigm.
翻訳日:2024-04-10 16:37:51 公開日:2024-04-08
# 二次バンド退化の不安定性とディラック点の出現

Instability of quadratic band degeneracies and the emergence of Dirac points ( http://arxiv.org/abs/2404.05886v1 )

ライセンス: Link先を確認
Jonah Chaban, Michael I. Weinstein, (参考訳) Schr\"{o}dinger 作用素 $H = -\Delta + V$ を考えると、ポテンシャル $V$ は $\mathbb{Z}^2$-周期的かつ空間反転、複素共役、および $\pi/2$ 回転の下で不変である。 典型的には、V$の小さな線形変形の下で、二次帯域縮退点が高対称性準和点${\bf M}$([24, 25])上で発生し、それぞれ摂動準和点${\bf D}^+$と${\bf D}^-$の2つの分離縮退点に分けられ、これらの縮退点がディラック点であることを示す。 発散したディラック点付近の縮退した分散面の局所的特徴は、傾いた楕円錐体である。 それに対応して、${\bf D}^+$ または ${\bf D}^-$ の近くでスペクトル的に局在したウェーブパペットの力学は、対流項を持つディラック方程式の系によって支配される。 一般化について論じる。

Consider the Schr\"{o}dinger operator $H = -\Delta + V$, where the potential $V$ is $\mathbb{Z}^2$-periodic and invariant under spatial inversion, complex conjugation, and $\pi/2$ rotation. We show that, under typical small linear deformations of $V$, the quadratic band degeneracy points, occurring over the high-symmetry quasimomentum ${\bf M}$ (see [24, 25]) each split into two separated degeneracies over perturbed quasimomenta ${\bf D}^+$ and ${\bf D}^-$, and that these degeneracies are Dirac points. The local character of the degenerate dispersion surfaces about the emergent Dirac points are tilted, elliptical cones. Correspondingly, the dynamics of wavepackets spectrally localized near either ${\bf D}^+$ or ${\bf D}^-$ are governed by a system of Dirac equations with an advection term. Generalizations are discussed.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 小容量ジョセフソン接合の低バイアス抵抗の電流依存性

Current dependence of the low bias resistance of small capacitance Josephson junctions ( http://arxiv.org/abs/2404.05890v1 )

ライセンス: Link先を確認
Venkat Chandrasekhar, (参考訳) 小さなジョセフソン接合のdc電流電圧特性は、大きな接合では観測されない特徴、特に、ジャンクションの期待される臨界電流よりも低い電流値での有限電圧状態へのスイッチと、名目上超伝導状態における有限抵抗を明らかにしている。 どちらの現象もジョセフソン接合部の小さな容量に付随する雑音に対する感度の上昇によるもので、数十年前に広く研究されている。 ここでは、ジャンクションの雑音環境を物理的に透過的に取り込む量子ランゲヴィン方程式を用いて、名目上超伝導状態における低電流バイアスにおける接合の差分抵抗の電流バイアス依存性に焦点をあてる。 同様のアプローチはマイクロ波状態における超伝導量子ビットのノイズに対する感度をモデル化するのに有用かもしれない。

The dc current-voltage characteristics of small Josephson junctions reveal features that are not observed in larger junctions, in particular, a switch to the finite voltage state at current values much less than the expected critical current of the junction and a finite resistance in the nominally superconducting regime. Both phenomena are due to the increased sensitivity to noise associated with the small capacitance of the Josephson junction and have been extensively studied a few decades ago. Here I focus on the current bias dependence of the differential resistance of the junction at low current bias in the nominally superconducting regime, using a quantum Langevin equation approach that enables a physically transparent incorporation of the noise environment of the junction. A similar approach might be useful in modeling the sensitivity of superconducting qubits to noise in the microwave regime.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 不完全データによる条件モニタリング:統合的変分オートエンコーダと距離メトリックフレームワーク

Condition Monitoring with Incomplete Data: An Integrated Variational Autoencoder and Distance Metric Framework ( http://arxiv.org/abs/2404.05891v1 )

ライセンス: Link先を確認
Maryam Ahang, Mostafa Abbasi, Todd Charter, Homayoun Najjaran, (参考訳) 産業システムの状況監視は安全と維持計画の確保に不可欠であるが, 故障サンプルの限定的あるいは非存在的利用により, 現実の環境において顕著な課題が生じる。 本稿では,未確認データに対する故障検出と条件モニタリングのための新しい手法を提案することにより,この問題に対する革新的な解決策を提案する。 ゼロショット学習にインスパイアされたアプローチを採用することで、障害を特定し、さまざまな運用条件に相対的な健康指標を割り当てることができる。 通常、通常のオペレーションに関するデータや、妥協された条件に関するデータ、深刻な障害の非常に少ない(もしあれば)サンプルがあります。 我々は変分オートエンコーダを用いて、以前に見られた新しい未知条件の確率分布をキャプチャする。 潜伏空間における正常な操作基準分布から各試料の偏差を比較することにより、健康状態を決定する。 故障は、健康指標のしきい値を確立することで検出され、そのモデルが重大で見えない断層を高い精度で識別することができる。 我々は,実行時から障害時までのIMS対応データセットを用いて,そのアプローチを検証し,他の手法と比較する。 本モデルにより得られた健康指標は,本手法の堅牢性と信頼性を実証し,確立されたベアリング着用の記述モデルと密に一致した。 これらの知見は,産業領域における障害検出能力の向上における方法論の可能性を強調し,安全プロトコルの強化とメンテナンスの最適化に寄与する。

Condition monitoring of industrial systems is crucial for ensuring safety and maintenance planning, yet notable challenges arise in real-world settings due to the limited or non-existent availability of fault samples. This paper introduces an innovative solution to this problem by proposing a new method for fault detection and condition monitoring for unseen data. Adopting an approach inspired by zero-shot learning, our method can identify faults and assign a relative health index to various operational conditions. Typically, we have plenty of data on normal operations, some data on compromised conditions, and very few (if any) samples of severe faults. We use a variational autoencoder to capture the probabilistic distribution of previously seen and new unseen conditions. The health status is determined by comparing each sample's deviation from a normal operation reference distribution in the latent space. Faults are detected by establishing a threshold for the health indexes, allowing the model to identify severe, unseen faults with high accuracy, even amidst noise. We validate our approach using the run-to-failure IMS-bearing dataset and compare it with other methods. The health indexes generated by our model closely match the established descriptive model of bearing wear, attesting to the robustness and reliability of our method. These findings highlight the potential of our methodology in augmenting fault detection capabilities within industrial domains, thereby contributing to heightened safety protocols and optimized maintenance practices.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# Eagle and Finch: マトリックス値状態と動的再帰を備えたRWKV

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence ( http://arxiv.org/abs/2404.05892v1 )

ライセンス: Link先を確認
Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu, (参考訳) 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を提案する。 アーキテクチャ設計の進歩には、マルチヘッド行列値状態と、RNNの推論効率特性を維持しつつ、表現性を向上させるダイナミックリカレンス機構が含まれる。 我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。 我々は、0.46から7.5億のパラメータを含む4つのイーグルモデルと1.6と310億のパラメータを持つ2つのフィンチモデルを訓練し、それらが様々なベンチマークで競争性能を達成することを発見した。 私たちはすべてのモデルを Apache 2.0 ライセンスの下で HuggingFace でリリースしています。 Models at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer

We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 構造化知識ベースを用いた大規模言語モデルによるメタデータのキュレーション

Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models ( http://arxiv.org/abs/2404.05893v1 )

ライセンス: Link先を確認
Sowmya S. Sundaram, Benjamin Solomon, Avani Khatri, Anisha Laumas, Purvesh Khatri, Mark A. Musen, (参考訳) メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。 本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル(LLM),特に GPT-4 の可能性について検討する。 NCBI BioSampleレポジトリの肺がん関連サンプルを記載した200件のランダムなデータ記録について実験を行い,GPT-4のメタデータ標準に準拠した編集を提案する能力について検討した。 ピアレビュープロセスによりフィールド名-フィールド値ペアのアテンデンス精度を算出し,標準データ辞書のアテンデンスを79%から80%(p<0.01。 CEDARテンプレートのテキスト記述形式でGPT-4を誘導し,79% (p<0.01。 以上の結果から,LSMはレガシメタデータの修正ができず,標準に忠実な準拠を保証できないが,構造化知識ベースと統合された場合,メタデータの自動キュレーションでの使用が期待できることを示す。

Metadata play a crucial role in ensuring the findability, accessibility, interoperability, and reusability of datasets. This paper investigates the potential of large language models (LLMs), specifically GPT-4, to improve adherence to metadata standards. We conducted experiments on 200 random data records describing human samples relating to lung cancer from the NCBI BioSample repository, evaluating GPT-4's ability to suggest edits for adherence to metadata standards. We computed the adherence accuracy of field name-field value pairs through a peer review process, and we observed a marginal average improvement in adherence to the standard data dictionary from 79% to 80% (p<0.01). We then prompted GPT-4 with domain information in the form of the textual descriptions of CEDAR templates and recorded a significant improvement to 97% from 79% (p<0.01). These results indicate that, while LLMs may not be able to correct legacy metadata to ensure satisfactory adherence to standards when unaided, they do show promise for use in automated metadata curation when integrated with a structured knowledge base.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 交通ネットワーク設計のための学習ヒューリスティックスと深層強化学習による改善

Learning Heuristics for Transit Network Design and Improvement with Deep Reinforcement Learning ( http://arxiv.org/abs/2404.05894v1 )

ライセンス: Link先を確認
Andrew Holliday, Ahmed El-Geneidy, Gregory Dudek, (参考訳) 世界各国の交通機関は予算の強化に直面している。 コスト削減を図りながらサービス品質を維持するためには,効率的なトランジットネットワーク設計が不可欠である。 しかし、公共交通機関のネットワークを計画することは、難しい最適化問題である。 現在最も成功したアプローチは、ネットワーク内のルートをランダムに変更する低レベルのヒューリスティックを適用して、ソリューションの空間を探索するためにメタヒューリスティックアルゴリズムを使用する。 これらの低レベルのヒューリスティックの設計は、結果の質に大きな影響を及ぼす。 本稿では,グラフニューラルネットを用いた深層強化学習を用いて,手動で設計する代わりに,進化的アルゴリズムの低レベルヒューリスティックスを学習する。 これらの学習したヒューリスティックスは、70ノード以上のベンチマーク合成都市におけるアルゴリズムの結果を改善し、運用コストを最適化する際の最先端の結果を得る。 また、カナダのラヴァル市における実際の交通ネットワークのシミュレーションを、二つの重要な指標で最大54%と18%改善し、既存の交通ネットワークよりも最大12%のコスト削減を提供する。

Transit agencies world-wide face tightening budgets. To maintain quality of service while cutting costs, efficient transit network design is essential. But planning a network of public transit routes is a challenging optimization problem. The most successful approaches to date use metaheuristic algorithms to search through the space of solutions by applying low-level heuristics that randomly alter routes in a network. The design of these low-level heuristics has a major impact on the quality of the result. In this paper we use deep reinforcement learning with graph neural nets to learn low-level heuristics for an evolutionary algorithm, instead of designing them manually. These learned heuristics improve the algorithm's results on benchmark synthetic cities with 70 nodes or more, and obtain state-of-the-art results when optimizing operating costs. They also improve upon a simulation of the real transit network in the city of Laval, Canada, by as much as 54% and 18% on two key metrics, and offer cost savings of up to 12% over the city's existing transit network.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 局所性に敏感なハッシュを用いた記号的回帰表現の不正確な単純化

Inexact Simplification of Symbolic Regression Expressions with Locality-sensitive Hashing ( http://arxiv.org/abs/2404.05898v1 )

ライセンス: Link先を確認
Guilherme Seidyo Imai Aldeia, Fabricio Olivetti de Franca, William G. La Cava, (参考訳) シンボリック回帰(SR)は、データセットに正確に適合するパラメトリックモデルを探索し、単純さと解釈可能性の優先順位付けを行う。 この二次的な目的にもかかわらず、モデルはしばしば冗長な操作、イントロン、肥大により複雑であり、肥大した部分の探索を繰り返して探索を妨げる可能性があることを指摘する。 高速なヒューリスティックな代数的単純化を適用することは、式を単純化するものではなく、式のサイズや複雑さによって正確な方法が実現できない。 局所性に敏感なハッシュ (LHS) を用いた効率的なメモ化手法を用いて, SR の非依存的単純化と肥大化制御を提案する。 この考え方は, 反復的単純化過程における表現とその部分表現が, LHSを用いて辞書に格納され, 類似構造を効率的に検索できるというものである。 式を繰り返すことで、より小さな式が得られれば、サブツリーを同じハッシュの他のツリーに置き換えます。 実験結果から, 進化過程におけるこの単純化は, 誤差の最小化の単純化を伴わずに同等あるいはそれ以上に作用し, 非線形関数の数を著しく減少させることが示された。 この技術は、一般に、あるいは特定の問題のために働く単純化規則を学習し、モデルの複雑さを減らしながら収束を改善することができる。

Symbolic regression (SR) searches for parametric models that accurately fit a dataset, prioritizing simplicity and interpretability. Despite this secondary objective, studies point out that the models are often overly complex due to redundant operations, introns, and bloat that arise during the iterative process, and can hinder the search with repeated exploration of bloated segments. Applying a fast heuristic algebraic simplification may not fully simplify the expression and exact methods can be infeasible depending on size or complexity of the expressions. We propose a novel agnostic simplification and bloat control for SR employing an efficient memoization with locality-sensitive hashing (LHS). The idea is that expressions and their sub-expressions traversed during the iterative simplification process are stored in a dictionary using LHS, enabling efficient retrieval of similar structures. We iterate through the expression, replacing subtrees with others of same hash if they result in a smaller expression. Empirical results shows that applying this simplification during evolution performs equal or better than without simplification in minimization of error, significantly reducing the number of nonlinear functions. This technique can learn simplification rules that work in general or for a specific problem, and improves convergence while reducing model complexity.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 畳み込みニューラルネットワークにおける量子誘発活性化機能

Quantum-inspired activation functions in the convolutional neural network ( http://arxiv.org/abs/2404.05901v1 )

ライセンス: Link先を確認
Shaozhi Li, M Sabbir Salek, Yao Wang, Mashrur Chowdhury, (参考訳) 量子コンピューティングがもたらす大きなアドバンテージによって、近年は量子機械学習の研究が増加している。 量子機械学習のいくつかの応用で量子スピードアップが実証されているが、その基盤となる性能改善メカニズムの包括的理解はいまだに解明されていない。 本研究では、畳み込みニューラルネットワーク(CNN)に組み込まれた量子回路の表現可能性を調べることにより、このギャップを埋める。 MNISTデータセットの数値学習により、我々のハイブリッド量子古典的CNNモデルは優れた特徴選択能力を示し、古典的CNNと比較して必要なトレーニングステップを大幅に削減した。 この性能向上のルーツを理解するため,量子回路の機能的表現可能性の分析を行い,量子アクティベーション関数の導出を行った。 我々は、この量子アクティベーションが重要な特徴を選択し、入力画像の重要でない情報を破棄する上でより効率的であることを実証した。 これらの知見は、量子化された機械学習モデルの理解を深めるだけでなく、量子に着想を得たアクティベーション関数を導入することによって、古典的な機械学習技術も前進させた。

Driven by the significant advantages offered by quantum computing, research in quantum machine learning has increased in recent years. While quantum speed-up has been demonstrated in some applications of quantum machine learning, a comprehensive understanding of its underlying mechanisms for improved performance remains elusive. Our study fills this gap by examining the expressibility of quantum circuits integrated within a convolutional neural network (CNN). Through numerical training on the MNIST dataset, our hybrid quantum-classical CNN model exhibited superior feature selection capabilities and significantly reduced the required training steps compared to the classical CNN. To understand the root of this enhanced performance, we conducted an analytical investigation of the functional expressibility of quantum circuits and derived a quantum activation function. We demonstrated that this quantum activation is more efficient in selecting important features and discarding unimportant information of input images. These findings not only deepen our comprehension of quantum-enhanced machine-learning models but also advance the classical machine-learning technique by introducing the quantum-inspired activation function.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# WILBUR:ロバストで正確なWebエージェントのための適応型インコンテキスト学習

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents ( http://arxiv.org/abs/2404.05902v1 )

ライセンス: Link先を確認
Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna, (参考訳) Webエージェント研究の領域では、一般化と精度の両方を達成することは難しい問題である。 ウェブサイトの構造のばらつきが大きいため、既存のアプローチは失敗することが多い。 さらに、既存の微調整およびコンテキスト内学習技術は、複数のウェブサイトにまたがる一般化に失敗する。 異なるランク付けモデルと新しい命令合成技術を用いて,ブラックボックスの大規模言語モデルのプロンプトを,前回の実行時のタスクデモで最適に生成する手法であるWilburを紹介する。 また,エンド・ツー・エンドの成功率を最大化するために,その誤りから学習し,回復するインテリジェント・バックトラック機構を提案する。 最後に、LLMから代表目標を抽出し、エージェントを実行し、手動のアノテーションなしで自動的に評価する生成オートカリキュラムのデータに基づいてランキングモデルをトレーニングできることを示す。 Wilbur氏はWebVoyagerベンチマークで最先端の結果を達成し、テキストのみのモデルを全体の8%、特定のウェブサイトで最大36%上回った。 同じベンチマークでは、Wilburはテキスト入力のみを受け取っているにもかかわらず、強いマルチモーダルモデルの5%以内であり、さらに分析の結果、Webを運用するエンジニアリング上の課題によって、かなりの数の失敗が判明している。

In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 自然学習

Natural Learning ( http://arxiv.org/abs/2404.05903v1 )

ライセンス: Link先を確認
Hadi Fanaee-T, (参考訳) 我々は,機械学習の説明可能性と解釈可能性を極端に高める新しいアルゴリズムであるNatural Learning (NL)を紹介した。 NLは、決定を直感的なルールに単純化する。例えば、「我々はあなたの収入、雇用状況、年齢が、承認されたプロトタイプ以上の拒否されたプロトタイプに似ているため、あなたのローンを拒絶した」。 実生活のデータセットに適用すると、NLは素晴らしい結果をもたらす。 例えば、1545人の患者と10935の遺伝子を持つ大腸癌データセットでは、NLはDNNとRFに匹敵する98.1%の精度を達成し、2つの発見されたプロトタイプに対してわずか3つのテストサンプルの遺伝子しか分析していない。 同様に、UCIのWDBCデータセットでは、NLは7つの機能と2つのプロトタイプのみを使用して98.3%の精度を達成する。 MNISTデータセット(0 vs. 1)でも、NLは99.5%の精度で、2つのプロトタイプ画像から3ピクセルしか取得できない。 NLは、認知心理学の古い概念であるプロトタイプ理論にインスピレーションを受けており、人々は単一のスパースなプロトタイプを学習してオブジェクトを分類することを示唆している。 この緩和された仮定を生かして、我々はSVM(Support Vector Machines)を再設計し、その数学的定式化を完全に最寄りのソリューションに置き換え、次元の呪いに対処するため、局所性に敏感なハッシュを利用する。 理論の一般化可能性原理に従えば,非中心的特徴を具現化する再帰的手法を提案する。 結果として、NL は n の点で高い並列化能力を持つ O(n^2pL) の最も長いプロトタイプを効率的に発見する。 17のベンチマークデータセットによるNLの評価は、決定木やロジスティック回帰と比較して、顕著なパフォーマンスを示している。 さらに、NLは、ディープニューラルネットワークやランダムフォレストのような微調整されたブラックボックスモデルに匹敵するパフォーマンスを40%のケースで達成し、平均精度は1-2%以下である。 コードはhttp://natural-learning.cc.comから入手できる。

We introduce Natural Learning (NL), a novel algorithm that elevates the explainability and interpretability of machine learning to an extreme level. NL simplifies decisions into intuitive rules, like "We rejected your loan because your income, employment status, and age collectively resemble a rejected prototype more than an accepted prototype." When applied to real-life datasets, NL produces impressive results. For example, in a colon cancer dataset with 1545 patients and 10935 genes, NL achieves 98.1% accuracy, comparable to DNNs and RF, by analyzing just 3 genes of test samples against 2 discovered prototypes. Similarly, in the UCI's WDBC dataset, NL achieves 98.3% accuracy using only 7 features and 2 prototypes. Even on the MNIST dataset (0 vs. 1), NL achieves 99.5% accuracy with only 3 pixels from 2 prototype images. NL is inspired by prototype theory, an old concept in cognitive psychology suggesting that people learn single sparse prototypes to categorize objects. Leveraging this relaxed assumption, we redesign Support Vector Machines (SVM), replacing its mathematical formulation with a fully nearest-neighbor-based solution, and to address the curse of dimensionality, we utilize locality-sensitive hashing. Following theory's generalizability principle, we propose a recursive method to prune non-core features. As a result, NL efficiently discovers the sparsest prototypes in O(n^2pL) with high parallelization capacity in terms of n. Evaluation of NL with 17 benchmark datasets shows its significant outperformance compared to decision trees and logistic regression, two methods widely favored in healthcare for their interpretability. Moreover, NL achieves performance comparable to finetuned black-box models such as deep neural networks and random forests in 40% of cases, with only a 1-2% lower average accuracy. The code is available via http://natural-learning.cc.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 幻覚のリーダーボード - 大規模言語モデルにおける幻覚を測定するオープンな取り組み

The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models ( http://arxiv.org/abs/2404.05904v1 )

ライセンス: Link先を確認
Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Pasquale Minervini, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の景観を人間のようなテキストを理解し、生成する能力で変化させてきた。 しかし、これらのモデルは、実際の現実や入力コンテキストと一致しない出力である ``hallucinations'' の傾向がある。 本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。 リーダーボードは、質問回答、要約、読書理解など、さまざまなタスクにおいて、事実性や忠実性といった幻覚のさまざまな側面に焦点を当てた包括的なベンチマークを使用する。 我々の分析は、異なるモデルの性能に関する洞察を提供し、研究者や実践者がアプリケーションに最も信頼性の高いモデルを選択するのを導く。

Large Language Models (LLMs) have transformed the Natural Language Processing (NLP) landscape with their remarkable ability to understand and generate human-like text. However, these models are prone to ``hallucinations'' -- outputs that do not align with factual reality or the input context. This paper introduces the Hallucinations Leaderboard, an open initiative to quantitatively measure and compare the tendency of each model to produce hallucinations. The leaderboard uses a comprehensive set of benchmarks focusing on different aspects of hallucinations, such as factuality and faithfulness, across various tasks, including question-answering, summarisation, and reading comprehension. Our analysis provides insights into the performance of different models, guiding researchers and practitioners in choosing the most reliable models for their applications.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 深層強化学習を用いた希少事象研究のための計算遷移経路

Computing Transition Pathways for the Study of Rare Events Using Deep Reinforcement Learning ( http://arxiv.org/abs/2404.05905v1 )

ライセンス: Link先を確認
Bo Lin, Yangzheng Zhong, Weiqing Ren, (参考訳) 複雑系における準安定状態間の遷移現象を理解することは、計算物理学、化学、生物学の分野において重要な課題である。 転移経路は、例えば、生体分子のコンフォメーション変化の研究において、転移の基盤となるメカニズムを特徴づける上で重要な役割を果たしている。 実際、遷移経路の計算は複雑で高次元のシステムにとって難しい課題である。 本研究では,特定の経路空間上でのコスト最小化問題としてパスフィニングタスクを定式化する。 コスト関数はFreidlin-Wentzellアクション関数から適用され、荒々しい潜在的な景観に対処できる。 次に、ディープ決定性ポリシー勾配アルゴリズム(DDPG)に基づくアクター批判法を用いてパスフィニング問題を解く。 この方法は、エピソードを生成するポリシーにシステムのポテンシャル力を取り入れ、システムの物理的特性と分子系の学習過程を結合する。 強化学習の活用と探索の性質により、遷移事象を効率的にサンプリングし、大域的最適遷移経路を計算することができる。 提案手法の有効性を,拡張型ミュラーシステムと7粒子のレナード・ジョーンズシステムを含む3つのベンチマークシステムを用いて検討した。

Understanding the transition events between metastable states in complex systems is an important subject in the fields of computational physics, chemistry and biology. The transition pathway plays an important role in characterizing the mechanism underlying the transition, for example, in the study of conformational changes of bio-molecules. In fact, computing the transition pathway is a challenging task for complex and high-dimensional systems. In this work, we formulate the path-finding task as a cost minimization problem over a particular path space. The cost function is adapted from the Freidlin-Wentzell action functional so that it is able to deal with rough potential landscapes. The path-finding problem is then solved using a actor-critic method based on the deep deterministic policy gradient algorithm (DDPG). The method incorporates the potential force of the system in the policy for generating episodes and combines physical properties of the system with the learning process for molecular systems. The exploitation and exploration nature of reinforcement learning enables the method to efficiently sample the transition events and compute the globally optimal transition pathway. We illustrate the effectiveness of the proposed method using three benchmark systems including an extended Mueller system and the Lennard-Jones system of seven particles.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 記号回帰の解釈可能性:Feynmanデータセットを用いた説明手法のベンチマーク

Interpretability in Symbolic Regression: a benchmark of Explanatory Methods using the Feynman data set ( http://arxiv.org/abs/2404.05908v1 )

ライセンス: Link先を確認
Guilherme Seidyo Imai Aldeia, Fabricio Olivetti de Franca, (参考訳) いくつかの状況では、機械学習モデルの解釈可能性は、モデルの精度と同じくらい重要な役割を果たす。 解釈可能性とは、予測モデルを信頼したり、その特性の一部を検証したり、公平性を改善するためにそれらを強制することによる。 ブラックボックスモデルの説明を提供するために、多くのモデルに依存しない説明法が存在する。 レグレッションタスクでは、ホワイトボックスまたはグレーボックスモデルを使用してより解釈可能な結果が得られる。 説明的手法を用いた場合、解釈可能性には厳密な定義が欠けているため、品質と異なる説明者を評価し比較する必要がある。 本稿では,主に記号的回帰モデルである回帰モデルを説明するための説明法を評価するためのベンチマーク手法を提案する。 解釈可能な回帰法と非解釈可能な回帰法と一般的な説明法を組み合わせた100の物理方程式を用いて実験を行い、説明器の性能をいくつかの説明尺度で評価した。 さらに,GPコミュニティのベンチマークを4つ分析した。 その結果、シンボリック回帰モデルは、適切な説明を伴う正確なモデルを返すことができるホワイトボックスモデルとブラックボックスモデルに代えて、興味深い代替となることが示されている。 その結果, 部分効果とSHAPが最も頑健な説明モデルであり, 統合勾配は木系モデルでのみ不安定であることがわかった。 このベンチマークは、さらなる実験のために公開されている。

In some situations, the interpretability of the machine learning models plays a role as important as the model accuracy. Interpretability comes from the need to trust the prediction model, verify some of its properties, or even enforce them to improve fairness. Many model-agnostic explanatory methods exists to provide explanations for black-box models. In the regression task, the practitioner can use white-boxes or gray-boxes models to achieve more interpretable results, which is the case of symbolic regression. When using an explanatory method, and since interpretability lacks a rigorous definition, there is a need to evaluate and compare the quality and different explainers. This paper proposes a benchmark scheme to evaluate explanatory methods to explain regression models, mainly symbolic regression models. Experiments were performed using 100 physics equations with different interpretable and non-interpretable regression methods and popular explanation methods, evaluating the performance of the explainers performance with several explanation measures. In addition, we further analyzed four benchmarks from the GP community. The results have shown that Symbolic Regression models can be an interesting alternative to white-box and black-box models that is capable of returning accurate models with appropriate explanations. Regarding the explainers, we observed that Partial Effects and SHAP were the most robust explanation models, with Integrated Gradients being unstable only with tree-based models. This benchmark is publicly available for further experiments.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# エプシロン・レキシケース選択のための最小分散しきい値

Minimum variance threshold for epsilon-lexicase selection ( http://arxiv.org/abs/2404.05909v1 )

ライセンス: Link先を確認
Guilherme Seidyo Imai Aldeia, Fabricio Olivetti de Franca, William G. La Cava, (参考訳) 親選択は進化アルゴリズムにおいて重要な役割を担い、次の世代を繁殖する前に親プールを選択するための多くの戦略が存在する。 メソッドは、両親を選択する基準としてデータセット全体の平均エラーに依存することが多く、すべてのテストケースの集約による情報損失につながる可能性がある。 エプシロン・レキシケースの選択では、各検査を個別に使用して反復的に減少する選択プールへ行き、エリートエラーよりも高いエラーと、特定のテストケースに対する中央値の絶対偏差(MAD)を持つ個人を廃棄する。 ケースにおける個人のパフォーマンスの違いをよりよく把握するために、エラーを2つのパーティションに分割し、パーティション内の全分散を最小限に抑える新しい基準を提案する。 提案手法をFEATシンボリック回帰アルゴリズムに組み込み,122個のブラックボックス合成および実世界の回帰問題を含むSRBenchフレームワークを用いて評価した。 実験の結果,実世界のデータセットにおける従来のepsilon-lexicase選択と比較して,合成データセットで同等の性能を示した。

Parent selection plays an important role in evolutionary algorithms, and many strategies exist to select the parent pool before breeding the next generation. Methods often rely on average error over the entire dataset as a criterion to select the parents, which can lead to an information loss due to aggregation of all test cases. Under epsilon-lexicase selection, the population goes to a selection pool that is iteratively reduced by using each test individually, discarding individuals with an error higher than the elite error plus the median absolute deviation (MAD) of errors for that particular test case. In an attempt to better capture differences in performance of individuals on cases, we propose a new criteria that splits errors into two partitions that minimize the total variance within partitions. Our method was embedded into the FEAT symbolic regression algorithm, and evaluated with the SRBench framework, containing 122 black-box synthetic and real-world regression problems. The empirical results show a better performance of our approach compared to traditional epsilon-lexicase selection in the real-world datasets while showing equivalent performance on the synthetic dataset.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-08
# 教師なしセグメンテーション学習を改善するための2つの試み

Two Tricks to Improve Unsupervised Segmentation Learning ( http://arxiv.org/abs/2404.03392v2 )

ライセンス: Link先を確認
Alp Eren Sari, Francesco Locatello, Paolo Favaro, (参考訳) 教師なしセグメンテーション学習のための2つの実践的改善手法を提案する。 これらの技術は、最新の最先端手法の予測セグメンテーションマップの解像度と精度の限界に対処する。 まず、ガイドフィルタなどの画像後処理技術を利用して出力マスクを洗練し、計算コストを大幅に削減しつつ精度を向上する。 第2に,教師学生の学習計画に基づく複数スケールの一貫性基準を導入する。 この基準は、異なる解像度で抽出された入力画像の領域から予測されるセグメンテーションマスクと異なる解像度で一致する。 教師なしセグメンテーション学習におけるいくつかのベンチマーク実験の結果,提案手法の有効性が示された。

We present two practical improvement techniques for unsupervised segmentation learning. These techniques address limitations in the resolution and accuracy of predicted segmentation maps of recent state-of-the-art methods. Firstly, we leverage image post-processing techniques such as guided filtering to refine the output masks, improving accuracy while avoiding substantial computational costs. Secondly, we introduce a multi-scale consistency criterion, based on a teacher-student training scheme. This criterion matches segmentation masks predicted from regions of the input image extracted at different resolutions to each other. Experimental results on several benchmarks used in unsupervised segmentation learning demonstrate the effectiveness of our proposed techniques.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-08
# player2vec: ゲームにおけるプレイヤーの振る舞いを理解するための言語モデリングアプローチ

player2vec: A Language Modeling Approach to Understand Player Behavior in Games ( http://arxiv.org/abs/2404.04234v2 )

ライセンス: Link先を確認
Tianze Wang, Maryam Honari-Jahromi, Styliani Katsarou, Olga Mikheeva, Theodoros Panagiotakopoulos, Sahar Asadi, Oleg Smirnov, (参考訳) 過去の行動ログから潜在ユーザ表現を学習する方法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。 しかし、この領域はビデオやモバイルのゲーム分野ではまだ比較的過小評価されている。 本研究では,自然言語処理領域からプレイヤー行動データへの長距離トランスフォーマーモデルの拡張により,この制限を克服する新しい手法を提案する。 本研究では,ゲームにおける行動追跡の具体性を議論し,ゲーム内イベントを文中の単語と類似して見ることによって,前処理とトークン化のアプローチを提案する。 本研究では,本提案手法の有効性を,固有言語モデルメトリクスの評価により実験的に検証した。 さらに、学習した埋め込み空間の出現構造を質的に分析し、下流アプリケーションに通知するための行動パターンに対する洞察を生み出す価値を示す。

Methods for learning latent user representations from historical behavior logs have gained traction for recommendation tasks in e-commerce, content streaming, and other settings. However, this area still remains relatively underexplored in video and mobile gaming contexts. In this work, we present a novel method for overcoming this limitation by extending a long-range Transformer model from the natural language processing domain to player behavior data. We discuss specifics of behavior tracking in games and propose preprocessing and tokenization approaches by viewing in-game events in an analogous way to words in sentences, thus enabling learning player representations in a self-supervised manner in the absence of ground-truth annotations. We experimentally demonstrate the efficacy of the proposed approach in fitting the distribution of behavior events by evaluating intrinsic language modeling metrics. Furthermore, we qualitatively analyze the emerging structure of the learned embedding space and show its value for generating insights into behavior patterns to inform downstream applications.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-08
# アプリケーション駆動学習:動的リザーブと需要予測に応用したクローズドループ予測と最適化アプローチ

Application-Driven Learning: A Closed-Loop Prediction and Optimization Approach Applied to Dynamic Reserves and Demand Forecasting ( http://arxiv.org/abs/2102.13273v5 )

ライセンス: Link先を確認
Joaquim Dias Garcia, Alexandre Street, Tito Homem-de-Mello, Francisco D. Muñoz, (参考訳) 予測と意思決定は、一般に、オープンループアプローチに従って、フィードバックなしで2つのシーケンシャルなステップとしてモデル化される。 本稿では,二段階最適化問題によって予測と意思決定のプロセスが統合され,協調最適化される新しいクローズドループフレームワークであるアプリケーション駆動学習を提案する。 本稿では,提案手法を汎用形式で提示し,選択したアプリケーションの期待されるコストの観点から,解が最適推定器に収束することを証明する。 次に,2段階問題のKKT条件に基づく正確な解法と,分解法に適したスケーラブルなヒューリスティックな解法を提案する。 提案手法は, ダイナミックリザーブ要件と条件付き負荷予測を規定する関連問題に適用し, 産業プラクティスにおける現行のアドホック手順に対する代替アプローチを提供する。 提案手法を、標準の最小二乗予測とディスパッチ計画プロセスでベンチマークする。 提案手法を,数十のバスから数千のバスを用いた大規模現実システムに至るまで,イラストレーティブシステムと幅広い事例に適用する。 その結果,提案手法は拡張性が高く,標準のオープンループ手法よりも一貫して性能が向上していることがわかった。

Forecasting and decision-making are generally modeled as two sequential steps with no feedback, following an open-loop approach. In this paper, we present application-driven learning, a new closed-loop framework in which the processes of forecasting and decision-making are merged and co-optimized through a bilevel optimization problem. We present our methodology in a general format and prove that the solution converges to the best estimator in terms of the expected cost of the selected application. Then, we propose two solution methods: an exact method based on the KKT conditions of the second-level problem and a scalable heuristic approach suitable for decomposition methods. The proposed methodology is applied to the relevant problem of defining dynamic reserve requirements and conditional load forecasts, offering an alternative approach to current ad hoc procedures implemented in industry practices. We benchmark our methodology with the standard sequential least-squares forecast and dispatch planning process. We apply the proposed methodology to an illustrative system and to a wide range of instances, from dozens of buses to large-scale realistic systems with thousands of buses. Our results show that the proposed methodology is scalable and yields consistently better performance than the standard open-loop approach.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-08
# 離散有限集合における微分プライベートクエリの最適ノイズ機構

Optimum Noise Mechanism for Differentially Private Queries in Discrete Finite Sets ( http://arxiv.org/abs/2111.11661v3 )

ライセンス: Link先を確認
Sachin Kadam, Anna Scaglione, Nikhil Ravi, Sean Peisert, Brent Lunghino, Aram Shumavon, (参考訳) 差分プライバシー(DP)の文献は、クエリにノイズを導入することでプライバシー制約を満たすことに集中することが多い。 しかし、この強調は、特に分類的あるいは離散的な数値データベースクエリ(ノイズ分布を定義するパラメータが有限であり、最適に選択できる)の文脈において、応答精度と実用性の重要な考慮を無視する傾向にある。 本稿では、離散的および有限なクエリセットに適した最適ノイズ確率マス関数(PMF)を設計するための新しいフレームワークを導入することで、このギャップに対処する。 提案手法は,プライバシ制約を満たすだけでなく,クエリの歪みを最小限に抑えたトラクタブルソリューションを提案することを目的として,ランダムノイズのモジュロ和をDP機構として検討する。 プライバシー制約にのみ焦点をあてた既存のアプローチとは異なり、我々のフレームワークは任意の$(\epsilon, \delta)$制約の下でノイズ分布を最適化し、応答の精度と有用性を向上させる。 我々は,Mixed-Integer Linear Program (MILP) を解くことで最適PMFが得られることを示した。 さらに、最適PMFに対する閉形式解が提供され、2つの特定の場合の誤差の確率を最小化する。 数値実験により,提案手法の最先端手法と比較して,最適機構の優れた性能が示された。 本稿では,プライバシ要件を満たすだけでなく,クエリの歪みを最適化するノイズ機構を設計するための,明確かつ体系的なアプローチを提案することによって,DP文献に寄与する。 ここで導入されたフレームワークは、プライバシ保護データベースクエリの改善のための道を開き、レスポンスの正確性とユーティリティを大幅に強化する。

The Differential Privacy (DP) literature often centers on meeting privacy constraints by introducing noise to the query, typically using a pre-specified parametric distribution model with one or two degrees of freedom. However, this emphasis tends to neglect the crucial considerations of response accuracy and utility, especially in the context of categorical or discrete numerical database queries, where the parameters defining the noise distribution are finite and could be chosen optimally. This paper addresses this gap by introducing a novel framework for designing an optimal noise Probability Mass Function (PMF) tailored to discrete and finite query sets. Our approach considers the modulo summation of random noise as the DP mechanism, aiming to present a tractable solution that not only satisfies privacy constraints but also minimizes query distortion. Unlike existing approaches focused solely on meeting privacy constraints, our framework seeks to optimize the noise distribution under an arbitrary $(\epsilon, \delta)$ constraint, thereby enhancing the accuracy and utility of the response. We demonstrate that the optimal PMF can be obtained through solving a Mixed-Integer Linear Program (MILP). Additionally, closed-form solutions for the optimal PMF are provided, minimizing the probability of error for two specific cases. Numerical experiments highlight the superior performance of our proposed optimal mechanisms compared to state-of-the-art methods. This paper contributes to the DP literature by presenting a clear and systematic approach to designing noise mechanisms that not only satisfy privacy requirements but also optimize query distortion. The framework introduced here opens avenues for improved privacy-preserving database queries, offering significant enhancements in response accuracy and utility.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-08
# 数学的言語処理に関する調査

A Survey in Mathematical Language Processing ( http://arxiv.org/abs/2205.15231v2 )

ライセンス: Link先を確認
Jordan Meadows, Andre Freitas, (参考訳) インフォーマルな数学的テキストは現実世界の量的推論とコミュニケーションを支える。 量子科学と数学における発見の自動化というビジョンを追求するためには、この双対モダリティから高度な解法と抽象法を開発することが不可欠である。 近年,5つの戦略的サブ領域にまたがる非公式な数学的言語処理手法の開発を追究し,既存の制約とともに方法論的要素が広く普及していることを強調した。

Informal mathematical text underpins real-world quantitative reasoning and communication. Developing sophisticated methods of retrieval and abstraction from this dual modality is crucial in the pursuit of the vision of automating discovery in quantitative science and mathematics. We track the development of informal mathematical language processing approaches across five strategic sub-areas in recent years, highlighting the prevailing successful methodological elements along with existing limitations.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-08
# 対角化のためのダブルブラケット量子アルゴリズム

Double-bracket quantum algorithms for diagonalization ( http://arxiv.org/abs/2206.11772v4 )

ライセンス: Link先を確認
Marek Gluza, (参考訳) 本研究は、対角化量子回路を得るためのフレームワークとして、ダブルブラケットの繰り返しを提案する。 量子コンピュータ上のそれらの実装は、入力ハミルトニアンによって生成されるインターレース進化と、変分的に選択できる対角展開からなる。 キュービットオーバーヘッドや制御単位演算は必要ないが、回路深さは再帰ステップの数に応じて指数関数的に増加する。 短期的な実装の実現を可能にするため、対角展開生成器の最適化と再帰ステップの継続が提案されている。 実際、この数値的な例のおかげで、ダブルブラケット反復の表現力は、関連する量子モデルの固有状態をほとんど再帰的なステップで近似するのに十分である。 非構造回路のブルートフォース最適化と比較すると、ダブルブラケットの繰り返しは同じトレーサビリティの制限に悩まされない。 さらに、量子位相推定よりも実装コストが低いため、短期量子コンピューティング実験に適している。 より広範に、この研究は、対角化とは異なるタスクのためのいわゆるダブルブラケットフローに基づく目的の量子アルゴリズムを構築するための経路を開き、実用的な物理問題に向けられた量子コンピューティングツールキットを拡大する。

This work proposes double-bracket iterations as a framework for obtaining diagonalizing quantum circuits. Their implementation on a quantum computer consists of interlacing evolutions generated by the input Hamiltonian with diagonal evolutions which can be chosen variationally. No qubit overheads or controlled-unitary operations are needed but the method is recursive which makes the circuit depth grow exponentially with the number of recursion steps. To make near-term implementations viable, the proposal includes optimization of diagonal evolution generators and of recursion step durations. Indeed, thanks to this numerical examples show that the expressive power of double-bracket iterations suffices to approximate eigenstates of relevant quantum models with few recursion steps. Compared to brute-force optimization of unstructured circuits double-bracket iterations do not suffer from the same trainability limitations. Moreover, with an implementation cost lower than required for quantum phase estimation they are more suitable for near-term quantum computing experiments. More broadly, this work opens a pathway for constructing purposeful quantum algorithms based on so-called double-bracket flows also for tasks different from diagonalization and thus enlarges the quantum computing toolkit geared towards practical physics problems.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# S$^{5}$Mars: 火星セマンティックセグメンテーションのための半教師付き学習

S$^{5}$Mars: Semi-Supervised Learning for Mars Semantic Segmentation ( http://arxiv.org/abs/2207.01200v4 )

ライセンス: Link先を確認
Jiahang Zhang, Lilang Lin, Zejia Fan, Wenjing Wang, Jiaying Liu, (参考訳) 深層学習は火星探査の強力なツールとなっている。 火星の地形セマンティックセグメンテーションは、ローバーの自律計画と安全な運転の基礎となる重要な火星の視覚タスクである。 しかし、優れたモデルを得るためには、ほとんどのディープラーニングメソッドが正確に必要とする、十分な詳細な高信頼データアノテーションが欠如している。 この問題に対処するため,共同データと手法設計の観点から提案する手法を提案する。 まず,S5Mars for Semi-SuperviSed Learning on Mars Semantic Segmentationを提案する。 そして、このスパースデータから学習するために、限定ラベル付きデータから表現を学ぶために、火星画像セマンティックセグメンテーションのための半教師付き学習(SSL)フレームワークを提案する。 地球画像データを対象としている既存のSSL方式と異なり、火星データの特徴を考慮に入れている。 具体的には、現在広く使われている自然画像の増大が火星画像に与える影響を最初に調査する。 そこで本研究では,火星セグメンテーションのSSLであるAugINとSAM-Mixの2つの新規かつ効果的な拡張手法を提案する。 一方、ラベルのないデータを完全に活用するために、予測信頼度に基づいて異なる目標から学習するソフト・ツー・ハードの一貫性学習戦略を導入する。 実験結果から,本手法は最先端のSSL手法よりも優れていることがわかった。 提案したデータセットはhttps://jhang2020.github.io/S5Mars.github.io/で公開されている。

Deep learning has become a powerful tool for Mars exploration. Mars terrain semantic segmentation is an important Martian vision task, which is the base of rover autonomous planning and safe driving. However, there is a lack of sufficient detailed and high-confidence data annotations, which are exactly required by most deep learning methods to obtain a good model. To address this problem, we propose our solution from the perspective of joint data and method design. We first present a newdataset S5Mars for Semi-SuperviSed learning on Mars Semantic Segmentation, which contains 6K high-resolution images and is sparsely annotated based on confidence, ensuring the high quality of labels. Then to learn from this sparse data, we propose a semi-supervised learning (SSL) framework for Mars image semantic segmentation, to learn representations from limited labeled data. Different from the existing SSL methods which are mostly targeted at the Earth image data, our method takes into account Mars data characteristics. Specifically, we first investigate the impact of current widely used natural image augmentations on Mars images. Based on the analysis, we then proposed two novel and effective augmentations for SSL of Mars segmentation, AugIN and SAM-Mix, which serve as strong augmentations to boost the model performance. Meanwhile, to fully leverage the unlabeled data, we introduce a soft-to-hard consistency learning strategy, learning from different targets based on prediction confidence. Experimental results show that our method can outperform state-of-the-art SSL approaches remarkably. Our proposed dataset is available at https://jhang2020.github.io/S5Mars.github.io/.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# 意図に基づく長期的人間中心行動予測

Intention-Conditioned Long-Term Human Egocentric Action Forecasting ( http://arxiv.org/abs/2207.12080v4 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee, (参考訳) 人間が将来どのように振る舞うかを予測するためには、人間をある目標に向けて導くため、人間の意図を理解することが不可欠である。 本稿では,人間の意図(ハイレベル)から人間行動(低レベル)のシーケンスを駆動できると仮定した階層型アーキテクチャを提案する。 これに基づいて、エゴセントリックビデオにおける長期行動予測タスクを取り扱う。 我々のフレームワークはまず,階層型マルチタスクMLPミキサー(H3M)を用いて,Nの観察ビデオ上の2つのレベルの人的情報を抽出する。 そこで,本研究では,次のZ=20動作のK安定予測を生成する意図条件付き変分自動エンコーダ(I-CVAE)を用いて,未来の不確実性を条件とした。 人間の意図を高レベルの情報として活用することにより、我々のモデルは長期にわたるより時間的な行動を予測することができ、EGO4D Challengeにおける基準手法よりも結果を改善することができると我々は主張する。 この研究はCVPR@2022とECVV@2022 EGO4D LTA Challengeの両方で、より実証可能な予測シーケンスを提供し、名詞や全体的な行動の予測を改善した。 Webページ: https://evm7.github.io/icvae-page/

To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in both CVPR@2022 and ECVV@2022 EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. Webpage: https://evm7.github.io/icvae-page/
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# ドメインに依存しない深さ補完を目指して

Towards Domain-agnostic Depth Completion ( http://arxiv.org/abs/2207.14466v2 )

ライセンス: Link先を確認
Guangkai Xu, Wei Yin, Jianming Zhang, Oliver Wang, Simon Niklaus, Simon Chen, Jia-Wang Bian, (参考訳) 既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域をまたいだ一般化が不十分である。 本稿では,現代の携帯電話や多視点再構成アルゴリズムなど,様々な範囲のセンサから得られたスパース/セミセンス,ノイズ,低分解能深度マップを補完する手法を提案する。 提案手法は,大規模データセットに基づいてトレーニングした単一画像深度予測ネットワークの形式で,データ駆動の先行モデルを利用して,その出力をモデルへの入力として利用する。 本稿では,典型的なタスク領域における様々な空間パターンをシミュレートする効果的なトレーニング手法を提案する。 さらに,提案手法の一般化可能性と頑健性を評価するための2つの新しいベンチマークを設計する。 提案手法は, 最先端の深度補正手法に対して優れたクロスドメイン一般化能力を示し, モバイルデバイス上での高品質の深度キャプチャを実現するための実用的なソリューションを提案する。 コードは、https://github.com/YvanYin/FillDepth.comで入手できる。

Existing depth completion methods are often targeted at a specific sparse depth type and generalize poorly across task domains. We present a method to complete sparse/semi-dense, noisy, and potentially low-resolution depth maps obtained by various range sensors, including those in modern mobile phones, or by multi-view reconstruction algorithms. Our method leverages a data-driven prior in the form of a single image depth prediction network trained on large-scale datasets, the output of which is used as an input to our model. We propose an effective training scheme where we simulate various sparsity patterns in typical task domains. In addition, we design two new benchmarks to evaluate the generalizability and the robustness of depth completion methods. Our simple method shows superior cross-domain generalization ability against state-of-the-art depth completion methods, introducing a practical solution to high-quality depth capture on a mobile device. The code is available at: https://github.com/YvanYin/FillDepth.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# 一般画面画像品質評価のための深部特徴統計マッピング

Deep Feature Statistics Mapping for Generalized Screen Content Image Quality Assessment ( http://arxiv.org/abs/2209.05321v3 )

ライセンス: Link先を確認
Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Sam Kwong, (参考訳) 自然画像の統計正則性は自然シーン統計と呼ばれ、非参照画像の品質評価において重要な役割を果たす。 しかし、通常コンピュータ生成されるスクリーンコンテンツ画像(SCI)はそのような統計を持っていないことが広く認識されている。 ここでは,SCIの質を効果的に決定できる指標に基づいて,SCIの統計を学習するための最初の試みを行う。 提案手法の基盤となるメカニズムは、物理的に取得されていないSCIが、学習方法で理解可能な統計に従うという軽微な仮定に基づいている。 本研究では, 統計的偏差が品質評価において有効に活用できることを実証的に示し, 異なる設定で評価した場合, 提案手法の方が優れていることを示す。 SCI品質評価モデル(DFSS-IQA)は、既存のNR-IQAモデルと比較して有望な性能を示し、データセット間設定において高い一般化能力を示す。 本手法の実装はhttps://github.com/Baoliang93/DFSS-IQAで公開されている。

The statistical regularities of natural images, referred to as natural scene statistics, play an important role in no-reference image quality assessment. However, it has been widely acknowledged that screen content images (SCIs), which are typically computer generated, do not hold such statistics. Here we make the first attempt to learn the statistics of SCIs, based upon which the quality of SCIs can be effectively determined. The underlying mechanism of the proposed approach is based upon the mild assumption that the SCIs, which are not physically acquired, still obey certain statistics that could be understood in a learning fashion. We empirically show that the statistics deviation could be effectively leveraged in quality assessment, and the proposed method is superior when evaluated in different settings. Extensive experimental results demonstrate the Deep Feature Statistics based SCI Quality Assessment (DFSS-IQA) model delivers promising performance compared with existing NR-IQA models and shows a high generalization capability in the cross-dataset settings. The implementation of our method is publicly available at https://github.com/Baoliang93/DFSS-IQA.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# 大規模量子回路上での2ソース最適ルーティングによるロバストな量子ビットマッピングアルゴリズム

Robust Qubit Mapping Algorithm via Double-Source Optimal Routing on Large Quantum Circuits ( http://arxiv.org/abs/2210.01306v4 )

ライセンス: Link先を確認
Chin-Yi Cheng, Chien-Yi Yang, Yi-Hsiang Kuo, Ren-Chu Wang, Hao-Chung Cheng, Chung-Yang Ric Huang, (参考訳) 量子マッピングは、実際のハードウェアデバイスに量子回路を実装する上で重要な側面である。 現在、量子ビットマッピングのための既存のアルゴリズムは、数百の量子ビットを含むより大きな回路サイズを扱う際に困難に直面している。 本稿では,量子ビットマッピングアルゴリズムであるDuostraを導入し,接続性に制限のある実ハードウェアデバイスに大規模量子回路を実装するという課題に対処する。 Duostraは、ダブルキュービットゲートの最適経路を効率よく決定し、実際のデバイス上でのダブルキュービット操作を実装するためにSWAPゲートを挿入する。 2つのヒューリスティックなスケジューリングアルゴリズム、Limitedly-Exhausitive (LE) Search と Shortest-Path (SP) Estimation と組み合わせて、合理的なランタイム内で良質な結果が得られる。 実験の結果,特にNISQ時代を超える大規模回路において,アルゴリズムの優位性が示された。 例えば、50量子ビット以上の大きな回路では、QMAP、t|ket>、Qiskit、SABREの仮想ベスト値よりも平均21.75%のマッピングコストを削減できる。 さらに、SABRE-largeベンチマークのような中規模の回路では、QMAP、TOQM、t|ket>、Qiskit、SABREと比較して、マッピングコストを4.5%、5.2%、16.3%、20.7%、25.7%改善する。

Qubit Mapping is a critical aspect of implementing quantum circuits on real hardware devices. Currently, the existing algorithms for qubit mapping encounter difficulties when dealing with larger circuit sizes involving hundreds of qubits. In this paper, we introduce an innovative qubit mapping algorithm, Duostra, tailored to address the challenge of implementing large-scale quantum circuits on real hardware devices with limited connectivity. Duostra operates by efficiently determining optimal paths for double-qubit gates and inserting SWAP gates accordingly to implement the double-qubit operations on real devices. Together with two heuristic scheduling algorithms, the Limitedly-Exhausitive (LE) Search and the Shortest-Path (SP) Estimation, it yields results of good quality within a reasonable runtime, thereby striving toward achieving quantum advantage. Experimental results showcase our algorithm's superiority, especially for large circuits beyond the NISQ era. For example, on large circuits with more than 50 qubits, we can reduce the mapping cost on an average 21.75% over the virtual best results among QMAP, t|ket>, Qiskit and SABRE. Besides, for mid-size circuits such as the SABRE-large benchmark, we improve the mapping costs by 4.5%, 5.2%, 16.3%, 20.7%, and 25.7%, when compared to QMAP, TOQM, t|ket>, Qiskit, and SABRE, respectively.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# ニューラルネットワークによる数値リュッシャー式の再検討

Rediscovery of Numerical Lüscher's Formula from the Neural Network ( http://arxiv.org/abs/2210.02184v2 )

ライセンス: Link先を確認
Yu Lu, Yi-Jia Wang, Ying Chen, Jia-Jun Wu, (参考訳) 連続空間における位相シフトから離散空間におけるスペクトルを予測することにより、ニューラルネットワークは数値的なL\"uscherの公式を高い精度で再現することができる。 L\"uscherの公式のモデルに依存しない性質は、ニューラルネットワークの一般化可能性によって自然に実現される。 これは、モデルに依存しない量間のモデルに依存しない関係を抽出するニューラルネットワークの大きな可能性を示しており、このデータ駆動アプローチは、複雑なデータの下にある物理原理の発見を大幅に促進する可能性がある。

We present that by predicting the spectrum in discrete space from the phase shift in continuous space, the neural network can remarkably reproduce the numerical L\"uscher's formula to a high precision. The model-independent property of the L\"uscher's formula is naturally realized by the generalizability of the neural network. This exhibits the great potential of the neural network to extract model-independent relation between model-dependent quantities, and this data-driven approach could greatly facilitate the discovery of the physical principles underneath the intricate data.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# CARE:条件付きグラフ生成による共感反応の因果推論

CARE: Causality Reasoning for Empathetic Responses by Conditional Graph Generation ( http://arxiv.org/abs/2211.00255v2 )

ライセンス: Link先を確認
Jiashuo Wang, Yi Cheng, Wenjie Li, (参考訳) 共感反応生成への最近のアプローチは、ユーザーの感情と経験の両方の理解を高めるために感情因果関係を取り入れている。 しかし、これらのアプローチには2つの重大な問題がある。 まず,ユーザの感情とユーザ体験の因果関係を考慮し,ユーザ体験の因果関係を無視する。 第二に、彼らは因果関係間の相互依存を無視し、独立して理由づける。 上記の問題を解決するため、ユーザの感情、対話履歴、将来の対話内容を考えると、すべてのもっともらしい因果関係を相互に同時に推論することを期待する。 そして、これらの因果関係を共感反応の応答生成に注入する。 具体的には、因果推論のための条件変分グラフオートエンコーダ(CVGAE)を設計し、因果注入のためのデコーダにマルチソースアテンション機構を採用する。 この枠組み全体をCARE(CAusality Reasoning for Empathetic conversation)と命名した。 実験結果から,本手法は最先端性能を実現することが示唆された。

Recent approaches to empathetic response generation incorporate emotion causalities to enhance comprehension of both the user's feelings and experiences. However, these approaches suffer from two critical issues. First, they only consider causalities between the user's emotion and the user's experiences, and ignore those between the user's experiences. Second, they neglect interdependence among causalities and reason them independently. To solve the above problems, we expect to reason all plausible causalities interdependently and simultaneously, given the user's emotion, dialogue history, and future dialogue content. Then, we infuse these causalities into response generation for empathetic responses. Specifically, we design a new model, i.e., the Conditional Variational Graph Auto-Encoder (CVGAE), for the causality reasoning, and adopt a multi-source attention mechanism in the decoder for the causality infusion. We name the whole framework as CARE, abbreviated for CAusality Reasoning for Empathetic conversation. Experimental results indicate that our method achieves state-of-the-art performance.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# 相対エントロピー規則化による経験的リスク最小化

Empirical Risk Minimization with Relative Entropy Regularization ( http://arxiv.org/abs/2211.06617v5 )

ライセンス: Link先を確認
Samir M. Perlaza, Gaetan Bisson, Iñaki Esnaola, Alain Jean-Marie, Stefano Rini, (参考訳) 相対エントロピー正則化(ERM-RER)を伴う経験的リスク最小化(ERM)問題は、基準測度が$\sigma$-finite測度であり、必ずしも確率測度ではないという仮定の下で検討される。 この仮定の下では、ERM-RER問題の一般化により、事前知識を組み込むための柔軟性がより高められ、多くの関連する性質が記述される。 これらの性質の中で、この問題の解が存在すれば、一意の確率測度であり、基準測度と相互に絶対連続であることが示される。 そのような解は、後者が解を持つかどうかに関わらず、ERM問題に対するおそらくほぼ正しい保証を示す。 固定されたデータセットと特定の条件下では、モデルが ERM-RER 問題への解からサンプリングされるとき、経験的リスクが準ガウス確率変数であることが示される。 ERM-RER問題に対する解の一般化能力(ギブスアルゴリズム)は、そのような解から代替確率測度への偏差に対する期待された経験的リスクの感度によって研究される。 最後に、感度、一般化誤差、ラウタム情報の間の興味深い接続を確立する。

The empirical risk minimization (ERM) problem with relative entropy regularization (ERM-RER) is investigated under the assumption that the reference measure is a $\sigma$-finite measure, and not necessarily a probability measure. Under this assumption, which leads to a generalization of the ERM-RER problem allowing a larger degree of flexibility for incorporating prior knowledge, numerous relevant properties are stated. Among these properties, the solution to this problem, if it exists, is shown to be a unique probability measure, mutually absolutely continuous with the reference measure. Such a solution exhibits a probably-approximately-correct guarantee for the ERM problem independently of whether the latter possesses a solution. For a fixed dataset and under a specific condition, the empirical risk is shown to be a sub-Gaussian random variable when the models are sampled from the solution to the ERM-RER problem. The generalization capabilities of the solution to the ERM-RER problem (the Gibbs algorithm) are studied via the sensitivity of the expected empirical risk to deviations from such a solution towards alternative probability measures. Finally, an interesting connection between sensitivity, generalization error, and lautum information is established.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-08
# ソボレフおよびベソフ空間上の深部ReLUニューラルネットワークの最適近似速度

Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces ( http://arxiv.org/abs/2211.14400v6 )

ライセンス: Link先を確認
Jonathan W. Siegel, (参考訳) Omega = [0,1]^d$ を $\mathbb{R}^d$ の単位立方体とする。 パラメータ数の観点からは、ReLUアクティベーション関数を持つディープニューラルネットワークがソボレフ空間$W^s(L_q(\Omega))$とBesov空間$B^s_r(L_q(\Omega))$の関数に近似し、誤りを$L_p(\Omega)$のノルムで測定する。 この問題は、科学計算や信号処理を含む様々な分野におけるニューラルネットワークの適用を研究する際に重要であり、以前は$p=q=\infty$で解決されていた。 我々の貢献は、対応するソボレフ空間やベソフ空間がコンパクトに$L_p$に埋め込まれたすべての1,q\leq p,q\leq \infty$および$s > 0$に対する完全な解を提供することである。 鍵となる技術ツールは、スパースベクトルを最適に符号化する新しいビット抽出技術である。 これにより、$p > q$ である非線型状態において、鋭い上界を得ることができる。 また、$p < \infty$ のときのVC次元に基づいて、$L_p$-approximationの下界を導出する新しい方法を提案する。 以上の結果から,非常に深いReLUネットワークは,パラメータ数の観点から古典的近似法を著しく上回っているが,これはエンコード不可能なパラメータのコストが原因であることがわかった。

Let $\Omega = [0,1]^d$ be the unit cube in $\mathbb{R}^d$. We study the problem of how efficiently, in terms of the number of parameters, deep neural networks with the ReLU activation function can approximate functions in the Sobolev spaces $W^s(L_q(\Omega))$ and Besov spaces $B^s_r(L_q(\Omega))$, with error measured in the $L_p(\Omega)$ norm. This problem is important when studying the application of neural networks in a variety of fields, including scientific computing and signal processing, and has previously been solved only when $p=q=\infty$. Our contribution is to provide a complete solution for all $1\leq p,q\leq \infty$ and $s > 0$ for which the corresponding Sobolev or Besov space compactly embeds into $L_p$. The key technical tool is a novel bit-extraction technique which gives an optimal encoding of sparse vectors. This enables us to obtain sharp upper bounds in the non-linear regime where $p > q$. We also provide a novel method for deriving $L_p$-approximation lower bounds based upon VC-dimension when $p < \infty$. Our results show that very deep ReLU networks significantly outperform classical methods of approximation in terms of the number of parameters, but that this comes at the cost of parameters which are not encodable.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# 時間的平坦な測定に基づく量子計算における量子優位性

Quantum advantage in temporally flat measurement-based quantum computation ( http://arxiv.org/abs/2212.03668v4 )

ライセンス: Link先を確認
Michael de Oliveira, Luís S. Barbosa, Ernesto F. Galvão, (参考訳) 量子回路のいくつかのクラスは、特定の仮定の下で量子計算の優位性をもたらすことが示されている。 量子優位性を持つ量子回路のより制限されたクラスの研究は、実験的なデモンストレーションで可能な単純化によって動機づけられる。 本稿では,測度に基づく量子計算の効率性について検討する。 我々は,多ビットグリーンバーガー,ホーン,ゼイリンガー(GHZ)状態に存在する相関関係に基づいて,任意のブール関数を決定論的に計算するための新しい構成を提案する。 我々はクリフォード階層を用いて必要な測定複雑性を特徴づけ、また、概して以前の構成に関して必要となるキュービットの数を減少させる。 特に,非適応MBQCを用いた決定論的評価が可能なブール関数群を同定し,古典回路の幅とゲート数の量子的優位性を特徴とする。

Several classes of quantum circuits have been shown to provide a quantum computational advantage under certain assumptions. The study of ever more restricted classes of quantum circuits capable of quantum advantage is motivated by possible simplifications in experimental demonstrations. In this paper we study the efficiency of measurement-based quantum computation with a completely flat temporal ordering of measurements. We propose new constructions for the deterministic computation of arbitrary Boolean functions, drawing on correlations present in multi-qubit Greenberger, Horne, and Zeilinger (GHZ) states. We characterize the necessary measurement complexity using the Clifford hierarchy, and also generally decrease the number of qubits needed with respect to previous constructions. In particular, we identify a family of Boolean functions for which deterministic evaluation using non-adaptive MBQC is possible, featuring quantum advantage in width and number of gates with respect to classical circuits.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# 分極格子における非線形位相空間充填の微視的理論

Microscopic theory of nonlinear phase space filling in polaritonic lattices ( http://arxiv.org/abs/2212.07968v3 )

ライセンス: Link先を確認
Kok Wee Song, Salvatore Chiavazzo, Oleksandr Kyriienko, (参考訳) 強結合二次元分極格子における非線形位相空間充填(NPSF)のフル顕微鏡理論を開発した。 極性実験におけるユビキタスなNPSFの理論的な記述は、摂動的処理と均質なサンプルに限られている。 本研究では,NPSFが光学応答を決定的に修飾する体制の広範な範囲を,既存の理論的記述を超えて発見する。 非ボゾン性, 協調光物質結合, クーロン遮断の量子効果について検討し, 位相空間充填による非線形ラビ分裂クエンチの観測方法を明らかにした。 従来の研究とは異なり、飽和限界まで非線形ラビ周波数のスケーリングを導き、格子ポテンシャルの存在が質的に異なる非線形性をもたらすことを示す。 我々はNPSFの3つの体制に集中する。 1) プランナー 2)骨折,及び 3) 超局所化。 平面飽和では、ラビ周波数は励起子密度の関数として指数関数的に減少する。 破断された場合,エキシトンがエキシトンサイズを超える部位を持つ格子を形成する場合,格子内での低占有時の高速NPSFが発見された。 その後、培地が完全に飽和するにつれて、NPSFが遅くなる。 この挙動は特にクーロン(またはリュードベルク)封鎖の存在下で顕著であり、高速かつ遅いNPSFの領域は反発の強さに依存する。 超局所化NPSFでは、2段階系の集合に典型的な平方根飽和が観察される。 この結果は,Moir{\'e}格子が自然に出現する遷移金属ジアルコゲナイドのヘテロ二層構造における強非線形性の最近の観察 [Nature \textbf{591}, 61 (2021)] に寄与する。 この理論は、パターン化されたサンプルを持つ分極格子の強い非線形応答の工学的可能性も開き、分極格子を量子状態に誘導する。

We develop a full microscopic theory for a nonlinear phase space filling (NPSF) in strongly coupled two-dimensional polaritonic lattices. Ubiquitous in polaritonic experiments, the theoretical description of NPSF, remains limited to perturbative treatment and homogeneous samples. In this study, we go beyond the existing theoretical description and discover the broad scope of regimes where NPSF crucially modifies the optical response. Studying the quantum effects of non-bosonicity, cooperative light-matter coupling, and Coulomb blockade, we reveal several regimes for observing the nonlinear Rabi splitting quench due to the phase space filling. Unlike prior studies, we derive nonlinear Rabi frequency scaling all the way to the saturation limit and show that the presence of a lattice potential leads to qualitatively distinct nonlinearity. We concentrate on three regimes of NPSF: 1) planar; 2) fractured; and 3) ultralocalized. In planar saturation, the Rabi frequency decreases exponentially as a function of exciton density. For the fractured case, where excitons form a lattice with sites exceeding the exciton size, we discover fast NPSF at low occupation in the lattice. This is followed by slower NPSF as the medium becomes fully saturated. This behavior is particularly pronounced in the presence of Coulomb (or Rydberg) blockade, where regions of fast and slow NPSF depend on the strength of repulsion. For the ultralocalized NPSF, we observe the square-root saturation typical to the collection of two-level systems. Our findings can help describing recent observations of strong nonlinearity in heterobilayers of transition metal dichalcogenides where Moir{\'e} lattices emerge naturally [Nature \textbf{591}, 61 (2021)]. The theory also opens the prospects for engineering strongly nonlinear responses of polaritonic lattices with patterned samples, driving polaritonics into the quantum regime.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# UAVCANデータセット記述

UAVCAN Dataset Description ( http://arxiv.org/abs/2212.09268v2 )

ライセンス: Link先を確認
Dongsung Kim, Yuchan Song, Soonhyeon Kwon, Haerin Kim, Jeong Do Yoo, Huy Kang Kim, (参考訳) UAVCANプロトコルを用いて無人車両からの攻撃データを収集し,技術文書の公開と記述を行った。 PX4を使ってドローンでテストベッドが作られ、合計3回の攻撃、洪水、ファジィ、リプレイが行われた。 攻撃は合計10回行われた。 攻撃データは、ドローンのセキュリティ脅威問題を解決するために、異常検出などの技術開発に役立つと期待している。

We collected attack data from unmanned vehicles using the UAVCAN protocol, and public and described technical documents. A testbed was built with a drone using PX4, and a total of three attacks, Flooding, Fuzzy, and Replay, were performed. The attack was carried out in a total of 10 scenarios. We expect that the attack data will help develop technologies such as anomaly detection to solve the security threat problem of drones.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# ノイズなしのノイズ画像の表現

Representing Noisy Image Without Denoising ( http://arxiv.org/abs/2301.07409v2 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Tao Xiang, Xiaochun Cao, Yong Xiang, (参考訳) 人工知能における長年のトピックは、ノイズの多い画像からパターンを効果的に認識することである。 この点において、最近のデータ駆動パラダイムは考慮すべきである 1)訓練段階(すなわちデータ増強)にノイズのあるサンプルを追加することにより、表現の堅牢性を向上させること 2)逆問題(すなわち、画像デノーミング)を解決するために、学習によってノイズの多い画像を前処理する。 しかし、これらの手法は一般に非効率なプロセスと不安定な結果を示し、実用的応用を制限している。 本稿では,ノイズの多い画像から直接頑健な表現を導出することを目的とした非学習パラダイムについて検討する。 ここで、ノイズ・ロバスト表現はラドン空間(FMR)におけるフラクショナル次モーメントとして設計され、直交性や回転不変性の利点もある。 従来の整数順序法とは異なり、我々の研究はそのような古典的手法を特別な場合として取り入れたより汎用的な設計であり、導入された分数次パラメータは古典的手法では利用できない時間周波数解析機能を提供する。 形式的には、FMRを構築するための暗黙の経路と明示的な経路の両方を詳細に議論する。 広汎なシミュレーション実験と画像セキュリティアプリケーションにより、FMRの特異性と有用性、特にノイズロバスト性、回転不変性、時間周波数識別性を示す。

A long-standing topic in artificial intelligence is the effective recognition of patterns from noisy images. In this regard, the recent data-driven paradigm considers 1) improving the representation robustness by adding noisy samples in training phase (i.e., data augmentation) or 2) pre-processing the noisy image by learning to solve the inverse problem (i.e., image denoising). However, such methods generally exhibit inefficient process and unstable result, limiting their practical applications. In this paper, we explore a non-learning paradigm that aims to derive robust representation directly from noisy images, without the denoising as pre-processing. Here, the noise-robust representation is designed as Fractional-order Moments in Radon space (FMR), with also beneficial properties of orthogonality and rotation invariance. Unlike earlier integer-order methods, our work is a more generic design taking such classical methods as special cases, and the introduced fractional-order parameter offers time-frequency analysis capability that is not available in classical methods. Formally, both implicit and explicit paths for constructing the FMR are discussed in detail. Extensive simulation experiments and an image security application are provided to demonstrate the uniqueness and usefulness of our FMR, especially for noise robustness, rotation invariance, and time-frequency discriminability.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# 解釈可能な専門家分布を持つ深部クラスタリングサバイバルマシン

Deep Clustering Survival Machines with Interpretable Expert Distributions ( http://arxiv.org/abs/2301.11826v4 )

ライセンス: Link先を確認
Bojian Hou, Hongming Li, Zhicheng Jiao, Zhen Zhou, Hao Zheng, Yong Fan, (参考訳) 従来の生存分析手法は、人口の不均一性を特徴付けるのに非効率であり、そのような情報は予測モデリングを支援するのに利用できる。 本研究では,識別機構と生成機構を組み合わせたハイブリッド・サバイバル解析手法を提案する。 混合モデルと同様に、生存データのタイミング情報は、ある種のパラメトリック分布、すなわち専門家分布の混合によって生成的に記述されると仮定する。 我々は,各インスタンスの生存情報を,学習された一定の専門家分布の重み付けの組み合わせによって特徴付けることができるように,それぞれの特徴に応じて,個々のインスタンスに対する専門家分布の重み付けを識別的に学習する。 この方法は、関連する専門家分布に従って、すべてのインスタンスの解釈可能なサブグループ化/クラスタ化を容易にする。 実データと合成データの両方に対する大規模な実験により、この手法は有望なクラスタリング結果と競合する時間対イベント予測性能を得ることができることを示した。

Conventional survival analysis methods are typically ineffective to characterize heterogeneity in the population while such information can be used to assist predictive modeling. In this study, we propose a hybrid survival analysis method, referred to as deep clustering survival machines, that combines the discriminative and generative mechanisms. Similar to the mixture models, we assume that the timing information of survival data is generatively described by a mixture of certain numbers of parametric distributions, i.e., expert distributions. We learn weights of the expert distributions for individual instances according to their features discriminatively such that each instance's survival information can be characterized by a weighted combination of the learned constant expert distributions. This method also facilitates interpretable subgrouping/clustering of all instances according to their associated expert distributions. Extensive experiments on both real and synthetic datasets have demonstrated that the method is capable of obtaining promising clustering results and competitive time-to-event predicting performance.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# SegForestNet: 空間分割に基づく空中画像分割

SegForestNet: Spatial-Partitioning-Based Aerial Image Segmentation ( http://arxiv.org/abs/2302.01585v3 )

ライセンス: Link先を確認
Daniel Gritzner, Jörn Ostermann, (参考訳) 航空画像のセグメンテーションは、地図の自動作成や森林破壊の追跡といったアプリケーションの基盤である。 これらの応用でよく用いられる真の正光度では、多くの対象や領域は多角形によってうまく近似することができる。 しかし、この事実は最先端のセマンティックセグメンテーションモデルによって利用されることは滅多にない。 代わりに、ほとんどのモデルは任意の領域の形状を許容することによって、予測において不要な自由度を許容する。 そこで我々は,効率的な多角形表現である二分空間分割木を予測するディープラーニングモデルを改良した。 改良には、新しい機能デコーダアーキテクチャと、どちらも廃止される勾配を避ける新しい差別化可能なBSPツリーレンダラーが含まれている。 さらに,予測木によって定義された空間分割を改善するために,新たな損失関数を設計した。 さらに,拡張モデルでは一度に複数の木を予測でき,クラス固有のセグメンテーションを予測できる。 さらなる貢献として、最適化されたトレーニングプロセスと比較して、最適でないトレーニングプロセスの影響について検討する。 PFNetや我々のモデルのような航空画像に最適化されたモデルアーキテクチャは、最適でない条件下では利点を示すが、この利点は最適な訓練条件下では消える。 この観察にもかかわらず、我々のモデルは、例えば自動車のような小さな長方形の物体に対して、より良い予測を行う。

Aerial image segmentation is the basis for applications such as automatically creating maps or tracking deforestation. In true orthophotos, which are often used in these applications, many objects and regions can be approximated well by polygons. However, this fact is rarely exploited by state-of-the-art semantic segmentation models. Instead, most models allow unnecessary degrees of freedom in their predictions by allowing arbitrary region shapes. We therefore present a refinement of our deep learning model which predicts binary space partitioning trees, an efficient polygon representation. The refinements include a new feature decoder architecture and a new differentiable BSP tree renderer which both avoid vanishing gradients. Additionally, we designed a novel loss function specifically designed to improve the spatial partitioning defined by the predicted trees. Furthermore, our expanded model can predict multiple trees at once and thus can predict class-specific segmentations. As an additional contribution, we investigate the impact of a non-optimal training process in comparison to an optimized training process. While model architectures optimized for aerial images, such as PFNet or our own model, show an advantage under non-optimal conditions, this advantage disappears under optimal training conditions. Despite this observation, our model still makes better predictions for small rectangular objects, e.g., cars.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-08
# トランスフォーマーモデルを用いたロバストな人間の動き予測

Robust Human Motion Forecasting using Transformer-based Model ( http://arxiv.org/abs/2302.08274v3 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Shuo Ma, Hyemin Ahn, Dongheui Lee, (参考訳) 人間の動きを補完することは、人間-ロボット協調アプリケーションを開発する上での根本的な課題である。 コンピュータビジョンの研究者たちは、予測におけるエラーを減らすことだけに焦点を合わせながら、ロボットにおけるその実装を促進するための要件を考慮していないことで、この分野に対処してきた。 本稿では,トランスフォーマーをベースとした,短時間・長期のリアルタイムな3次元動作予測を同時に扱う新しいモデルを提案する。 2-Channel Transformer (2CH-TR) は、近いうちに観測されたシーケンス(400ms)の時空間情報を効率よく利用し、現在の最先端技術に対して競合精度を発生させることができる。 2CH-TRはTransformerの高性能で、競合他社よりも軽量で高速である。 さらに, 騒音の多い環境下での3次元動作の復元・予測において, その頑健さを実証した。 実験の結果,提案した2CH-TRはST-Transformerよりも優れており,ST-Transformerは入力プレフィックスと同じ条件下での再構築と予測を行う。 我々のモデルは,短期予測におけるST-Transformerの平均2乗誤差を8.89%削減し,400msの入力プレフィックスを持つHuman3.6Mデータセットの長期予測を2.57%削減した。 Webページ: https://evm7.github.io/2CHTR-page/

Comprehending human motion is a fundamental challenge for developing Human-Robot Collaborative applications. Computer vision researchers have addressed this field by only focusing on reducing error in predictions, but not taking into account the requirements to facilitate its implementation in robots. In this paper, we propose a new model based on Transformer that simultaneously deals with the real time 3D human motion forecasting in the short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently exploit the spatio-temporal information of a shortly observed sequence (400ms) and generates a competitive accuracy against the current state-of-the-art. 2CH-TR stands out for the efficient performance of the Transformer, being lighter and faster than its competitors. In addition, our model is tested in conditions where the human motion is severely occluded, demonstrating its robustness in reconstructing and predicting 3D human motion in a highly noisy environment. Our experiment results show that the proposed 2CH-TR outperforms the ST-Transformer, which is another state-of-the-art model based on the Transformer, in terms of reconstruction and prediction under the same conditions of input prefix. Our model reduces in 8.89% the mean squared error of ST-Transformer in short-term prediction, and 2.57% in long-term prediction in Human3.6M dataset with 400ms input prefix. Webpage: https://evm7.github.io/2CHTR-page/
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# 一般化線形コンテキスト帯域に対するオンライン連続ハイパーパラメータ最適化

Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits ( http://arxiv.org/abs/2302.09440v3 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee, (参考訳) 確率的文脈的包帯において、エージェントは、過去の経験に基づいて設定された時間依存アクションから順次アクションを行い、累積的後悔を最小限に抑える。 他の多くの機械学習アルゴリズムと同様に、帯域幅のパフォーマンスはハイパーパラメータの値に大きく依存しており、理論的に導出されたパラメータ値は実際に不満足な結果をもたらす可能性がある。 さらに、クロスバリデーションのようなオフラインチューニング手法を使用して、帯域幅環境下でハイパーパラメータを選択することは不可能である。 この課題に対処するため,本稿では,探索空間内で実際に最適なパラメータ構成を学習するための,コンテキスト的帯域幅のオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。 具体的には、CDT(Continuous Dynamic Tuning)と呼ばれる2層バンドレートフレームワークを用いて、ハイパーパラメータ最適化を非定常連続武器バンディットとして定式化し、各アームがハイパーパラメータの組み合わせを表し、対応する報酬がアルゴリズム的な結果である。 上位層に対して,トンプソンサンプリング(TS)を探索に用いたZooming TSアルゴリズムと,<textit{switching}環境を回避するための再起動手法を提案する。 提案するCDTフレームワークは,複数のハイパーパラメータに対する事前指定候補セットを使わずに,文脈的帯域幅アルゴリズムのチューニングに容易に利用できる。 さらに、理論上はサブリニアな後悔を招き、合成データセットと実データセットの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。

In stochastic contextual bandits, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on the values of hyperparameters, and theoretically derived parameter values may lead to unsatisfactory results in practice. Moreover, it is infeasible to use offline tuning methods like cross-validation to choose hyperparameters under the bandit environment, as the decisions should be made in real-time. To address this challenge, we propose the first online continuous hyperparameter tuning framework for contextual bandits to learn the optimal parameter configuration in practice within a search space on the fly. Specifically, we use a double-layer bandit framework named CDT (Continuous Dynamic Tuning) and formulate the hyperparameter optimization as a non-stationary continuum-armed bandit, where each arm represents a combination of hyperparameters, and the corresponding reward is the algorithmic result. For the top layer, we propose the Zooming TS algorithm that utilizes Thompson Sampling (TS) for exploration and a restart technique to get around the \textit{switching} environment. The proposed CDT framework can be easily utilized to tune contextual bandit algorithms without any pre-specified candidate set for multiple hyperparameters. We further show that it could achieve a sublinear regret in theory and performs consistently better than all existing methods on both synthetic and real datasets.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# 双方向カメラ-LiDAR融合による光フローとシーンフローの学習

Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion ( http://arxiv.org/abs/2303.12017v2 )

ライセンス: Link先を確認
Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang, (参考訳) 本稿では,同期した2Dデータと3Dデータから,光フローとシーンフローを同時推定する問題について検討する。 従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使うか、2Dと3D情報を `early-fusion' または `late-fusion' の方法で融合させる。 このような1つの大きさのアプローチは、各モダリティの特性を完全に活用したり、モダリティ間の相補性を最大限にするために失敗するジレンマに悩まされる。 そこで本研究では,複数の双方向融合接続を持つ2次元および3次元分岐からなる新しいエンドツーエンドフレームワークを提案する。 従来の研究と異なり、点雲の幾何学的構造を保存するため、LiDARの特徴を抽出するために点ベースの3Dブランチを適用する。 濃密な画像特徴とスパース点特徴を融合するために,双方向カメラ-LiDAR融合モジュール (Bi-CLFM) と呼ばれる学習可能な演算子を提案する。 ピラミッド状粗大構造(CamLiPWC)と、全対電場変換(CamLiRAFT)に基づく2種類の双方向核融合パイプラインをインスタンス化する。 FlyingThings3Dでは、CamLiPWCとCamLiRAFTが既存のすべての手法を上回り、3Dエンドポイントエラーを最高の結果から最大47.9%削減した。 私たちの最高のパフォーマンスモデルであるCamLiRAFTは、KITTI Scene Flowベンチマークで4.26\%のエラーを達成しています。 さらに,本手法は高い一般化性能と非剛性運動の処理能力を有する。 コードはhttps://github.com/MCG-NJU/CamLiFlowで入手できる。

In this paper, we study the problem of jointly estimating the optical flow and scene flow from synchronized 2D and 3D data. Previous methods either employ a complex pipeline that splits the joint task into independent stages, or fuse 2D and 3D information in an ``early-fusion'' or ``late-fusion'' manner. Such one-size-fits-all approaches suffer from a dilemma of failing to fully utilize the characteristic of each modality or to maximize the inter-modality complementarity. To address the problem, we propose a novel end-to-end framework, which consists of 2D and 3D branches with multiple bidirectional fusion connections between them in specific layers. Different from previous work, we apply a point-based 3D branch to extract the LiDAR features, as it preserves the geometric structure of point clouds. To fuse dense image features and sparse point features, we propose a learnable operator named bidirectional camera-LiDAR fusion module (Bi-CLFM). We instantiate two types of the bidirectional fusion pipeline, one based on the pyramidal coarse-to-fine architecture (dubbed CamLiPWC), and the other one based on the recurrent all-pairs field transforms (dubbed CamLiRAFT). On FlyingThings3D, both CamLiPWC and CamLiRAFT surpass all existing methods and achieve up to a 47.9\% reduction in 3D end-point-error from the best published result. Our best-performing model, CamLiRAFT, achieves an error of 4.26\% on the KITTI Scene Flow benchmark, ranking 1st among all submissions with much fewer parameters. Besides, our methods have strong generalization performance and the ability to handle non-rigid motion. Code is available at https://github.com/MCG-NJU/CamLiFlow.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# SAOR:シングルビューArticulated Object Restruction

SAOR: Single-View Articulated Object Reconstruction ( http://arxiv.org/abs/2303.13514v3 )

ライセンス: Link先を確認
Mehmet Aygün, Oisin Mac Aodha, (参考訳) 野生で撮影された単一画像から3次元形状, テクスチャ, 視点を推定するための新しいアプローチであるSAORを紹介する。 事前に定義されたカテゴリ固有の3Dテンプレートや調整された3Dスケルトンに依存する従来のアプローチとは異なり、SAORは3Dオブジェクトの形状を事前に必要とせずに、スケルトンフリーのパーツベースモデルで単一ビューイメージコレクションから形状を明瞭化することを学ぶ。 そこで本研究では,不規則な物体形状の変形と調音を利用するクロスインスタンス整合損失を提案する。 これは、トレーニング中の視点の多様性を高めるために、新しいシルエットベースのサンプリングメカニズムによって助けられる。 本手法は,トレーニング中に市販の事前訓練ネットワークから推定対象シルエットと相対深度マップのみを必要とする。 単一のビュー画像が与えられた推論時に、明示的なメッシュ表現を効率よく出力する。 我々は,既存の研究と比較して,挑戦的な四足動物に対する質的,定量的な結果を得た。

We introduce SAOR, a novel approach for estimating the 3D shape, texture, and viewpoint of an articulated object from a single image captured in the wild. Unlike prior approaches that rely on pre-defined category-specific 3D templates or tailored 3D skeletons, SAOR learns to articulate shapes from single-view image collections with a skeleton-free part-based model without requiring any 3D object shape priors. To prevent ill-posed solutions, we propose a cross-instance consistency loss that exploits disentangled object shape deformation and articulation. This is helped by a new silhouette-based sampling mechanism to enhance viewpoint diversity during training. Our method only requires estimated object silhouettes and relative depth maps from off-the-shelf pre-trained networks during training. At inference time, given a single-view image, it efficiently outputs an explicit mesh representation. We obtain improved qualitative and quantitative results on challenging quadruped animals compared to relevant existing work.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# 数百万次元多目的問題に効果的に取り組む:方向サンプリングと微調整アプローチ

Efficiently Tackling Million-Dimensional Multiobjective Problems: A Direction Sampling and Fine-Tuning Approach ( http://arxiv.org/abs/2304.04067v2 )

ライセンス: Link先を確認
Haokai Hong, Min Jiang, Qiuzhen Lin, Kay Chen Tan, (参考訳) 我々は,超大規模多目的最適化問題を,10万以上の決定変数を持つ多重目的量 (VLSMOP) の最適化として定義する。 これらの問題は、現実のシナリオが多様であることを考えると、数十万の変数を最適化する必要があるため、かなり重要な問題である。 しかしながら、VLSMOPのより大きな次元は次元の呪いを増し、既存の大規模進化的多目的アルゴリズムに重大な課題をもたらし、実用的な計算資源の制約の中でそれらを解決するのがより困難になる。 この問題を解決するために,超大規模多目的最適化フレームワーク(VMOF)を提案する。 この方法は、非常に大規模な空間において、一般的なが適切な進化方向を効率的にサンプリングし、その後、これらの方向を微調整して、パレート最適解を見つける。 異なる解に対する最も適切な進化方向をサンプリングするために、トンプソンサンプリングは、限られた歴史的評価において非常に多くの項目から推奨する効果のために採用されている。 さらに、パレート最適解を追跡するための微調整方向を設計する。 設計したフレームワークを理解するために,フレームワークの分析を行い,広く認識されているベンチマークと100から1000,000の次元にまたがる実世界の問題を用いてVMOFを評価する。 実験により,本手法はLSMOPだけでなく,既存のアルゴリズムと比較してVLSMOPにも優れた性能を示すことが示された。

We define very large-scale multiobjective optimization problems as optimizing multiple objectives (VLSMOPs) with more than 100,000 decision variables. These problems hold substantial significance, given the ubiquity of real-world scenarios necessitating the optimization of hundreds of thousands, if not millions, of variables. However, the larger dimension in VLSMOPs intensifies the curse of dimensionality and poses significant challenges for existing large-scale evolutionary multiobjective algorithms, rendering them more difficult to solve within the constraints of practical computing resources. To overcome this issue, we propose a novel approach called the very large-scale multiobjective optimization framework (VMOF). The method efficiently samples general yet suitable evolutionary directions in the very large-scale space and subsequently fine-tunes these directions to locate the Pareto-optimal solutions. To sample the most suitable evolutionary directions for different solutions, Thompson sampling is adopted for its effectiveness in recommending from a very large number of items within limited historical evaluations. Furthermore, a technique is designed for fine-tuning directions specific to tracking Pareto-optimal solutions. To understand the designed framework, we present our analysis of the framework and then evaluate VMOF using widely recognized benchmarks and real-world problems spanning dimensions from 100 to 1,000,000. Experimental results demonstrate that our method exhibits superior performance not only on LSMOPs but also on VLSMOPs when compared to existing algorithms.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# MR-Scout:既存のテストケースからの変成関係の自動合成

MR-Scout: Automated Synthesis of Metamorphic Relations from Existing Test Cases ( http://arxiv.org/abs/2304.07548v3 )

ライセンス: Link先を確認
Congying Xu, Valerio Terragni, Hengcheng Zhu, Jiarong Wu, Shing-Chi Cheung, (参考訳) メタモルフィックテスト(MT)は、複数の関連する入力とその出力を管理するメタモルフィック関係(MR)に基づいてオラクルを定義することで、オラクル問題を緩和する。 しかし、MRの設計はドメイン固有の知識を必要とするため、難しい。 開発者が記述したテストケースは、MRを符号化するドメイン知識を埋め込むことができる。このような符号化されたMRは、元のプログラムだけでなく、同様の機能を持つプログラムもテストするために合成することができる。 本稿では,オープンソースソフトウェア(OSS)プロジェクトのテストケースからMRを自動的に合成するMR-Scoutを提案する。 MR-ScoutはまずMR符号化テストケース(MTC)を発見し、次に符号化されたMRをパラメータ化されたメソッド(コーデレートされたMRと呼ばれる)に合成し、新しいテストケース生成における品質の低下を示すMRをフィルタリングする。 MR-Scout は 701 OSS プロジェクトから 11,000 MTC 以上を発見した。 その結果, MR-Scout の実用性を示すため, 97%以上が自動テストケース生成に高品質であることがわかった。 さらに、コード化されたMRベースのテストは、開発者によるテストによるプログラムのテスト精度を効果的に向上させ、それぞれ13.52%と9.42%のラインカバレッジと突然変異スコアが増加した。 我々の質的研究は、コード化されたMRの55.76%から76.92%が開発者にとって容易に理解可能であることを示している。

Metamorphic Testing (MT) alleviates the oracle problem by defining oracles based on metamorphic relations (MRs), that govern multiple related inputs and their outputs. However, designing MRs is challenging, as it requires domain-specific knowledge. This hinders the widespread adoption of MT. We observe that developer-written test cases can embed domain knowledge that encodes MRs. Such encoded MRs could be synthesized for testing not only their original programs but also other programs that share similar functionalities. In this paper, we propose MR-Scout to automatically synthesize MRs from test cases in open-source software (OSS) projects. MR-Scout first discovers MR-encoded test cases (MTCs), and then synthesizes the encoded MRs into parameterized methods (called codified MRs), and filters out MRs that demonstrate poor quality for new test case generation. MR-Scout discovered over 11,000 MTCs from 701 OSS projects. Experimental results show that over 97% of codified MRs are of high quality for automated test case generation, demonstrating the practical applicability of MR-Scout. Furthermore, codified-MRs-based tests effectively enhance the test adequacy of programs with developer-written tests, leading to 13.52% and 9.42% increases in line coverage and mutation score, respectively. Our qualitative study shows that 55.76% to 76.92% of codified MRs are easily comprehensible for developers.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# 深層学習モデルを用いた人的株式トレーダーのチャート分析手法のシミュレーション

Using a Deep Learning Model to Simulate Human Stock Trader's Methods of Chart Analysis ( http://arxiv.org/abs/2304.14870v3 )

ライセンス: Link先を確認
Sungwoo Kang, Jong-Kook Kim, (参考訳) 効率的な市場仮説にもかかわらず、多くの研究は、株式市場における非効率性の存在が、以上の市場リターンを得るための技術開発につながることを示唆している。 システム取引は、市場行動を分析し予測するための強力なツールとしてディープラーニングスキームが登場し、ここ数十年で大きな進歩を遂げている。 本稿では,専門家の技術アナリストの取引方法に触発された手法を提案する。 このスキームは、過去600日間の株価を調べ、株価が次のD日で10%上昇するか、20%下落するかを予測する。 提案手法は、Resnet(ディープラーニングモデル)が接続とログをスキップして予測の確率を高める。 このモデルは、韓国と米国の株式市場の歴史的データを用いて訓練され、テストされた。 バックテストは2020年から2022年までのデータを使って行われる。 提案手法を用いて、シャープ比1.57の75.36%を返却し、それぞれ36%、0.61を上回った。 米国市場ではシャープ比0.61で27.17%、NASDAQ、S&P500、DOW JONES指数17.69%、0.27など他のベンチマークを上回っている。

Despite the efficient market hypothesis, many studies suggest the existence of inefficiencies in the stock market leading to the development of techniques to gain above-market returns. Systematic trading has undergone significant advances in recent decades with deep learning schemes emerging as a powerful tool for analyzing and predicting market behavior. In this paper, a method is proposed that is inspired by how professional technical analysts trade. This scheme looks at stock prices of the previous 600 days and predicts whether the stock price will rise or fall 10% or 20% within the next D days. The proposed method uses the Resnet's (a deep learning model) skip connections and logits to increase the probability of the prediction. The model was trained and tested using historical data from both the Korea and US stock markets. The backtest is done using the data from 2020 to 2022. Using the proposed method for the Korea market it gave return of 75.36% having Sharpe ratio of 1.57, which far exceeds the market return by 36% and 0.61, respectively. On the US market it gives total return of 27.17% with Sharpe ratio of 0.61, which outperforms other benchmarks such as NASDAQ, S&P500, DOW JONES index by 17.69% and 0.27, respectively.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-08
# テキスト・ビデオ生成のための時空間拡散におけるスワップアテンション

Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation ( http://arxiv.org/abs/2305.10874v3 )

ライセンス: Link先を確認
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu, (参考訳) AI生成コンテンツ(AIGC)の爆発的な人気により、ビデオ生成は近年多くの注目を集めている。 テキスト命令でガイドされたビデオを生成することは、空間と時間の間の複雑な関係をモデル化することや、大規模なテキストとビデオのペアリングデータの欠如など、大きな課題をもたらす。 既存のテキストビデオデータセットは、コンテンツ品質とスケールの両方の制限に悩まされるか、オープンソースではないため、学習や使用にはアクセスできない。 モデル設計においては、ビデオ生成のための時間的1D畳み込み/アテンションモジュールを追加することで、事前訓練されたテキスト・画像生成モデルを拡張する。 しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致を招きかねない。 本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。 特に,空間ブロックと時間ブロックの'query'の役割を交互に置き換える3次元ウィンドウにおいて,相互強化を実現する。 さらに、高品質なビデオ生成のためのモデル機能を完全にアンロックし、フィールドの開発を促進するために、HD-VG-130Mと呼ばれる大規模かつオープンソースのビデオデータセットをキュレートする。 このデータセットは、オープンドメインから1億3000万のテキストビデオペアで構成され、高精細度、ワイドスクリーン、透かしのない文字を保証する。 より小さく、より精巧に掃除されたサブセットは、データ品質をさらに向上させ、優れたパフォーマンスを達成するためのモデルを支援する。 実験的な定量的および定性的な結果から,フレーム単位の品質,時間的相関,テキスト・ビデオアライメントの面で,明確なマージンを有するアプローチの優位性を示した。

With the explosive popularity of AI-generated content (AIGC), video generation has recently received a lot of attention. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Existing text-video datasets suffer from limitations in both content quality and scale, or they are not open-source, rendering them inaccessible for study and use. For model design, previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the ``query'' role between spatial and temporal blocks, enabling mutual reinforcement for each other. Moreover, to fully unlock model capabilities for high-quality video generation and promote the development of the field, we curate a large-scale and open-source video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. A smaller-scale yet more meticulously cleaned subset further enhances the data quality, aiding models in achieving superior performance. Experimental quantitative and qualitative results demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-08
# ペア試料の累積差

Cumulative differences between paired samples ( http://arxiv.org/abs/2305.11323v2 )

ライセンス: Link先を確認
Isabel Kloumann, Hannah Korevaar, Chris McConnell, Mark Tygert, Jessica Zhao, (参考訳) 最も単純な、最も一般的なペアのサンプルは2つの個体群からの観測であり、それぞれが1つの個体群から観察された反応は、他の個体群からの観察された反応に対応する。 共変量の同じ値の観測された応答(各集団の1つ)のペアは、(共変量の値に基づくマッチング)「マッチングペア」として知られている。 2つの集団間の累積差のグラフは、共変量の関数としての応答の差を明らかにする。 実際、グラフ上の2つの点を接続するセカント線の傾斜は、この2つの点の間の共変量の幅の広い値の平均差となる。 (「平均」とは、試料を重み付けした場合の重み付け平均のこと。) さらに、カイパー計量として知られる単純な統計学は、共変量のすべての値に対する全体的な違いを1つのスカラーにまとめる。 カイパー計量(Kuiper metric)は、2つの集団間の反応の総和の絶対値であり、総和の絶対値が最大となる共変量の値の間隔で合計される。 合計は、合計が余変数のすべての値に対して(重み付けされた)平均となるように正規化されるべきである(つまり、合計の合計は、サンプルが重み付けされていない場合、または、サンプルが重み付けされている場合、総重量で割られる)。 この累積的アプローチは完全に非パラメトリックで一意に定義されており(グラフの構築とスカラー要約統計の正しい1つの方法しか持たない)、信頼性図やパラメトリックあるいは半パラメトリック回帰のような伝統的な手法とは異なり、パラメータ設定によって典型的には顕著な違いがある。

The simplest, most common paired samples consist of observations from two populations, with each observed response from one population corresponding to an observed response from the other population at the same value of an ordinal covariate. The pair of observed responses (one from each population) at the same value of the covariate is known as a "matched pair" (with the matching based on the value of the covariate). A graph of cumulative differences between the two populations reveals differences in responses as a function of the covariate. Indeed, the slope of the secant line connecting two points on the graph becomes the average difference over the wide interval of values of the covariate between the two points; i.e., slope of the graph is the average difference in responses. ("Average" refers to the weighted average if the samples are weighted.) Moreover, a simple statistic known as the Kuiper metric summarizes into a single scalar the overall differences over all values of the covariate. The Kuiper metric is the absolute value of the total difference in responses between the two populations, totaled over the interval of values of the covariate for which the absolute value of the total is greatest. The total should be normalized such that it becomes the (weighted) average over all values of the covariate when the interval over which the total is taken is the entire range of the covariate (i.e., the sum for the total gets divided by the total number of observations, if the samples are unweighted, or divided by the total weight, if the samples are weighted). This cumulative approach is fully nonparametric and uniquely defined (with only one right way to construct the graphs and scalar summary statistics), unlike traditional methods such as reliability diagrams or parametric or semi-parametric regressions, which typically obscure significant differences due to their parameter settings.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-08
# 変圧器を用いた数学的推論と一般化のための記号的枠組み

A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers ( http://arxiv.org/abs/2305.12563v2 )

ライセンス: Link先を確認
Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas, (参考訳) 本稿では,代用変圧器の数学推論問題への一般化性を評価するために,記号エンジンによって支援された大規模方程式の詳細な導出を予測・摂動する手法を提案する。 GPT-4, GPT-3.5, および細調整されたBERTモデルのキャノンを比較し, 対称性や変数表面形状などの推論面の摂動を通じて, 特定の演算子と一般化失敗の関係を探索する。 意外なことに、我々の経験的評価は、微調整モデルの平均分布性能がGPT-3.5を超え、GPT-4に匹敵することを示している。 しかし、入力推論に対する摂動は、その性能を最大80F1ポイント削減することができる。 以上の結果から,より小規模なオープンソースモデルの分散性能は,トレーニング中に適切に構造化された導出依存性を組み込むことによって,GPTと競合する可能性が示唆され,数学的実体への間接的参照を復号できないようなBERTとGPTの共通弱点が浮き彫りにされている。 この分野における今後の進歩を促進するために、コードベース全体、構築されたデータセット、微調整されたモデルをリリースします。

This paper proposes a methodology for generating and perturbing detailed derivations of equations at scale, aided by a symbolic engine, to evaluate the generalisability of Transformers to out-of-distribution mathematical reasoning problems. Instantiating the framework in the context of sequence classification tasks, we compare the capabilities of GPT-4, GPT-3.5, and a canon of fine-tuned BERT models, exploring the relationship between specific operators and generalisation failure via the perturbation of reasoning aspects such as symmetry and variable surface forms. Surprisingly, our empirical evaluation reveals that the average in-distribution performance of fine-tuned models surpasses GPT-3.5, and rivals GPT-4. However, perturbations to input reasoning can reduce their performance by up to 80 F1 points. Overall, the results suggest that the in-distribution performance of smaller open-source models may potentially rival GPT by incorporating appropriately structured derivation dependencies during training, and highlight a shared weakness between BERT and GPT involving a relative inability to decode indirect references to mathematical entities. We release the full codebase, constructed datasets, and fine-tuned models to encourage future progress in the field.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-08
# 医師の診察後に座る : 事象の時間的推論における知識紛争の診断と軽減

Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning ( http://arxiv.org/abs/2305.14970v2 )

ライセンス: Link先を確認
Tianqing Fang, Zhaowei Wang, Wenxuan Zhou, Hongming Zhang, Yangqiu Song, Muhao Chen, (参考訳) 出来事の時間的推論は、物語から2つ以上の出来事の間の時間的関係を特定することを目的としている。 しかし、文脈における事象の実際の時間的関係と、モデルによって学習された事前の知識やバイアスとの間にミスマッチがあるときに知識が衝突する。 本稿では, 事象関係の先行バイアス, 緊張バイアス, 物語バイアス, 依存バイアスを含むバイアス指標を用いて, 事象時間的推論における知識共用例を検出することを提案する。 コンフリクトの例を、イベント関係がバイアスや事前の関係と反対であるものとして定義します。 事象関連知識の対立を軽減するために,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の両方に適用可能な,CDA (Counterfactual Data Augmentation) ベースの手法を導入する。 実験の結果, PLM と LLM は, 事象の時間的推論において知識衝突に悩まされ, CDA は幻覚の低減とモデル性能の向上に寄与する可能性が示唆された。

Event temporal reasoning aims at identifying the temporal relations between two or more events from narratives. However, knowledge conflicts arise when there is a mismatch between the actual temporal relations of events in the context and the prior knowledge or biases learned by the model. In this paper, we propose to detect knowledge-conflict examples in event temporal reasoning using bias indicators, which include event relation prior bias, tense bias, narrative bias, and dependency bias. We define conflict examples as those where event relations are opposite to biased or prior relations. To mitigate event-related knowledge conflicts, we introduce a Counterfactual Data Augmentation (CDA) based method that can be applied to both Pre-trained Language Models (PLMs) and Large Language Models (LLMs) either as additional training data or demonstrations for In-Context Learning. Experiments suggest both PLMs and LLMs suffer from knowledge conflicts in event temporal reasoning, and CDA has the potential for reducing hallucination and improving model performance.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-08
# SE上でのスコアベース拡散による6次元オブジェクトポス推定における曖昧さの克服(3)

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3) ( http://arxiv.org/abs/2305.15873v2 )

ライセンス: Link先を確認
Tsu-Ching Hsiao, Hao-Wei Chen, Hsuan-Kung Yang, Chun-Yi Lee, (参考訳) 単一のRGB画像から6次元オブジェクトのポーズのあいまいさを推定することは、特にオブジェクト対称性やオクルージョンのため、大きな課題となる。 そこで本研究では,画像領域内での拡散モデルの最初の適用を,特にポーズ推定タスクに適した$SE(3)$にマークする,新しいスコアベース拡散法を提案する。 広汎な評価は,ポーズのあいまいさ,視点によるあいまいさの軽減,およびSteinスコア定式化の頑健さを$SE(3)$で示すものである。 この定式化は、復調過程の収束を改善するだけでなく、計算効率を向上させる。 そこで我々は,6次元オブジェクトのポーズ推定のための有望な戦略を開拓した。

Addressing pose ambiguity in 6D object pose estimation from single RGB images presents a significant challenge, particularly due to object symmetries or occlusions. In response, we introduce a novel score-based diffusion method applied to the $SE(3)$ group, marking the first application of diffusion models to $SE(3)$ within the image domain, specifically tailored for pose estimation tasks. Extensive evaluations demonstrate the method's efficacy in handling pose ambiguity, mitigating perspective-induced ambiguity, and showcasing the robustness of our surrogate Stein score formulation on $SE(3)$. This formulation not only improves the convergence of denoising process but also enhances computational efficiency. Thus, we pioneer a promising strategy for 6D object pose estimation.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-08
# Fedstellar: 分散型フェデレーションラーニングのためのプラットフォーム

Fedstellar: A Platform for Decentralized Federated Learning ( http://arxiv.org/abs/2306.09750v4 )

ライセンス: Link先を確認
Enrique Tomás Martínez Beltrán, Ángel Luis Perales Gómez, Chao Feng, Pedro Miguel Sánchez Sánchez, Sergio López Bernal, Gérôme Bovet, Manuel Gil Pérez, Gregorio Martínez Pérez, Alberto Huertas Celdrán, (参考訳) 2016年、Googleはフェデレート・ラーニング(FL)を、データプライバシを保持しながらフェデレーションの参加者間で機械学習(ML)モデルをトレーニングするための新しいパラダイムとして提案した。 中央集権FL(CFL)は、その誕生以来、参加者のモデルを集約してグローバルなモデルを作成する最もよく使われるアプローチである。 しかし、CFLは通信ボトルネック、単一障害点、中央サーバへの依存といった制限を提示している。 分散フェデレートラーニング(DFL)は、分散モデルアグリゲーションを可能にし、中央エンティティへの依存性を最小限にすることで、これらの問題に対処する。 これらの進歩にもかかわらず、DFLモデルを訓練する現在のプラットフォームは、ヘテロジニアスフェデレーションネットワークトポロジの管理のような重要な問題に悩まされている。 これらの課題を克服するために,P2pflライブラリから拡張されたプラットフォームであるFedstellarを提案する。 Fedstellarの実装には、インタラクティブなグラフィカルインターフェースを備えたWebアプリケーション、物理または仮想デバイスを使用してノードのフェデレーションをデプロイするコントローラ、ネットワーク内のトレーニング、集約、通信に必要なロジックを提供する各デバイスにデプロイされるコアが含まれている。 プラットフォームの有効性は、サイバー攻撃を検出するRaspberry Piのようなシングルボードデバイスを含む物理的なデプロイメントと、MNISTとCIFAR-10データセットを使用して制御された環境でさまざまなFLアプローチを比較する仮想化デプロイメントの2つのシナリオで実証されている。 両方のシナリオにおいてフェデスタラーは、一貫したパフォーマンスと適応性を示し、サイバー攻撃を検出し、MNISTとCIFAR-10をそれぞれ分類するためにDFLを使用してF1スコア91%、98%、91.2%を達成し、集中的なアプローチと比較してトレーニング時間を32%削減した。

In 2016, Google proposed Federated Learning (FL) as a novel paradigm to train Machine Learning (ML) models across the participants of a federation while preserving data privacy. Since its birth, Centralized FL (CFL) has been the most used approach, where a central entity aggregates participants' models to create a global one. However, CFL presents limitations such as communication bottlenecks, single point of failure, and reliance on a central server. Decentralized Federated Learning (DFL) addresses these issues by enabling decentralized model aggregation and minimizing dependency on a central entity. Despite these advances, current platforms training DFL models struggle with key issues such as managing heterogeneous federation network topologies. To overcome these challenges, this paper presents Fedstellar, a platform extended from p2pfl library and designed to train FL models in a decentralized, semi-decentralized, and centralized fashion across diverse federations of physical or virtualized devices. The Fedstellar implementation encompasses a web application with an interactive graphical interface, a controller for deploying federations of nodes using physical or virtual devices, and a core deployed on each device which provides the logic needed to train, aggregate, and communicate in the network. The effectiveness of the platform has been demonstrated in two scenarios: a physical deployment involving single-board devices such as Raspberry Pis for detecting cyberattacks, and a virtualized deployment comparing various FL approaches in a controlled environment using MNIST and CIFAR-10 datasets. In both scenarios, Fedstellar demonstrated consistent performance and adaptability, achieving F1 scores of 91%, 98%, and 91.2% using DFL for detecting cyberattacks and classifying MNIST and CIFAR-10, respectively, reducing training time by 32% compared to centralized approaches.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-08
# 時系列分析のための自己監督型学習:分類学、進歩、展望

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2306.10125v4 )

ライセンス: Link先を確認
Kexin Zhang, Qingsong Wen, Chaoli Zhang, Rongyao Cai, Ming Jin, Yong Liu, James Zhang, Yuxuan Liang, Guansong Pang, Dongjin Song, Shirui Pan, (参考訳) 自己教師付き学習(SSL)は、最近、様々な時系列タスクで印象的なパフォーマンスを達成した。 SSLの最も顕著な利点は、ラベル付きデータへの依存を減らすことである。 事前学習と微調整の戦略に基づき、少量のラベル付きデータでさえ高い性能を達成することができる。 コンピュータビジョンと自然言語処理に関する多くのセルフ教師付きサーベイと比較すると、時系列SSLに関する包括的なサーベイはいまだに欠落している。 このギャップを埋めるために、この記事では、時系列データに対する最先端のSSLメソッドについてレビューする。 この目的のために、SSLと時系列に関する既存の調査を総合的にレビューし、生成ベース、コントラストベース、および敵ベースという3つの視点から要約することで、既存の時系列SSLメソッドの新しい分類法を提供する。 これらの手法はさらに10のサブカテゴリに分けられ、その重要な直観、主要なフレームワーク、利点、欠点について詳細なレビューと議論がなされている。 また,時系列SSL手法の実験と検証を容易にするため,時系列予測,分類,異常検出,クラスタリングタスクでよく使用されるデータセットを要約する。 最後に,時系列解析におけるSSLの今後の方向性を示す。

Self-supervised learning (SSL) has recently achieved impressive performance on various time series tasks. The most prominent advantage of SSL is that it reduces the dependence on labeled data. Based on the pre-training and fine-tuning strategy, even a small amount of labeled data can achieve high performance. Compared with many published self-supervised surveys on computer vision and natural language processing, a comprehensive survey for time series SSL is still missing. To fill this gap, we review current state-of-the-art SSL methods for time series data in this article. To this end, we first comprehensively review existing surveys related to SSL and time series, and then provide a new taxonomy of existing time series SSL methods by summarizing them from three perspectives: generative-based, contrastive-based, and adversarial-based. These methods are further divided into ten subcategories with detailed reviews and discussions about their key intuitions, main frameworks, advantages and disadvantages. To facilitate the experiments and validation of time series SSL methods, we also summarize datasets commonly used in time series forecasting, classification, anomaly detection, and clustering tasks. Finally, we present the future directions of SSL for time series analysis.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-08
# MimiC: 中央アップデートのミスによるフェデレートラーニングでクライアントのドロップアウトを回避

MimiC: Combating Client Dropouts in Federated Learning by Mimicking Central Updates ( http://arxiv.org/abs/2306.12212v4 )

ライセンス: Link先を確認
Yuchang Sun, Yuyi Mao, Jun Zhang, (参考訳) フェデレーション学習(FL)は、モデルトレーニングタスクをクライアントに分散させ、モデル更新のみをサーバで収集する、プライバシー保護協調学習のための有望なフレームワークである。 しかし、モバイルエッジネットワークにデプロイされる場合、クライアントは予測不可能な可用性を持ち、トレーニングプロセスから抜け出し、FLの収束を妨げる可能性がある。 この論文はそのような批判的な課題に取り組む。 具体的には、任意のクライアントドロップアウトを持つ古典的FedAvgアルゴリズムの収束性について検討する。 崩壊する学習率の共通の選択により、FedAvgは、集約された中央更新と所望の中央更新のばらつきによって引き起こされる、グローバル損失関数の定常点の周りに振動することがわかった。 この新たな観測に触発されて、我々はMimiCという新しいトレーニングアルゴリズムを設計し、サーバは、受信した各モデル更新を以前のモデルに基づいて変更する。 受信したモデル更新の修正提案は、ドロップアウトクライアントに関係なく、想像上の中央更新を模倣する。 MimiCの理論解析は、集約された更新と中央更新のばらつきが適切な学習率によって減少し、収束することを示している。 さらにシミュレーションの結果、MimiCは安定収束性能を維持し、ベースライン法よりも優れたモデルを学ぶことを示した。

Federated learning (FL) is a promising framework for privacy-preserving collaborative learning, where model training tasks are distributed to clients and only the model updates need to be collected at a server. However, when being deployed at mobile edge networks, clients may have unpredictable availability and drop out of the training process, which hinders the convergence of FL. This paper tackles such a critical challenge. Specifically, we first investigate the convergence of the classical FedAvg algorithm with arbitrary client dropouts. We find that with the common choice of a decaying learning rate, FedAvg oscillates around a stationary point of the global loss function, which is caused by the divergence between the aggregated and desired central update. Motivated by this new observation, we then design a novel training algorithm named MimiC, where the server modifies each received model update based on the previous ones. The proposed modification of the received model updates mimics the imaginary central update irrespective of dropout clients. The theoretical analysis of MimiC shows that divergence between the aggregated and central update diminishes with proper learning rates, leading to its convergence. Simulation results further demonstrate that MimiC maintains stable convergence performance and learns better models than the baseline methods.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-08
# MDSおよび近MDS行列の直接構成について

On the Direct Construction of MDS and Near-MDS Matrices ( http://arxiv.org/abs/2306.12848v3 )

ライセンス: Link先を確認
Kishan Chand Gupta, Sumit Kumar Pandey, Susanta Samanta, (参考訳) MDS行列の最適分岐数は、多くのブロック暗号やハッシュ関数で拡散層を設計するのに好適である。 その結果,MSS行列の設計には探索法や直接法など,様々な手法が提案されている。 網羅探索は小規模のMDS行列に適しているが, 探索空間が広いため, 直接構築が優先される。 文献では、再帰的および非再帰的手法の両方を用いて、MDS行列の直接構成について広範な研究がなされている。 一方、軽量暗号では、準最適分岐数を持つNear-MDS(Near-MDS)行列は、MDS行列よりも拡散層としてのセキュリティと効率のバランスが良い。 しかし、再帰的NMDS行列を構築するための文献では直接構築法は利用できない。 本稿では,NMDS行列の非再帰的および再帰的設定における直接構成について述べる。 さらに、一般化されたヴァンダーモンド行列から非再帰的 MDS 行列のいくつかの直接的な構成を示す。 本稿では,一般化Vandermonde行列を用いた不揮発性MDSおよびNMDS行列の構築手法を提案する。 さらに,NMDS コードに関連する文献で使用される民俗学的結果のいくつかを実証する。

The optimal branch number of MDS matrices makes them a preferred choice for designing diffusion layers in many block ciphers and hash functions. Consequently, various methods have been proposed for designing MDS matrices, including search and direct methods. While exhaustive search is suitable for small order MDS matrices, direct constructions are preferred for larger orders due to the vast search space involved. In the literature, there has been extensive research on the direct construction of MDS matrices using both recursive and nonrecursive methods. On the other hand, in lightweight cryptography, Near-MDS (NMDS) matrices with sub-optimal branch numbers offer a better balance between security and efficiency as a diffusion layer compared to MDS matrices. However, no direct construction method is available in the literature for constructing recursive NMDS matrices. This paper introduces some direct constructions of NMDS matrices in both nonrecursive and recursive settings. Additionally, it presents some direct constructions of nonrecursive MDS matrices from the generalized Vandermonde matrices. We propose a method for constructing involutory MDS and NMDS matrices using generalized Vandermonde matrices. Furthermore, we prove some folklore results that are used in the literature related to the NMDS code.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-08
# 合成データシャッフルはデータ不均一性下でのフェデレート学習の収束を促進する

Synthetic data shuffling accelerates the convergence of federated learning under data heterogeneity ( http://arxiv.org/abs/2306.13263v2 )

ライセンス: Link先を確認
Bo Li, Yasin Esfandiari, Mikkel N. Schmidt, Tommy S. Alstrøm, Sebastian U. Stich, (参考訳) フェデレーション学習では、データの異質性は重要な課題である。 簡単な解決策は、分散を均質化するためにクライアントのデータをシャッフルすることです。 しかし、これはデータアクセス権に反する可能性があり、シャッフルがフェデレート最適化アルゴリズムの収束をいかに加速させるかは理論的にはよく理解されていない。 本稿では,クライアント間でデータの一部をシャッフルする場合に,収束率におけるデータ不均一性とパラメータとの正確な対応性を確立する。 シャッフル法により,シャッフル率に対する勾配差が2次的に減少し,収束が加速することを示す。 この理論に触発されて、局所的に生成された合成データをシャッフルすることで、データアクセス権問題に対処する実践的なアプローチを提案する。 実験結果から,合成データのシャッフルにより,既存の複数のフェデレート学習アルゴリズムの性能が大幅に向上することが示された。

In federated learning, data heterogeneity is a critical challenge. A straightforward solution is to shuffle the clients' data to homogenize the distribution. However, this may violate data access rights, and how and when shuffling can accelerate the convergence of a federated optimization algorithm is not theoretically well understood. In this paper, we establish a precise and quantifiable correspondence between data heterogeneity and parameters in the convergence rate when a fraction of data is shuffled across clients. We prove that shuffling can quadratically reduce the gradient dissimilarity with respect to the shuffling percentage, accelerating convergence. Inspired by the theory, we propose a practical approach that addresses the data access rights issue by shuffling locally generated synthetic data. The experimental results show that shuffling synthetic data improves the performance of multiple existing federated learning algorithms by a large margin.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# 軌道上低光画像強調のための地上データセットと拡散モデル

A ground-based dataset and a diffusion model for on-orbit low-light image enhancement ( http://arxiv.org/abs/2306.14227v2 )

ライセンス: Link先を確認
Yiman Zhu, Lu Wang, Jingyi Yuan, Yu Guo, (参考訳) 軌道上のサービスは、宇宙環境の持続可能性を維持するために重要である。 スペースベースの可視カメラは、軌道上での状況認識のための経済的かつ軽量なセンサーである。 しかし、低照度環境の影響を受けやすい。 近年、深層学習は自然画像の画質向上に顕著な成功を収めているが、データボトルネックのため、宇宙ではほとんど適用されない。 本稿では,まず,軌道上低照度画像強調(LLIE)のためのBeidou Navigation Satelliteのデータセットを提案する。 自動データ収集方式では、ドメインギャップの低減とデータセットの多様性の向上に重点を置いている。 我々は,空間照明条件を模倣したロボットシミュレーションにより,ループ内のハードウェア画像を収集した。 衝突することなく異なる方向と距離のポーズを均一にサンプリングするために、衝突のない作業空間と階層化サンプリングのポーズを提案する。 その後,新しい拡散モデルが提案される。 余剰露光や細部をぼかすことなく画像のコントラストを高めるために,構造と暗黒領域を強調するために,融合した注意を設計する。 最後に,本手法と従来手法との比較を行い,本手法が軌道上LLIEにおいてより優れたキャパシティを有することを示す。

On-orbit service is important for maintaining the sustainability of space environment. Space-based visible camera is an economical and lightweight sensor for situation awareness during on-orbit service. However, it can be easily affected by the low illumination environment. Recently, deep learning has achieved remarkable success in image enhancement of natural images, but seldom applied in space due to the data bottleneck. In this article, we first propose a dataset of the Beidou Navigation Satellite for on-orbit low-light image enhancement (LLIE). In the automatic data collection scheme, we focus on reducing domain gap and improving the diversity of the dataset. we collect hardware in-the-loop images based on a robotic simulation testbed imitating space lighting conditions. To evenly sample poses of different orientation and distance without collision, a collision-free working space and pose stratified sampling is proposed. Afterwards, a novel diffusion model is proposed. To enhance the image contrast without over-exposure and blurring details, we design a fused attention to highlight the structure and dark region. Finally, we compare our method with previous methods using our dataset, which indicates that our method has a better capacity in on-orbit LLIE.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# SepVAE : 健康なものから病理パターンを分離するための対照的なVAE

SepVAE: a contrastive VAE to separate pathological patterns from healthy ones ( http://arxiv.org/abs/2307.06206v2 )

ライセンス: Link先を確認
Robin Louiset, Edouard Duchesnay, Antoine Grigis, Benoit Dufumier, Pietro Gori, (参考訳) コントラスト分析VAE(Contrastive Analysis VAE)は、背景データセット(BG)と対象データセット(TG)を、対象データセットにのみ存在するものから分離することを目的とした変分自動エンコーダ(VAE)のファミリーである。 そのために、これらのメソッドは、潜在空間を一連の有能な特徴(すなわち、ターゲットデータセットに適切な)と共通の特徴(すなわち、両方のデータセットに存在する)に分離する。 現在、全てのモデルは、潜伏空間間の情報の共有を効果的に防ぎ、変動のすべての健全な要因を捉えることに失敗している。 そこで本研究では,共通表現と有意表現の混同項と,有意空間の背景サンプルと対象サンプルの分類項の2つの重要な正則化損失を導入する。 3つの医療応用と自然画像データセット(CelebA)において,従来のCA-VAEs法よりも優れた性能を示す。 コードとデータセットはGitHub https://github.com/neurospin-projects/2023_rlouiset_sepvaeで公開されている。

Contrastive Analysis VAE (CA-VAEs) is a family of Variational auto-encoders (VAEs) that aims at separating the common factors of variation between a background dataset (BG) (i.e., healthy subjects) and a target dataset (TG) (i.e., patients) from the ones that only exist in the target dataset. To do so, these methods separate the latent space into a set of salient features (i.e., proper to the target dataset) and a set of common features (i.e., exist in both datasets). Currently, all models fail to prevent the sharing of information between latent spaces effectively and to capture all salient factors of variation. To this end, we introduce two crucial regularization losses: a disentangling term between common and salient representations and a classification term between background and target samples in the salient space. We show a better performance than previous CA-VAEs methods on three medical applications and a natural images dataset (CelebA). Code and datasets are available on GitHub https://github.com/neurospin-projects/2023_rlouiset_sepvae.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# 記述-論理的特徴を持つ命題動的論理の非正規拡張の探索

Exploring Non-Regular Extensions of Propositional Dynamic Logic with Description-Logics Features ( http://arxiv.org/abs/2307.09913v3 )

ライセンス: Link先を確認
Bartosz Bednarczyk, (参考訳) ALCを拡張した記述論理において、非正規経路表現が満足度チェックとクエリの決定可能性に与える影響について検討する。 我々の関心の対象は ALCreg と ALCvpl である。 第一の ALCreg は、フィッシャーとラドナーのよく知られた命題動的論理の記法的変種である。 第2のALCvplは2007年にLoding and Serreによって導入され調査された。 ALCvpl は ALCreg の多くの既知の決定不能な非正規拡張を一般化する。 一連の決定不可能な結果が得られます。 まず, ALCvpl における概念満足度問題に対する決定性は, 一見無作為な自己演算子を加えると失われることを示す。 第2に,ALCvpl における概念満足度問題に対して,命名法で拡張した不確定性を確立した。 興味深いことに、我々の不確定性証明は、r#s# := { r^n s^n | n in N } で固定されたロール名 r と s に対して、1つの非正規(可視的プッシュダウン)言語にのみ依存する。 最後に、従来のデータベース設定とは対照的に、既にALC-TBoxesの場合において、r#s#の非正則な原子を含むクエリに対するクエリエンテーメントの非決定性を確立する。

We investigate the impact of non-regular path expressions on the decidability of satisfiability checking and querying in description logics extending ALC. Our primary objects of interest are ALCreg and ALCvpl, the extensions of with path expressions employing, respectively, regular and visibly-pushdown languages. The first one, ALCreg, is a notational variant of the well-known Propositional Dynamic Logic of Fischer and Ladner. The second one, ALCvpl, was introduced and investigated by Loding and Serre in 2007. The logic ALCvpl generalises many known decidable non-regular extensions of ALCreg. We provide a series of undecidability results. First, we show that decidability of the concept satisfiability problem for ALCvpl is lost upon adding the seemingly innocent Self operator. Second, we establish undecidability for the concept satisfiability problem for ALCvpl extended with nominals. Interestingly, our undecidability proof relies only on one single non-regular (visibly-pushdown) language, namely on r#s# := { r^n s^n | n in N } for fixed role names r and s. Finally, in contrast to the classical database setting, we establish undecidability of query entailment for queries involving non-regular atoms from r#s#, already in the case of ALC-TBoxes.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# ニューラルトピカル表現の一般化に向けて

Towards Generalising Neural Topical Representations ( http://arxiv.org/abs/2307.12564v2 )

ライセンス: Link先を確認
Xiaohao Yang, He Zhao, Dinh Phung, Lan Du, (参考訳) トピックモデルは従来のベイズ確率モデルから最近のニューラルトピックモデル(NTM)へと進化してきた。 NTMは特定のコーパスでトレーニングおよびテストを行う際に有望な性能を示すが、コーパス間の一般化能力はまだ研究されていない。 実際には、ソースコーパスでトレーニングされたNTMが、異なるターゲットコーパスから文書の質の高いトピック表現(トピック上の潜在分布)を生成できると期待されることが多い。 本研究では,文書の表現能力がコーパスやタスク全体にわたって確実に一般化されるように,NTMをさらに改良することを目指している。 そこで我々は,類似文書間の意味的距離を狭め,異なるコーパスからの文書が類似した意味を共有できるという前提のもとに,NTMの強化を提案する。 具体的には、テキストデータ拡張により、トレーニング文書毎に類似した文書を取得する。 そして,各ペア間の意味的距離を階層的話題移動距離(Hierarchical Topic Transport Distance)で測定し,トピック表現間の最適移動距離を計算することにより,NTMをさらに最適化する。 我々のフレームワークは、ほとんどのNTMにプラグイン・アンド・プレイモジュールとして簡単に適用できます。 大規模な実験により, コーパス間の神経トピック表現に関する一般化能力は大幅に向上した。 私たちのコードとデータセットは、https://github.com/Xiaohao-Yang/Topic_Model_Generalisationで公開されています。

Topic models have evolved from conventional Bayesian probabilistic models to recent Neural Topic Models (NTMs). Although NTMs have shown promising performance when trained and tested on a specific corpus, their generalisation ability across corpora has yet to be studied. In practice, we often expect that an NTM trained on a source corpus can still produce quality topical representation (i.e., latent distribution over topics) for the document from different target corpora. In this work, we aim to improve NTMs further so that their representation power for documents generalises reliably across corpora and tasks. To do so, we propose to enhance NTMs by narrowing the semantical distance between similar documents, with the underlying assumption that documents from different corpora may share similar semantics. Specifically, we obtain a similar document for each training document by text data augmentation. Then, we optimise NTMs further by minimising the semantical distance between each pair, measured by the Hierarchical Topic Transport Distance, which computes the Optimal Transport (OT) distance between their topical representations. Our framework can be readily applied to most NTMs as a plug-and-play module. Extensive experiments show that our framework significantly improves the generalisation ability regarding neural topical representation across corpora. Our code and datasets are available at: https://github.com/Xiaohao-Yang/Topic_Model_Generalisation
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# マッチゲート計算のためのマジック状態のガウス分解

Gaussian decomposition of magic states for matchgate computations ( http://arxiv.org/abs/2307.12654v3 )

ライセンス: Link先を確認
Joshua Cudby, Sergii Strelchuk, (参考訳) マジック状態(英: Magic state)は、古典的にシミュレート可能なクリフォードゲートを経由した普遍量子計算において重要なものであり、しばしばリソースレス安定化状態への分解を行い、古典的な手段によるシミュレーションを促進する。 このアプローチは、安定度ランク、忠実度、範囲の3つの運用上の重要な指標をもたらす。 我々はこれらのシミュレーション手法をMGC(Matchgate circuits)に拡張し、この設定に等価なメトリクスを定義する。 まず、ガウス状態を定義する代数的制約の調査から始め、これらの状態の最初の明示的な特徴付けを示す。 ガウス状態の明示的な記述は、全てのシミュレーションタスクに対処するための我々の方法に欠かせない。 我々の調査の中心はガウス階数の概念であり、量子状態からガウス成分への分解に必要な最小条件を定義する中心的な計量である。 この測定基準は、マジック状態入力を特徴とするMGCのランクベースのシミュレーションの実行時間を決定する上で、最重要となる。 低ランク分解の欠如は計算上のハードルとなり、フェルミオンの魔法状態がより深く調べられる。 正規マジック状態のガウス階数 2 は対称性に制限された分解の下で 4 となる。 さらに,このマジック状態の2~3コピーに対して,低ランク分解が欠如していることが示唆された。 さらに、階数上の上界を示す凸計量であるガウス距離を探索する。 ガウス級数の乗法的挙動を4量子系上で証明し、一般設定においてその部分乗法的性質を証明しようとする最初の試みと合わせて述べる。 その方向における重要な結果の1つは、一般状態のガウス的忠実度の上界である。

Magic states, pivotal for universal quantum computation via classically simulable Clifford gates, often undergo decomposition into resourceless stabilizer states, facilitating simulation through classical means. This approach yields three operationally significant metrics: stabilizer rank, fidelity, and extent. We extend these simulation methods to encompass matchgate circuits (MGCs), and define equivalent metrics for this setting. We begin with an investigation into the algebraic constraints defining Gaussian states, marking the first explicit characterisation of these states. The explicit description of Gaussian states is pivotal to our methods for tackling all the simulation tasks. Central to our inquiry is the concept of Gaussian rank -- a pivotal metric defining the minimum terms required for decomposing a quantum state into Gaussian constituents. This metric holds paramount significance in determining the runtime of rank-based simulations for MGCs featuring magic state inputs. The absence of low-rank decompositions presents a computational hurdle, thereby prompting a deeper examination of fermionic magic states. We find that the Gaussian rank of 2 instances of our canonical magic state is 4 under symmetry-restricted decompositions. Additionally, our numerical analysis suggests the absence of low-rank decompositions for 2 or 3 copies of this magic state. Further, we explore the Gaussian extent, a convex metric offering an upper bound on the rank. We prove the Gaussian extent's multiplicative behaviour on 4-qubit systems, along with initial strides towards proving its sub-multiplicative nature in general settings. One important result in that direction we present is an upper bound on the Gaussian fidelity of generic states.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-08
# テンソルネットワーク法を用いた量子ドットSWAPゲート忠実度の評価

Assessing quantum dot SWAP gate fidelity using tensor network methods ( http://arxiv.org/abs/2307.15177v2 )

ライセンス: Link先を確認
Jacob R. Taylor, Nathan L. Foulk, Sankar Das Sarma, (参考訳) 20-100量子ドットスピン量子ビットからなるシステム上でのSWAPの繰り返し動作の忠実度を、谷の漏れや静電クロストークの存在下で探索するために、先進的なテンソルネットワーク数値計算法が用いられる。 SWAPゲートの忠実度は、これらのパラメータが共鳴する以外は、ゼーマン分割と谷分割によってほとんど影響を受けない。 谷の固有状態の全体相と独立性は相変わらず、一般の谷の州では若干の補正が生じる。 谷効果のない長いクビット鎖の忠実度スケーリングを解析し,クロストークが唯一の誤り源であることを示す。

Advanced tensor network numerical methods are used to explore the fidelity of repeated SWAP operations on a system comprising 20-100 quantum dot spin qubits in the presence of valley leakage and electrostatic crosstalk. The fidelity of SWAP gates is largely unaffected by Zeeman splitting and valley splitting, except when these parameters come into resonance. The fidelity remains independent of the overall valley phase for valley eigenstates, while for generic valley states, some minor corrections arise. We analyze the fidelity scaling for long qubit chains without valley effects, where crosstalk represents the only error source.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# Fact-Checking Generative AI:病原性リンク検証のためのオントロジー駆動型バイオグラフ

Fact-Checking Generative AI: Ontology-Driven Biological Graphs for Disease-Gene Link Verification ( http://arxiv.org/abs/2308.03929v4 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed, Byung Suk Lee, Alessandro Crimi, Magdalena M. Misiak, (参考訳) さまざまな生成AIツールのローンチ以来、科学者たちは、生成能力への信頼を確立するために、その能力と内容を評価する努力を続けている。 生成したコンテンツを検証し、新規使用を識別するための規制とガイドラインが生まれている。 ネットワークモデルの厳密さを用いてChatGPTのクレームを計算的にチェックする方法を実証したいと考えています。 本研究の目的は,ChatGPTの内容から得られた生物学的グラフに埋め込まれた知識を集約レベルで事実チェックすることである。 そこで我々は,ChatGPTの関連エンティティの系統的尋問を可能にする生物学的ネットワークアプローチを採用した。 約20万のPubMed抽象データから構築した生物グラフとChatGPT-3.5ターボモデルを用いて生成したデータセットから構築した生物グラフを比較し,オントロジー駆動のファクトチェックアルゴリズムを設計した。 ランダムに選択された250の10サンプルにおいて、1000項目のChatGPTデータセットは、ファクトチェックリンク精度が70%から86%であった。 本研究は,ChatGPT生成テキスト中の集合疾患遺伝子関係の高精度な解析を行った。

Since the launch of various generative AI tools, scientists have been striving to evaluate their capabilities and contents, in the hope of establishing trust in their generative abilities. Regulations and guidelines are emerging to verify generated contents and identify novel uses. we aspire to demonstrate how ChatGPT claims are checked computationally using the rigor of network models. We aim to achieve fact-checking of the knowledge embedded in biological graphs that were contrived from ChatGPT contents at the aggregate level. We adopted a biological networks approach that enables the systematic interrogation of ChatGPT's linked entities. We designed an ontology-driven fact-checking algorithm that compares biological graphs constructed from approximately 200,000 PubMed abstracts with counterparts constructed from a dataset generated using the ChatGPT-3.5 Turbo model. In 10-samples of 250 randomly selected records a ChatGPT dataset of 1000 "simulated" articles , the fact-checking link accuracy ranged from 70% to 86%. This study demonstrated high accuracy of aggregate disease-gene links relationships found in ChatGPT-generated texts.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# 超伝導窒化アルミニウム薄膜

Superconducting nitridized-aluminum thin films ( http://arxiv.org/abs/2308.06240v2 )

ライセンス: Link先を確認
Alba Torras-Coloma, Leyre Martínez de Olcoz, Eva Céspedes, Elia Bertoldo, David López-Núñez, Sagar Paul, Wolfgang Wernsdorfer, Gemma Rius, Pol Forn-Díaz, (参考訳) 窒化アルミニウム薄膜における超伝導の直接観察について報告する。 アルゴンで希釈された窒素の制御混合物中でアルミニウムの蒸着をスパッタリングして製造する。 応用窒素濃度は超伝導薄膜の特性を直接決定する。 我々は,3.38$\pm$0.01Kまでの臨界温度と,1Tよりはるかに高い面内磁場に対するレジリエンスを示す試料を観察した。 この研究は、アルミニウム基窒化膜における可変超伝導の明白な実証である。 その結果, 窒化アルミニウムを超伝導量子回路に応用し, 量子技術への応用を期待できる材料として提案した。

We report the direct observation of superconductivity in nitridized-aluminum thin films. The films are produced by sputtering deposition of aluminum in a controlled mixture of nitrogen diluted in argon. The concentration of applied nitrogen directly determines the properties of the superconducting thin films. We observe samples displaying critical temperatures up to 3.38$\pm$0.01K and resilience to in-plane magnetic fields well above 1T, with good reproducibility of the results. This work represents an unambiguous demonstration of tunable superconductivity in aluminum-based nitridized thin films. Our results put forward nitridized aluminum as a promising material to be employed in superconducting quantum circuits for quantum technology applications.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# パラメータ効率とフル微調整の比較:多言語ニュース記事分類のケーススタディ

Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification ( http://arxiv.org/abs/2308.07282v2 )

ライセンス: Link先を確認
Olesya Razuvayevskaya, Ben Wu, Joao A. Leite, Freddy Heppell, Ivan Srba, Carolina Scarton, Kalina Bontcheva, Xingyi Song, (参考訳) Adapters and Low-Rank Adaptation (LoRA)は、言語モデルのトレーニングをより効率的にするために設計されたパラメータ効率の良い微調整技術である。 過去の結果は,これらの手法がいくつかの分類タスクの性能を向上させることさえできることを示した。 本稿では,これらの手法が多言語テキスト分類タスク(ジェネリクス,フレーミング,パースエンス技術,入力長,予測クラス数,分類困難度)に適用した場合の完全微調整と比較して,分類性能と計算コストにどのように影響するかを考察することによって,既存の研究を補完する。 さらに、異なる訓練シナリオ(元の多言語データ、英語への翻訳、英語のみのデータの一部)と異なる言語で、それらの効果を詳細に分析する。 本研究は,パラメータ効率の高い微調整技術,特に複雑な多言語・多ラベル分類タスクの適用性に関する貴重な知見を提供する。

Adapters and Low-Rank Adaptation (LoRA) are parameter-efficient fine-tuning techniques designed to make the training of language models more efficient. Previous results demonstrated that these methods can even improve performance on some classification tasks. This paper complements the existing research by investigating how these techniques influence the classification performance and computation costs compared to full fine-tuning when applied to multilingual text classification tasks (genre, framing, and persuasion techniques detection; with different input lengths, number of predicted classes and classification difficulty), some of which have limited training data. In addition, we conduct in-depth analyses of their efficacy across different training scenarios (training on the original multilingual data; on the translations into English; and on a subset of English-only data) and different languages. Our findings provide valuable insights into the applicability of the parameter-efficient fine-tuning techniques, particularly to complex multilingual and multilabel classification tasks.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# 運動合成のための整合骨格を持つ一様マスケオートエンコーダ

A Unified Masked Autoencoder with Patchified Skeletons for Motion Synthesis ( http://arxiv.org/abs/2308.07301v2 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee, (参考訳) 人間の動きの合成は、伝統的にタスク依存モデルによって対処されてきた。 本稿では,UNIMASK-Mと呼ばれる新しいタスク独立モデルを提案する。 我々のモデルは各分野の最先端技術よりも同等または優れた性能が得られる。 視覚変換器(ViT)にインスパイアされたUNIMASK-Mモデルは、人間のポーズを身体の一部に分解し、人間の動きに存在する時空間的関係を活用する。 さらに、入力として与えられた異なるマスキングパターンを用いて、様々なポーズ条件の動作合成タスクを再構成する。 マスクされた関節についてモデルに明示的に通知することで、UNIMASK-Mは閉塞に対してより堅牢になる。 実験の結果,Human3.6Mデータセット上での人間の動きの予測に成功していることがわかった。 さらに、LaFAN1データセット、特に長い遷移期間における動きインテグレーションの最先端の結果を達成する。 詳細はプロジェクトのWebサイトhttps://evm7.github.io/UNIMASKM-page/にある。

The synthesis of human motion has traditionally been addressed through task-dependent models that focus on specific challenges, such as predicting future motions or filling in intermediate poses conditioned on known key-poses. In this paper, we present a novel task-independent model called UNIMASK-M, which can effectively address these challenges using a unified architecture. Our model obtains comparable or better performance than the state-of-the-art in each field. Inspired by Vision Transformers (ViTs), our UNIMASK-M model decomposes a human pose into body parts to leverage the spatio-temporal relationships existing in human motion. Moreover, we reformulate various pose-conditioned motion synthesis tasks as a reconstruction problem with different masking patterns given as input. By explicitly informing our model about the masked joints, our UNIMASK-M becomes more robust to occlusions. Experimental results show that our model successfully forecasts human motion on the Human3.6M dataset. Moreover, it achieves state-of-the-art results in motion inbetweening on the LaFAN1 dataset, particularly in long transition periods. More information can be found on the project website https://evm7.github.io/UNIMASKM-page/
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# 多体量子雪崩モデルと超音波ランダム行列モデルとの類似性

Similarity between a many-body quantum avalanche model and the ultrametric random matrix model ( http://arxiv.org/abs/2308.07431v2 )

ライセンス: Link先を確認
Jan Šuntajs, Miroslav Hopjan, Wojciech De Roeck, Lev Vidmar, (参考訳) エルゴディディティ破砕相の分野では、量子雪崩は広範囲の障害強度で多体局在を不安定にすることができることが認識されている。 これは、しばしば単に「バランチェモデル」または「クアンタム・サンモデル」と呼ばれる、完全に局所化された物質に結合したエルゴードの種からなる(Phys. Rev. Lett. 129, 060602 (2022))おもちゃモデルの数値的研究によって証明されている。 本稿では,この玩具モデルを,確率行列理論におけるよく研究されたモデルである超音波アンサンブルに接続する。 モデルは以下の特徴を共有していると推測する。 1) 臨界点の位置は, 分析により急激に予測できる。 2) 局所化サイトでは、どちらのモデルもフォック空間の局所化を示す。 3) 臨界点の多様体が存在する。 臨界多様体上では、固有ベクトルは多様体上で動くことで調整できる非自明な多フラクタル挙動を示す。 4) 臨界量のスペクトル統計はポアソン統計学とランダム行列統計学の中間であり、臨界多様体上でもチューナブルである。 これらの特性を数値的に確認する。

In the field of ergodicity-breaking phases, it has been recognized that quantum avalanches can destabilize many-body localization at a wide range of disorder strengths. This has in particular been demonstrated by the numerical study of a toy model, sometimes simply called the "avalanche model" or the "quantum sun model" [Phys. Rev. Lett. 129, 060602 (2022)], which consists of an ergodic seed coupled to a perfectly localized material. In this paper, we connect this toy model to a well-studied model in random matrix theory, the ultrametric ensemble. We conjecture that the models share the following features. 1) The location of the critical point may be predicted sharply by analytics. 2) On the localized site, both models exhibit Fock space localization. 3) There is a manifold of critical points. On the critical manifold, the eigenvectors exhibit nontrivial multifractal behaviour that can be tuned by moving on the manifold. 4) The spectral statistics at criticality is intermediate between Poisson statistics and random matrix statistics, also tunable on the critical manifold. We confirm numerically these properties.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# ログベース異常検出におけるログ表現の有効性について

On the Effectiveness of Log Representation for Log-based Anomaly Detection ( http://arxiv.org/abs/2308.08736v3 )

ライセンス: Link先を確認
Xingfang Wu, Heng Li, Foutse Khomh, (参考訳) ログは、人々がソフトウェアシステムの動作状態を理解するために不可欠な情報源である。 最新のソフトウェアアーキテクチャとメンテナンス手法の進化により、自動ログ分析により多くの研究努力が注がれている。 特に、機械学習(ML)はログ分析タスクで広く使われている。 MLベースのログ解析タスクでは、テキストログデータを数値的な特徴ベクトルに変換することが重要かつ必須のステップである。 しかし、異なるログ表現技術がダウンストリームモデルの性能に与える影響は明らかではなく、研究者や実践者がログ解析の自動化ワークフローで最適なログ表現テクニックを選択する機会を制限している。 そこで本研究では,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。 特に6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセット(HDFS、BGL、スピリット、サンダーバード)をログベースの異常検出のコンテキストで評価する。 また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。 実験から、自動ログ分析ワークフローの設計において、将来の研究者や開発者が従うためのヒューリスティックなガイドラインを提示する。 我々は、ログ表現テクニックの包括的な比較によって、研究者や実践者が異なるログ表現テクニックの特徴をよりよく理解し、MLベースのログ分析ワークフローに最も適したものを選択するためのガイダンスを提供することができると考えている。

Logs are an essential source of information for people to understand the running status of a software system. Due to the evolving modern software architecture and maintenance methods, more research efforts have been devoted to automated log analysis. In particular, machine learning (ML) has been widely used in log analysis tasks. In ML-based log analysis tasks, converting textual log data into numerical feature vectors is a critical and indispensable step. However, the impact of using different log representation techniques on the performance of the downstream models is not clear, which limits researchers and practitioners' opportunities of choosing the optimal log representation techniques in their automated log analysis workflows. Therefore, this work investigates and compares the commonly adopted log representation techniques from previous log analysis research. Particularly, we select six log representation techniques and evaluate them with seven ML models and four public log datasets (i.e., HDFS, BGL, Spirit and Thunderbird) in the context of log-based anomaly detection. We also examine the impacts of the log parsing process and the different feature aggregation approaches when they are employed with log representation techniques. From the experiments, we provide some heuristic guidelines for future researchers and developers to follow when designing an automated log analysis workflow. We believe our comprehensive comparison of log representation techniques can help researchers and practitioners better understand the characteristics of different log representation techniques and provide them with guidance for selecting the most suitable ones for their ML-based log analysis workflow.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-08
# LLMを用いた検索向上のための不確かさのモデル化とフォールバックとしてのポストフュージョンの利用

Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs ( http://arxiv.org/abs/2308.12574v2 )

ライセンス: Link先を確認
Ye Liu, Semih Yavuz, Rui Meng, Meghana Moorthy, Shafiq Joty, Caiming Xiong, Yingbo Zhou, (参考訳) 検索されたパスとChatGPT(英語版)のような大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。 しかし, 解答過程に解答経路を組み込むための最適手法については, いまだ探索の欠如が残っている。 本稿では,このギャップを補うために,検索したパスをLLMと組み合わせ,回答生成を向上させる方法を検討した。 まず、一般的に使用される連結アプローチの限界について調べる。 驚くべきことに、この手法は、たとえ正しいドキュメントがトップk検索されたパスの中にあったとしても、しばしば「未知」の出力を生成する。 この問題に対処するために,検索したパスをLLMと統合するための4つの代替戦略を検討する。 これらの戦略には、連鎖推論を利用する2つのシングルラウンド手法と、フィードバックループを組み込んだ2つのマルチラウンド戦略が含まれる。 総合的な分析と実験を通じて, LLMの回答生成能力を高めるために, 検索したパスを効果的に活用する方法の洞察に富んだ観察結果を提供する。

The integration of retrieved passages and large language models (LLMs), such as ChatGPTs, has significantly contributed to improving open-domain question answering. However, there is still a lack of exploration regarding the optimal approach for incorporating retrieved passages into the answer generation process. This paper aims to fill this gap by investigating different methods of combining retrieved passages with LLMs to enhance answer generation. We begin by examining the limitations of a commonly-used concatenation approach. Surprisingly, this approach often results in generating "unknown" outputs, even when the correct document is among the top-k retrieved passages. To address this issue, we explore four alternative strategies for integrating the retrieved passages with the LLMs. These strategies include two single-round methods that utilize chain-of-thought reasoning and two multi-round strategies that incorporate feedback loops. Through comprehensive analyses and experiments, we provide insightful observations on how to effectively leverage retrieved passages to enhance the answer generation capability of LLMs.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# 顔画像のニューラル・インシシティ・モーフィング

Neural Implicit Morphing of Face Images ( http://arxiv.org/abs/2308.13888v3 )

ライセンス: Link先を確認
Guilherme Schardong, Tiago Novello, Hallison Paz, Iurii Medvedev, Vinícius da Silva, Luiz Velho, Nuno Gonçalves, (参考訳) フェイスフォーミングは、多くの芸術的および法医学的応用を持つコンピュータグラフィックスにおける問題である。 ポーズ、照明、性別、民族のバリエーションのため、これは困難である。 このタスクは、特徴アライメントのためのワープと、歪んだ画像間のシームレスな遷移のためのブレンディングで構成される。 我々は,このような歪みや顔画像のブレンドを表現するために,協調型ニューラルネットワークを活用することを提案する。 トレーニング中は、離散化のない古典的手法で用いられるエネルギー汎関数を組み合わせることで、そのようなネットワークの滑らかさと柔軟性を利用する。 さらに,本手法は時間依存であり,画像の連続的なゆらぎ/ブレディングを可能にする。 モーフィング推論では、時間依存のワープの直接変換と逆変換の両方が必要である。 第1(第2)は、ターゲット(ソース)イメージをソース(ターゲット)イメージにワープする責務を負う。 私たちのニューラルワープは、これらのマップを単一のネットワークに格納し、反転する必要をなくします。 実験の結果,本手法は画像品質と顔変形検出器のレンズ下での古典的および生成的モデルと競合することが示唆された。 美学的には、結果のイメージは、文学においてまだ普通ではない多様な顔のシームレスなブレンドを示す。

Face morphing is a problem in computer graphics with numerous artistic and forensic applications. It is challenging due to variations in pose, lighting, gender, and ethnicity. This task consists of a warping for feature alignment and a blending for a seamless transition between the warped images. We propose to leverage coord-based neural networks to represent such warpings and blendings of face images. During training, we exploit the smoothness and flexibility of such networks by combining energy functionals employed in classical approaches without discretizations. Additionally, our method is time-dependent, allowing a continuous warping/blending of the images. During morphing inference, we need both direct and inverse transformations of the time-dependent warping. The first (second) is responsible for warping the target (source) image into the source (target) image. Our neural warping stores those maps in a single network dismissing the need for inverting them. The results of our experiments indicate that our method is competitive with both classical and generative models under the lens of image quality and face-morphing detectors. Aesthetically, the resulting images present a seamless blending of diverse faces not yet usual in the literature.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# SiT-MLP:スケルトンに基づく行動認識のためのポイントワイズトポロジ特徴学習のための簡易MLP

SiT-MLP: A Simple MLP with Point-wise Topology Feature Learning for Skeleton-based Action Recognition ( http://arxiv.org/abs/2308.16018v4 )

ライセンス: Link先を確認
Shaojie Zhang, Jianqin Yin, Yonghao Dang, Jiajun Fu, (参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮している。 しかし、従来のGCNベースの手法は、網の一般化可能性と有効性を制限した複雑な特徴集約機構を構築し、精巧な人間の先行を過度に頼りにしている。 そこで本稿では,MLP を用いた空間的トポロジゲーティングユニット (STGU) を提案する。 STGUでは、ポイントワイズトポロジの特徴を学習するために、新しいゲートベースの特徴相互作用機構を導入し、入力サンプルから生成されたアテンションマップにより特徴点対ポイントを活性化する。 STGUに基づいて,本研究における骨格に基づく行動認識のための最初のMLPモデルSiT-MLPを提案する。 3つの大規模データセットの以前の方法と比較して、SiT-MLPは競合的なパフォーマンスを達成する。 さらに、SiT-MLPは、好ましい結果とともにパラメータを著しく削減する。 コードはhttps://github.com/BUPTSJZhang/SiT? MLP。

Graph convolution networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. However, previous GCN-based methods rely on elaborate human priors excessively and construct complex feature aggregation mechanisms, which limits the generalizability and effectiveness of networks. To solve these problems, we propose a novel Spatial Topology Gating Unit (STGU), an MLP-based variant without extra priors, to capture the co-occurrence topology features that encode the spatial dependency across all joints. In STGU, to learn the point-wise topology features, a new gate-based feature interaction mechanism is introduced to activate the features point-to-point by the attention map generated from the input sample. Based on the STGU, we propose the first MLP-based model, SiT-MLP, for skeleton-based action recognition in this work. Compared with previous methods on three large-scale datasets, SiT-MLP achieves competitive performance. In addition, SiT-MLP reduces the parameters significantly with favorable results. The code will be available at https://github.com/BUPTSJZhang/SiT?MLP.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# ジャコビアンホメオスタシスによる重量対称性のない平衡伝播の改善

Improving equilibrium propagation without weight symmetry through Jacobian homeostasis ( http://arxiv.org/abs/2309.02214v2 )

ライセンス: Link先を確認
Axel Laborieux, Friedemann Zenke, (参考訳) 平衡伝播(EP)は、ニューラルネットワークの生物学的またはアナログなニューロモルフィック基板上の勾配を計算するための誤差アルゴリズム(BP)のバックプロパゲーションの魅力的な代替手段である。 それでもこのアルゴリズムは、非バイアス勾配を効率的に推定するために、ウェイト対称性と無限小平衡摂動(nudges)を必要とする。 両方の要件は物理的システムで実装することが難しい。 しかし、重み非対称性が適用性にどのような影響を及ぼすかは不明であり、実際には、有限ノイドを通じて導入されたバイアスによって隠蔽される可能性がある。 この問題に対処するために、重み対称性なしで定式化できる一般化EPについて検討し、2つのバイアス源を解析的に分離する。 複素微分可能でない非対称ネットワークに対しては、完全微分はコーシー積分によって推定できるため、有限ヌッジが問題を引き起こすことはないことを示す。 対照的に、重み非対称性は、BPと比較してEPの神経エラーベクトルのアライメントが悪いために、低いタスク性能をもたらすバイアスをもたらす。 この問題を緩和するために、ネットワークの固定点におけるジャコビアンの関数的非対称性を直接罰する新しいホメオスタティックな目的を提案する。 このホメオスタティックな目的は、ImageNet 32x32のような複雑なタスクを解くネットワークの能力を劇的に改善する。 本研究は, 基板の緩和力学に依存する学習アルゴリズムに対する物理ネットワークの不完全性の影響を研究・緩和するための理論的基礎研究である。

Equilibrium propagation (EP) is a compelling alternative to the backpropagation of error algorithm (BP) for computing gradients of neural networks on biological or analog neuromorphic substrates. Still, the algorithm requires weight symmetry and infinitesimal equilibrium perturbations, i.e., nudges, to estimate unbiased gradients efficiently. Both requirements are challenging to implement in physical systems. Yet, whether and how weight asymmetry affects its applicability is unknown because, in practice, it may be masked by biases introduced through the finite nudge. To address this question, we study generalized EP, which can be formulated without weight symmetry, and analytically isolate the two sources of bias. For complex-differentiable non-symmetric networks, we show that the finite nudge does not pose a problem, as exact derivatives can still be estimated via a Cauchy integral. In contrast, weight asymmetry introduces bias resulting in low task performance due to poor alignment of EP's neuronal error vectors compared to BP. To mitigate this issue, we present a new homeostatic objective that directly penalizes functional asymmetries of the Jacobian at the network's fixed point. This homeostatic objective dramatically improves the network's ability to solve complex tasks such as ImageNet 32x32. Our results lay the theoretical groundwork for studying and mitigating the adverse effects of imperfections of physical networks on learning algorithms that rely on the substrate's relaxation dynamics.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# オープンVocabulary 360-Degree画像生成のための自己回帰型Omni-Awareアウトペイント

Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation ( http://arxiv.org/abs/2309.03467v2 )

ライセンス: Link先を確認
Zhuqiang Lu, Kun Hu, Chaoyue Wang, Lei Bai, Zhiyong Wang, (参考訳) 360度(全方向)の画像は、シーンの全球ビューを提供する。 近年,デジタルカメラやスマートフォンが捉えた従来の狭視野画像(NFoV)から360度画像を合成することで,仮想現実などの様々なシナリオにおいて没入感のある体験を提供することへの関心が高まっている。 しかし、既存の手法は通常、複雑な視覚的詳細を合成したり、生成された画像がユーザーが提供するプロンプトと整合していることを保証するのに不足する。 本研究では,NFoVとテキストガイダンスを併用または個別に,不完全な360度画像を段階的に描画することで,自動回帰型Omni-Aware Generative Network(AOG-Net)を提案する。 この自己回帰方式は、プロセスを動的に生成・調整することで、より細粒度でテキスト一貫性のあるパターンを導出できるだけでなく、生成プロセス全体を通して、よりフレキシブルな条件編集を可能にする。 各自己回帰ステップにおいて、アウトペイントガイダンスを包括的に定式化するために、グローバルローカルコンディショニング機構が考案された。 テキストガイダンス、オムニ視覚的手がかり、NFoV入力およびオムニ幾何学を符号化し、クロスアテンションベースのトランスフォーマーを大域ストリームに、局所ストリームを条件付き生成バックボーンモデルに、さらに定式化する。 AOG-Netは、条件付きエンコーダと生成前の大規模なモデルを利用するために互換性があるため、生成元は広範なオープン語彙のテキストガイダンスを使用することができる。 室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。 私たちのコードは公開されます。

A 360-degree (omni-directional) image provides an all-encompassing spherical view of a scene. Recently, there has been an increasing interest in synthesising 360-degree images from conventional narrow field of view (NFoV) images captured by digital cameras and smartphones, for providing immersive experiences in various scenarios such as virtual reality. Yet, existing methods typically fall short in synthesizing intricate visual details or ensure the generated images align consistently with user-provided prompts. In this study, autoregressive omni-aware generative network (AOG-Net) is proposed for 360-degree image generation by out-painting an incomplete 360-degree image progressively with NFoV and text guidances joinly or individually. This autoregressive scheme not only allows for deriving finer-grained and text-consistent patterns by dynamically generating and adjusting the process but also offers users greater flexibility to edit their conditions throughout the generation process. A global-local conditioning mechanism is devised to comprehensively formulate the outpainting guidance in each autoregressive step. Text guidances, omni-visual cues, NFoV inputs and omni-geometry are encoded and further formulated with cross-attention based transformers into a global stream and a local stream into a conditioned generative backbone model. As AOG-Net is compatible to leverage large-scale models for the conditional encoder and the generative prior, it enables the generation to use extensive open-vocabulary text guidances. Comprehensive experiments on two commonly used 360-degree image datasets for both indoor and outdoor settings demonstrate the state-of-the-art performance of our proposed method. Our code will be made publicly available.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# 固体量子応用のための高精度超微粒子テンソル-ダイヤモンド中のNV中心の場合-

Accurate Hyperfine Tensors for Solid State Quantum Applications: Case of the NV Center in Diamond ( http://arxiv.org/abs/2309.03983v2 )

ライセンス: Link先を確認
István Takács, Viktor Ivády, (参考訳) 点欠陥量子ビットのデコヒーレンスはしばしば電子スピン-スピン超微細相互作用によって制御される。 これまでの理論研究のほとんどは、最も近い核スピンの超微細な相互作用に焦点を当てているが、異なる核スピンの予測の精度はほとんど議論されていない。 ダイヤモンド中のNV中心の場合、計算された超微粒子パラメータの絶対相対誤差は、弱い結合核スピンに対するVASPにおいて100\%を超えることが示される。 この問題を克服するために、我々は代替手法を実装し、あらゆる距離における相対平均誤差$O$(1\%)で大幅に改善された超微細値について報告する。 得られたNV中心の正確な超微細データにより、実験および理論的な超微細データを比較することにより、量子情報処理のためのNV量子ノードの高精度シミュレーションと核スピンの位置決めが可能になる。

The decoherence of point defect qubits is often governed by the electron spin-nuclear spin hyperfine interaction that can be parameterized by using ab inito calculations in principle. So far most of the theoretical works have focused on the hyperfine interaction of the closest nuclear spins, while the accuracy of the predictions for distinct nuclear spins is barely discussed. We demonstrate for the case of the NV center in diamond that the absolute relative error of the computed hyperfine parameters can exceed 100\% in VASP for weakly coupled nuclear spins. To overcome this issue, we implement an alternative method and report on significantly improved hyperfine values with $O$(1\%) relative mean error at all distances. The provided accurate hyperfine data for the NV center enables high-precision simulation of NV quantum nodes for quantum information processing and positioning of nuclear spins by comparing experimental and theoretical hyperfine data.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# SegmentAnythingは、顕微鏡画像によるオルガノイドの自動検出と分析を支援する

SegmentAnything helps microscopy images based automatic and quantitative organoid detection and analysis ( http://arxiv.org/abs/2309.04190v4 )

ライセンス: Link先を確認
Xiaodan Xing, Chunling Tang, Yunzhe Guo, Nicholas Kurniawan, Guang Yang, (参考訳) オルガノイド(Organoids)は、生体組織や臓器のアーキテクチャや機能を忠実に模倣する、自己組織化された3D細胞クラスターである。 オルガノイドの形態の定量化は、臓器の発達、薬物発見、毒性評価の研究に役立つ。 最近の顕微鏡技術は、オルガノイドの形態的特徴を取得する強力なツールを提供するが、手動画像解析は依然として手間と時間を要するプロセスである。 そこで本稿では,SegmentAnythingを利用して個々のオルガノイドを正確に分離する,顕微鏡解析のための包括的パイプラインを提案する。 さらに, 周辺, 面積, 半径, 非平滑性, 非循環性などの形態的特性のセットを導入し, 研究者が定量的に, 自動的にオルガノイド構造を解析できるようにする。 提案手法の有効性を検証するため,ヒト誘導多能性幹細胞(iPSCs)由来神経上皮性オルガノイド(NE)の明視野画像の検討を行った。 自動パイプラインから得られた結果は,手動オルガノイド検出および測定と密接に一致し,オルガノイド形態解析の高速化における提案手法の有効性を示した。

Organoids are self-organized 3D cell clusters that closely mimic the architecture and function of in vivo tissues and organs. Quantification of organoid morphology helps in studying organ development, drug discovery, and toxicity assessment. Recent microscopy techniques provide a potent tool to acquire organoid morphology features, but manual image analysis remains a labor and time-intensive process. Thus, this paper proposes a comprehensive pipeline for microscopy analysis that leverages the SegmentAnything to precisely demarcate individual organoids. Additionally, we introduce a set of morphological properties, including perimeter, area, radius, non-smoothness, and non-circularity, allowing researchers to analyze the organoid structures quantitatively and automatically. To validate the effectiveness of our approach, we conducted tests on bright-field images of human induced pluripotent stem cells (iPSCs) derived neural-epithelial (NE) organoids. The results obtained from our automatic pipeline closely align with manual organoid detection and measurement, showcasing the capability of our proposed method in accelerating organoids morphology analysis.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-08
# ImitationNet: 共有潜在空間による非教師なし人間とロボットのモーションリターゲティング

ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space ( http://arxiv.org/abs/2309.05310v3 )

ライセンス: Link先を確認
Yashuai Yan, Esteve Valls Mascaro, Dongheui Lee, (参考訳) 本稿では,ロボットが人間のポーズを正確に模倣できるように,ロボットの動き再ターゲティングのための新しい深層学習手法を提案する。 従来のディープラーニングに基づく研究とは対照的に,本手法では,新たなロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。 まず,人間とロボットのポーズのクロスドメイン類似度指標を生かした適応型コントラスト学習を用いて,人間とロボットの共用潜伏空間を構築した。 さらに,ポーズの類似性を高精度に捉えつつ,ロボットの動きを直接制御できる共通潜伏空間を構築するための一貫性項を提案する。 例えば、2つの投影された人間のポーズ間の単純な線形補間によって、中間動作を生成することができる。 我々は, 多様なモダリティ(テキスト, RGBビデオ, キーポーズなど)からロボット制御を包括的に評価し, 非専門家のロボット制御を容易にする。 我々のモデルは、効率と精度の観点から、人間からロボットへのリターゲティングに関する既存の研究よりも優れています。 最後に,本手法を実ロボットに実装し,本手法の有効性を示す。 我々のウェブサイト https://evm7.github.io/UnsH2R/

This paper introduces a novel deep-learning approach for human-to-robot motion retargeting, enabling robots to mimic human poses accurately. Contrary to prior deep-learning-based works, our method does not require paired human-to-robot data, which facilitates its translation to new robots. First, we construct a shared latent space between humans and robots via adaptive contrastive learning that takes advantage of a proposed cross-domain similarity metric between the human and robot poses. Additionally, we propose a consistency term to build a common latent space that captures the similarity of the poses with precision while allowing direct robot motion control from the latent space. For instance, we can generate in-between motion through simple linear interpolation between two projected human poses. We conduct a comprehensive evaluation of robot control from diverse modalities (i.e., texts, RGB videos, and key poses), which facilitates robot control for non-expert users. Our model outperforms existing works regarding human-to-robot retargeting in terms of efficiency and precision. Finally, we implemented our method in a real robot with self-collision avoidance through a whole-body controller to showcase the effectiveness of our approach. More information on our website https://evm7.github.io/UnsH2R/
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# 異方性拡散ステンシル:安定性の単純な導出からResNet実装へ

Anisotropic Diffusion Stencils: From Simple Derivations over Stability Estimates to ResNet Implementations ( http://arxiv.org/abs/2309.05575v3 )

ライセンス: Link先を確認
Karl Schrader, Joachim Weickert, Michael Krause, (参考訳) 拡散テンソルを用いた異方性拡散過程は、画像解析、物理、工学において重要である。 しかし、それらの数値近似は、発散人工物や回転不変量からの偏差に強い影響を及ぼす。 本研究では, 3 × 3 個のステンシル上の有限差分分解の大きい族について検討する。 2次元異方性拡散を4つの1次元拡散に分割することによって導出する。 結果として得られるステンシルクラスは1つの自由パラメータを含み、様々な既存の判断をカバーしている。 Weckert et al (2013) のフルステンシルファミリーを構成し、それらの2つのパラメータが冗長性を含んでいることを示す。 さらに,ステンシルに対応する行列のスペクトルノルムの有界性を確立する。 これにより、ユークリッドノルムにおける明示的なスキームの安定性を保証する時間ステップサイズ制限が与えられる。 我々の方向分割はまた、明示的なスキームをResNetブロックに非常に自然な翻訳を可能にする。 ニューラルネットワークライブラリを使用することで、GPUの単純かつ高効率な並列実装が可能になる。

Anisotropic diffusion processes with a diffusion tensor are important in image analysis, physics, and engineering. However, their numerical approximation has a strong impact on dissipative artefacts and deviations from rotation invariance. In this work, we study a large family of finite difference discretisations on a 3 x 3 stencil. We derive it by splitting 2-D anisotropic diffusion into four 1-D diffusions. The resulting stencil class involves one free parameter and covers a wide range of existing discretisations. It comprises the full stencil family of Weickert et al. (2013) and shows that their two parameters contain redundancy. Furthermore, we establish a bound on the spectral norm of the matrix corresponding to the stencil. This gives time step size limits that guarantee stability of an explicit scheme in the Euclidean norm. Our directional splitting also allows a very natural translation of the explicit scheme into ResNet blocks. Employing neural network libraries enables simple and highly efficient parallel implementations on GPUs.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# 任意のフルランク状態の量子オブザーバブルの証明セット

Certifying sets of quantum observables with any full-rank state ( http://arxiv.org/abs/2309.05735v2 )

ライセンス: Link先を確認
Zhen-Peng Xu, Debashis Saha, Kishor Bharti, Adán Cabello, (参考訳) 量子オブザーバブルのいくつかの集合は等尺的に一意であり、任意の初期状態に対して同じ値が得られるような文脈性証人を持つことが示される。 これらの2つの性質は、逐次測定による実験の統計を調べ、温度と最大混合状態を含む任意の初期状態を用いてこれらの集合の認証を可能にすることを証明している。 有限次元$d \ge 3$の任意の量子系に対して「任意のフルランク状態による証明」 (CFR) が可能であり、3次元と4次元において堅牢で実験的に有用であることを示す。 さらに、完全コッシェン・スペクター集合がベル自己検定(英語版)(Bell self-tested)可能であることを証明している。 このことは、これらの2つの認証方法の基本的な関係を確立し、両方の方法が同じ実験で結合できることを示し、量子デバイスを認証する新たな可能性を開く。

We show that some sets of quantum observables are unique up to an isometry and have a contextuality witness that attains the same value for any initial state. We prove that these two properties make it possible to certify any of these sets by looking at the statistics of experiments with sequential measurements and using any initial state of full rank, including thermal and maximally mixed states. We prove that this ``certification with any full-rank state'' (CFR) is possible for any quantum system of finite dimension $d \ge 3$ and is robust and experimentally useful in dimensions 3 and 4. In addition, we prove that complete Kochen-Specker sets can be Bell self-tested if and only if they enable CFR. This establishes a fundamental connection between these two methods of certification, shows that both methods can be combined in the same experiment, and opens new possibilities for certifying quantum devices.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# 単純複素信号のスペクトル収束

Spectral Convergence of Simplicial Complex Signals ( http://arxiv.org/abs/2309.07169v3 )

ライセンス: Link先を確認
Purui Zhang, Xingchao Jian, Feng Ji, Wee Peng Tay, Bihan Wen, (参考訳) トポロジカル信号処理(TSP)は、単純錯体を用いて、頂点や縁よりも高次構造をモデル化する。 本稿では, 一般化された高次グラフトンを用いたTSPの転送可能性について検討する。 複素数列 [1] の極限としての複素数列の概念を思い出す。 グラフオンシフト演算子とメッセージパスニューラルネットワークにインスパイアされた我々は、コンプレクトンから可能なすべての次元の成分に基づいて、限界複素数および複素数シフト演算子(CSO)を構築した。 我々はCSOの固有値と固有ベクトルを調査し、それらを重み付き隣接行列の新しい族に関連付ける。 単純複素信号列が複素数信号に収束すると、対応するCSOの固有値、固有空間、フーリエ変換が極限複素数信号の信号に収束することを示す。 この結論は2つの数値実験によってさらに検証される。 これらの結果は, グラファイト信号処理フレームワークを一般化した, 大きな単純複素数あるいは単純複素数列上の伝達可能性の学習を示唆している。

Topological signal processing (TSP) utilizes simplicial complexes to model structures with higher order than vertices and edges. In this paper, we study the transferability of TSP via a generalized higher-order version of graphon, known as complexon. We recall the notion of a complexon as the limit of a simplicial complex sequence [1]. Inspired by the graphon shift operator and message-passing neural network, we construct a marginal complexon and complexon shift operator (CSO) according to components of all possible dimensions from the complexon. We investigate the CSO's eigenvalues and eigenvectors and relate them to a new family of weighted adjacency matrices. We prove that when a simplicial complex signal sequence converges to a complexon signal, the eigenvalues, eigenspaces, and Fourier transform of the corresponding CSOs converge to that of the limit complexon signal. This conclusion is further verified by two numerical experiments. These results hint at learning transferability on large simplicial complexes or simplicial complex sequences, which generalize the graphon signal processing framework.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# Echotune: ASRタスクにおける可変長の音声特性を活用したモジュラー・エクストラクタ

Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks ( http://arxiv.org/abs/2309.07765v2 )

ライセンス: Link先を確認
Sizhou Chen, Songyang Gao, Sen Fang, (参考訳) Transformerアーキテクチャは、ASR(Automatic Speech Recognition)タスクに非常に効果的であることが証明され、ドメイン内の多くの研究の基盤となる。 歴史的に、多くのアプローチは固定長の注意窓に依存しており、これは様々な音声サンプルの持続時間と複雑さに問題があり、データの過度な平滑化と重要な長期接続の無視につながる。 この制限に対処するため、様々な音声サンプルの複雑さと持続時間に対応する可変長アテンション機構を備えたニブルモジュールであるEcho-MSAを導入する。 このモジュールは、フレームや音素から単語や談話まで、様々な粒度の音声特徴を抽出する柔軟性を提供する。 提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。 本評価では,Echo-MSAモジュール出力と従来の注目を一致させる動的ゲーティング機構を補完する並列アテンションアーキテクチャを活用している。 本研究から得られた実証的証拠は,Echo-MSAを初等モデルのトレーニングシステムに組み込むことで,原モデルの本質的な安定性を維持しつつ,単語誤り率(WER)が著しく向上することを明らかにする。

The Transformer architecture has proven to be highly effective for Automatic Speech Recognition (ASR) tasks, becoming a foundational component for a plethora of research in the domain. Historically, many approaches have leaned on fixed-length attention windows, which becomes problematic for varied speech samples in duration and complexity, leading to data over-smoothing and neglect of essential long-term connectivity. Addressing this limitation, we introduce Echo-MSA, a nimble module equipped with a variable-length attention mechanism that accommodates a range of speech sample complexities and durations. This module offers the flexibility to extract speech features across various granularities, spanning from frames and phonemes to words and discourse. The proposed design captures the variable length feature of speech and addresses the limitations of fixed-length attention. Our evaluation leverages a parallel attention architecture complemented by a dynamic gating mechanism that amalgamates traditional attention with the Echo-MSA module output. Empirical evidence from our study reveals that integrating Echo-MSA into the primary model's training regime significantly enhances the word error rate (WER) performance, all while preserving the intrinsic stability of the original model.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# 音楽製品に対するポジティブでリスクの高いメッセージアセスメント

Positive and Risky Message Assessment for Music Products ( http://arxiv.org/abs/2309.10182v2 )

ライセンス: Link先を確認
Yigeng Zhang, Mahsa Shafaei, Fabio A. González, Thamar Solorio, (参考訳) 本研究では,音楽製品における肯定的かつ潜在的に有害なメッセージの評価という,先駆的な研究課題を紹介する。 音楽コンテンツ評価のための多面的マルチタスクベンチマークを設定して開始する。 続いて、この課題に対処するために、順序性強化が強化された効率的なマルチタスク予測モデルを導入する。 提案手法は,頑健なタスク特化代替案よりも,複数の側面を同時に評価する能力を有することが明らかとなった。 さらに,大言語モデル(LLM)をコンテンツアセスメントのサロゲートとして用いた詳細な事例研究を通じて,今後の研究の指針となる貴重な知見を提供する。 データセットの作成とモデル実装のコードはhttps://github.com/RiTUAL-UH/music-message-assesmentで公開されている。

In this work, we introduce a pioneering research challenge: evaluating positive and potentially harmful messages within music products. We initiate by setting a multi-faceted, multi-task benchmark for music content assessment. Subsequently, we introduce an efficient multi-task predictive model fortified with ordinality-enforcement to address this challenge. Our findings reveal that the proposed method not only significantly outperforms robust task-specific alternatives but also possesses the capability to assess multiple aspects simultaneously. Furthermore, through detailed case studies, where we employed Large Language Models (LLMs) as surrogates for content assessment, we provide valuable insights to inform and guide future research on this topic. The code for dataset creation and model implementation is publicly available at https://github.com/RiTUAL-UH/music-message-assessment.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# アルゴリズム採用における公正性とバイアス--多分野調査

Fairness and Bias in Algorithmic Hiring: a Multidisciplinary Survey ( http://arxiv.org/abs/2309.13933v2 )

ライセンス: Link先を確認
Alessandro Fabris, Nina Baranowska, Matthew J. Dennis, David Graus, Philipp Hacker, Jorge Saldivar, Frederik Zuiderveen Borgesius, Asia J. Biega, (参考訳) 雇用者は採用パイプライン全体を通してアルゴリズムによる雇用技術を採用しています。 アルゴリズム的公正性は、高い利害関係と構造的不等式のため、この領域で特に適用できる。 残念ながら、この分野のほとんどの研究は部分的な扱いを提供しており、しばしば2つの競合する物語によって制約される。 アルゴリズムによる雇用のバイアスが減り、社会に利益をもたらすかどうか、そしてさらに重要なことは、信頼感の低下に対して、現在のローテクな代替手段は未解決のままだ。 この多分野にわたる調査は、システム、バイアス、尺度、緩和戦略、データセット、およびアルゴリズム雇用と公正性の法的側面のバランスよく統合されたカバレッジを持つ実践者や研究者に向けられている。 私たちの仕事は、現在の機会と制限を強調し、すべての利害関係者に対する共有メリットを保証するために、将来の作業に対する推奨を提供することによって、この技術のコンテキスト化された理解とガバナンスを支援します。

Employers are adopting algorithmic hiring technology throughout the recruitment pipeline. Algorithmic fairness is especially applicable in this domain due to its high stakes and structural inequalities. Unfortunately, most work in this space provides partial treatment, often constrained by two competing narratives, optimistically focused on replacing biased recruiter decisions or pessimistically pointing to the automation of discrimination. Whether, and more importantly what types of, algorithmic hiring can be less biased and more beneficial to society than low-tech alternatives currently remains unanswered, to the detriment of trustworthiness. This multidisciplinary survey caters to practitioners and researchers with a balanced and integrated coverage of systems, biases, measures, mitigation strategies, datasets, and legal aspects of algorithmic hiring and fairness. Our work supports a contextualized understanding and governance of this technology by highlighting current opportunities and limitations, providing recommendations for future work to ensure shared benefits for all stakeholders.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-08
# HOI4ABOT:人間と物体の相互作用予測

HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading Collaborative roBOTs ( http://arxiv.org/abs/2309.16524v2 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee, (参考訳) ロボットは私たちの生活にますます統合されつつあり、様々なタスクで私たちを支援している。 人間とロボットの効果的な協調を確保するためには、人間の意図を理解し、行動を予測することが不可欠である。 本稿では,協調型ロボットのためのHuman-Object Interaction(HOI)予測フレームワークを提案する。 本稿では,ビデオからHOIを検出し,予測するための,効率的かつ堅牢なトランスフォーマーベースモデルを提案する。 この強化された予測により、ロボットは積極的に人間を助けることができ、それによってより効率的で直感的なコラボレーションが可能になる。 我々のモデルは、VidHOIデータセットのHOI検出と予測において、それぞれ1.76%と1.04%のmAPで15.4倍の速さで、最先端の結果よりも優れています。 本研究は,実際のロボットを用いた実験結果によるアプローチの有効性を実証し,ロボットがHOIを予測できることが人間とロボットのインタラクション改善の鍵であることを実証する。 詳細はプロジェクトのWebページ(https://evm7.github.io/HOI4ABOT_page/)で確認できます。

Robots are becoming increasingly integrated into our lives, assisting us in various tasks. To ensure effective collaboration between humans and robots, it is essential that they understand our intentions and anticipate our actions. In this paper, we propose a Human-Object Interaction (HOI) anticipation framework for collaborative robots. We propose an efficient and robust transformer-based model to detect and anticipate HOIs from videos. This enhanced anticipation empowers robots to proactively assist humans, resulting in more efficient and intuitive collaborations. Our model outperforms state-of-the-art results in HOI detection and anticipation in VidHOI dataset with an increase of 1.76% and 1.04% in mAP respectively while being 15.4 times faster. We showcase the effectiveness of our approach through experimental results in a real robot, demonstrating that the robot's ability to anticipate HOIs is key for better Human-Robot Interaction. More information can be found on our project webpage: https://evm7.github.io/HOI4ABOT_page/
翻訳日:2024-04-10 04:28:07 公開日:2024-04-08
# 強化学習のための後方サンプリングによる因果グラフの爆発的先行

Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement Learning ( http://arxiv.org/abs/2310.07518v2 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Marcello Restelli, Alexander Marx, Giorgia Ramponi, (参考訳) 後部サンプリングにより、環境の遷移力学に関する事前知識を活用でき、強化学習のサンプル効率を向上させることができる。 前者は典型的にはパラメトリック分布のクラスとして指定され、その設計は実際は煩雑であり、しばしば非形式的前置詞の選択をもたらす。 本研究では,環境変数に対する(部分的な)因果グラフとして前者が与えられる新しい後方サンプリング手法を提案する。 後者は、医学的治療研究において、生体的特徴間の既知の因果関係を列挙するなど、設計にとってより自然であることが多い。 具体的には,C-PSRLと呼ばれる階層的ベイズ的手法を提案する。 我々は,C-PSRLのベイズ的後悔を解析し,その後悔率と先行知識の程度を明示的に結びつける。 C-PSRLは,全因果グラフを用いて後方サンプリングに近づきながら,非形式前の後方サンプリングの効率を強く向上することを確認した。

Posterior sampling allows exploitation of prior knowledge on the environment's transition dynamics to improve the sample efficiency of reinforcement learning. The prior is typically specified as a class of parametric distributions, the design of which can be cumbersome in practice, often resulting in the choice of uninformative priors. In this work, we propose a novel posterior sampling approach in which the prior is given as a (partial) causal graph over the environment's variables. The latter is often more natural to design, such as listing known causal dependencies between biometric features in a medical treatment study. Specifically, we propose a hierarchical Bayesian procedure, called C-PSRL, simultaneously learning the full causal graph at the higher level and the parameters of the resulting factored dynamics at the lower level. We provide an analysis of the Bayesian regret of C-PSRL that explicitly connects the regret rate with the degree of prior knowledge. Our numerical evaluation conducted in illustrative domains confirms that C-PSRL strongly improves the efficiency of posterior sampling with an uninformative prior while performing close to posterior sampling with the full causal graph.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-08
# 合成データセットを用いた名前付きエンティティ認識における文脈のランク付け学習

Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset ( http://arxiv.org/abs/2310.10118v3 )

ライセンス: Link先を確認
Arthur Amalvy, Vincent Labatut, Richard Dufour, (参考訳) 最近のトレーニング済みトランスフォーマーベースのモデルでは、名前付きエンティティ認識(NER)を高い精度で行うことができるが、小説全体のような長い文書に適用した場合、その限界範囲は問題である。 この問題を緩和するために、ソリューションはドキュメントレベルで関連するコンテキストを取得することです。 残念ながら、そのようなタスクに対する監督の欠如は、教師なしのアプローチに決着をつける必要があることを意味する。 そこで本研究では,命令付き大規模言語モデル(LLM)であるAlpacaを用いて,文脈検索学習データセットを生成することを提案する。 このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。 本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。

While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# 射影相が固有状態熱化仮説に及ぼす影響に関する考察

Remarks on effects of projective phase on eigenstate thermalization hypothesis ( http://arxiv.org/abs/2310.11425v3 )

ライセンス: Link先を確認
Osamu Fukushima, (参考訳) $(d+1)$-次元量子場における$p$-形式対称性の存在は、ある仮定の下で対称性演算子以外のある$(d-p)$-次元作用素に対する固有状態熱化仮説(ETH)の分解を常に導くことが知られている。 この仮定には、与えられたエネルギーシェル内の対称性セクターの混合が含まれており、スペクトルの中央にある固有状態に関する情報を必要とするため、検証は比較的困難である。 我々は、この困難を避けるために、この仮定を射影表現の観点から再考する。 $\mathbb{Z}_N$ 対称性の場合、非自明な射影位相を持つ$\mathbb{Z}_N\times\mathbb{Z}_N$-対称理論を考慮し、興味のある$\mathbb{Z}_N$ 対称性の1つを保ちながらハミルトニアンを摂動させることで、困難を回避することができる。 また、$(1+1)$次元スピン鎖と$(2+1)$次元$\mathbb{Z}_2$格子ゲージ理論についても数値解析を行う。

The existence of $p$-form symmetry in $(d+1)$-dimensional quantum field is known to always lead to the breakdown of the eigenstate thermalization hypothesis (ETH) for certain $(d-p)$-dimensional operators other than symmetry operators under some assumptions. The assumptions include the mixing of symmetry sectors within a given energy shell, which is rather challenging to verify because it requires information on the eigenstates in the middle of the spectrum. We reconsider this assumption from the viewpoint of projective representations to avoid this difficulty. In the case of $\mathbb{Z}_N$ symmetries, we can circumvent the difficulty by considering $\mathbb{Z}_N\times\mathbb{Z}_N$-symmetric theories with nontrivial projective phases, and perturbing the Hamiltonian while preserving one of the $\mathbb{Z}_N$ symmetries of our interest. We also perform numerical analyses for $(1+1)$-dimensional spin chains and the $(2+1)$-dimensional $\mathbb{Z}_2$ lattice gauge theory.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# REMARK-LLM: 大規模言語モデル生成のためのロバストで効率的な透かしフレームワーク

REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models ( http://arxiv.org/abs/2310.12362v2 )

ライセンス: Link先を確認
Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz Koushanfar, (参考訳) 本稿では,大規模な言語モデル(LLM)によって生成されたテキストを対象とした,新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。 LLMを使って人間のようなコンテンツを合成するには、膨大な計算資源と膨大なデータセットを必要とし、重要な知的財産権(IP)をカプセル化する必要がある。 しかし、生成されたコンテンツはスパムや盗作など悪用される傾向がある。 この課題に対処するため、REMARK-LLMは3つの新しいコンポーネントを提案する。 i) LLM生成テキストにバイナリシグネチャを注入する学習ベースのメッセージエンコーディングモジュール 二 密集分布を、メッセージエンコーディングから透かし付きテキストトークンの疎分布に変換するための再パラメータ化モジュール 3)署名抽出専用のデコードモジュール,さらに,生成されたコンテンツの一貫性と一貫性を保証するために最適化されたビーム探索アルゴリズムを導入する。 REMARK-LLMは、効果的な透かし検索を確保しつつ、透かし内容のセマンティックな整合性の維持を促進するために厳格に訓練されている。 複数の未確認データセットに対する広範囲な評価は、REMARK-LLMの習熟度と転送性を強調し、意味的整合性を維持しながら、2倍のシグネチャビットを同じテキストに挿入する。 さらにREMARK-LLMは、透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。

We present REMARK-LLM, a novel efficient, and robust watermarking framework designed for texts generated by large language models (LLMs). Synthesizing human-like content using LLMs necessitates vast computational resources and extensive datasets, encapsulating critical intellectual property (IP). However, the generated content is prone to malicious exploitation, including spamming and plagiarism. To address the challenges, REMARK-LLM proposes three new components: (i) a learning-based message encoding module to infuse binary signatures into LLM-generated texts; (ii) a reparameterization module to transform the dense distributions from the message encoding to the sparse distribution of the watermarked textual tokens; (iii) a decoding module dedicated for signature extraction; Furthermore, we introduce an optimized beam search algorithm to guarantee the coherence and consistency of the generated content. REMARK-LLM is rigorously trained to encourage the preservation of semantic integrity in watermarked content, while ensuring effective watermark retrieval. Extensive evaluations on multiple unseen datasets highlight REMARK-LLM proficiency and transferability in inserting 2 times more signature bits into the same texts when compared to prior art, all while maintaining semantic integrity. Furthermore, REMARK-LLM exhibits better resilience against a spectrum of watermark detection and removal attacks.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# リカレントニューラルネットワークモデルの表現能力について

On the Representational Capacity of Recurrent Neural Language Models ( http://arxiv.org/abs/2310.12942v4 )

ライセンス: Link先を確認
Franz Nowak, Anej Svete, Li Du, Ryan Cotterell, (参考訳) 本研究では、リカレントニューラルネットワーク(RNN)に基づく言語モデル(LM)の計算表現性について検討する。 Siegelmann and Sontag (1992) は、合理的な重みと隠れた状態と非有界な計算時間を持つ RNN がチューリング完全であることを示した。 しかし、文字列の重み付けは、単に(重み付けされていない)言語のメンバーシップに加えて定義されており、RNN LM(RLM)の計算能力の分析もこれを反映すべきである。 我々は、チューリング完全性の結果を確率的ケースに拡張し、有界な計算時間を持つ有理重み付き RLM が、有理重み付き遷移を持つ決定論的確率的チューリングマシン (PTM) をどのようにシミュレートできるかを示す。 実のところ、RLMはリアルタイムに動作し、各ステップでシンボルを処理するので、上記の結果をRLMの表現性上の上限として扱う。 また, 実時間計算の制約下では, 決定論的実時間有理PTMをシミュレートできることを示した。

This work investigates the computational expressivity of language models (LMs) based on recurrent neural networks (RNNs). Siegelmann and Sontag (1992) famously showed that RNNs with rational weights and hidden states and unbounded computation time are Turing complete. However, LMs define weightings over strings in addition to just (unweighted) language membership and the analysis of the computational power of RNN LMs (RLMs) should reflect this. We extend the Turing completeness result to the probabilistic case, showing how a rationally weighted RLM with unbounded computation time can simulate any deterministic probabilistic Turing machine (PTM) with rationally weighted transitions. Since, in practice, RLMs work in real-time, processing a symbol at every time step, we treat the above result as an upper bound on the expressivity of RLMs. We also provide a lower bound by showing that under the restriction to real-time computation, such models can simulate deterministic real-time rational PTMs.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# SALMONN:大規模言語モデルのためのジェネリック聴覚能力を目指して

SALMONN: Towards Generic Hearing Abilities for Large Language Models ( http://arxiv.org/abs/2310.13289v2 )

ライセンス: Link先を確認
Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang, (参考訳) 聴覚は、少なくとも3種類の音(音声、音声イベント、音楽)からなる一般的な聴覚情報の知覚と理解を指す、物理的世界における人工知能(AI)エージェントの不可欠な能力である。 本稿では,事前訓練されたテキストベース大言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合して構築した,音声音声言語音楽オープンニューラルネットワークであるSALMONNを提案する。 SALMONNは、LLMが一般的な音声入力を直接処理し理解し、自動音声認識や翻訳、聴覚情報に基づく質問応答、感情認識、話者の検証、音楽と音声のキャプションなど、訓練で使用される多くの音声および音声タスクで競合的なパフォーマンスを達成することを可能にする。 SALMONNはまた、訓練中に見つからない多様な創発的能力を備えており、訓練されていない言語への音声翻訳、音声ベースのスロットフィリング、音声に基づく質問応答、音声ベースのストーリーテリング、音声による共同推論などを含む。 クロスモーダルな創発的能力の存在について検討し、そのような能力を活性化するために、新しい数発のアクティベーションチューニング手法を提案する。 我々の知る限り、SALMONNはそのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへの一歩と見なすことができる。 ソースコード、モデルチェックポイント、データはhttps://github.com/bytedance/SALMONN.comで入手できる。

Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. The source code, model checkpoints and data are available at https://github.com/bytedance/SALMONN.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# マルチタスクオンライン学習:隣のバズに耳を傾ける

Multitask Online Learning: Listen to the Neighborhood Buzz ( http://arxiv.org/abs/2310.17385v2 )

ライセンス: Link先を確認
Juliette Achddou, Nicolò Cesa-Bianchi, Pierre Laforgue, (参考訳) エージェントは任意の通信ネットワーク上で、隣人との情報交換しかできない環境で、マルチタスクオンライン学習を研究する。 本稿では,タスクの類似点とネットワーク構造との相互作用に依存する分散化アルゴリズムである$\texttt{MT-CO}_2\texttt{OL}$を紹介する。 我々の分析によると、$\texttt{MT-CO}_2\texttt{OL}$の後悔は、エージェントが情報を共有していない場合に得られる境界よりも決して悪くはない。 一方,隣り合うエージェントが同じようなタスクをこなすと,バウンダリが大幅に改善する。 さらに,我々のアルゴリズムは,後悔に対する無視的な影響を伴って,差分秘密化可能であることを証明した。 最後に、我々の理論を実験的に支持する。

We study multitask online learning in a setting where agents can only exchange information with their neighbors on an arbitrary communication network. We introduce $\texttt{MT-CO}_2\texttt{OL}$, a decentralized algorithm for this setting whose regret depends on the interplay between the task similarities and the network structure. Our analysis shows that the regret of $\texttt{MT-CO}_2\texttt{OL}$ is never worse (up to constants) than the bound obtained when agents do not share information. On the other hand, our bounds significantly improve when neighboring agents operate on similar tasks. In addition, we prove that our algorithm can be made differentially private with a negligible impact on the regret. Finally, we provide experimental support for our theory.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-08
# テキスト予測のための忠実でロバストな局所的解釈可能性

Faithful and Robust Local Interpretability for Textual Predictions ( http://arxiv.org/abs/2311.01605v2 )

ライセンス: Link先を確認
Gianluigi Lopardo, Frederic Precioso, Damien Garreau, (参考訳) 機械学習モデルの信頼性と重要なドメインへのデプロイには、解釈可能性が不可欠である。 しかし、既存のテキストモデルを解釈する手法はしばしば複雑であり、数学的基礎が欠如しており、その性能は保証されていない。 本稿では,テキスト上の予測を解釈する新しい手法であるFRED(Fithful and Robust Explainer for Textual Documents)を提案する。 FREDは,(1)削除が予測に最も強い影響を及ぼす文書中の単語の最小セットを識別し,(2)重要スコアを各トークンに割り当て,その影響をモデル出力に反映し,(3)元の文書に類似した例を生成して,事実的説明を提供する。 解釈可能な分類器の形式的定義と理論的解析によりFREDの信頼性を確立する。 さらに、最先端手法に対する実証的な評価は、テキストモデルに対する洞察を提供する上で、FREDの有効性を示す。

Interpretability is essential for machine learning models to be trusted and deployed in critical domains. However, existing methods for interpreting text models are often complex, lack mathematical foundations, and their performance is not guaranteed. In this paper, we propose FRED (Faithful and Robust Explainer for textual Documents), a novel method for interpreting predictions over text. FRED offers three key insights to explain a model prediction: (1) it identifies the minimal set of words in a document whose removal has the strongest influence on the prediction, (2) it assigns an importance score to each token, reflecting its influence on the model's output, and (3) it provides counterfactual explanations by generating examples similar to the original document, but leading to a different prediction. We establish the reliability of FRED through formal definitions and theoretical analyses on interpretable classifiers. Additionally, our empirical evaluation against state-of-the-art methods demonstrates the effectiveness of FRED in providing insights into text models.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# 人間の記憶の諸相と言語モデル

Aspects of human memory and Large Language Models ( http://arxiv.org/abs/2311.03839v3 )

ライセンス: Link先を確認
Romuald A. Janik, (参考訳) 大規模言語モデル(LLM)は、主にテキストを生成するのに役立ちながら、非常に洗練された言語使用確率モデルを提供する巨大な人工ニューラルネットワークである。 意味的に一貫したテキストを生成するには、効果的なメモリの形式が必要であるため、LLMのメモリ特性を調べ、人間のメモリの重要な特性と驚くほどの類似性を見出す。 大規模言語モデルの人間的なメモリ特性はLLMアーキテクチャから自動的に従うのではなく、むしろトレーニング用テキストデータの統計から学習される。 これらの結果は、人間の記憶の生物学的特徴が、私たちの文章的物語を構成する方法のインプリントを残していることを強く示唆している。

Large Language Models (LLMs) are huge artificial neural networks which primarily serve to generate text, but also provide a very sophisticated probabilistic model of language use. Since generating a semantically consistent text requires a form of effective memory, we investigate the memory properties of LLMs and find surprising similarities with key characteristics of human memory. We argue that the human-like memory properties of the Large Language Model do not follow automatically from the LLM architecture but are rather learned from the statistics of the training textual data. These results strongly suggest that the biological features of human memory leave an imprint on the way that we structure our textual narratives.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# ボソニックcQEDを用いた量子計算

Shaping photons: quantum computation with bosonic cQED ( http://arxiv.org/abs/2311.03846v2 )

ライセンス: Link先を確認
Adrian Copetudo, Clara Yun Fontaine, Fernando Valadares, Yvonne Y. Gao, (参考訳) 量子調和振動子(quantum harmonic oscillator)は、そのリッチなダイナミクスにより、現実世界の量子システムを理解するための固有のプラットフォームであり、量子コンピュータの心臓としても優れている。 情報処理に量子調和振動子を利用する、特に有望で急速に進歩するプラットフォームは、ボソニック回路量子電磁力学(英語版)(cQED)システムである。 本稿では,ボソニックcQED量子コンピュータの進展,課題,今後の方向性について述べる。 本稿では,主ハードウェアビルディングブロックと,量子エラー補正,メトロジー,シミュレーションの実施方法について述べる。 我々は、地平線上にある重要な課題と、それらを克服し、ボソニックなcQEDハードウェアで実用的な量子コンピュータを構築するための科学的、文化的戦略について、私たちの見解で結論付けます。

With its rich dynamics, the quantum harmonic oscillator is an innate platform for understanding real-world quantum systems and could even excel as the heart of a quantum computer. A particularly promising and rapidly advancing platform that harnesses quantum harmonic oscillators for information processing is the bosonic circuit quantum electrodynamics (cQED) system. In this article, we provide perspectives on the progress, challenges, and future directions in building a bosonic cQED quantum computer. We describe the main hardware building blocks and how they facilitate quantum error correction, metrology, and simulation. We conclude with our views of the key challenges that lie on the horizon, as well as scientific and cultural strategies for overcoming them and building a practical quantum computer with bosonic cQED hardware.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# 試験時間自由ランチを用いたエネルギーキャリブレーション型VAE

Energy-Calibrated VAE with Test Time Free Lunch ( http://arxiv.org/abs/2311.04071v4 )

ライセンス: Link先を確認
Yihong Luo, Siya Qiu, Xingjian Tao, Yujun Cai, Jing Tang, (参考訳) 本稿では,Energy-Calibrated VAE(EC-VAE)と呼ばれる可変オートエンコーダ(VAE)の強化に,条件付きエネルギーベースモデル(EBM)を利用する新しい生成モデルを提案する。 特に、VAEは、生成方向に生成されたサンプルの調整されたトレーニングが欠如しているため、ぼやけたサンプルに悩まされることが多い。 一方、ESMは高品質なサンプルを生成することができるが、高価なマルコフ・チェイン・モンテカルロ(MCMC)サンプリングが必要である。 これらの課題に対処するために,テスト時の生成に必要とせず,トレーニング中のVAE生成方向を調整するための条件付きEMMを導入する。 特に,入力データと校正標本の両方を適応重量でトレーニングし,MCMCサンプリングを回避しながら有効性を高める。 さらに、EC-VAEのキャリブレーションの考え方を変分学習や正規化フローに拡張し、ニューラルトランスポートとレンジヌル理論によるゼロショット画像復元のさらなる応用にEC-VAEを適用した。 提案手法を画像生成とゼロショット画像復元を含む2つのアプリケーションを用いて評価し, 実験結果から, 単段階の非逆生成よりも競合性能が高いことを示す。 私たちのコードはhttps://github.com/DJ-LYH/EC-VAE.comで公開されています。

In this paper, we propose a novel generative model that utilizes a conditional Energy-Based Model (EBM) for enhancing Variational Autoencoder (VAE), termed Energy-Calibrated VAE (EC-VAE). Specifically, VAEs often suffer from blurry generated samples due to the lack of a tailored training on the samples generated in the generative direction. On the other hand, EBMs can generate high-quality samples but require expensive Markov Chain Monte Carlo (MCMC) sampling. To address these issues, we introduce a conditional EBM for calibrating the generative direction of VAE during training, without requiring it for the generation at test time. In particular, we train EC-VAE upon both the input data and the calibrated samples with adaptive weight to enhance efficacy while avoiding MCMC sampling at test time. Furthermore, we extend the calibration idea of EC-VAE to variational learning and normalizing flows, and apply EC-VAE to an additional application of zero-shot image restoration via neural transport prior and range-null theory. We evaluate the proposed method with two applications, including image generation and zero-shot image restoration, and the experimental results show that our method achieves competitive performance over single-step non-adversarial generation. Our code is available at https://github.com/DJ-LYH/EC-VAE.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# 真実を語る: 嘘の言語と言語モデル

To Tell The Truth: Language of Deception and Language Models ( http://arxiv.org/abs/2311.07092v3 )

ライセンス: Link先を確認
Sanchaita Hazra, Bodhisattwa Prasad Majumder, (参考訳) テキストベースの誤報はオンラインの談話に浸透するが、そのような欺く文章の内容から真実を識別する能力の証拠は乏しい。 目的の相反する個人間のハイテイク環境での会話が嘘となる新しいテレビ番組データを分析する。 本稿では,従来のテキストベース偽造データセットに欠落する特徴である客観的真理の存在下での偽造の可能性を検証可能な言語手がかりの出現について検討する。 本研究では,前者が言語的手がかりのみにアクセスする場合や,後者がすべての潜在的な手がかり(言語および音声視覚)に完全にアクセスする場合においても,人体と同じような真理検出性能を有する検知器(アルゴリズム)が存在することを示す。 我々のモデルは,大きな言語モデルに基づいて構築され,識別可能な手がかりを学習して真理を判断するボトルネック・フレームワークを用いている。 提案モデルでは,人間が騙しを検知できず,アルゴリズムと協調し,真理を検出する能力の向上を図っている場合が多い。

Text-based misinformation permeates online discourses, yet evidence of people's ability to discern truth from such deceptive textual content is scarce. We analyze a novel TV game show data where conversations in a high-stake environment between individuals with conflicting objectives result in lies. We investigate the manifestation of potentially verifiable language cues of deception in the presence of objective truth, a distinguishing feature absent in previous text-based deception datasets. We show that there exists a class of detectors (algorithms) that have similar truth detection performance compared to human subjects, even when the former accesses only the language cues while the latter engages in conversations with complete access to all potential sources of cues (language and audio-visual). Our model, built on a large language model, employs a bottleneck framework to learn discernible cues to determine truth, an act of reasoning in which human subjects often perform poorly, even with incentives. Our model detects novel but accurate language cues in many cases where humans failed to detect deception, opening up the possibility of humans collaborating with algorithms and ameliorating their ability to detect the truth.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# 文字とサブワードの相互インフォームド表現の学習

Learning Mutually Informed Representations for Characters and Subwords ( http://arxiv.org/abs/2311.07853v2 )

ライセンス: Link先を確認
Yilin Wang, Xinyi Hu, Matthew R. Gormley, (参考訳) 事前訓練された言語モデルは、テキストをサブワードトークンのシーケンスとして処理するサブワードトークン化に依存している。 しかし、文字、サブワード、単語などのテキストの粒度は、異なる種類の情報を含むことができる。 従来の研究では、複数の入力の粒度を組み込むことでモデルの一般化が向上することが示されているが、各粒度に有用な表現を出力するものはごくわずかである。 本稿では,文字とサブワードの言語モデルを組み合わせた絡み合いモデルを提案する。 視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを個別のモダリティとして扱い、両者の粒度の相互情報表現を出力として生成する。 テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリング(イントラワードコードスイッチング)について評価を行った。 特に、絡み合いモデルは、特にノイズの多いテキストや低リソース言語の存在下で、バックボーン言語モデルよりも優れています。 さらに、絡み合いモデルは、すべての英語シーケンスラベリングタスクと分類タスクにおいて、より大きな事前訓練されたモデルよりも優れています。 コードを公開しています。

Most pretrained language models rely on subword tokenization, which processes text as a sequence of subword tokens. However, different granularities of text, such as characters, subwords, and words, can contain different kinds of information. Previous studies have shown that incorporating multiple input granularities improves model generalization, yet very few of them outputs useful representations for each granularity. In this paper, we introduce the entanglement model, aiming to combine character and subword language models. Inspired by vision-language models, our model treats characters and subwords as separate modalities, and it generates mutually informed representations for both granularities as output. We evaluate our model on text classification, named entity recognition, POS-tagging, and character-level sequence labeling (intraword code-switching). Notably, the entanglement model outperforms its backbone language models, particularly in the presence of noisy texts and low-resource languages. Furthermore, the entanglement model even outperforms larger pre-trained models on all English sequence labeling tasks and classification tasks. We make our code publically available.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# Segment Anything Model (SAM) を用いた眼特徴のゼロショットセグメンテーション

Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) ( http://arxiv.org/abs/2311.08077v2 )

ライセンス: Link先を確認
Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marcus Nyström, Enkelejda Kasneci, (参考訳) 基礎モデルの出現は、人工知能の新しい時代を示唆している。 Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。 本研究では,VR機器で記録された視線画像から特徴を抽出するSAMの能力を評価する。 注釈付きアイイメージデータセットの要求が増大すると、SAMは視線推定におけるデータアノテーションの景観を再定義する大きな機会となる。 我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。 我々の結果は他の領域の研究と一致しており、SAMのセグメンテーションの有効性は特徴によって特殊モデルと同等であり、その性能は1つのデータセットにおける瞳孔セグメンテーションの93.34%のIoUによって証明されている。 SAMのような基礎的なモデルは、素早く簡単に画像のセグメンテーションを可能にし、専門的なモデルへの依存を減らし、広範囲な手動のアノテーションによって、視線推定に革命をもたらす可能性がある。

The advent of foundation models signals a new era in artificial intelligence. The Segment Anything Model (SAM) is the first foundation model for image segmentation. In this study, we evaluate SAM's ability to segment features from eye images recorded in virtual reality setups. The increasing requirement for annotated eye-image datasets presents a significant opportunity for SAM to redefine the landscape of data annotation in gaze estimation. Our investigation centers on SAM's zero-shot learning abilities and the effectiveness of prompts like bounding boxes or point clicks. Our results are consistent with studies in other domains, demonstrating that SAM's segmentation effectiveness can be on-par with specialized models depending on the feature, with prompts improving its performance, evidenced by an IoU of 93.34% for pupil segmentation in one dataset. Foundation models like SAM could revolutionize gaze estimation by enabling quick and easy image segmentation, reducing reliance on specialized models and extensive manual annotation.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-08
# MVSA-Net:ロバストかつ展開可能な軌道生成のための多視点状態認識

MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation ( http://arxiv.org/abs/2311.08393v3 )

ライセンス: Link先を確認
Ehsan Asali, Prashant Doshi, Jin Sun, (参考訳) LfOパラダイム(Learning-from-observation、LfO)は、ロボットが実行されているのを見るだけでタスクを実行することを学ぶための、人間にインスパイアされたモードである。 LfOは、破壊を最小限に抑え、退屈なプログラミングを減らすことで、工場のフロアでのロボット統合を容易にする。 LfOパイプラインのキーコンポーネントは、深度カメラフレームを対応するタスク状態とアクションペアに変換し、模倣や逆強化学習などの学習技術に中継してタスクパラメータを理解することである。 いくつかの既存のコンピュータビジョンモデルは、活動認識のためにビデオを分析するが、SA-Netは特にRGB-DデータからロボットLfOをターゲットにしている。 しかし、SA-Netや他の多くのモデルでは、単一の視点から取得したフレームデータを分析している。 そのため、それらの分析は、頻繁に展開される観察されたタスクの閉塞に対して非常に敏感である。 オクルージョンを減らすための明確な方法は、複数の視点からタスクを同時に観察し、モデルの複数のストリームを同期的に融合させることである。 そこで本研究では,タスクアクティビティの複数の視点を認識できるようにSA-Netモデルを一般化し,それらを統合し,各フレームの状態や動作をよりよく認識する多視点SA-Netを提案する。 2つの異なるドメインのパフォーマンス評価は、MVSA-Netが単一ビューのMVSA-Netや他のベースラインと比較して、より正確に状態-作用対を認識することを証明している。 我々のアブレーション研究は、異なる環境条件下での性能をさらに評価し、アーキテクチャコンポーネントの貢献を確立する。 そのため、MVSA-Netは従来の方法に比べてはるかに堅牢で、デプロイ可能な状態-作用軌道生成を提供する。

The learn-from-observation (LfO) paradigm is a human-inspired mode for a robot to learn to perform a task simply by watching it being performed. LfO can facilitate robot integration on factory floors by minimizing disruption and reducing tedious programming. A key component of the LfO pipeline is a transformation of the depth camera frames to the corresponding task state and action pairs, which are then relayed to learning techniques such as imitation or inverse reinforcement learning for understanding the task parameters. While several existing computer vision models analyze videos for activity recognition, SA-Net specifically targets robotic LfO from RGB-D data. However, SA-Net and many other models analyze frame data captured from a single viewpoint. Their analysis is therefore highly sensitive to occlusions of the observed task, which are frequent in deployments. An obvious way of reducing occlusions is to simultaneously observe the task from multiple viewpoints and synchronously fuse the multiple streams in the model. Toward this, we present multi-view SA-Net, which generalizes the SA-Net model to allow the perception of multiple viewpoints of the task activity, integrate them, and better recognize the state and action in each frame. Performance evaluations on two distinct domains establish that MVSA-Net recognizes the state-action pairs under occlusion more accurately compared to single-view MVSA-Net and other baselines. Our ablation studies further evaluate its performance under different ambient conditions and establish the contribution of the architecture components. As such, MVSA-Net offers a significantly more robust and deployable state-action trajectory generation compared to previous methods.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# CA-Jaccard: 人物識別のためのカメラ対応ジャカード距離

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification ( http://arxiv.org/abs/2311.10605v2 )

ライセンス: Link先を確認
Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu, (参考訳) 個人再識別(re-ID)は,個人検索における識別的特徴の学習を目的とした課題である。 個人的には、ジャカード距離は特に再ランク付けとクラスタリングのシナリオにおいて広く使われている距離メートル法である。 しかし,カメラの変動がジャカード距離の信頼性に有意な悪影響を及ぼすことが判明した。 特に、ジャカード距離は、関連する隣人の重複に基づいて距離を算出する。 カメラの変動により、カメラ内サンプルが隣人を支配し、カメラ内陰性サンプルを導入し、カメラ間陽性サンプルを除外することにより、隣人の信頼性を低下させる。 そこで本稿では,ジャカード距離の信頼性を高めるために,カメラ情報を活用した新しいジャカード距離を提案する。 具体的には、カメラ対応の k-reciprocal neighbors (CKRNNs) を設計し、カメラ内およびカメラ間ランキングリストに k-reciprocal neighbors を求める。 さらに,カメラによる局所クエリ拡張(CLQE)を提案し,カメラの変動を強い制約として利用し,重み付けの重み付けを行い,信頼性の向上を図る。 我々のCA-Jaccard距離は単純だが有効であり、信頼性が高く計算コストの低い人物再ID手法の一般的な距離測定基準として機能する。 大規模な実験により,本手法の有効性が示された。

Person re-identification (re-ID) is a challenging task that aims to learn discriminative features for person retrieval. In person re-ID, Jaccard distance is a widely used distance metric, especially in re-ranking and clustering scenarios. However, we discover that camera variation has a significant negative impact on the reliability of Jaccard distance. In particular, Jaccard distance calculates the distance based on the overlap of relevant neighbors. Due to camera variation, intra-camera samples dominate the relevant neighbors, which reduces the reliability of the neighbors by introducing intra-camera negative samples and excluding inter-camera positive samples. To overcome this problem, we propose a novel camera-aware Jaccard (CA-Jaccard) distance that leverages camera information to enhance the reliability of Jaccard distance. Specifically, we design camera-aware k-reciprocal nearest neighbors (CKRNNs) to find k-reciprocal nearest neighbors on the intra-camera and inter-camera ranking lists, which improves the reliability of relevant neighbors and guarantees the contribution of inter-camera samples in the overlap. Moreover, we propose a camera-aware local query expansion (CLQE) to mine reliable samples in relevant neighbors by exploiting camera variation as a strong constraint and assign these samples higher weights in overlap, further improving the reliability. Our CA-Jaccard distance is simple yet effective and can serve as a general distance metric for person re-ID methods with high reliability and low computational cost. Extensive experiments demonstrate the effectiveness of our method.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# 空中3次元走査による複素ファサードのホロスティック逆レンダリング

Holistic Inverse Rendering of Complex Facade via Aerial 3D Scanning ( http://arxiv.org/abs/2311.11825v2 )

ライセンス: Link先を確認
Zixuan Xie, Rengan Xie, Rong Li, Kai Huang, Pengju Qiao, Jingsen Zhu, Xu Yin, Qi Ye, Wei Hua, Yuchi Huo, Hujun Bao, (参考訳) 本研究では,多視点空中画像を用いて,ニューラルサイン付き距離場(SDF)を用いたファサードの形状,照明,材料を再構成する。 複雑な機器を必要とせず、本手法では、入力としてドローンが捉えた単純なRGB画像のみを用いて、物理的にベースとしたフォトリアリスティックなノベルビューレンダリング、リライティング、編集を可能にする。 しかし、現実世界のファサードは通常、微妙な細部が散らばった岩から、鏡のような反射のある大面積のガラス窓まで複雑な外観を持つため、あらゆるものには耐え難い。 その結果、従来の方法では幾何学的詳細を保存できるが、スムーズなガラス窓や横風の復元に失敗する。 この課題に対処するために、ゼロショットセグメンテーション技術に基づく意味的正則化アプローチ、異なる表面における表面の滑らかさと詳細のバランスをとる周波数認識幾何正規化、大規模屋外環境における局所照明の効率的なモデリングを可能にする可視性プローブベースのスキームを含む、空間的および意味的適応的な最適化戦略を3つ導入する。 さらに,実世界のファサードによる空中3Dスキャン画像セットと,トレーニングとベンチマークのための対応する点雲をキャプチャする。 本実験は, ファサード全体の逆レンダリング, 新規なビュー合成, シーン編集において, 最先端のベースラインと比較して, 手法の優れた品質を示すものである。

In this work, we use multi-view aerial images to reconstruct the geometry, lighting, and material of facades using neural signed distance fields (SDFs). Without the requirement of complex equipment, our method only takes simple RGB images captured by a drone as inputs to enable physically based and photorealistic novel-view rendering, relighting, and editing. However, a real-world facade usually has complex appearances ranging from diffuse rocks with subtle details to large-area glass windows with specular reflections, making it hard to attend to everything. As a result, previous methods can preserve the geometry details but fail to reconstruct smooth glass windows or verse vise. In order to address this challenge, we introduce three spatial- and semantic-adaptive optimization strategies, including a semantic regularization approach based on zero-shot segmentation techniques to improve material consistency, a frequency-aware geometry regularization to balance surface smoothness and details in different surfaces, and a visibility probe-based scheme to enable efficient modeling of the local lighting in large-scale outdoor environments. In addition, we capture a real-world facade aerial 3D scanning image set and corresponding point clouds for training and benchmarking. The experiment demonstrates the superior quality of our method on facade holistic inverse rendering, novel view synthesis, and scene editing compared to state-of-the-art baselines.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# ブリッジングアルゴリズム情報理論と機械学習:カーネル学習の新しいアプローチ

Bridging Algorithmic Information Theory and Machine Learning: A New Approach to Kernel Learning ( http://arxiv.org/abs/2311.12624v2 )

ライセンス: Link先を確認
Boumediene Hamzi, Marcus Hutter, Houman Owhadi, (参考訳) 機械学習(ML)とアルゴリズム情報理論(AIT)は、異なる観点から複雑性を考察する。 本稿では,AIT と Kernel Methods (ML で広く用いられている) のインターフェースを,Sparse Kernel Flows の手法を用いて,データ,カーネルリッジ回帰におけるカーネルの学習問題に対する AIT の視点を用いて検討する。 特に、最小記述長(MDL)と機械学習における正規化(RML)の違いと共通点から、スパースカーネルフローの手法がデータからカーネルを学習するための自然なアプローチであることを証明する。 このアプローチはMDLの原則と自然に一致し、既存のクロスバリデーションへの依存よりもより堅牢な理論的基盤を提供する。 この研究によると、スパースカーネルフローの導出は統計的なアプローチを必要としない。代わりに、AITの中心となる概念であるコード長や複雑さに直接関わることができる。 これにより、AITのツールを使って機械学習のアルゴリズムを再構築する扉が開き、より強固な理論的基盤を提供する。

Machine Learning (ML) and Algorithmic Information Theory (AIT) look at Complexity from different points of view. We explore the interface between AIT and Kernel Methods (that are prevalent in ML) by adopting an AIT perspective on the problem of learning kernels from data, in kernel ridge regression, through the method of Sparse Kernel Flows. In particular, by looking at the differences and commonalities between Minimal Description Length (MDL) and Regularization in Machine Learning (RML), we prove that the method of Sparse Kernel Flows is the natural approach to adopt to learn kernels from data. This approach aligns naturally with the MDL principle, offering a more robust theoretical basis than the existing reliance on cross-validation. The study reveals that deriving Sparse Kernel Flows does not require a statistical approach; instead, one can directly engage with code-lengths and complexities, concepts central to AIT. Thereby, this approach opens the door to reformulating algorithms in machine learning using tools from AIT, with the aim of providing them a more solid theoretical foundation.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# 量子計算における制御流の誤差補正のT-複雑コスト

The T-Complexity Costs of Error Correction for Control Flow in Quantum Computation ( http://arxiv.org/abs/2311.12772v2 )

ライセンス: Link先を確認
Charles Yuan, Michael Carbin, (参考訳) 多くの量子アルゴリズムは、物理量子ビットの本質的な不確実性を克服するために、量子エラー補正を使用する必要がある。 しかし、エラー訂正は、T-複雑性(T-complexity)と呼ばれるユニークなパフォーマンスボトルネックを課し、量子プログラムとしてのアルゴリズムの実装を理想化されたハードウェアよりも遅く実行することができる。 本研究では、制御フローのプログラミングの抽象化、例えば量子if-ステートメントが、プログラムのT-複雑度に多項式増加をもたらすことを確かめる。 緩和しない場合、この減速は量子アルゴリズムの計算上の優位性を低下させる可能性がある。 制御フローのコストに関する推論を可能にするため,プログラムのT-複雑度を正確に解析し,遅延の原因を特定できるコストモデルを提案する。 また,プログラムを書き換えてT複雑さを減らし,コストモデルを用いて最適化プログラムのT複雑さを予測し,簡単な戦略で効率的な回路にコンパイルするプログラムレベルの最適化も提案する。 我々は、タワー量子コンパイラの拡張であるSpireでプログラムレベルの最適化を実装した。 制御フローを利用する11のベンチマークプログラムを用いて、コストモデルが正確であること、そしてスピアの最適化が漸近的に効率的なプログラムを復元すること、つまり、エラー修正時のT-複雑度は、理想化されたハードウェア上での時間複雑性に等しいことを示している。 その結果、回路にコンパイルされる前にプログラムを最適化することで、非効率な回路にプログラムをコンパイルし、それ以前の作業で見つかった量子回路オプティマイザを起動するよりも優れた結果が得られることがわかった。 我々のベンチマークでは、8つのうち2つのテスト回路オプティマイザのみが漸近的に効率的なT-複雑回路を回復する。 これら2つのオプティマイザと比較して、Spireは54倍から2400倍少ないコンパイル時間を使用する。

Numerous quantum algorithms require the use of quantum error correction to overcome the intrinsic unreliability of physical qubits. However, error correction imposes a unique performance bottleneck, known as T-complexity, that can make an implementation of an algorithm as a quantum program run more slowly than on idealized hardware. In this work, we identify that programming abstractions for control flow, such as the quantum if-statement, can introduce polynomial increases in the T-complexity of a program. If not mitigated, this slowdown can diminish the computational advantage of a quantum algorithm. To enable reasoning about the costs of control flow, we present a cost model that a developer can use to accurately analyze the T-complexity of a program and pinpoint the sources of slowdown. We also present a set of program-level optimizations, that a developer can use to rewrite a program to reduce its T-complexity, predict the T-complexity of the optimized program using the cost model, and then compile it to an efficient circuit via a straightforward strategy. We implement the program-level optimizations in Spire, an extension of the Tower quantum compiler. Using a set of 11 benchmark programs that use control flow, we show that the cost model is accurate, and that Spire's optimizations recover programs that are asymptotically efficient, meaning their runtime T-complexity under error correction is equal to their time complexity on idealized hardware. Our results show that optimizing a program before it is compiled to a circuit can yield better results than compiling the program to an inefficient circuit and then invoking a quantum circuit optimizer found in prior work. For our benchmarks, only 2 of 8 tested circuit optimizers recover circuits with asymptotically efficient T-complexity. Compared to these 2 optimizers, Spire uses 54x to 2400x less compile time.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# ケーキも食べられるか - 効果的で正確なフェデレーション学習を目指して

Have Your Cake and Eat It Too: Toward Efficient and Accurate Split Federated Learning ( http://arxiv.org/abs/2311.13163v2 )

ライセンス: Link先を確認
Dengke Yan, Ming Hu, Zeke Xia, Yanxin Yang, Jun Xia, Xiaofei Xie, Mingsong Chen, (参考訳) リソース制約シナリオのアドバンテージのため、SFL(Split Federated Learning)はAIoTシステムで有望である。 しかし、データの不均一性とストラグラーのため、SFLは低い推測精度と低い効率の課題に悩まされる。 これらの問題に対処するため,スライディング・スプリット・フェデレート・ラーニング(S$^2$FL)と呼ばれる新しいSFL手法を提案する。 計算能力に応じて異なるモデル部分をAIoTデバイスに動的にディスパッチすることにより、S$^2$FLはストラグラーによる低トレーニング効率を軽減することができる。 S$^2$FLは、デバイスによってアップロードされた機能を異なるデータ分布と組み合わせて、バックプロパゲーションのための均一な分布と複数の大きなバッチを生成することにより、データ不均一性によるパフォーマンス劣化を軽減することができる。 実験の結果、従来のSFLと比較して、S$^2$FLは最大16.5\%の推論精度の改善と3.54倍のトレーニング加速を達成できることがわかった。

Due to its advantages in resource constraint scenarios, Split Federated Learning (SFL) is promising in AIoT systems. However, due to data heterogeneity and stragglers, SFL suffers from the challenges of low inference accuracy and low efficiency. To address these issues, this paper presents a novel SFL approach, named Sliding Split Federated Learning (S$^2$FL), which adopts an adaptive sliding model split strategy and a data balance-based training mechanism. By dynamically dispatching different model portions to AIoT devices according to their computing capability, S$^2$FL can alleviate the low training efficiency caused by stragglers. By combining features uploaded by devices with different data distributions to generate multiple larger batches with a uniform distribution for back-propagation, S$^2$FL can alleviate the performance degradation caused by data heterogeneity. Experimental results demonstrate that, compared to conventional SFL, S$^2$FL can achieve up to 16.5\% inference accuracy improvement and 3.54X training acceleration.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-08
# 自転車用信号の確保に要する待ち時間削減のためのDRLソリューション

A DRL solution to help reduce the cost in waiting time of securing a traffic light for cyclists ( http://arxiv.org/abs/2311.13905v2 )

ライセンス: Link先を確認
Lucas Magnana, Hervé Rivano, Nicolas Chiabaut, (参考訳) サイクリストは、それらをモーター化された交通から切り離すインフラを使うのを好む。 交通信号を使って自動車と自転車の流れを分離し、自転車固有のグリーンフェーズを追加することで、自転車レーンのような重いインフラの機会を評価するために、動的に展開できる軽量で安価なソリューションである。 本稿では,これらの新しい位相による待ち時間の増大を補うため,信号機のグリーン位相サイクルを交通に適応させる深層強化学習ソリューションを提案する。 車両カウンタデータは、DRLアプローチとアクティベートされた信号制御アルゴリズムを1日中比較するために使用される。 その結果、DRLは、ほぼ全時間で車両待ち時間の最小化を達成できることがわかった。 私たちのDRLアプローチは、自転車のトラフィックの適度な変化に対しても堅牢です。 本論文のコードはhttps://github.com/LucasMagnana/A-DRL-solution-to-help-reduce-the-cost-in-await-of-securing-a-traffi c-light-for-cyclistsで公開されている。

Cyclists prefer to use infrastructure that separates them from motorized traffic. Using a traffic light to segregate car and bike flows, with the addition of bike-specific green phases, is a lightweight and cheap solution that can be deployed dynamically to assess the opportunity of a heavier infrastructure such as a separate bike lane. To compensate for the increased waiting time induced by these new phases, we introduce in this paper a deep reinforcement learning solution that adapts the green phase cycle of a traffic light to the traffic. Vehicle counter data are used to compare the DRL approach with the actuated traffic light control algorithm over whole days. Results show that DRL achieves better minimization of vehicle waiting time at almost all hours. Our DRL approach is also robust to moderate changes in bike traffic. The code of this paper is available at https://github.com/LucasMagnana/A-DRL-solution-to-help-reduce-the-cost-in-waiting-time-of-securing-a -traffic-light-for-cyclists.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# 期待効用仮説に基づく量子電池からの最適作業抽出

Optimal work extraction from quantum batteries based on the expected utility hypothesis ( http://arxiv.org/abs/2311.14489v3 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) 量子有限系における仕事の抽出は、量子熱力学において重要な問題である。 抽出された最適作業はエルゴトロピーと呼ばれ、全てのユニタリサイクルで抽出された平均作業の最大化によって達成される。 しかし, リスクに中立でないエージェントは変動の影響を受け, 期待された効用仮説に従うことで作業の抽出を行う必要がある。 そこで我々は,リスク非ニュートラルエージェントが行う最適作業抽出について,すべてのユニタリサイクルにおける平均効用関数を最大化することによって検討する。 我々は主に、仕事の確率分布を達成するために、エネルギーベースに関して不整合な初期状態に焦点を当てる。 この場合、最適作業抽出は、不整合なユニタリ変換、すなわち、エージェントのリスク回避に依存するエネルギー基底の置換によってどのように実行されるかを示す。 いくつかの例を挙げ、特に量子電池のアンサンブルからの作業抽出について検討する。 さらに,作業の準確率分布を考慮し,エネルギーベースにおける初期量子コヒーレンスの存在による作業抽出への影響についても検討した。

Work extraction in quantum finite systems is an important issue in quantum thermodynamics. The optimal work extracted is called ergotropy, and it is achieved by maximizing the average work extracted over all the unitary cycles. However, an agent that is non-neutral to risk is affected by fluctuations and should extract work by following the expected utility hypothesis. Thus, we investigate the optimal work extraction performed by a risk non-neutral agent by maximizing the average utility function over all the unitary cycles. We mainly focus on initial states that are incoherent with respect to the energy basis, achieving a probability distribution of work. In this case we show how the optimal work extraction will be performed with an incoherent unitary transformation, namely a permutation of the energy basis, which depends on the risk aversion of the agent. We give several examples, in particular also the work extraction from an ensemble of quantum batteries is examined. Furthermore, we also investigate how work extraction is affected by the presence of initial quantum coherence in the energy basis by considering a quasiprobability distribution of work.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# 光SLAM:モノクラー、ステレオ、RGB-Dカメラのリアルタイム同時位置決めと光リアルマッピング

Photo-SLAM: Real-time Simultaneous Localization and Photorealistic Mapping for Monocular, Stereo, and RGB-D Cameras ( http://arxiv.org/abs/2311.16728v2 )

ライセンス: Link先を確認
Huajian Huang, Longwei Li, Hui Cheng, Sai-Kit Yeung, (参考訳) ニューラルレンダリングとSLAMシステムを統合することで、関節の局在化と光リアルビューの再構築に有望な成果が得られた。 しかし、既存のメソッドは暗黙の表現に完全に依存しており、リソース不足のため、SLAMの本来の意図から逸脱したポータブルデバイスでは実行できない。 本稿では,ハイパープリミティブマップを備えた新しいSLAMフレームワークであるPhoto-SLAMを提案する。 具体的には,局所化のための明示的な幾何学的特徴を同時に利用し,観察環境のテクスチャ情報を表現するために暗黙的な測光的特徴を学習する。 幾何学的特徴に基づくハイパープリミティブの活発化に加えて,多面的特徴を段階的に学習し,フォトリアリスティックマッピング性能を向上させるガウス・ピラミッドに基づくトレーニング手法も導入する。 モノクロ,ステレオ,RGB-Dデータセットを用いた大規模な実験により,提案システムであるPhoto-SLAMは,オンラインフォトリアリスティックマッピングにおける現在のSLAMシステムよりも大幅に優れており,PSNRは30%高く,レンダリング速度はReplicaデータセットの数百倍高速であることが示された。 さらに、Photo-SLAMはJetson AGX Orinのような組み込みプラットフォームを使用してリアルタイムに実行することができ、ロボティクスアプリケーションの可能性を示している。

The integration of neural rendering and the SLAM system recently showed promising results in joint localization and photorealistic view reconstruction. However, existing methods, fully relying on implicit representations, are so resource-hungry that they cannot run on portable devices, which deviates from the original intention of SLAM. In this paper, we present Photo-SLAM, a novel SLAM framework with a hyper primitives map. Specifically, we simultaneously exploit explicit geometric features for localization and learn implicit photometric features to represent the texture information of the observed environment. In addition to actively densifying hyper primitives based on geometric features, we further introduce a Gaussian-Pyramid-based training method to progressively learn multi-level features, enhancing photorealistic mapping performance. The extensive experiments with monocular, stereo, and RGB-D datasets prove that our proposed system Photo-SLAM significantly outperforms current state-of-the-art SLAM systems for online photorealistic mapping, e.g., PSNR is 30% higher and rendering speed is hundreds of times faster in the Replica dataset. Moreover, the Photo-SLAM can run at real-time speed using an embedded platform such as Jetson AGX Orin, showing the potential of robotics applications.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# 360Loc: クロスデバイスクエリによる全方位視覚ローカライゼーションのためのデータセットとベンチマーク

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries ( http://arxiv.org/abs/2311.17389v2 )

ライセンス: Link先を確認
Huajian Huang, Changkun Liu, Yipeng Zhu, Hui Cheng, Tristan Braud, Sai-Kit Yeung, (参考訳) ポータブル360ドル^\circ$カメラは、大規模なビジュアルデータベースを確立するための安価で効率的なツールになりつつある。 シーンの全方位ビューをキャプチャすることで、これらのカメラは視覚的ローカライゼーションに不可欠な環境モデルを迅速に構築することができる。 しかし、貴重なデータセットがないため、このような利点は見過ごされがちである。 本稿では,360$^\circ$画像からなる新しいベンチマークデータセットである360Locを紹介した。 本稿では,360$^\circ$とライダーデータを組み合わせた360$^\circ$マッピングの実践的実装について述べる。 360Locは、360$^\circ$参照フレーム、ピンホール、超ワイドなFoV魚眼、360$^\circ$カメラからのクエリフレームを含む、クロスデバイスな視覚的位置決めの課題を探求する最初のデータセットとベンチマークである。 視覚的ローカライゼーションタスクにおいて,360$^\circ$画像から低FoVクエリフレームを生成する仮想カメラ手法を提案する。 また、この仮想カメラアプローチを特徴マッチングベースに拡張し、デバイス間ドメインギャップによる性能損失を軽減するために回帰ベースの手法を適用し、最先端のベースラインに対するその効果を評価する。 一方向の視覚的ローカライゼーションは、対称性と繰り返し構造を持つ大規模シーンに挑戦する上で、より堅牢であることを示す。 これらの結果は、360度カメラマッピングと、デバイス間クエリによる全方向の視覚的ローカライゼーションに関する新たな洞察を提供する。

Portable 360$^\circ$ cameras are becoming a cheap and efficient tool to establish large visual databases. By capturing omnidirectional views of a scene, these cameras could expedite building environment models that are essential for visual localization. However, such an advantage is often overlooked due to the lack of valuable datasets. This paper introduces a new benchmark dataset, 360Loc, composed of 360$^\circ$ images with ground truth poses for visual localization. We present a practical implementation of 360$^\circ$ mapping combining 360$^\circ$ images with lidar data to generate the ground truth 6DoF poses. 360Loc is the first dataset and benchmark that explores the challenge of cross-device visual positioning, involving 360$^\circ$ reference frames, and query frames from pinhole, ultra-wide FoV fisheye, and 360$^\circ$ cameras. We propose a virtual camera approach to generate lower-FoV query frames from 360$^\circ$ images, which ensures a fair comparison of performance among different query types in visual localization tasks. We also extend this virtual camera approach to feature matching-based and pose regression-based methods to alleviate the performance loss caused by the cross-device domain gap, and evaluate its effectiveness against state-of-the-art baselines. We demonstrate that omnidirectional visual localization is more robust in challenging large-scale scenes with symmetries and repetitive structures. These results provide new insights into 360-camera mapping and omnidirectional visual localization with cross-device queries.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v7 )

ライセンス: Link先を確認
Quinn DuPont, (参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAOs)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビル(Sybils)を識別する手法を開発することで、分散ガバナンスに直面する重要な課題に対処する。 シビルはDAOや他のコモンズベースのオンラインコミュニティに重大な組織的持続可能性の脅威を生じさせ、脅威モデルが特定される。 実験方法は、DAOガバナンスデータセット(snapshot.org)におけるSybilアクティビティを識別するために、オートエンコーダアーキテクチャとグラフ深層学習技術を使用する。 具体的には、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速ベクトルクラスタリングアルゴリズムはグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはSybilsを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を強調し、匿名ネットワークの法科学と分析の課題と機会を特定し、分散ガバナンス、将来の政策、規制、ガバナンスの実践を示す新しい視点を提供する。

This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify Sybils, or spurious identities. Sybils pose significant organizational sustainability threats to DAOs and other, commons-based online communities, and threat models are identified. The experimental method uses an autoencoder architecture and graph deep learning techniques to identify Sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast vector clustering algorithm used high-dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify Sybils, reducing the voting graph by 2-5%. This research underscores the importance of Sybil resistance in DAOs, identifies challenges and opportunities for forensics and analysis of anonymous networks, and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# DPHM:深度追跡のための拡散パラメトリックヘッドモデル

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking ( http://arxiv.org/abs/2312.01068v2 )

ライセンス: Link先を確認
Jiapeng Tang, Angela Dai, Yinyu Nie, Lev Markhasin, Justus Thies, Matthias Niessner, (参考訳) DPHM(Diffusion Parametric Head Models:拡散パラメトリックヘッドモデル)を導入する。 NPHMsのような最近のボリュームヘッドモデルは、高忠実度ヘッドジオメトリを表現し、実世界の単一視野深度シーケンスからのヘッドの追跡と再構成に優れているが、部分的かつノイズの多い観測への適応は過小評価されているため、依然として非常に困難である。 これらの課題に対処するために,ボリュームヘッドの再構築と追跡を正規化するための遅延拡散に基づく手法を提案する。 この事前ベース正規化器は、同一性および表現符号を、プラウジブルな頭部形状を表す下層の潜在多様体上に配置することを効果的に制限する。 拡散に基づく先行処理の有効性を評価するため,複雑な表情運動と素早い遷移からなる単眼Kinectシーケンスのデータセットを収集した。 提案手法を最先端の追跡手法と比較し,頭部の自己同一性再構築とロバストな表現追跡を実証した。

We introduce Diffusion Parametric Head Models (DPHMs), a generative model that enables robust volumetric head reconstruction and tracking from monocular depth sequences. While recent volumetric head models, such as NPHMs, can now excel in representing high-fidelity head geometries, tracking and reconstructing heads from real-world single-view depth sequences remains very challenging, as the fitting to partial and noisy observations is underconstrained. To tackle these challenges, we propose a latent diffusion-based prior to regularize volumetric head reconstruction and tracking. This prior-based regularizer effectively constrains the identity and expression codes to lie on the underlying latent manifold which represents plausible head shapes. To evaluate the effectiveness of the diffusion-based prior, we collect a dataset of monocular Kinect sequences consisting of various complex facial expression motions and rapid transitions. We compare our method to state-of-the-art tracking methods and demonstrate improved head identity reconstruction as well as robust expression tracking.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# マイクロキャビティ光子を用いたエキソンのエンタングリング

Entangling Excitons with Microcavity Photons ( http://arxiv.org/abs/2312.02453v3 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Jie Li, (参考訳) マイクロキャビティ光子で励起子を絡めるシステム理論を提供する。 これは、エキシトン-オプトメカニクス系を採用し、機械振動子との非線形分散相互作用を導入することで実現される。 弱結合系におけるエキシトンモードとキャビティモードと、強結合系における2つのエキシトン-ポラリトンモードが、それぞれオプトメカニカルストークスとアンチストークスサイドバンドに共振している場合、エキシトンとキャビティ光子間の絡み合い、または2つのエキシトン偏光子を分離できることを示す。 絡み合いは安定した状態にあり、室温で達成できる可能性がある。 どちらの場合も、真の三分儀の絡み合いが存在することが示されている。

We provide a systemic theory to entangle excitons with microcavity photons. This is realized by adopting an exciton-optomechanics system and introducing a nonlinear dispersive interaction with a mechanical oscillator. We show that when either the exciton and cavity modes in the weak-coupling regime, or the two exciton-polariton modes in the strong-coupling regime, are respectively resonant with the optomechanical Stokes and anti-Stokes sidebands, entanglement between excitons and cavity photons, or between two exciton polaritons, can be established. The entanglement is in the steady state and can potentially be achievable at room temperature. In both cases, genuine tripartite entanglement is shown to be present.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# 機能3DGS: 蒸留機能フィールドを可能にする3Dガウススプレイティングのスーパーチャージ

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields ( http://arxiv.org/abs/2312.03203v3 )

ライセンス: Link先を確認
Shijie Zhou, Haoran Chang, Sicheng Jiang, Zhiwen Fan, Zehao Zhu, Dejia Xu, Pradyumna Chari, Suya You, Zhangyang Wang, Achuta Kadambi, (参考訳) 近年,3Dシーンの表現が盛んに行われている。 ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 近年,2次元基礎モデルからの3次元特徴場蒸留を用いた編集やセグメンテーションなどのセグメンテーションを意味的に認識する作業において,NeRFの機能をビュー合成を超えて拡張することを目的とした研究が出現している。 しかし、これらの手法には2つの大きな制限がある。 (a)NeRFパイプラインのレンダリング速度に制限され、 b) 暗黙的に表される特徴フィールドは、特徴品質を低下させる連続性アーティファクトに悩まされる。 近年, 3D Gaussian Splatting は実時間ラディアンス場レンダリングにおける最先端の性能を示した。 本研究では, 放射場レンダリングに加えて, 2次元基礎モデル蒸留による任意の次元意味的特徴の3次元ガウススプラッティングを可能にする。 3DGSフレームワークに機能フィールドを内在的に組み込むことは、特に空間分解能の相違やRGB画像と特徴マップ間のチャネルの整合性など、大きな課題に直面する。 この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。 提案手法は汎用的であり,本実験ではSAMやCLIP-LSegといった最先端の2D基盤モデルから,新しいビューセマンティックセマンティックセマンティクス,言語誘導編集,セマンティクスを学習する。 実験全体では, 蒸留法は同等あるいはより良い結果が得られる一方で, 電車やレンダリングよりもはるかに高速である。 さらに、私たちの知る限りでは、SAMモデルを利用して、放射場操作のための点とバウンディングボックスのプロンプトを可能にする最初の方法である。 Project website at https://feature-3dgs.github.io/

3D scene representations have gained immense popularity in recent years. Methods that use Neural Radiance fields are versatile for traditional tasks such as novel view synthesis. In recent times, some work has emerged that aims to extend the functionality of NeRF beyond view synthesis, for semantically aware tasks such as editing and segmentation using 3D feature field distillation from 2D foundation models. However, these methods have two major limitations: (a) they are limited by the rendering speed of NeRF pipelines, and (b) implicitly represented feature fields suffer from continuity artifacts reducing feature quality. Recently, 3D Gaussian Splatting has shown state-of-the-art performance on real-time radiance field rendering. In this work, we go one step further: in addition to radiance field rendering, we enable 3D Gaussian splatting on arbitrary-dimension semantic features via 2D foundation model distillation. This translation is not straightforward: naively incorporating feature fields in the 3DGS framework encounters significant challenges, notably the disparities in spatial resolution and channel consistency between RGB images and feature maps. We propose architectural and training changes to efficiently avert this problem. Our proposed method is general, and our experiments showcase novel view semantic segmentation, language-guided editing and segment anything through learning feature fields from state-of-the-art 2D foundation models such as SAM and CLIP-LSeg. Across experiments, our distillation method is able to provide comparable or better results, while being significantly faster to both train and render. Additionally, to the best of our knowledge, we are the first method to enable point and bounding-box prompting for radiance field manipulation, by leveraging the SAM model. Project website at: https://feature-3dgs.github.io/
翻訳日:2024-04-10 02:06:00 公開日:2024-04-08
# PROMISE:複雑な会話インタラクションを開発するためのフレームワーク(技術報告)

PROMISE: A Framework for Developing Complex Conversational Interactions (Technical Report) ( http://arxiv.org/abs/2312.03699v3 )

ライセンス: Link先を確認
Wenyuan Wu, Jasmin Heierli, Max Meisterhans, Adrian Moser, Andri Färber, Mateusz Dolata, Elena Gavagnin, Alexandre de Spindler, Gerhard Schwabe, (参考訳) ますます強力な言語モデルの出現は、言語ベースの相互作用に対する期待を高めている。 しかし、これらのモデルを制御することは課題であり、アプリケーションの実現可能性と価値を調査する必要性を強調している。 本稿では,情報システムとの複雑な言語によるインタラクションを開発するためのフレームワークであるPROMISEを提案する。 ステートマシンモデリングの概念を使用することで、階層的にネストされた状態と遷移をまたいだモデル駆動の動的プロンプトオーケストレーションが可能になる。 これにより、言語モデルの振る舞いの制御が改善され、効果的かつ効率的な使用が可能になる。 本稿では、健康情報システムにおけるアプリケーションシナリオの文脈におけるPROMISEの利点を示し、複雑なインタラクションを扱う能力を示す。 PROMISEの一部として利用可能なコード例やデフォルトのユーザインターフェースも含んでいます。

The advent of increasingly powerful language models has raised expectations for language-based interactions. However, controlling these models is a challenge, emphasizing the need to be able to investigate the feasibility and value of their application. We present PROMISE, a framework that facilitates the development of complex language-based interactions with information systems. Its use of state machine modeling concepts enables model-driven, dynamic prompt orchestration across hierarchically nested states and transitions. This improves the control of the behavior of language models and thus enables their effective and efficient use. In this technical report we show the benefits of PROMISE in the context of application scenarios within health information systems and demonstrate its ability to handle complex interactions. We also include code examples and present default user interfaces available as part of PROMISE.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# 時間ラベルのないデータからの動的システムの再構築

Reconstruction of dynamical systems from data without time labels ( http://arxiv.org/abs/2312.04038v2 )

ライセンス: Link先を確認
Zhijun Zeng, Pipi Hu, Chenglong Bao, Yi Zhu, Zuoqiang Shi, (参考訳) 本稿では,時間ラベルのないデータから動的システムを再構築する手法について検討する。 タイムラベルのないデータは、分子動力学、シングルセルRNAシークエンシングなど、多くのアプリケーションに現れる。 時系列データから力学系を復元する手法が広く研究されている。 しかし、タイムラベルが不明な場合、これらの手法は適用されない。 タイムラベルがなければ、シーケンスデータは分散データとなる。 本研究は,確率分布のサンプルとして扱うとともに,分散損失を最小化し,より具体的にワッサーシュタイン距離をスライスすることで,基礎となる力学系を再構築することを提案する。 その結果,提案手法の有効性が示された。

In this paper, we study the method to reconstruct dynamical systems from data without time labels. Data without time labels appear in many applications, such as molecular dynamics, single-cell RNA sequencing etc. Reconstruction of dynamical system from time sequence data has been studied extensively. However, these methods do not apply if time labels are unknown. Without time labels, sequence data becomes distribution data. Based on this observation, we propose to treat the data as samples from a probability distribution and try to reconstruct the underlying dynamical system by minimizing the distribution loss, sliced Wasserstein distance more specifically. Extensive experiment results demonstrate the effectiveness of the proposed method.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# SIFU:現実世界で使用可能な衣服再構築のためのサイドビューコンディショニングインシシシット機能

SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction ( http://arxiv.org/abs/2312.06704v3 )

ライセンス: Link先を確認
Zechuan Zhang, Zongxin Yang, Yi Yang, (参考訳) 現実世界の応用のために、単一の画像から高品質な人間の3Dモデルを作成することが重要である。 近年の進歩にも拘わらず、複雑なポーズや、未確認領域のテクスチャを予測するとともに、野生のイメージからゆるやかな衣服を正確に再構築することは、依然として大きな課題である。 従来の手法の重要な制限は、2Dから3Dへの遷移やテクスチャ予測における事前指導が不十分であることである。 これに対し, SIFU (Side-view Conditioned Implicit Function for Real-world Usable Human Reconstruction) は, 2次元特徴を3次元にマッピングする過程で, SMPL-X正規化をクエリとして, トランスフォーマ内でのクロスアテンション機構を用いて, サイドビューデカップリングトランスフォーマと3次元連続テクスチャリファインメントパイプラインを組み合わせた新しいアプローチである。 この手法は3次元モデルの精度を向上するだけでなく、特にSMPL-X推定が完全でない場合には、その堅牢性も向上する。 テクスチャリファインメントプロセスは、テキストから画像への拡散をベースとして、現実的で一貫したテクスチャを生成する。 SIFUは複雑なシナリオにおいて強靭性を示し、前例のないチャンファーとP2Sの測定を達成している。 われわれのアプローチは、3Dプリンティングやシーンビルディングといった実用的応用にまで拡張され、現実世界のシナリオでその幅広い実用性を実証している。 プロジェクトページ https://river-zhang.github.io/SIFU-projectpage/。

Creating high-quality 3D models of clothed humans from single images for real-world applications is crucial. Despite recent advancements, accurately reconstructing humans in complex poses or with loose clothing from in-the-wild images, along with predicting textures for unseen areas, remains a significant challenge. A key limitation of previous methods is their insufficient prior guidance in transitioning from 2D to 3D and in texture prediction. In response, we introduce SIFU (Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction), a novel approach combining a Side-view Decoupling Transformer with a 3D Consistent Texture Refinement pipeline.SIFU employs a cross-attention mechanism within the transformer, using SMPL-X normals as queries to effectively decouple side-view features in the process of mapping 2D features to 3D. This method not only improves the precision of the 3D models but also their robustness, especially when SMPL-X estimates are not perfect. Our texture refinement process leverages text-to-image diffusion-based prior to generate realistic and consistent textures for invisible views. Through extensive experiments, SIFU surpasses SOTA methods in both geometry and texture reconstruction, showcasing enhanced robustness in complex scenarios and achieving an unprecedented Chamfer and P2S measurement. Our approach extends to practical applications such as 3D printing and scene building, demonstrating its broad utility in real-world scenarios. Project page https://river-zhang.github.io/SIFU-projectpage/ .
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# ステレオ・ペアからのポーズフリー新規ビュー合成のための対応性, ポース, NeRFの統一

Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs ( http://arxiv.org/abs/2312.07246v2 )

ライセンス: Link先を確認
Sunghwan Hong, Jaewoo Jung, Heeseong Shin, Jiaolong Yang, Seungryong Kim, Chong Luo, (参考訳) この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。 我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。 我々は,3次元幾何学的理解の基盤となる共有表現を利用したアーキテクチャを設計することで,これを実現する。 タスク間の固有の相互作用に基づいて、我々の統合されたフレームワークは、モデル全体の正確性を改善するために提案されたトレーニング戦略とエンドツーエンドで訓練される。 実世界の2つのデータセットから様々な屋内・屋外のシーンを網羅的に評価することにより,従来の手法,特に極端な視点の変化と正確なカメラポーズの欠如を特徴とするシナリオにおいて,本手法が従来の手法よりも大幅に改善されていることを実証した。

This work delves into the task of pose-free novel view synthesis from stereo pairs, a challenging and pioneering task in 3D vision. Our innovative framework, unlike any before, seamlessly integrates 2D correspondence matching, camera pose estimation, and NeRF rendering, fostering a synergistic enhancement of these tasks. We achieve this through designing an architecture that utilizes a shared representation, which serves as a foundation for enhanced 3D geometry understanding. Capitalizing on the inherent interplay between the tasks, our unified framework is trained end-to-end with the proposed training strategy to improve overall model accuracy. Through extensive evaluations across diverse indoor and outdoor scenes from two real-world datasets, we demonstrate that our approach achieves substantial improvement over previous methodologies, especially in scenarios characterized by extreme viewpoint changes and the absence of accurate camera poses.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# 深層内的学習 - 単一入力からの深層内的学習

Deep Internal Learning: Deep Learning from a Single Input ( http://arxiv.org/abs/2312.07425v2 )

ライセンス: Link先を確認
Tom Tirer, Raja Giryes, Se Young Chun, Yonina C. Eldar, (参考訳) ディープラーニングは一般的に、大きなラベル付きデータセットからニューラルネットワークをトレーニングすることに焦点を当てている。 しかし、多くの場合、手元にある入力からのみネットワークをトレーニングする価値がある。 これは、トレーニングデータが不足し、多様性が大きい多くの信号処理や画像処理の問題に特に関係しており、一方、利用可能なデータには多くの構造がある。 この情報を利用することで、単一の入力を使用してネットワークをスクラッチからトレーニングしたり、すでにトレーニング済みのネットワークを推論時に提供された入力例に適応することが可能になる。 本研究の目的は,この2つの重要な方向に向けて,過去数年間に提案されてきた深層学習技術について報告することである。 主に画像処理問題に焦点をあてるが、我々の調査したアプローチのほとんどは一般的な信号(ノイズと区別できる繰り返しパターンを持つベクター)に対して導出されており、そのため他のモダリティにも適用できる。

Deep learning, in general, focuses on training a neural network from large labeled datasets. Yet, in many cases there is value in training a network just from the input at hand. This is particularly relevant in many signal and image processing problems where training data is scarce and diversity is large on the one hand, and on the other, there is a lot of structure in the data that can be exploited. Using this information is the key to deep internal-learning strategies, which may involve training a network from scratch using a single input or adapting an already trained network to a provided input example at inference time. This survey paper aims at covering deep internal-learning techniques that have been proposed in the past few years for these two important directions. While our main focus will be on image processing problems, most of the approaches that we survey are derived for general signals (vectors with recurring patterns that can be distinguished from noise) and are therefore applicable to other modalities.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# RTMO:高性能一段階実時間マルチパーソンポーズ推定を目指して

RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation ( http://arxiv.org/abs/2312.07526v2 )

ライセンス: Link先を確認
Peng Lu, Tao Jiang, Yining Li, Xiangtai Li, Kai Chen, Wenming Yang, (参考訳) リアルタイム多人数ポーズ推定は、速度と精度のバランスをとる上で大きな課題となる。 2段階のトップダウン方式は画像中の人の数が増えるにつれて遅くなるが、既存のワンステージ方式では高い精度とリアルタイムのパフォーマンスを同時に達成できないことが多い。 本稿では,一段階のポーズ推定フレームワークRTMOを紹介する。このフレームワークは,YOLOアーキテクチャ内の2つの1次元ヒートマップを用いてキーポイントを表現することで,座標分類をシームレスに統合し,高速を維持しながらトップダウン手法に匹敵する精度を実現する。 本研究では、座標分類と密度予測モデルの不整合性に対処するために、動的座標分類器と熱マップ学習のための調整された損失関数を提案する。 RTMOは最先端のワンステージポーズ推定器より優れており、COCOでは1.1%高いAPを達成し、同じバックボーンで約9倍高速に動作している。 我々の最大のモデルであるRTMO-lは、COCO val2017で74.8%AP、単一のV100 GPUで141FPSに達し、その効率と精度を示している。 コードとモデルはhttps://github.com/open-mmlab/mmpose/tree/main/projects/rtmoで公開されている。

Real-time multi-person pose estimation presents significant challenges in balancing speed and precision. While two-stage top-down methods slow down as the number of people in the image increases, existing one-stage methods often fail to simultaneously deliver high accuracy and real-time performance. This paper introduces RTMO, a one-stage pose estimation framework that seamlessly integrates coordinate classification by representing keypoints using dual 1-D heatmaps within the YOLO architecture, achieving accuracy comparable to top-down methods while maintaining high speed. We propose a dynamic coordinate classifier and a tailored loss function for heatmap learning, specifically designed to address the incompatibilities between coordinate classification and dense prediction models. RTMO outperforms state-of-the-art one-stage pose estimators, achieving 1.1% higher AP on COCO while operating about 9 times faster with the same backbone. Our largest model, RTMO-l, attains 74.8% AP on COCO val2017 and 141 FPS on a single V100 GPU, demonstrating its efficiency and accuracy. The code and models are available at https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# LLM時代の計測:イデオロギースケーリングへの応用

Measurement in the Age of LLMs: An Application to Ideological Scaling ( http://arxiv.org/abs/2312.09203v2 )

ライセンス: Link先を確認
Sean O'Hagan, Aaron Schein, (参考訳) 社会科学の多くは「イデオロギー」や「パワー」といった用語を中心にしており、一般的には正確な定義を省略し、文脈的な意味が周囲の言語に閉じ込められている。 本稿では,大規模言語モデル(LLM)を用いて,社会科学的測定タスクに固有の概念的クラッタを柔軟にナビゲートする方法について検討する。 我々は, LLMの顕著な言語的流布に依拠し, 確立された方法と我々の判断に密接に合致する, 立法者およびテキストのイデオロギー的尺度を導出する。 このアプローチの重要な側面は、そのようなスコアを直接引き出すことで、LSMに数値スコア自体を付与するように指示することです。 このアプローチは、さまざまなケーススタディを通じて、非常に多くの柔軟性を提供します。 以上の結果から,LLMはテキスト中の政治的イデオロギーの極めて微妙で拡散した表現を特徴付けることができることが示唆された。

Much of social science is centered around terms like ``ideology'' or ``power'', which generally elude precise definition, and whose contextual meanings are trapped in surrounding language. This paper explores the use of large language models (LLMs) to flexibly navigate the conceptual clutter inherent to social scientific measurement tasks. We rely on LLMs' remarkable linguistic fluency to elicit ideological scales of both legislators and text, which accord closely to established methods and our own judgement. A key aspect of our approach is that we elicit such scores directly, instructing the LLM to furnish numeric scores itself. This approach affords a great deal of flexibility, which we showcase through a variety of different case studies. Our results suggest that LLMs can be used to characterize highly subtle and diffuse manifestations of political ideology in text.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-08
# 因果的視点から見たグラフコントラスト学習における次元Rationaleの再考

Rethinking Dimensional Rationale in Graph Contrastive Learning from Causal Perspective ( http://arxiv.org/abs/2312.10401v3 )

ライセンス: Link先を確認
Qirui Ji, Jiangmeng Li, Jie Hu, Rui Wang, Changwen Zheng, Fanjiang Xu, (参考訳) グラフコントラスト学習(Graph contrastive learning)は、グラフの様々な摂動から不変情報を捉えるのに優れた一般的な学習パラダイムである。 最近の研究は、グラフから構造的理性を探究することに集中し、不変情報の識別可能性を高める。 しかし、このような手法はグラフの解釈可能性に対するグラフモデルの誤学習を引き起こす可能性があるため、学習ノイズやタスクに依存しない情報はグラフの予測に干渉する。 この目的のために、グラフの本質的理性を探究するために、文献で十分な注目を集めていないグラフから次元的理性を取得することを提案する。 行われた探索実験は、上記のロードマップの実現可能性を示している。 本研究は, 学習前段階における変数間の因果関係を定式化し, 対応する構造因果関係モデルを構築することを目的とした。 構造因果モデルの理解に基づいて,学習可能な次元理性獲得ネットワークと冗長性低減制約を導入した,次元理性対応グラフコントラスト学習手法を提案する。 二段階メタラーニング技術を活用して学習可能な次元理性獲得ネットワークを更新し、冗長化制約を学習中のデコリレーションプロセスを介して冗長化する。 実験的に,本手法は最先端の手法と比較して,識別可能性や転送可能性に関して,様々なベンチマークにおいて顕著な性能向上をもたらすことができる。 私たちのメソッドのコード実装はhttps://github.com/ByronJi/DRGCLで公開されています。

Graph contrastive learning is a general learning paradigm excelling at capturing invariant information from diverse perturbations in graphs. Recent works focus on exploring the structural rationale from graphs, thereby increasing the discriminability of the invariant information. However, such methods may incur in the mis-learning of graph models towards the interpretability of graphs, and thus the learned noisy and task-agnostic information interferes with the prediction of graphs. To this end, with the purpose of exploring the intrinsic rationale of graphs, we accordingly propose to capture the dimensional rationale from graphs, which has not received sufficient attention in the literature. The conducted exploratory experiments attest to the feasibility of the aforementioned roadmap. To elucidate the innate mechanism behind the performance improvement arising from the dimensional rationale, we rethink the dimensional rationale in graph contrastive learning from a causal perspective and further formalize the causality among the variables in the pre-training stage to build the corresponding structural causal model. On the basis of the understanding of the structural causal model, we propose the dimensional rationale-aware graph contrastive learning approach, which introduces a learnable dimensional rationale acquiring network and a redundancy reduction constraint. The learnable dimensional rationale acquiring network is updated by leveraging a bi-level meta-learning technique, and the redundancy reduction constraint disentangles the redundant features through a decorrelation process during learning. Empirically, compared with state-of-the-art methods, our method can yield significant performance boosts on various benchmarks with respect to discriminability and transferability. The code implementation of our method is available at https://github.com/ByronJi/DRGCL.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# 量子状態検証における記憶効果

Memory Effects in Quantum State Verification ( http://arxiv.org/abs/2312.11066v3 )

ライセンス: Link先を確認
Siyuan Chen, Wei Xie, Kun Wang, (参考訳) ローカル検証器は量子状態のコピーを格納し、それらをまとめて測定することができる。 我々は,ベル測度のみを含む多ビットグラフ状態に対して,2コピー状態検証を最適化するための正確な解析式を確立し,グローバルに最適な2コピー戦略を与える。 検証器に任意のメモリが利用できる場合、効率の良い検証戦略を設計し、その応用をGHZライクな状態に示すディメンション拡張手法を提案する。 これらの戦略はメモリ資源の増大によってますます有利になり、最終的には効率の理論的限界に近づいた。 以上の結果から,量子メモリは状態検証効率の向上,エラー耐性戦略の隠蔽光,大規模量子メモリ支援検証の実用化が示唆された。

We consider the quantum memory assisted state verification task, where the local verifiers can store copies of quantum states and measure them collectively. We establish an exact analytic formula for optimizing two-copy state verification and give a globally optimal two-copy strategy for multi-qubit graph states involving only Bell measurements. When arbitrary memory is available to the verifiers, we present a dimension expansion technique that designs efficient verification strategies, showcasing its application to GHZ-like states. These strategies become increasingly advantageous with growing memory resources, ultimately approaching the theoretical limit of efficiency. Our findings demonstrate that quantum memories enhance state verification efficiency, sheding light on error-resistant strategies and practical applications of large-scale quantum memory-assisted verification.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# エンド・ツー・エンドの人工知能による世界天気予報システムの実現に向けて

Towards an end-to-end artificial intelligence driven global weather forecasting system ( http://arxiv.org/abs/2312.12462v3 )

ライセンス: Link先を確認
Kun Chen, Lei Bai, Fenghua Ling, Peng Ye, Tao Chen, Jing-Jia Luo, Hao Chen, Yi Xiao, Kang Chen, Tao Han, Wanli Ouyang, (参考訳) 気象予報システムは科学や社会にとって重要であり、中規模気象予報に人工知能(AI)を適用する上で重要な成果を上げている。 しかし、既存のAIベースの天気予報モデルは、予測を行うための初期条件として、従来の数値天気予報(NWP)システムからの分析や再分析製品に依存している。 初期状態は通常、計算コストと時間を要する従来のデータ同化コンポーネントによって生成される。 ここでは,地球規模の気象変動に対するAIに基づくデータ同化モデル,すなわちアダスについて述べる。 信頼行列を導入することで、アダスは緩やかな観測を扱うためにゲート畳み込みを使用し、背景と観測の間の相互作用を捉えるためにゲート交叉配置を用いる。 さらに、AdasをAIベースの高度な予測モデル(FengWu)と組み合わせて、初のエンドツーエンドのAIベースのグローバル天気予報システムであるFengWu-Adasを構築します。 我々は,アダスが地球観測を同化して高品質な分析を行い,長期にわたって安定して運用できることを実証した。 さらに,本手法を現実のシナリオに適用するのは,我々が初めてである。 また、AIが生成した分析に基づいて予測を達成し、IFSよりも優れた予測リードタイムを初めて達成した。

The weather forecasting system is important for science and society, and significant achievements have been made in applying artificial intelligence (AI) to medium-range weather forecasting. However, existing AI-based weather forecasting models rely on analysis or reanalysis products from traditional numerical weather prediction (NWP) systems as initial conditions for making predictions. Initial states are typically generated by traditional data assimilation components, which are computational expensive and time-consuming. Here we present an AI-based data assimilation model, i.e., Adas, for global weather variables. By introducing the confidence matrix, Adas employs gated convolution to handle sparse observations and gated cross-attention for capturing the interactions between the background and observations. Further, we combine Adas with the advanced AI-based forecasting model (i.e., FengWu) to construct the first end-to-end AI-based global weather forecasting system: FengWu-Adas. We demonstrate that Adas can assimilate global observations to produce high-quality analysis, enabling the system operate stably for long term. Moreover, we are the first to apply the methods to real-world scenarios, which is more challenging and has considerable practical application potential. We have also achieved the forecasts based on the analyses generated by AI with a skillful forecast lead time exceeding that of the IFS for the first time.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# タスク指向対話システムの評価:尺度・構成・運用の体系的レビュー

Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations ( http://arxiv.org/abs/2312.13871v2 )

ライセンス: Link先を確認
Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel Krahmer, (参考訳) 本稿では,タスク指向対話システムの評価手法について概観し,顧客サービスなどの対話システムの実用化に特に注目する。 本報告では,(1)先行研究における使用済みコンストラクトとメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。 我々は,4つのデータベース (ACL, ACM, IEEE, Web of Science) の体系的レビューを行った。 これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。 コンストラクトとメソッドの両方で多種多様なものを見つけました。 特に運用が必ずしも明確に報告されるとは限らない。 大規模言語モデルに関する新たな展開は,対話システムのパワーアップと評価プロセスにおける利用の2つの文脈で議論されている。 今後の作業が、使用済みのコンストラクトの運用と仕様に対して、より重要なアプローチを取ることを期待しています。 この目的を達成するために、このレビューは、優れた質問に対する評価と提案のレコメンデーションで終わる。

This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. Newer developments concerning large language models are discussed in two contexts: to power dialogue systems and to use in the evaluation process. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# ラムゼー・ブラッグ干渉法によるフェルミ気体中の対相関の探索

Probing pair correlations in Fermi gases with Ramsey-Bragg interferometry ( http://arxiv.org/abs/2312.13960v2 )

ライセンス: Link先を確認
Théo Malas-Danzé, Alexandre Dugelay, Nir Navon, Hadrien Kurkjian, (参考訳) スピン1/2フェルミオンの気体中の対相関を探索する干渉計法を提案する。 この方法は、フェルミガスのスピン状態が静止状態と大きな反動速度の状態の重ね合わせで設定されるラムゼー系列からなる。 この2体密度行列は、転写された分数のゆらぎから再冷却状態へ抽出される。 対凝縮相では、対角外長距離秩序は、長い尋問時間の間、干渉計信号の漸近挙動に直接反映される。 インターフェロメトリー信号はバーディーン=クーパー=シュリーファー系における尋問時間の振動関数であり、分子ボース=アインシュタイン凝縮系では過大な機能となる。

We propose an interferometric method to probe pair correlations in a gas of spin-1/2 fermions. The method consists of a Ramsey sequence where both spin states of the Fermi gas are set in a superposition of a state at rest and a state with a large recoil velocity. The two-body density matrix is extracted via the fluctuations of the transferred fraction to the recoiled state. In the pair-condensed phase, the off-diagonal long-range order is directly reflected in the asymptotic behavior of the interferometric signal for long interrogation times. The method also allows to probe the spatial structure of the condensed pairs: the interferometric signal is an oscillating function of the interrogation time in the Bardeen-Cooper-Schrieffer regime; it becomes an overdamped function in the molecular Bose-Einstein condensate regime.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# コントラスト表現学習における正規化の理解とアウト・オブ・ディストリビューション検出

Understanding normalization in contrastive representation learning and out-of-distribution detection ( http://arxiv.org/abs/2312.15288v2 )

ライセンス: Link先を確認
Tai Le-Gia, Jaehyun Ahn, (参考訳) コントラスト表現学習は異常検出のための優れたアプローチとして現れている。 本研究では,コントラスト特徴の$\ell_2$-normとその分布外検出への応用について検討する。 コントラッシブ・ラーニングに基づく簡易な手法を提案し, コントラッシブ・ラーニング空間における正規サンプルを識別することにより, 分布外データを含む手法を提案する。 提案手法は,オフラヤ露光(OE)アプローチとして柔軟に適用可能で,アウト・オブ・ディストリビューションデータはランダム画像の巨大な集合体である場合や,アウト・オブ・ディストリビューションデータを分散シフト変換を適用して自己生成する完全自己教師付き学習手法として適用することができる。 追加のアウト・オブ・ディストリビューション・サンプルを組み込むことで、航空画像や顕微鏡画像など、対照的な学習に基づくADメソッドが一般的にパフォーマンスの低いデータセットに対して実現可能なソリューションが可能になる。 さらに、対照的な学習を通じて学んだ高品質な機能は、利用可能なアウト・オブ・ディストリビューションデータセットが十分に多様性がない場合でも、OEシナリオのパフォーマンスを一貫して向上させる。 提案手法は, 様々な画像データセットを用いた一様条件や多様条件の設定など, 様々なシナリオにおける優位性を示す。

Contrastive representation learning has emerged as an outstanding approach for anomaly detection. In this work, we explore the $\ell_2$-norm of contrastive features and its applications in out-of-distribution detection. We propose a simple method based on contrastive learning, which incorporates out-of-distribution data by discriminating against normal samples in the contrastive layer space. Our approach can be applied flexibly as an outlier exposure (OE) approach, where the out-of-distribution data is a huge collective of random images, or as a fully self-supervised learning approach, where the out-of-distribution data is self-generated by applying distribution-shifting transformations. The ability to incorporate additional out-of-distribution samples enables a feasible solution for datasets where AD methods based on contrastive learning generally underperform, such as aerial images or microscopy images. Furthermore, the high-quality features learned through contrastive learning consistently enhance performance in OE scenarios, even when the available out-of-distribution dataset is not diverse enough. Our extensive experiments demonstrate the superiority of our proposed method under various scenarios, including unimodal and multimodal settings, with various image datasets.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# 初期量子コヒーレンスをもつ仕事のゆらぎ定理

Work fluctuation theorems with initial quantum coherence ( http://arxiv.org/abs/2312.16227v4 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) ゆらぎ定理は、線形反応則を超えた非平衡熱力学の基本的な結果である。 これらのうち、パラダイム的タサキ・クルークスの揺らぎ定理は、フォワード・オブ・平衡量子過程および対応する後方量子過程においてなされた仕事の統計を関連づける。 特に、2つの過程の初期状態は熱状態であり、したがってエネルギーベースでは不整合である。 本稿では、作業の準確率分布を考慮し、作業変動定理における初期量子コヒーレンスの役割を検討することを目的とする。 これを実現するために、初期量子コヒーレンスがない場合に、タサキ・クルークスの揺らぎ定理を再現する詳細なゆらぎ定理の意義を定式化し、検証する。

Fluctuation theorems are fundamental results in nonequilibrium thermodynamics beyond the linear response regime. Among these, the paradigmatic Tasaki-Crooks fluctuation theorem relates the statistics of the works done in a forward out-of-equilibrium quantum process and in a corresponding backward one. In particular, the initial states of the two processes are thermal states and thus incoherent in the energy basis. Here, we aim to investigate the role of initial quantum coherence in work fluctuation theorems, by considering a quasiprobability distribution of work. To do this, we formulate and examine the implications of a detailed fluctuation theorem, which reproduces the Tasaki-Crooks fluctuation theorem in the absence of initial quantum coherence.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# 完全スパース3次元活動予測

Fully Sparse 3D Occupancy Prediction ( http://arxiv.org/abs/2312.17118v3 )

ライセンス: Link先を確認
Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, Limin Wang, (参考訳) 運転予測は自動運転において重要な役割を果たす。 従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。 ギャップを埋めるため,SparseOccと呼ばれる,スパルス占有ネットワークを導入した。 SparseOccは最初、視覚入力からスパース3D表現を再構築し、その後、スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。 マスク誘導スパースサンプリングは、スパースクエリが完全にスパースな方法で2次元特徴と対話できるように設計されており、それによってコストのかかる高密度特徴やグローバルな注意を回避できる。 さらに、従来のボクセルレベルのmIoU基準で引き上げられた深さに沿った不整合のペナルティを解決するために、レイIoUという思考に基づく評価尺度を設計する。 SparseOccは、34.0のRayIoUを実現し、リアルタイムの推論速度は17.3 FPSで、7つの履歴フレームが入力される。 以前のフレームを15に組み込むことで、SparseOccはwhiやベルを使わずに35.1 RayIoUに継続的に性能を改善している。 コードはhttps://github.com/MCG-NJU/SparseOcc.comで入手できる。

Occupancy prediction plays a pivotal role in autonomous driving. Previous methods typically construct dense 3D volumes, neglecting the inherent sparsity of the scene and suffering high computational costs. To bridge the gap, we introduce a novel fully sparse occupancy network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D representation from visual inputs and subsequently predicts semantic/instance occupancy from the 3D sparse representation by sparse queries. A mask-guided sparse sampling is designed to enable sparse queries to interact with 2D features in a fully sparse manner, thereby circumventing costly dense features or global attention. Additionally, we design a thoughtful ray-based evaluation metric, namely RayIoU, to solve the inconsistency penalty along depths raised in traditional voxel-level mIoU criteria. SparseOcc demonstrates its effectiveness by achieving a RayIoU of 34.0, while maintaining a real-time inference speed of 17.3 FPS, with 7 history frames inputs. By incorporating more preceding frames to 15, SparseOcc continuously improves its performance to 35.1 RayIoU without whistles and bells. Code is available at https://github.com/MCG-NJU/SparseOcc.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# AIJack: AIをハイジャックしよう! マシンラーニングのためのセキュリティとプライバシリスクシミュレータ

AIJack: Let's Hijack AI! Security and Privacy Risk Simulator for Machine Learning ( http://arxiv.org/abs/2312.17667v2 )

ライセンス: Link先を確認
Hideaki Takahashi, (参考訳) 本稿では,機械学習モデルのトレーニングとデプロイに関連するセキュリティとプライバシのリスクを評価するために設計された,オープンソースのライブラリであるAIJackを紹介する。 ビッグデータとAIへの関心が高まっている中、機械学習の研究とビジネスの進歩が加速している。 しかし、最近の研究では、トレーニングデータの盗難や悪意のある攻撃者によるモデルの操作など、潜在的な脅威が明らかになっている。 したがって、機械学習のセキュリティとプライバシの脆弱性に関する包括的な理解は、機械学習を現実世界の製品に安全に統合するために不可欠である。 AIJackは、統一されたAPIを通じて、さまざまなアタックとディフェンスメソッドを備えたライブラリを提供することで、このニーズに対処することを目指している。 このライブラリはGitHubで公開されている(https://github.com/Koukyosyumei/AIJack)。

This paper introduces AIJack, an open-source library designed to assess security and privacy risks associated with the training and deployment of machine learning models. Amid the growing interest in big data and AI, advancements in machine learning research and business are accelerating. However, recent studies reveal potential threats, such as the theft of training data and the manipulation of models by malicious attackers. Therefore, a comprehensive understanding of machine learning's security and privacy vulnerabilities is crucial for the safe integration of machine learning into real-world products. AIJack aims to address this need by providing a library with various attack and defense methods through a unified API. The library is publicly available on GitHub (https://github.com/Koukyosyumei/AIJack).
翻訳日:2024-04-10 01:46:19 公開日:2024-04-08
# 結晶材料研究における深いハミルトン回帰のための調和SO(3)等分散と表現性

Harmonizing SO(3)-equivariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research ( http://arxiv.org/abs/2401.00744v7 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He, (参考訳) 物質研究における量子系のハミルトン回帰の深層学習は、共分散法則を満たす必要があるが、ネットワークの非線形表現能力を犠牲にすることなくSO(3)-等分散を達成することは未解決のままである。 そこで本研究では,2段階の回帰フレームワークとして,ネットワーク機構の2つの異なるカテゴリを相乗化するハイブリッド手法を提案する。 第1段階は、パラメータ学習プロセスに先立って固有のSO(3)-同変特性を持つ群理論に基づくネットワーク機構に対応し、第2段階は非線形3Dグラフ変換器ネットワークによって特徴付けられる。 新たな組み合わせは、第1段階がSO(3)-等変量の豊富なベースラインハミルトニアンを予測し、第2段階が等価性の経験的学習において補助し、第2段階が第1段階の出力を強力な非線形ニューラルマッピングを用いてハミルトンの微細な予測として洗練し、第1段階のメカニズムの非線形表現能力に固有の弱点を補うことである。 本手法は, 回転変換下でのSO(3)-等分散性を維持しつつ, 高精度で一般化可能な予測が可能であり, 6つの結晶材料データベースの実験により, ハミルトン予測における最先端性能を実現する。 我々の研究は、原子系の高性能電子構造計算のための新しい技術経路を提供し、新しい物質のシミュレーション、設計、発見のための強力な技術手段を提供する。

Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the non-linear expressive capability of networks remains unsolved. To navigate the harmonization between equivariance and expressiveness, we propose a hybrid method synergizing two distinct categories of network mechanisms as a two-stage cascaded regression framework. The first stage corresponds to group theory-based network mechanisms with inherent SO(3)-equivariant properties prior to the parameter learning process, while the second stage is characterized by a non-linear 3D graph Transformer network we propose featuring high capability on non-linear expressiveness. The novel combination lies that, the first stage predicts baseline Hamiltonians with abundant SO(3)-equivariant features extracted, assisting the second stage in empirical learning of equivariance; and in turn, the second stage refines the first stage's output as a fine-grained prediction of Hamiltonians using powerful non-linear neural mappings, compensating for the intrinsic weakness on non-linear expressiveness capability of mechanisms in the first stage. Our method enables precise, generalizable predictions while maintaining robust SO(3)-equivariance under rotational transformations, and achieves state-of-the-art performance in Hamiltonian prediction, confirmed through experiments on six crystalline material databases. Our research provides a new technical pathway for high-performance electronic structure calculations of atomic systems, offering powerful technological means for the simulation, design, and discovery of new materials.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-08
# MLCA-AVSR:多層クロスアテンションフュージョンに基づく音声認識

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition ( http://arxiv.org/abs/2401.03424v3 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Pan Zhou, Lei Xie, (参考訳) 雑音の多い環境では自動音声認識(ASR)システムが大幅に劣化する一方、音声-視覚音声認識(AVSR)システムは、ノイズ不変の視覚的手がかりでオーディオストリームを補完し、システムの堅牢性を改善することを目的としている。 しかし、近年の研究は主に、モダリティ特徴学習における文脈的関係を考慮せずに、モダリティ固有のエンコーダの出力のような、よく学習されたモダリティ特徴の融合に焦点を当てている。 本研究では,多層クロスアテンション融合に基づくAVSR(MLCA-AVSR)アプローチを提案する。 MISP2022-AVSR Challengeデータセットによる実験結果から,提案システムの有効性が示され,Eval集合上での最小置換文字誤り率(cpCER)が30.57%,Eval集合において最大3.17%向上した。 複数のシステムの融合に続いて、提案手法は第1位システムを超え、このデータセット上で29.13%の新しいSOTA cpCERを確立する。

While automatic speech recognition (ASR) systems degrade significantly in noisy environments, audio-visual speech recognition (AVSR) systems aim to complement the audio stream with noise-invariant visual cues and improve the system's robustness. However, current studies mainly focus on fusing the well-learned modality features, like the output of modality-specific encoders, without considering the contextual relationship during the modality feature learning. In this study, we propose a multi-layer cross-attention fusion based AVSR (MLCA-AVSR) approach that promotes representation learning of each modality by fusing them at different levels of audio/visual encoders. Experimental results on the MISP2022-AVSR Challenge dataset show the efficacy of our proposed system, achieving a concatenated minimum permutation character error rate (cpCER) of 30.57% on the Eval set and yielding up to 3.17% relative improvement compared with our previous system which ranked the second place in the challenge. Following the fusion of multiple systems, our proposed approach surpasses the first-place system, establishing a new SOTA cpCER of 29.13% on this dataset.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-08
# 要求駆動型適応によるグレースフル劣化と回復の統合

Integrating Graceful Degradation and Recovery through Requirement-driven Adaptation ( http://arxiv.org/abs/2401.09678v2 )

ライセンス: Link先を確認
Simon Chu, Justin Koe, David Garlan, Eunsuk Kang, (参考訳) サイバー物理システム(CPS)は、悪質な操作条件、悪意のある攻撃、ハードウェアの劣化などの環境不確実性にさらされている。 これらの不確実性は、システムを準最適状態または安全でない状態にする失敗につながる可能性がある。 このような不確実性に耐性のあるシステムは,(1)優雅な劣化,(2)予期せぬ環境条件下でシステムが許容されるレベルの安全性を維持すること,(2)正常なシステム機能の再開を促進すること,の2つの操作に頼っている。 通常、劣化と回復のメカニズムは互いに独立して開発され、後にシステムに統合され、デザイナは2つの操作間のアクティベートとコーディネートのための追加のアドホックロジックを開発する必要がある。 本稿では, 自動トリガによる自己適応型システムレジリエンス向上手法を提案する。 劣化は、システムによって達成される元の(理想的)システム要件を一時的に弱め、環境が期待される運用境界内に戻るときの弱められた要求を強化するものとして、回復することができる。 さらに, 弱化と強化を二重演算として扱うことにより, 一つの要求に基づく適応法が, 劣化と回復の協調を可能にするのに十分である,と論じる。 信号時相論理(STL)に規定されるシステム要件を前提として,環境変化に応じて劣化と回復を行うランタイム適応フレームワークを提案する。 本稿では,本フレームワークのプロトタイプ実装について述べるとともに,無人水中車両のケーススタディを用いて提案手法の有効性を実証する。

Cyber-physical systems (CPS) are subject to environmental uncertainties such as adverse operating conditions, malicious attacks, and hardware degradation. These uncertainties may lead to failures that put the system in a sub-optimal or unsafe state. Systems that are resilient to such uncertainties rely on two types of operations: (1) graceful degradation, to ensure that the system maintains an acceptable level of safety during unexpected environmental conditions and (2) recovery, to facilitate the resumption of normal system functions. Typically, mechanisms for degradation and recovery are developed independently from each other, and later integrated into a system, requiring the designer to develop an additional, ad-hoc logic for activating and coordinating between the two operations. In this paper, we propose a self-adaptation approach for improving system resiliency through automated triggering and coordination of graceful degradation and recovery. The key idea behind our approach is to treat degradation and recovery as requirement-driven adaptation tasks: Degradation can be thought of as temporarily weakening original (i.e., ideal) system requirements to be achieved by the system, and recovery as strengthening the weakened requirements when the environment returns within an expected operating boundary. Furthermore, by treating weakening and strengthening as dual operations, we argue that a single requirement-based adaptation method is sufficient to enable coordination between degradation and recovery. Given system requirements specified in signal temporal logic (STL), we propose a run-time adaptation framework that performs degradation and recovery in response to environmental changes. We describe a prototype implementation of our framework and demonstrate the feasibility of the proposed approach using a case study in unmanned underwater vehicles.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-08
# UAVメタバースにおけるツインズマイグレーションのためのTiny Multi-Agent DRL:マルチリーダーマルチフォロー・スタックルバーグゲームアプローチ

Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach ( http://arxiv.org/abs/2401.09680v2 )

ライセンス: Link先を確認
Jiawen Kang, Yue Zhong, Minrui Xu, Jiangtian Nie, Jinbo Wen, Hongyang Du, Dongdong Ye, Xumin Huang, Dusit Niyato, Shengli Xie, (参考訳) UAV(Unmanned Aerial Vehicles)とメタバース(Metaverses)の相乗効果は、UAVメタバース(UAV metaverses)と呼ばれる新たなパラダイムを生み出している。 UAVツイン(UAV Twins, UT)は、UAVのアプリケーションに革命をもたらすデジタルツインであり、より没入的、現実的で、情報的であり、地上基地局(例えば、RoadSide Units (RSU))に展開および更新され、UAVメタバースユーザー(UMU)向けのメタバースサービスを提供する。 UAVの動的モビリティとRSUの限られた通信範囲のため、UMUのシームレスな没入体験を確保するために、リアルタイムUTマイグレーションを実行することが不可欠である。 しかし、UTマイグレーションの信頼性と効率的な実現には、適切なRSUを選択し、必要な帯域幅を最適化することが困難である。 これらの課題に対処するために,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークStackelbergを提案する。 具体的には,UAVの実用性に新たなUMUの没入度を考慮し,マルチリーダーマルチフォローのStackelbergモデルを定式化する。 そこで我々は,Tiny Multi-Agent Deep Reinforcement Learning (Tiny MADRL)アルゴリズムを設計し,最適なゲームソリューションを表す小さなネットワークを得る。 具体的には,ネットワークパラメータ数を削減し,モデルサイズと計算量の削減を実現し,Tiny MADRLの効率的な実装を可能にする。 数値計算の結果,提案手法は従来の方式よりも優れた性能を示した。

The synergy between Unmanned Aerial Vehicles (UAVs) and metaverses is giving rise to an emerging paradigm named UAV metaverses, which create a unified ecosystem that blends physical and virtual spaces, transforming drone interaction and virtual exploration. UAV Twins (UTs), as the digital twins of UAVs that revolutionize UAV applications by making them more immersive, realistic, and informative, are deployed and updated on ground base stations, e.g., RoadSide Units (RSUs), to offer metaverse services for UAV Metaverse Users (UMUs). Due to the dynamic mobility of UAVs and limited communication coverages of RSUs, it is essential to perform real-time UT migration to ensure seamless immersive experiences for UMUs. However, selecting appropriate RSUs and optimizing the required bandwidth is challenging for achieving reliable and efficient UT migration. To address the challenges, we propose a tiny machine learning-based Stackelberg game framework based on pruning techniques for efficient UT migration in UAV metaverses. Specifically, we formulate a multi-leader multi-follower Stackelberg model considering a new immersion metric of UMUs in the utilities of UAVs. Then, we design a Tiny Multi-Agent Deep Reinforcement Learning (Tiny MADRL) algorithm to obtain the tiny networks representing the optimal game solution. Specifically, the actor-critic network leverages the pruning techniques to reduce the number of network parameters and achieve model size and computation reduction, allowing for efficient implementation of Tiny MADRL. Numerical results demonstrate that our proposed schemes have better performance than traditional schemes.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-08
# INCPrompt:リハーサルなしクラスインクリメンタル学習のためのタスク対応インクリメンタルプロンプト

INCPrompt: Task-Aware incremental Prompting for Rehearsal-Free Class-incremental Learning ( http://arxiv.org/abs/2401.11667v3 )

ライセンス: Link先を確認
Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang, (参考訳) 本稿では,破滅的忘れを効果的に解決する革新的な連続学習ソリューションであるINCPromptを紹介する。 INCPromptの重要な革新は、タスク関連情報をキャプチャする適応型キーラーナーとタスク認識プロンプトを使用することである。 このユニークな組み合わせは、タスク全体にわたる一般的な知識をカプセル化し、タスク固有の知識をエンコードする。 複数の連続学習ベンチマークの総合的な評価は、INCPromptが既存のアルゴリズムよりも優れていることを示し、高い性能を維持しながら破滅的な忘れを緩和する効果を示している。 これらの結果は,タスク認識の漸進的促進が継続的な学習性能に与える影響を浮き彫りにした。

This paper introduces INCPrompt, an innovative continual learning solution that effectively addresses catastrophic forgetting. INCPrompt's key innovation lies in its use of adaptive key-learner and task-aware prompts that capture task-relevant information. This unique combination encapsulates general knowledge across tasks and encodes task-specific knowledge. Our comprehensive evaluation across multiple continual learning benchmarks demonstrates INCPrompt's superiority over existing algorithms, showing its effectiveness in mitigating catastrophic forgetting while maintaining high performance. These results highlight the significant impact of task-aware incremental prompting on continual learning performance.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# 進化的ニューラルアーキテクチャ検索のランタイム分析への第一歩

A First Step Towards Runtime Analysis of Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2401.11712v2 )

ライセンス: Link先を確認
Zeqiong Lv, Chao Qian, Yanan Sun, (参考訳) 進化的ニューラルアーキテクチャサーチ(ENAS)は、進化的アルゴリズムを用いて自動的に高性能なニューラルアーキテクチャを見つけ、大きな成功を収めた。 しかし、実証的な成功と比較すると、厳密な理論分析はまだ触れられていない。 本研究は、ENASの数学的ランタイム解析に向けた予備的なステップである。 特に、二項分類問題 $\textsc{UNIFORM}$ を定義し、ニューラルネットワークと分類精度の関係を表す明示的な適合関数を定式化する。 さらに、(1+1)-ENASアルゴリズムは、ニューラルアーキテクチャを最適化し、以下のランタイム境界を得る。 理論的な結果は、局所変異と大域突然変異が$\textsc{UNIFORM}$でほぼ同じ性能を達成することを示している。 経験的な結果は、これらの2つの突然変異作用素の等価性も検証する。

Evolutionary neural architecture search (ENAS) employs evolutionary algorithms to find high-performing neural architectures automatically, and has achieved great success. However, compared to the empirical success, its rigorous theoretical analysis has yet to be touched. This work goes preliminary steps toward the mathematical runtime analysis of ENAS. In particular, we define a binary classification problem $\textsc{UNIFORM}$, and formulate an explicit fitness function to represent the relationship between neural architecture and classification accuracy. Furthermore, we consider (1+1)-ENAS algorithm with mutation to optimize the neural architecture, and obtain the following runtime bounds: both the local and global mutations find the optimum in an expected runtime of $\Theta(n)$, where $n$ is the problem size. The theoretical results show that the local and global mutations achieve nearly the same performance on $\textsc{UNIFORM}$. Empirical results also verify the equivalence of these two mutation operators.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# オンライン世界モデル学習のための局所感性スパース符号化

Locality Sensitive Sparse Encoding for Learning World Models Online ( http://arxiv.org/abs/2401.13034v3 )

ライセンス: Link先を確認
Zichen Liu, Chao Du, Wee Sun Lee, Min Lin, (参考訳) モデルベース強化学習(MBRL)のためにオンラインで正確な世界モデルを取得することは、データ非定常性のため困難である。 オンライン学習の観点からは、FTL(Follow-The-Leader)の世界モデルが望ましい。 残念なことに、NNベースのモデルは、生涯にわたるエージェントにとって計算コストのかかるFTLを達成するために、すべてのインタラクションステップで蓄積されたデータを再トレーニングする必要がある。 本稿では,FTLをインクリメンタルアップデートで実現可能なモデルを再検討する。 特に、我々の世界モデルは非線形ランダムな特徴によって支持される線形回帰モデルである。 線形部分は効率的なFTL更新を保証し、非線形ランダム特徴は複雑な環境の整合性を高める。 モデルキャパシティと計算効率を最大限に両立させるため,高次元の非線形特徴を伴っても効率的なスパース更新を行うことのできる局所性敏感なスパース符号化を導入する。 符号化の表現力を検証し、データ共変量シフトの下で効率的なオンライン学習を可能にすることを検証する。 また、Dyna MBRL設定では、我々の世界モデルは、リプレイやその他の連続学習手法で訓練された深層世界のモデルの性能に匹敵するか、あるいは一致した1パスの軌跡データを用いてオンラインに学習したことを示す。

Acquiring an accurate world model online for model-based reinforcement learning (MBRL) is challenging due to data nonstationarity, which typically causes catastrophic forgetting for neural networks (NNs). From the online learning perspective, a Follow-The-Leader (FTL) world model is desirable, which optimally fits all previous experiences at each round. Unfortunately, NN-based models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents. In this paper, we revisit models that can achieve FTL with incremental updates. Specifically, our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments. To best trade off model capacity and computation efficiency, we introduce a locality sensitive sparse encoding, which allows us to conduct efficient sparse updates even with very high dimensional nonlinear features. We validate the representation power of our encoding and verify that it allows efficient online learning under data covariate shift. We also show, in the Dyna MBRL setting, that our world models learned online using a single pass of trajectory data either surpass or match the performance of deep world models trained with replay and other continual learning methods.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# 衛星をエッジに固定する:広範かつ効率的なLEO衛星学習

Stitching Satellites to the Edge: Pervasive and Efficient Federated LEO Satellite Learning ( http://arxiv.org/abs/2401.15541v2 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tie Luo, (参考訳) 宇宙AIの野心的な領域では、連邦学習(FL)と低地球軌道(LEO)の衛星コンステレーションの統合は大きな可能性を秘めている。 しかし、実現可能性、学習効率、収束性の点で多くの課題が続いている。 これらのハードルは通信のボトルネックに起因し、LEO衛星と地上局との間の散発的かつ不規則な接続と、衛星エッジコンピューティング(SEC)の限られた計算能力が特徴である。 本稿では,LEO衛星が大規模機械学習(ML)タスクを効率的に実行できるようにする新しいFL-SECフレームワークを提案する。 主な構成要素は 一 衛星画像の冗長性を識別し排除し、複雑な多クラス分類問題を単純な二分分類に変換して、衛星上のIoT/エッジデバイスに適した軽量MLモデルの迅速かつエネルギー効率のよい訓練を可能にする分割・コンカヤによるパーソナライズドラーニング 二 軌道毎に集約された「軌道モデル」を生成し、地上局に送信する前に再訓練し、必要な通信ラウンドを大幅に削減する軌道モデル再訓練。 我々は、LEO衛星上の限られた計算を忠実に模倣したエッジデバイスであるJetson Nanoと、実際の衛星データセットを用いて実験を行った。 その結果,実画像と高解像度の衛星画像上で軽量MLモデルを動作させるSECの能力が,我々のアプローチの有効性を浮き彫りにした。 我々のアプローチではFL収束時間が30倍近く減少し、衛星のエネルギー消費は1.38ワットまで減少し、例外的な精度は96%まで維持される。

In the ambitious realm of space AI, the integration of federated learning (FL) with low Earth orbit (LEO) satellite constellations holds immense promise. However, many challenges persist in terms of feasibility, learning efficiency, and convergence. These hurdles stem from the bottleneck in communication, characterized by sporadic and irregular connectivity between LEO satellites and ground stations, coupled with the limited computation capability of satellite edge computing (SEC). This paper proposes a novel FL-SEC framework that empowers LEO satellites to execute large-scale machine learning (ML) tasks onboard efficiently. Its key components include i) personalized learning via divide-and-conquer, which identifies and eliminates redundant satellite images and converts complex multi-class classification problems to simple binary classification, enabling rapid and energy-efficient training of lightweight ML models suitable for IoT/edge devices on satellites; ii) orbital model retraining, which generates an aggregated "orbital model" per orbit and retrains it before sending to the ground station, significantly reducing the required communication rounds. We conducted experiments using Jetson Nano, an edge device closely mimicking the limited compute on LEO satellites, and a real satellite dataset. The results underscore the effectiveness of our approach, highlighting SEC's ability to run lightweight ML models on real and high-resolution satellite imagery. Our approach dramatically reduces FL convergence time by nearly 30 times, and satellite energy consumption down to as low as 1.38 watts, all while maintaining an exceptional accuracy of up to 96%.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# LLsM:大規模言語モデルを用いた言語ステレオグラフィ

LLsM: Generative Linguistic Steganography with Large Language Model ( http://arxiv.org/abs/2401.15656v3 )

ライセンス: Link先を確認
Yihao Wang, Ruiqi Song, Ru Zhang, Jianyi Liu, Lingxiao Li, (参考訳) 言語ステガノグラフィー(LS)タスクは、秘密情報に基づいてステガノグラフィーテキスト(ステゴ)を生成することを目的としている。 認証を受けた受取人だけがステゴスの存在を認識でき、秘密を抽出できるため、プライバシーを保護できる。 しかし、既存のLS手法では、スタイル、ジャンル、テーマといった特定の言説を含むステゴの制御可能な生成を考慮していない。 そして、高品質な自然文をシミュレートすることは困難である。 その結果、ステゴは容易に認識され、検出でき、包括的コミュニケーションを損なう。 本稿では,Large Language Model (LLM) を用いた最初のLSであるLLsMを提案する。 オープンソース LLM について,我々は LLM のトークンジェネレータを "ステゴジェネレータ" に再構成し,シークレットに基づいてステゴ生成を制御する。 この「ステゴ発生器」では、候補プールをレンジ符号化により符号化し、間隔長の調整係数も付与する。 シークレットはインターバルを決定し、次のトークンを決定する。 これにより、自然なテキストの分布をシミュレートし、埋め込み率の調整を制御することができる。 さらに,我々はLLsM-cアーキテクチャをクローズドソースLLM向けにプリミティブに構築した。 会話を符号化し、秘密に基づく会話を含む高品質なプロンプトを取得し、会話を含む純粋な自然文を生成する。 LLsMは各種の隠蔽および抗ステガナシスに関して、LSおよび関連タスクベースラインよりも優れた性能を示した。 LLsMのMAUVEは基準線を60%-80%超、ステガナリシスは基準線を20%-30%超えた。 特に、LLsMは高品質で長いステゴを生成でき、その利点は理解と一貫性にある。

Linguistic Steganography (LS) tasks aim to generate steganographic text (stego) based on secret information. Only authorized recipients can perceive the existence of the stegos and extract secrets, thereby preserving privacy. However, existing LS methods do not consider the controllable generation of stegos containing specific discourses such as style, genre, and theme. And they are difficult to simulate high-quality natural texts. As a result, the stegos are easily perceived and detectable, compromising covert communication. This paper proposes the LLsM, the first LS work with the Large Language Model (LLM). Regarding open-source LLMs, we reconstruct the token generator of LLM to the "stego generator" so that it can control the generation of stego based on the secret. In this "stego generator", the candidate pool is encoded by range coding, and the adjustment factor for the interval length is also given. The secret determines the interval, thereby determining the next token. This better simulates the distribution of natural texts and controls the adjustment of the embedding rate. In addition, we preliminarily built an LLsM-c architecture for closed-source LLMs. It encodes discourse to obtain high-quality prompts containing discourse based on secrets, and generates pure natural texts containing discourse. Experiments show that LLsM performs superior to prevalent LS and related-task baselines regarding various kinds of concealment and anti-steganalysis. LLsM's MAUVE surpasses baselines by 60%-80% and anti-steganalysis exceeds baselines by 20%-30%. Notably, LLsM can also generate longer stegos with high quality, showing its advantages in understanding and coherence.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v4 )

ライセンス: Link先を確認
Zhengpeng Xie, (参考訳) PPO (Proximal Policy Optimization) アルゴリズムは多くの分野で優れた性能を示しており、TRPO (Trust Region Policy Optimization) アルゴリズムの単純なバージョンと見なされている。 しかし、PPOの切断操作は必ずしも信頼領域の制約を効果的に強制するわけではないため、アルゴリズムの安定性に影響を与える潜在的な要因となる可能性がある。 本稿では,従来のポリシと現在のポリシのKL分散のための新しいクリッピング手法であるSimple Policy Optimization (SPO)アルゴリズムを提案する。 Atari 2600環境における大規模な実験結果から、SPOはPPOの主流の変種と比較して、より優れたサンプル効率、極めて低いKL分散、より高いポリシーエントロピーを実現し、ネットワークの深さや複雑さの増加に対して堅牢であることが示された。 さらに重要なことに、SPOは制約のない一階法アルゴリズムの単純さを維持している。 コードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで入手できる。

PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm. In this paper, we propose Simple Policy Optimization (SPO) algorithm, which introduces a novel clipping method for KL divergence between the old and current policies. Extensive experimental results in Atari 2600 environments indicate that, compared to the mainstream variants of PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, and is robust to the increase in network depth or complexity. More importantly, SPO maintains the simplicity of an unconstrained first-order algorithm. Code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# マルチモーダル感情分析のための三重対角表現学習

Triple Disentangled Representation Learning for Multimodal Affective Analysis ( http://arxiv.org/abs/2401.16119v2 )

ライセンス: Link先を確認
Ying Zhou, Xuefeng Liang, Han Chen, Yin Zhao, Xin Chen, Lida Yu, (参考訳) マルチモーダル学習は、様々なモーダルの包括的情報、特に相補的情報により、感情分析タスクにおいて大きな優位性を示した。 このように、多くの新しい研究は、入力データからモダリティ不変表現とモダリティ固有表現を切り離し、予測のためにそれらを融合することに焦点を当てている。 しかし,本研究では,モダリティに特有な表現には,タスクとは無関係あるいは矛盾する情報が含まれており,学習されたマルチモーダル表現の有効性を低下させる可能性が示唆された。 本稿では, アンタングル化問題を再検討し, 入力データから, モダリティ不変, 有効モダリティ特化, 不効果的なモダリティ特化表現を非アンタングル化する三重アンタングル化手法TriDiRAを提案する。 TriDiRAは、モダリティ不変かつ効果的なモダリティ特化表現のみを融合することにより、モデルトレーニング中のモダリティ間の無関係かつ矛盾する情報の影響を著しく軽減することができる。 4つのベンチマークデータセットで実施した大規模な実験は、SOTA法より優れている3つの絡み合いの有効性と一般化を実証している。

Multimodal learning has exhibited a significant advantage in affective analysis tasks owing to the comprehensive information of various modalities, particularly the complementary information. Thus, many emerging studies focus on disentangling the modality-invariant and modality-specific representations from input data and then fusing them for prediction. However, our study shows that modality-specific representations may contain information that is irrelevant or conflicting with the tasks, which downgrades the effectiveness of learned multimodal representations. We revisit the disentanglement issue, and propose a novel triple disentanglement approach, TriDiRA, which disentangles the modality-invariant, effective modality-specific and ineffective modality-specific representations from input data. By fusing only the modality-invariant and effective modality-specific representations, TriDiRA can significantly alleviate the impact of irrelevant and conflicting information across modalities during model training. Extensive experiments conducted on four benchmark datasets demonstrate the effectiveness and generalization of our triple disentanglement, which outperforms SOTA methods.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# LM潜在空間のセマンティックス--語彙定義によるアプローチ

On the Semantics of LM Latent Space: A Vocabulary-defined Approach ( http://arxiv.org/abs/2401.16184v4 )

ライセンス: Link先を確認
Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang, (参考訳) 言語モデル(LM)の潜伏した空間を理解することは、その性能と解釈可能性を改善するために不可欠である。 既存の分析は、LMセマンティクスに不整合(モデル中心)な洞察を与え、LM適応の本質的な側面を無視している場合が多い。 この手法は,LMの潜在空間内で参照フレームを確立し,LMの語彙を基盤とした非絡み合った意味解析を確実にする。 我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。 さらに,ロジットを計算し,微分可能性や局所等方性を重視した新しい手法を提案し,LM適応時のデータ表現を意味的に調整するニューラルネットワーク・クラスタリング・モジュールを提案する。 多様なテキスト理解データセットにわたる広範な実験を通じて,本手法は検索強化生成とパラメータ効率の微調整の最先端手法より優れており,その有効性と適用性を示している。 本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を高めるための実用的ソリューションも提供する。

Understanding the latent space of language models (LM) is crucial to refining their performance and interpretability. Existing analyses often fall short in providing disentangled (model-centric) insights into LM semantics, and neglect essential aspects of LM adaptation. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a reference frame within the LM latent space, ensuring disentangled semantic analysis grounded in LM vocabulary. Our approach transcends prior entangled analysis, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasising differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach outperforms state-of-the-art methods of retrieval-augmented generation and parameter-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics, but also offer practical solutions to enhance LM performance and interpretability.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# MESA: すべてをセグメンテーションで一致させる

MESA: Matching Everything by Segmenting Anything ( http://arxiv.org/abs/2401.16741v2 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao, (参考訳) 特徴マッチングは、画像間の対応を見つけることを含むコンピュータビジョンの分野において重要なタスクである。 従来の研究では、学習に基づく特徴比較を用いて顕著な性能を達成している。 しかし、画像間の冗長性の一致が広まれば、これらの手法では不要かつエラーを起こしやすい計算が生まれ、精度に限界が生じる。 この問題に対処するため, 精度の高い領域(あるいは領域)マッチングを実現するための新しい手法であるMESAを提案する。 MESAはまず、画像セグメンテーションの最先端基盤モデルであるSAMの高度な画像理解機能を活用して、暗黙的な意味を持つ画像領域を得る。 次に、これらの領域の空間構造をモデル化し、そのスケール階層を構築するために、マルチリレーショナルグラフを提案する。 このグラフから得られたグラフィカルモデルに基づいて、領域マッチングをエネルギー最小化タスクとして再構成し、効果的に解決する。 大規模な実験により、MESAは屋内および屋外の下流作業における複数の点マーカに対して、例えばDKMのDKMの精度が13.61%向上することを示した。

Feature matching is a crucial task in the field of computer vision, which involves finding correspondences between images. Previous studies achieve remarkable performance using learning-based feature comparison. However, the pervasive presence of matching redundancy between images gives rise to unnecessary and error-prone computations in these methods, imposing limitations on their accuracy. To address this issue, we propose MESA, a novel approach to establish precise area (or region) matches for efficient matching redundancy reduction. MESA first leverages the advanced image understanding capability of SAM, a state-of-the-art foundation model for image segmentation, to obtain image areas with implicit semantic. Then, a multi-relational graph is proposed to model the spatial structure of these areas and construct their scale hierarchy. Based on graphical models derived from the graph, the area matching is reformulated as an energy minimization task and effectively resolved. Extensive experiments demonstrate that MESA yields substantial precision improvement for multiple point matchers in indoor and outdoor downstream tasks, e.g. +13.61% for DKM in indoor pose estimation.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# コントラスト型インコンテキスト学習による言語モデル応答のカスタマイズ

Customizing Language Model Responses with Contrastive In-Context Learning ( http://arxiv.org/abs/2401.17390v2 )

ライセンス: Link先を確認
Xiang Gao, Kamalika Das, (参考訳) 大規模言語モデル(LLM)は、機械学習アプリケーションにとってますます重要になりつつある。 しかし、LSMを私たちの意図に合わせることは困難であり、特に、他人に好まれるコンテンツを生成したい場合や、LCMが説明が難しい特定のスタイルやトーンで応答したい場合などです。 この課題に対処するために、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。 これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。 ネガティブな例はラベル付きデータから、人間によって書かれたり、LLM自体によって生成されたりすることができる。 答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。 この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。 StackExchangeやRedditなど,合成されたデータセットと実世界のデータセットの両方で,私たちのアプローチを試したところ,標準的な数発のプロンプトに比べてパフォーマンスが大幅に向上していることが分かりました。

Large language models (LLMs) are becoming increasingly important for machine learning applications. However, it can be challenging to align LLMs with our intent, particularly when we want to generate content that is preferable over others or when we want the LLM to respond in a certain style or tone that is hard to describe. To address this challenge, we propose an approach that uses contrastive examples to better describe our intent. This involves providing positive examples that illustrate the true intent, along with negative examples that show what characteristics we want LLMs to avoid. The negative examples can be retrieved from labeled data, written by a human, or generated by the LLM itself. Before generating an answer, we ask the model to analyze the examples to teach itself what to avoid. This reasoning step provides the model with the appropriate articulation of the user's need and guides it towards generting a better answer. We tested our approach on both synthesized and real-world datasets, including StackExchange and Reddit, and found that it significantly improves performance compared to standard few-shot prompting
翻訳日:2024-04-10 01:26:28 公開日:2024-04-08
# 空間群制約結晶生成

Space Group Constrained Crystal Generation ( http://arxiv.org/abs/2402.03992v2 )

ライセンス: Link先を確認
Rui Jiao, Wenbing Huang, Yu Liu, Deli Zhao, Yang Liu, (参考訳) 結晶は、多くの科学や工業の応用の基礎である。 結晶生成に様々な学習ベースのアプローチが提案されているが、既存の手法では結晶の幾何学を記述する上で重要な空間群制約を考慮せず、多くの望ましい性質に密接に関連している。 しかし、空間群制約を考えることは、その多様かつ非自明な形式のために困難である。 本稿では,空間群制約を,生成プロセスに手作業で組み込むことが可能な等価な定式化に還元する。 特に、空間群制約を格子行列の不変対数空間の基底制約と分数座標のワイコフ位置制約の2つの部分に変換する。 導出制約に基づき、空間群制約をさらに考慮し、従来のDiffCSPを拡張した新しい拡散モデルDiffCSP++を提案する。 いくつかの一般的なデータセットの実験は、空間群制約の関与の利点を検証し、我々のDiffCSP++が、結晶構造予測、ab初期結晶生成、およびカスタマイズされた空間群による制御可能な生成において有望な性能を達成することを示す。

Crystals are the foundation of numerous scientific and industrial applications. While various learning-based approaches have been proposed for crystal generation, existing methods seldom consider the space group constraint which is crucial in describing the geometry of crystals and closely relevant to many desirable properties. However, considering space group constraint is challenging owing to its diverse and nontrivial forms. In this paper, we reduce the space group constraint into an equivalent formulation that is more tractable to be handcrafted into the generation process. In particular, we translate the space group constraint into two parts: the basis constraint of the invariant logarithmic space of the lattice matrix and the Wyckoff position constraint of the fractional coordinates. Upon the derived constraints, we then propose DiffCSP++, a novel diffusion model that has enhanced a previous work DiffCSP by further taking space group constraint into account. Experiments on several popular datasets verify the benefit of the involvement of the space group constraint, and show that our DiffCSP++ achieves promising performance on crystal structure prediction, ab initio crystal generation and controllable generation with customized space groups.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-08
# 対人ロボットインタラクションのための社会運動予測に基づくロボットインタラクション行動生成

Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction ( http://arxiv.org/abs/2402.04768v2 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Yashuai Yan, Dongheui Lee, (参考訳) ロボットを人口の多い環境に統合することは、人間の社会的ダイナミクスを理解する必要がある複雑な課題である。 本研究では,ロボットの動作訓練においてロボットを観察することなく,人間と対話するロボットの動きを合成し,共有ロボット表現空間における社会的動き予測をモデル化することを提案する。 社会シナリオで遭遇したエージェントの将来の動きを予測するために,前述の共有空間で動作するECHOと呼ばれるトランスフォーマーベースのアーキテクチャを開発した。 先行研究とは対照的に,社会運動問題を周囲のエージェントに基づいて予測された個々の動作の洗練として再構成し,一人の人間だけが現場にいる場合の単一動作予測を可能にしながら,トレーニングを容易にする。 我々は,多対人動作予測タスクにおけるモデルの評価を行い,実時間での効率と性能を両立させながら,最先端の性能を高いマージンで獲得する。 さらに,本研究の定性的な結果から,テキストコマンドで制御可能な人間とロボットのインタラクション行動を生成する方法の有効性が示された。 Webページ: https://evm7.github.io/ECHO/

Integrating robots into populated environments is a complex challenge that requires an understanding of human social dynamics. In this work, we propose to model social motion forecasting in a shared human-robot representation space, which facilitates us to synthesize robot motions that interact with humans in social scenarios despite not observing any robot in the motion training. We develop a transformer-based architecture called ECHO, which operates in the aforementioned shared space to predict the future motions of the agents encountered in social scenarios. Contrary to prior works, we reformulate the social motion problem as the refinement of the predicted individual motions based on the surrounding agents, which facilitates the training while allowing for single-motion forecasting when only one human is in the scene. We evaluate our model in multi-person and human-robot motion forecasting tasks and obtain state-of-the-art performance by a large margin while being efficient and performing in real-time. Additionally, our qualitative results showcase the effectiveness of our approach in generating human-robot interaction behaviors that can be controlled via text commands. Webpage: https://evm7.github.io/ECHO/
翻訳日:2024-04-10 01:16:32 公開日:2024-04-08
# LLMを併用したゼロショット臨床試験

Zero-Shot Clinical Trial Patient Matching with LLMs ( http://arxiv.org/abs/2402.05125v2 )

ライセンス: Link先を確認
Michael Wornow, Alejandro Lozano, Dev Dash, Jenelle Jindal, Kenneth W. Mahaffey, Nigam H. Shah, (参考訳) 患者を臨床試験に合わせることは、新しい薬を市場に出す上で、未解決の課題だ。 今日では、臨床試験の適格基準を満たす患者を特定することは非常に手作業であり、患者1人につき最大1時間かかる。 しかし、構造化されていない臨床テキストを理解する必要があるため、自動スクリーニングは難しい。 大規模言語モデル(LLM)は有望なソリューションを提供する。 本研究では,その試行錯誤への応用について検討する。 まず,患者の病歴を構造化されていない臨床テキストとして考慮し,その患者が包括的基準(フリーテキストとしても指定されている)を満たしているかどうかを評価する。 我々のゼロショットシステムは、n2c2 2018コホート選択ベンチマークで最先端のスコアを達成します。 第2に,本手法のデータとコスト効率を,患者に比較して,より高速かつ安価に整合するプロンプト戦略を同定し,高い性能を維持しつつ,最大3分の1のトークン処理量を削減できる2段階の検索パイプラインを開発した。 第3に, 臨床医にLLMが生成した自然言語の正当性を評価し, 正しい判断の97%, 正しくない判断の75%のコヒーレントな説明を出力できることを示す。 本研究は,臨床治験を加速するためのLSMの有用性を実証するものである。

Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market. Today, identifying patients who meet a trial's eligibility criteria is highly manual, taking up to 1 hour per patient. Automated screening is challenging, however, as it requires understanding unstructured clinical text. Large language models (LLMs) offer a promising solution. In this work, we explore their application to trial matching. First, we design an LLM-based system which, given a patient's medical history as unstructured clinical text, evaluates whether that patient meets a set of inclusion criteria (also specified as free text). Our zero-shot system achieves state-of-the-art scores on the n2c2 2018 cohort selection benchmark. Second, we improve the data and cost efficiency of our method by identifying a prompting strategy which matches patients an order of magnitude faster and more cheaply than the status quo, and develop a two-stage retrieval pipeline that reduces the number of tokens processed by up to a third while retaining high performance. Third, we evaluate the interpretability of our system by having clinicians evaluate the natural language justifications generated by the LLM for each eligibility decision, and show that it can output coherent explanations for 97% of its correct decisions and 75% of its incorrect ones. Our results establish the feasibility of using LLMs to accelerate clinical trial operations.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-08
# UAV-Rain1k:UAV航空画像からの雨滴除去ベンチマーク

UAV-Rain1k: A Benchmark for Raindrop Removal from UAV Aerial Imagery ( http://arxiv.org/abs/2402.05773v2 )

ライセンス: Link先を確認
Wenhui Chang, Hongming Chen, Xin He, Xiang Chen, Liangduo Shen, (参考訳) UAVのレンズに付着した雨滴は、背景の視認性を阻害し、画質を低下させる。 画像のデライン化手法やデータセットの最近の進歩にもかかわらず、ドローン飛行中に様々な角度や急速移動によって生じる固有の課題により、UAVの空中画像からの雨滴除去に焦点が当てられていない。 この研究のギャップを埋めるために、UAV-Rain1kと呼ばれるUAV画像から雨滴を除去する新しいベンチマークデータセットを構築した。 本稿では,Blenderを用いた雨滴形状のモデル化,UAVアングルからの背景画像の収集,レインマスクのランダムサンプリングなどを含むデータセット生成パイプラインを提案する。 提案したベンチマークに基づいて,既存の代表画像デクリニングアルゴリズムの総合的な評価を行い,今後の研究の機会を明らかにする。 提案されたデータセットはhttps://github.com/cschenxiang/UAV-Rain1kで公開されている。

Raindrops adhering to the lens of UAVs can obstruct visibility of the background scene and degrade image quality. Despite recent progress in image deraining methods and datasets, there is a lack of focus on raindrop removal from UAV aerial imagery due to the unique challenges posed by varying angles and rapid movement during drone flight. To fill the gap in this research, we first construct a new benchmark dataset for removing raindrops from UAV images, called UAV-Rain1k. In this letter, we provide a dataset generation pipeline, which includes modeling raindrop shapes using Blender, collecting background images from various UAV angles, random sampling of rain masks and etc. Based on the proposed benchmark, we further present a comprehensive evaluation of existing representative image deraining algorithms, and reveal future research opportunities worth exploring. The proposed dataset is publicly available at https://github.com/cschenxiang/UAV-Rain1k.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-08
# InstaGen: 合成データセットのトレーニングによるオブジェクト検出の強化

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset ( http://arxiv.org/abs/2402.05937v3 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma, (参考訳) 本稿では,拡散モデルから生成された合成データセットをトレーニングすることにより,オブジェクト検出,例えば,カテゴリの拡大,検出性能の向上といった新たなパラダイムを提案する。 具体的には、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。 接地ヘッドは、圏名のテキスト埋め込みと拡散モデルの局所的な視覚的特徴を一致させるように訓練され、既製の物体検出器の監督と、検出器がカバーしていない(ノーベル)カテゴリーの新たな自己学習スキームが使用される。 InstaGenと呼ばれるこの拡散モデルの強化バージョンは、データシンセサイザーとして機能し、生成したサンプルをトレーニングすることでオブジェクト検出器を強化し、オープンボキャブラリ(+4.5 AP)およびデータスパース(+1.2から5.2 AP)シナリオにおける既存の最先端手法よりも優れた性能を示す。 コード付きプロジェクトページ: https://fcjian.github.io/InstaGen。

In this paper, we present a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. We conduct thorough experiments to show that, this enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer, to enhance object detectors by training on its generated samples, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios. Project page with code: https://fcjian.github.io/InstaGen.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-08
# 単一視点からの実世界の点雲のベンチマークグルーシーデータセット

A Benchmark Grocery Dataset of Realworld Point Clouds From Single View ( http://arxiv.org/abs/2402.07819v2 )

ライセンス: Link先を確認
Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi, Yufan Wang, Chandra Kambhamettu, (参考訳) 微細な食料品の物体認識は、自動チェックアウト、店内ロボットナビゲーション、視覚障害者のための補助技術など幅広い用途において重要なコンピュータビジョン問題である。 既存の食料品のデータセットは主に2D画像である。 これらのデータセットでトレーニングされたモデルは、通常の2Dグリッドからの学習機能に限られる。 Kinectのようなポータブルな3Dセンサーは携帯電話で一般的に利用されていたが、LiDARやTrueDepthのようなセンサーは携帯電話に最近統合されている。 モバイル3Dセンサーが利用可能であるにもかかわらず、現在、食料品用の大規模な3Dデータセット専用のリアルタイムベンチマークは存在しない。 さらに、既存の3Dデータセットには詳細な食料品カテゴリがなく、限られたトレーニングサンプルがある。 さらに、オブジェクトと従来の写真キャプチャーでデータを収集することは、データの収集を煩雑にする。 そこで,我々は3DGrocery100という大規模食料品データセットを導入した。 100のクラスを構成し、合計87,898個の3Dポイントクラウドが10,755枚のRGB-D画像から作成されている。 最近の6つの最先端の3Dポイントクラウド分類モデルにデータセットをベンチマークする。 さらに、いくつかのショットと連続的な学習ポイントクラウド分類タスクでデータセットをベンチマークします。 Project Page: https://bigdatavision.org/3DGrocery100/.com

Fine-grained grocery object recognition is an important computer vision problem with broad applications in automatic checkout, in-store robotic navigation, and assistive technologies for the visually impaired. Existing datasets on groceries are mainly 2D images. Models trained on these datasets are limited to learning features from the regular 2D grids. While portable 3D sensors such as Kinect were commonly available for mobile phones, sensors such as LiDAR and TrueDepth, have recently been integrated into mobile phones. Despite the availability of mobile 3D sensors, there are currently no dedicated real-world large-scale benchmark 3D datasets for grocery. In addition, existing 3D datasets lack fine-grained grocery categories and have limited training samples. Furthermore, collecting data by going around the object versus the traditional photo capture makes data collection cumbersome. Thus, we introduce a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes, with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view images. We benchmark our dataset on six recent state-of-the-art 3D point cloud classification models. Additionally, we also benchmark the dataset on few-shot and continual learning point cloud classification tasks. Project Page: https://bigdatavision.org/3DGrocery100/.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# IRS支援ISACシステムのディープラーニングに基づくチャネル推定

Deep-Learning-Based Channel Estimation for IRS-Assisted ISAC System ( http://arxiv.org/abs/2402.09439v2 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, Fanggang Wang, (参考訳) 統合センシング・通信(ISAC)とインテリジェント反射面(IRS)は,次世代無線ネットワークにおいて有望な技術であると考えられる。 IRS支援ISACシステムにおけるチャネル推定問題について検討する。 このようなシステムにおけるセンシング・通信(S&C)チャネルを推定するために,ディープラーニングフレームワークを提案する。 S&Cチャネルの異なる伝搬環境を考慮すると、このフレームワークを実現するために、2つのディープニューラルネットワーク(DNN)アーキテクチャが設計されている。 第1のDNNはISAC基地局で検知チャネルを推定するために考案され、第2のDNNアーキテクチャは通信チャネルを推定するために各ダウンリンクユーザ機器に割り当てられる。 さらに、DNNを訓練する入出力ペアを慎重に設計する。 シミュレーションの結果,様々な信号対雑音比条件とシステムパラメータのベンチマーク手法と比較して,提案手法の優位性を示した。

Integrated sensing and communication (ISAC) and intelligent reflecting surface (IRS) are viewed as promising technologies for future generations of wireless networks. This paper investigates the channel estimation problem in an IRS-assisted ISAC system. A deep-learning framework is proposed to estimate the sensing and communication (S&C) channels in such a system. Considering different propagation environments of the S&C channels, two deep neural network (DNN) architectures are designed to realize this framework. The first DNN is devised at the ISAC base station for estimating the sensing channel, while the second DNN architecture is assigned to each downlink user equipment to estimate its communication channel. Moreover, the input-output pairs to train the DNNs are carefully designed. Simulation results show the superiority of the proposed estimation approach compared to the benchmark scheme under various signal-to-noise ratio conditions and system parameters.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# IRS支援多ユーザISACシステムにおける極端学習機械によるチャネル推定

Extreme Learning Machine-based Channel Estimation in IRS-Assisted Multi-User ISAC System ( http://arxiv.org/abs/2402.09440v2 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, Fanggang Wang, Hyundong Shin, (参考訳) 近年,高スペクトル・エネルギー効率の伝送を実現するために,インテリジェント反射面(IRS)を利用したマルチユーザ統合センシング・通信(ISAC)が研究されている。 本稿では、IRS支援マルチユーザISACシステムに対して、初めて実用的なチャネル推定手法を提案する。 このようなシステムにおける推定問題は、検知通信(SAC)信号が互いに干渉し合い、受動IRSは信号処理能力に欠けるため困難である。 直接および反射チャネル推定を含む2段階の手法により、全体推定問題をサブ1に移行する。 このスキームに基づいて、ISACベースステーション(BS)は、ターゲットおよびアップリンクユーザに関連するすべてのSACチャネルを推定し、ダウンリンクユーザは、ダウンリンク通信チャネルを個別に推定する。 提案手法は,ISAC BSとダウンリンク利用者の低コストな需要を考慮し,上記SACチャネルを推定するために,2つの異なるエクストリーム機械学習マシン(ELM)構造を含む,効率的なニューラルネットワーク(NN)フレームワークによって実現されている。 さらに、EMMを訓練する2種類の入出力ペアを慎重に設計し、異なるシステムパラメータの予測精度と計算複雑性に影響を与える。 シミュレーションの結果、最小二乗およびNNベースのベンチマークに対して提案したEMMベースのアプローチにより、トレーニングの複雑さを低減し、より高速なトレーニング速度で、大幅なパフォーマンス向上が達成された。

Multi-user integrated sensing and communication (ISAC) assisted by intelligent reflecting surface (IRS) has been recently investigated to provide a high spectral and energy efficiency transmission. This paper proposes a practical channel estimation approach for the first time to an IRS-assisted multiuser ISAC system. The estimation problem in such a system is challenging since the sensing and communication (SAC) signals interfere with each other, and the passive IRS lacks signal processing ability. A two-stage approach is proposed to transfer the overall estimation problem into sub-ones, successively including the direct and reflected channels estimation. Based on this scheme, the ISAC base station (BS) estimates all the SAC channels associated with the target and uplink users, while each downlink user estimates the downlink communication channels individually. Considering a low-cost demand of the ISAC BS and downlink users, the proposed two-stage approach is realized by an efficient neural network (NN) framework that contains two different extreme learning machine (ELM) structures to estimate the above SAC channels. Moreover, two types of input-output pairs to train the ELMs are carefully devised, which impact the estimation accuracy and computational complexity under different system parameters. Simulation results reveal a substantial performance improvement achieved by the proposed ELM-based approach over the least-squares and NN-based benchmarks, with reduced training complexity and faster training speed.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# IRSを用いた統合センシング・通信システムのディープラーニングチャネル推定

Deep-Learning Channel Estimation for IRS-Assisted Integrated Sensing and Communication System ( http://arxiv.org/abs/2402.09441v2 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, Fanggang Wang, (参考訳) 統合センシング・通信(ISAC)とインテリジェント反射面(IRS)は、次世代無線システムのスペクトルおよびエネルギー効率を高める革命的技術として構想されている。 本稿では,IRS支援ISACシステムにおけるチャネル推定問題に着目する。 この問題は、受動IRSにおける信号処理能力の欠如と、ISACシステムにおけるセンシングと通信(SAC)信号間の相互干渉の存在により困難である。 第1段階での直接SACチャネルの推定,第2段の反射通信チャネル,第3段の反射検知チャネルなど,推定問題をサブ1に分離する3段階のアプローチを提案する。 提案する3段階のアプローチは,2つの異なる畳み込みニューラルネットワーク(CNN)アーキテクチャを備えたディープラーニングフレームワークに基づいて,全二重ISAC基地局のチャネルを推定する。 さらに、CNNを訓練するための2種類の入出力ペアを慎重に設計し、様々な信号対雑音比条件とシステムパラメータによる推定性能に影響を与える。 シミュレーションの結果,最小二乗法に比べ,提案手法の優位性を検証し,計算複雑性も解析した。

Integrated sensing and communication (ISAC), and intelligent reflecting surface (IRS) are envisioned as revolutionary technologies to enhance spectral and energy efficiencies for next wireless system generations. For the first time, this paper focuses on the channel estimation problem in an IRS-assisted ISAC system. This problem is challenging due to the lack of signal processing capacity in passive IRS, as well as the presence of mutual interference between sensing and communication (SAC) signals in ISAC systems. A three-stage approach is proposed to decouple the estimation problem into sub-ones, including the estimation of the direct SAC channels in the first stage, reflected communication channel in the second stage, and reflected sensing channel in the third stage. The proposed three-stage approach is based on a deep-learning framework, which involves two different convolutional neural network (CNN) architectures to estimate the channels at the full-duplex ISAC base station. Furthermore, two types of input-output pairs to train the CNNs are carefully designed, which affect the estimation performance under various signal-to-noise ratio conditions and system parameters. Simulation results validate the superiority of the proposed estimation approach compared to the least-squares baseline scheme, and its computational complexity is also analyzed.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# リカレントニューラルネットワークにおけるワーキングメモリ変数に結合する隠れトラベル波

Hidden Traveling Waves bind Working Memory Variables in Recurrent Neural Networks ( http://arxiv.org/abs/2402.10163v3 )

ライセンス: Link先を確認
Arjun Karuvally, Terrence J. Sejnowski, Hava T. Siegelmann, (参考訳) トラベル波は脳の基本的な現象であり、短期的な情報保存において重要な役割を果たす。 本研究では、ニューラルネットワーク内の進行波動力学の概念を活用し、ニューラルネットワークの動作記憶の理論モデルを構築し、その特性とそのAIにおける実世界への影響について研究する。 提案手法は,静的なレジスタのような位置にある情報記憶を干渉によって更新する従来の手法と異なる。 代わりに、モデルは、波の境界条件によって更新される波としてデータを格納する。 我々は,歴史に依存した力学系を学習する上で不可欠な状態履歴の表現と学習におけるモデルの能力について,厳密に検討する。 その結果, モデルが外部情報を確実に保存し, 勾配の減少に対処して学習プロセスを強化することが判明した。 モデルの現実的適用性を理解するために,線形境界条件 (LBC) と非線形自己注意駆動境界条件 (SBC) の2つの事例を探索する。 線形境界条件を持つモデルは、現在 H3 状態空間 RNN で使われているシフト行列とローランク行列をもたらす。 さらに,LBCを用いた実験により,この行列は履歴依存力学系をモデル化する際のバックプロパゲーションを通じて,リカレントニューラルネットワーク(RNN)によって効果的に学習されることが判明した。 逆に、SBCは、注目のみの変圧器の自己回帰ループと、波状基板を表すコンテキストベクトルとを並列化する。 我々の発見は、AIにおける走行波のより広い関係と、ニューラルネットワークアーキテクチャの進歩の可能性を示している。

Traveling waves are a fundamental phenomenon in the brain, playing a crucial role in short-term information storage. In this study, we leverage the concept of traveling wave dynamics within a neural lattice to formulate a theoretical model of neural working memory, study its properties, and its real world implications in AI. The proposed model diverges from traditional approaches, which assume information storage in static, register-like locations updated by interference. Instead, the model stores data as waves that is updated by the wave's boundary conditions. We rigorously examine the model's capabilities in representing and learning state histories, which are vital for learning history-dependent dynamical systems. The findings reveal that the model reliably stores external information and enhances the learning process by addressing the diminishing gradient problem. To understand the model's real-world applicability, we explore two cases: linear boundary condition (LBC) and non-linear, self-attention-driven boundary condition (SBC). The model with the linear boundary condition results in a shift matrix plus low-rank matrix currently used in H3 state space RNN. Further, our experiments with LBC reveal that this matrix is effectively learned by Recurrent Neural Networks (RNNs) through backpropagation when modeling history-dependent dynamical systems. Conversely, the SBC parallels the autoregressive loop of an attention-only transformer with the context vector representing the wave substrate. Collectively, our findings suggest the broader relevance of traveling waves in AI and its potential in advancing neural network architectures.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# RLHFにおける情報構造の再考:グラフ理論の観点からの逆一般化

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective ( http://arxiv.org/abs/2402.10184v4 )

ライセンス: Link先を確認
Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang, (参考訳) ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。 報奨モデルにおけるデータセット情報構造の設計を通じて、このような不整合性を緩和し、大きな言語モデル(LLM)上で有効な予測を生成できる報奨一般化の第一理論である誘導ベイズネットワーク(IBN)を導入する。 具体的には、まずRLHFプロセスを再検討し、テキスト分布上の自動符号化プロセスとして表現する理論的枠組みを提案する。 我々のフレームワークは、人間の嗜好とLLM行動の分布整合性を確保するというRLHFの目的を定式化する。 そして、この枠組みに基づいて、RLHFの報酬モデリング段階における一般化を解析するためにISNを導入する。 ランダムグラフ理論と因果解析から引き出されたこの理論は、古典的な一般化理論よりも重要な改良である一般化誤差境界の実験的に基礎付けられた導出を可能にする。 最後に,本分析から得られた知見は,従来のRLHF法と比較して,報奨モデルにおける木に基づく情報構造の優位性である。 IBNでは、木構造的嗜好データセットに基づいてトレーニングされた木に基づく報酬モデル(RM)が、ベースラインよりも分散度が低い$\Theta(\log n/\log\log n)$を誘導し、データセットサイズが$n$となる。 検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。 データセット情報構造の設計により、他の変更を必要とせずにアライメント性能を無償で取得できることが示されている。

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. We mitigate such incompatibility through the design of dataset information structures during reward modeling, and introduce the Induced Bayesian Network (IBN), the first theory of reward generalization capable of generating substantial verified predictions on large language models (LLMs). Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and LLM behavior. Then, based on this framework, we introduce the IBN to analyze generalization in the reward modeling stage of RLHF. Drawing from random graph theory and causal analysis, it enables empirically grounded derivation of generalization error bounds, a key improvement over classical theories of generalization. Finally, an insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. With IBN, we derive that in complex contexts with limited data, the tree-based reward model (RM), trained on a tree-structured preference dataset, induces up to $\Theta(\log n/\log\log n)$ times less variance than the baseline, where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. It shows that alignment performance can be gained for free via the design of dataset information structure, without the need for any other changes.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# 量子比

The Quantum Ratio ( http://arxiv.org/abs/2402.10702v2 )

ライセンス: Link先を確認
Hans-Thomas Elze, Kenichi Konishi, (参考訳) 量子比の概念は、量子力学方程式への最初の近似として、ニュートン方程式が有限体温度で孤立したマクロな天体の質量(CM)の中心にどのように現れるかを理解するための最近の試みに現れた。 Q\equiv R_q/L_0$ と定義され、量子揺らぎ範囲 $R_q$ は純粋状態CM波動関数の空間拡張であるのに対し、L_0$ は内部の有界波動関数の空間サポートである。 R_q/L_0 \lesssim 1$ または $R_q/L_0 \gg 1$ の2つのケースは、それぞれ、古典的または量子力学的に身体のCMの振る舞いに対応する。 本項では、この概念について詳しく述べ、いくつかの例を挙げる。 量子比の導入による重要な概念は、素粒子(電子と光子)が量子力学的であり、環境によって引き起こされたデコヒーレンスによって混合状態に変わったとしてもである。 デコヒーレンスと古典国家は特定してはならない。 この単純な観察は、原子や分子の過程を考えることでさらに説明され、生物学的システムにおける量子力学の働きに重大な影響を及ぼす可能性がある。

The concept of {\it quantum ratio} emerged in the recent efforts to understand how Newton's equations appear for the center of mass (CM) of an isolated macroscopic body at finite body-temperatures, as the first approximation to quantum-mechanical equations. It is defined as $Q\equiv R_q/L_0$, where the quantum fluctuation range $R_q$ is the spatial extension of the pure-state CM wave function, whereas $L_0$ stands for the body's linear size (the space support of the internal, bound-state wave function). The two cases $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, roughly correspond to the body's CM behaving classically or quantum mechanically, respectively. In the present note we elaborate more on this concept, illustrating it in several examples. An important notion following from introduction of the quantum ratio is that the elementary particles (thus the electron and the photon) are quantum mechanical, even when the environment-induced decoherence turns them into a mixed state. Decoherence and classical state should not be identified. This simple observation, further illustrated by the consideration of a few atomic or molecular processes, may have significant implications on the way quantum mechanics works in biological systems.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# 大規模言語モデルによるスクラッチからウィキペディア的な記事を書く支援

Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models ( http://arxiv.org/abs/2402.14207v2 )

ライセンス: Link先を確認
Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam, (参考訳) 我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。 この未調査の問題は、トピックを調査し、記事を書く前にアウトラインを準備する方法を含む、事前記述の段階で新たな課題を引き起こします。 本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。 STORM は,(1) 対象トピックの研究における多様な視点の発見,(2) 信頼されたインターネットソースを基盤としたトピックエキスパートに異なる視点の著者が質問を行う会話のシミュレート,(3) 収集した情報をキュレートしてアウトラインを作成することによって,事前記述段階をモデル化する。 評価のために、最近の高品質ウィキペディア記事のデータセットであるFreshWikiをキュレートし、事前作成段階を評価するためのアウトラインアセスメントを定式化する。 経験豊富なウィキペディア編集者からのフィードバックも集める。 アウトライン駆動の検索強化ベースラインで生成された記事と比較して、STORMの記事は(25%の絶対的な増加によって)組織化され、カバー範囲が広くなり(10%)、より広くなっています。 専門家のフィードバックは、ソースバイアス転送や非関連事実の過剰関連など、根拠のない長い記事を生成する上での新たな課題の特定にも役立ちます。

We study how to apply large language models to write grounded and organized long-form articles from scratch, with comparable breadth and depth to Wikipedia pages. This underexplored problem poses new challenges at the pre-writing stage, including how to research the topic and prepare an outline prior to writing. We propose STORM, a writing system for the Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking. STORM models the pre-writing stage by (1) discovering diverse perspectives in researching the given topic, (2) simulating conversations where writers carrying different perspectives pose questions to a topic expert grounded on trusted Internet sources, (3) curating the collected information to create an outline. For evaluation, we curate FreshWiki, a dataset of recent high-quality Wikipedia articles, and formulate outline assessments to evaluate the pre-writing stage. We further gather feedback from experienced Wikipedia editors. Compared to articles generated by an outline-driven retrieval-augmented baseline, more of STORM's articles are deemed to be organized (by a 25% absolute increase) and broad in coverage (by 10%). The expert feedback also helps identify new challenges for generating grounded long articles, such as source bias transfer and over-association of unrelated facts.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# IEPile: 大規模スキーマベースの情報抽出コーパス

IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus ( http://arxiv.org/abs/2402.14710v2 )

ライセンス: Link先を確認
Honghao Gui, Lin Yuan, Hongbin Ye, Ningyu Zhang, Mengshu Sun, Lei Liang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)は、様々な領域において顕著なポテンシャルを示すが、情報抽出(IE)において顕著な性能差を示す。 現在のIEデータセットは、スケールが小さく、断片化され、標準化されたスキーマが欠如している。 この目的のために、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスであるIEPileを紹介する。 我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。 LLaMA, Baichuan, Qwen の実験結果から, IEPile を用いた IE 用 LLM の性能, 特にゼロショットの一般化が向上することを示した。 NLPコミュニティに貴重なサポートを提供したいと思っています。

Large Language Models (LLMs) demonstrate remarkable potential across various domains; however, they exhibit a significant performance gap in Information Extraction (IE). Note that high-quality instruction data is the vital key for enhancing the specific capabilities of LLMs, while current IE datasets tend to be small in scale, fragmented, and lack standardized schema. To this end, we introduce IEPile, a comprehensive bilingual (English and Chinese) IE instruction corpus, which contains approximately 0.32B tokens. We construct IEPile by collecting and cleaning 33 existing IE datasets, and introduce schema-based instruction generation to unearth a large-scale corpus. Experimental results on LLaMA, Baichuan and Qwen demonstrate that using IEPile can enhance the performance of LLMs for IE, especially the zero-shot generalization. We open-source the resource and pre-trained models, hoping to provide valuable support to the NLP community.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-08
# 自動入札のための軌道対応反復強化学習フレームワーク

Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding ( http://arxiv.org/abs/2402.15102v2 )

ライセンス: Link先を確認
Haoming Li, Yusen Huo, Shuai Dou, Zhenzhe Zheng, Zhilin Zhang, Chuan Yu, Jian Xu, Fan Wu, (参考訳) オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。 現在の自動入札アルゴリズムは典型的には強化学習(RL)を用いる。 しかし、安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションで訓練されており、オンライン環境にデプロイすると性能が低下する。 このギャップを狭めるために、複数の自動入札エージェントを並行してデプロイして、大きなインタラクションデータセットを収集できる。 オフラインのRLアルゴリズムを使用して、新しいポリシーをトレーニングすることができる。 トレーニングされたポリシはその後,さらなるデータ収集のためにデプロイされるため,反復的オフラインRLと呼ばれる反復的トレーニングフレームワークが生成される。 本研究では、この反復的オフラインRLフレームワークの性能ボトルネックを特定する。これは、オフラインRLアルゴリズムの固有の保守性に起因する非効率な探索とエクスプロイトから生じるものである。 本稿では,このボトルネックを克服するために,トラジェクティブ・ワイド・エクスプロレーション(TEE)を提案する。 さらに、TEEのデータセット品質を維持しつつ、オンライン探索の安全性を確保するために、適応行動選択による安全な探索(SEAS)を提案する。 Alibabaのディスプレイ広告プラットフォームにおけるオフライン実験と実世界の実験の両方が、提案手法の有効性を実証している。

In online advertising, advertisers participate in ad auctions to acquire ad opportunities, often by utilizing auto-bidding tools provided by demand-side platforms (DSPs). The current auto-bidding algorithms typically employ reinforcement learning (RL). However, due to safety concerns, most RL-based auto-bidding policies are trained in simulation, leading to a performance degradation when deployed in online environments. To narrow this gap, we can deploy multiple auto-bidding agents in parallel to collect a large interaction dataset. Offline RL algorithms can then be utilized to train a new policy. The trained policy can subsequently be deployed for further data collection, resulting in an iterative training framework, which we refer to as iterative offline RL. In this work, we identify the performance bottleneck of this iterative offline RL framework, which originates from the ineffective exploration and exploitation caused by the inherent conservatism of offline RL algorithms. To overcome this bottleneck, we propose Trajectory-wise Exploration and Exploitation (TEE), which introduces a novel data collecting and data utilization method for iterative offline RL from a trajectory perspective. Furthermore, to ensure the safety of online exploration while preserving the dataset quality for TEE, we propose Safe Exploration by Adaptive Action Selection (SEAS). Both offline experiments and real-world experiments on Alibaba display advertising platform demonstrate the effectiveness of our proposed method.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-08
# 線形関数近似を用いたオフライン多段階TD学習の解析

Analysis of Off-Policy Multi-Step TD-Learning with Linear Function Approximation ( http://arxiv.org/abs/2402.15781v2 )

ライセンス: Link先を確認
Donghwan Lee, (参考訳) 本稿では, 線形関数近似, オフ政治学習, ブートストラップを特徴とする, 多段階のTD学習アルゴリズムを 'deadly triad' シナリオで解析する。 特に,n段階のTD学習アルゴリズムが,サンプリング地平線nが十分に増加するにつれて解に収束することを証明する。 その紙は2つに分かれている。 第一部では、予測値反復、勾配降下アルゴリズム、制御理論アプローチなど、モデルに基づく決定論的アルゴリズムの基本的特性を総合的に検討し、モデルフリー強化学習アルゴリズムの理解と開発において重要な役割を担っている原型決定論的アルゴリズムとみなすことができる。 特に、これらのアルゴリズムが n が十分に大きいときに有意義な解に収束することが証明される。 これらの結果に基づき、2つのn段階のTD学習アルゴリズムが提案され分析され、このアルゴリズムは勾配と制御理論のモデルなし強化学習アルゴリズムと見なすことができる。

This paper analyzes multi-step TD-learning algorithms within the `deadly triad' scenario, characterized by linear function approximation, off-policy learning, and bootstrapping. In particular, we prove that n-step TD-learning algorithms converge to a solution as the sampling horizon n increases sufficiently. The paper is divided into two parts. In the first part, we comprehensively examine the fundamental properties of their model-based deterministic counterparts, including projected value iteration, gradient descent algorithms, and the control theoretic approach, which can be viewed as prototype deterministic algorithms whose analysis plays a pivotal role in understanding and developing their model-free reinforcement learning counterparts. In particular, we prove that these algorithms converge to meaningful solutions when n is sufficiently large. Based on these findings, two n-step TD-learning algorithms are proposed and analyzed, which can be seen as the model-free reinforcement learning counterparts of the gradient and control theoretic algorithms.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-08
# クロスドメイン中国語文パターン解析

Cross-domain Chinese Sentence Pattern Parsing ( http://arxiv.org/abs/2402.16311v3 )

ライセンス: Link先を確認
Jingsi Yu, Cunliang Kong, Liner Yang, Meishan Zhang, Lin Zhu, Yujie Wang, Haozhe Lin, Maosong Sun, Erhong Yang, (参考訳) SPS構文解析(Sentence Pattern Structure, SPS)は、主に言語教育に使用される構文解析手法であり、既存のSPS構文解析は、学習のための教科書コーパスに大きく依存し、クロスドメイン能力の欠如を克服するため、自己学習フレームワークにおける大規模言語モデル(LLM)を活用する革新的なアプローチを提案する。 ソースドメインからの部分構文ルールを対象ドメイン文と組み合わせ、動的にトレーニングデータを生成し、多様なドメインへのパーサの適応性を高め、教科書やニュースドメインで実施した実験により、F1メトリクスのルールベースラインを1.68ポイント上回る、提案手法の有効性を実証した。

Sentence Pattern Structure (SPS) parsing is a syntactic analysis method primarily employed in language teaching.Existing SPS parsers rely heavily on textbook corpora for training, lacking cross-domain capability.To overcome this constraint, this paper proposes an innovative approach leveraging large language models (LLMs) within a self-training framework. Partial syntactic rules from a source domain are combined with target domain sentences to dynamically generate training data, enhancing the adaptability of the parser to diverse domains.Experiments conducted on textbook and news domains demonstrate the effectiveness of the proposed method, outperforming rule-based baselines by 1.68 points on F1 metrics.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-08
# FaaF: 生成されたテキストの評価のための関数としてのファクト

FaaF: Facts as a Function for the evaluation of generated text ( http://arxiv.org/abs/2403.03888v2 )

ライセンス: Link先を確認
Vasileios Katranidis, Gabor Barany, (参考訳) 大規模言語モデル(LM)が生成するテキスト中の情報の正確かつ効率的な検証の要求は、最高水準にあるが、未解決のままである。 近年の取り組みは、これらのテキストからLM評価器を介して原子事実を抽出し、検証することに焦点を当てている。 しかし、不完全な参照情報や不正確な参照情報に直面すると、このプロンプトが信頼できないことを示す。 本稿では,ファクト・アズ・ア・ファンクション(Facts as a Function,FaaF)を紹介する。 FaaFは、テキスト中のサポート対象の事実を識別する能力を大幅に向上すると同時に、プロンプトベースの手法に比べて効率とコストを大幅に削減する。 さらに,各種LMを用いたプロンプトベース法とFaaF法を困難な条件下で比較するために,検索用拡張生成システム(RAG)のファクトリコール評価フレームワークを提案する。

The demand for accurate and efficient verification of information in texts generated by large language models (LMs) is at an all-time high, but remains unresolved. Recent efforts have focused on extracting and verifying atomic facts from these texts via prompting LM evaluators. However, we demonstrate that this method of prompting is unreliable when faced with incomplete or inaccurate reference information. We introduce Facts as a Function (FaaF), a new approach to the fact verification task that leverages the function-calling capabilities of LMs. FaaF significantly enhances the ability of LMs to identify unsupported facts in texts, while also improving efficiency and significantly lowering costs compared to prompt-based methods. Additionally, we propose a framework for evaluating factual recall in Retrieval Augmented Generation (RAG) systems, which we employ to compare prompt-based and FaaF methods using various LMs under challenging conditions.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# IRCoder: 中間表現は言語モデルをロバストな多言語コードジェネレータにする

IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators ( http://arxiv.org/abs/2403.03894v2 )

ライセンス: Link先を確認
Indraneil Paul, Goran Glavaš, Iryna Gurevych, (参考訳) コード理解と生成は、言語モデル(LM)の最も一般的な応用の1つである。 それでも、異なるプログラミング言語間の言語間移動、言語固有のデータ拡張、およびポストホックなLM適応などのコード-LMの多言語的側面の研究は、元のテキストコンテンツ以外のデータソースの活用とともに、自然言語よりもはるかに疎外されている。 特に、ほとんどの主要なCode-LMはソースコードファイルだけで事前訓練されている。 本稿では,プログラム言語間で共有されるコンパイラ中間表現(IR)を活用して,コード-LMの多言語機能を改善し,言語間転送を容易にする可能性について検討する。 この目的のために,約4百万の自己完結型ソースコードファイルと各中間表現を組み合わせた並列データセットであるSLTransをまずコンパイルした。 次に、様々なベースコード-LM(サイズは 1.1B から 7.3B まで)から、SLTrans 上で継続的に因果言語モデリングトレーニングを行い、コード-LM は(1) IR言語を学習させ、(2) IR 構造を様々なプログラミング言語の構成要素と整合させる。 IRCoderと呼ばれる結果のモデルは、迅速な堅牢性、多言語コード補完、コード理解、命令フォローを含む、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。

Code understanding and generation have fast become some of the most popular applications of language models (LMs). Nonetheless, research on multilingual aspects of Code-LMs (i.e., LMs for code generation) such as cross-lingual transfer between different programming languages, language-specific data augmentation, and post-hoc LM adaptation, alongside exploitation of data sources other than the original textual content, has been much sparser than for their natural language counterparts. In particular, most mainstream Code-LMs have been pre-trained on source code files alone. In this work, we investigate the prospect of leveraging readily available compiler intermediate representations (IR) - shared across programming languages - to improve the multilingual capabilities of Code-LMs and facilitate cross-lingual transfer. To this end, we first compile SLTrans, a parallel dataset consisting of nearly 4M self-contained source code files coupled with respective intermediate representations. Next, starting from various base Code-LMs (ranging in size from 1.1B to 7.3B parameters), we carry out continued causal language modelling training on SLTrans, forcing the Code-LMs to (1) learn the IR language and (2) align the IR constructs with respective constructs of various programming languages. Our resulting models, dubbed IRCoder, display sizeable and consistent gains across a wide variety of code generation tasks and metrics, including prompt robustness, multilingual code completion, code understanding, and instruction following.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v3 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。 4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# 制限されたベイズニューラルネットワーク

Restricted Bayesian Neural Network ( http://arxiv.org/abs/2403.04810v3 )

ライセンス: Link先を確認
Sourav Ganguly, Saprativa Bhattacharjee, (参考訳) 現代のディープラーニングツールは複雑な問題に対処するのに非常に効果的です。 しかし、ブラックボックスモデルとしての動作は予測の不確実性を増大させる。 さらに、大規模なネットワークにおける大規模なストレージスペースの必要性、過度に適合する問題、過度に適合しない問題、勾配の消滅など、さまざまな課題も抱えている。 本研究では,ベイズニューラルネットワークの概念を探求し,ネットワークの記憶空間の複雑さを大幅に軽減する新しいアーキテクチャを提案する。 さらに,不確実性を効率的に扱えるアルゴリズムを導入し,特に目的関数が完全凸性に欠ける場合には,局所最適に閉じ込められることなく,堅牢な収束値を確保する。

Modern deep learning tools are remarkably effective in addressing intricate problems. However, their operation as black-box models introduces increased uncertainty in predictions. Additionally, they contend with various challenges, including the need for substantial storage space in large networks, issues of overfitting, underfitting, vanishing gradients, and more. This study explores the concept of Bayesian Neural Networks, presenting a novel architecture designed to significantly alleviate the storage space complexity of a network. Furthermore, we introduce an algorithm adept at efficiently handling uncertainties, ensuring robust convergence values without becoming trapped in local optima, particularly when the objective function lacks perfect convexity.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# PEEB: 説明可能な編集可能な言語ボトルネックを持つ部分ベース画像分類器

PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck ( http://arxiv.org/abs/2403.05297v2 )

ライセンス: Link先を確認
Thang M. Pham, Peijie Chen, Tin Nguyen, Seunghyun Yoon, Trung Bui, Anh Nguyen, (参考訳) CLIPベースの分類器は、テキストエンコーダで知られている {class name} を含むプロンプトに依存している。 そのため、インターネット上にはほとんど登場しない新しいクラス(例えば、鳥の学名など)では、パフォーマンスが良くない。 細かな分類のために,PEEB は(1) クラス名をそのクラスの視覚的部分を記述したテキスト記述子に表現し,(2) 検出された部分の埋め込みを各クラス内のテキスト記述子にマッチさせ,分類のためのロジットスコアを計算する。 クラス名が不明なゼロショット設定では、PEEBはCLIPを大きなマージン(トップ1の精度で約10倍)で上回る。 PEEBは、パートベースの分類器と比較して、教師付き学習環境(CUB-200とDogs-120でそれぞれ88.80%と92.20%の精度)における最先端(SOTA)であるだけでなく、ユーザーが再訓練せずにテキスト記述器を編集できるようにする最初の方法でもある。 概念ボトルネックモデルと比較すると、PEEBはゼロショットと教師あり学習設定の両方においてSOTAでもある。

CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. Therefore, they perform poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB - an explainable and editable classifier to (1) express the class name into a set of text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a huge margin (~10x in top-1 accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art (SOTA) on the supervised-learning setting (88.80% and 92.20% accuracy on CUB-200 and Dogs-120, respectively) but also the first to enable users to edit the text descriptors to form a new classifier without any re-training. Compared to concept bottleneck models, PEEB is also the SOTA in both zero-shot and supervised-learning settings.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# そしてハマー・ブローク:フェミニストの科学哲学からの機械倫理の考察

And Then the Hammer Broke: Reflections on Machine Ethics from Feminist Philosophy of Science ( http://arxiv.org/abs/2403.05805v2 )

ライセンス: Link先を確認
Andre Ye, (参考訳) 視覚は知識の倫理的、政治的問題において重要な比喩である。 フェミニストの哲学者であるドナ・ハラウェイ(英語版)は、侵入的で遠ざかる全ての視界(『私を見るのをやめる』)の『ペルバース』の性質を指摘しているが、視覚の具現化された性質と、真に位置する知識の約束を受け入れることを奨励している。 監視カメラ、ドローン(戦争やレクリエーション用)、iPhoneカメラなど、現在のマシンビジョン技術は通常、後者ではなく前者の例と解釈される。 しかし、これらの技術が世界にもたらした真の苦難を減らそうとはしないが、私はコンピュータビジョンの技術を理解することを、具体的観察と認識の具体例として捉えている。 さらに、イリス・マードックの道徳的ビジョンの概念から借用して、これらの技術は、倫理的に重要な方法で我々の労働を自己回帰へと導くことを提案します。 私のアプローチは、コンピュータビジョン研究、現象学、フェミニストの認識学のパラダイムに基づいています。 究極的には、このエッセイは単に視覚のテクノロジーを倫理的に欠陥があるものとして批判することから、より哲学的な注意を向けることから、それらを複雑で方法論的に、そして認識論的に重要な対象として受け入れることへと導くものである。

Vision is an important metaphor in ethical and political questions of knowledge. The feminist philosopher Donna Haraway points out the ``perverse'' nature of an intrusive, alienating, all-seeing vision (to which we might cry out ``stop looking at me!''), but also encourages us to embrace the embodied nature of sight and its promises for genuinely situated knowledge. Current technologies of machine vision -- surveillance cameras, drones (for war or recreation), iPhone cameras -- are usually construed as instances of the former rather than the latter, and for good reasons. However, although in no way attempting to diminish the real suffering these technologies have brought about in the world, I make the case for understanding technologies of computer vision as material instances of embodied seeing and situated knowing. Furthermore, borrowing from Iris Murdoch's concept of moral vision, I suggest that these technologies direct our labor towards self-reflection in ethically significant ways. My approach draws upon paradigms in computer vision research, phenomenology, and feminist epistemology. Ultimately, this essay is an argument for directing more philosophical attention from merely criticizing technologies of vision as ethically deficient towards embracing them as complex, methodologically and epistemologically important objects.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# FreGS: 進行周波数規則化による3次元ガウス平滑化

FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization ( http://arxiv.org/abs/2403.06908v2 )

ライセンス: Link先を確認
Jiahui Zhang, Fangneng Zhan, Muyu Xu, Shijian Lu, Eric Xing, (参考訳) 3次元ガウシアンスプラッティングは、リアルタイムの新規ビュー合成において非常に優れた性能を発揮している。 しかし、高分散画像領域が少数のガウス像のみに覆われるガウス密度化の際の過度な再構成に悩まされ、レンダリングされた画像のぼやけやアーティファクトに繋がることが多い。 本研究では,周波数空間における過度再構成問題に対処するために,プログレッシブ周波数正規化(FreGS)手法を設計する。 具体的には、フーリエ空間における低域通過フィルタと高域通過フィルタで容易に抽出できる低域通過周波数成分を利用して、粗大なガウス密度化を行う。 レンダリング画像の周波数スペクトルと対応する基底真実との差を最小化することにより、高品質なガウス密度化を実現し、ガウススプラッティングの過度な再構成を効果的に緩和する。 複数の広く採用されているベンチマーク(例えば、Mip-NeRF360、Tamps-and-Temples、Deep Blending)に対する実験は、FreGSが優れた新規なビュー合成を達成し、最先端技術よりも一貫して優れていることを示している。

3D Gaussian splatting has achieved very impressive performance in real-time novel view synthesis. However, it often suffers from over-reconstruction during Gaussian densification where high-variance image regions are covered by a few large Gaussians only, leading to blur and artifacts in the rendered images. We design a progressive frequency regularization (FreGS) technique to tackle the over-reconstruction issue within the frequency space. Specifically, FreGS performs coarse-to-fine Gaussian densification by exploiting low-to-high frequency components that can be easily extracted with low-pass and high-pass filters in the Fourier space. By minimizing the discrepancy between the frequency spectrum of the rendered image and the corresponding ground truth, it achieves high-quality Gaussian densification and alleviates the over-reconstruction of Gaussian splatting effectively. Experiments over multiple widely adopted benchmarks (e.g., Mip-NeRF360, Tanks-and-Temples and Deep Blending) show that FreGS achieves superior novel view synthesis and outperforms the state-of-the-art consistently.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# 大規模言語モデルを用いたプロセスモデリング

Process Modeling With Large Language Models ( http://arxiv.org/abs/2403.07541v2 )

ライセンス: Link先を確認
Humam Kourani, Alessandro Berti, Daniel Schuster, Wil M. P. van der Aalst, (参考訳) ビジネスプロセスマネジメント(BPM)の領域では、プロセスモデリングは複雑なプロセスのダイナミクスを理解可能な視覚表現に翻訳し、組織プロセスの理解、分析、改善、自動化を促進する上で重要な役割を担います。 伝統的なプロセスモデリング手法は、しばしば広範囲の専門知識を必要とし、時間を要する。 本稿では,大規模言語モデル(LLM)をプロセスモデリングに統合し,プロセスモデリングのアクセシビリティを向上し,専門家の効率を高めつつ,非専門家のより直感的なエントリーポイントを提供する。 テキスト記述から始まるプロセスモデルの自動生成と反復的洗練にLLMを利用するフレームワークを提案する。 我々のフレームワークは、セキュアなモデル生成プロトコルとエラー処理機構とともに、効率的なLCM利用戦略を革新的に推進する。 さらに,フレームワークを拡張した具体的なシステムをインスタンス化する。 このシステムは生成されたモデルに対して堅牢な品質保証を提供し、ビジネスプロセスモデリング表記法(BPMN)やペトリネットのような標準モデリング表記法でそれらをエクスポートするのをサポートする。 予備的な結果は、BPM分野における生成AIの変革の可能性について、プロセスモデリングタスクを効率化するフレームワークの能力を示しています。

In the realm of Business Process Management (BPM), process modeling plays a crucial role in translating complex process dynamics into comprehensible visual representations, facilitating the understanding, analysis, improvement, and automation of organizational processes. Traditional process modeling methods often require extensive expertise and can be time-consuming. This paper explores the integration of Large Language Models (LLMs) into process modeling to enhance the accessibility of process modeling, offering a more intuitive entry point for non-experts while augmenting the efficiency of experts. We propose a framework that leverages LLMs for the automated generation and iterative refinement of process models starting from textual descriptions. Our framework involves innovative prompting strategies for effective LLM utilization, along with a secure model generation protocol and an error-handling mechanism. Moreover, we instantiate a concrete system extending our framework. This system provides robust quality guarantees on the models generated and supports exporting them in standard modeling notations, such as the Business Process Modeling Notation (BPMN) and Petri nets. Preliminary results demonstrate the framework's ability to streamline process modeling tasks, underscoring the transformative potential of generative AI in the BPM field.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-08
# トセリン前処理装置(遺伝性K-メドイド法)

Pre-Sorted Tsetlin Machine (The Genetic K-Medoid Method) ( http://arxiv.org/abs/2403.09680v2 )

ライセンス: Link先を確認
Jordan Morris, (参考訳) 本稿では,Tsetlin Machines を用いた従来の教師あり学習のための機械学習・プリソート・ステージを提案する。 当初、Kデータポイントは、最大分散問題を解決するために、高速な遺伝的アルゴリズムを用いてデータセットから識別される。 これらをK-Medoidクラスタリングアルゴリズムを実行する初期配置として使用する。 最後に、ハミング距離を最大化することにより、K個の独立したTsetlin Machinesを調整するために、高速な遺伝的アルゴリズムが使用される。 MNISTレベルの分類問題では, 精度が最大10%向上し, 近似が得られた。 383倍に短縮した。 86倍の減少率を示した。

This paper proposes a machine learning pre-sort stage to traditional supervised learning using Tsetlin Machines. Initially, K data-points are identified from the dataset using an expedited genetic algorithm to solve the maximum dispersion problem. These are then used as the initial placement to run the K-Medoid clustering algorithm. Finally, an expedited genetic algorithm is used to align K independent Tsetlin Machines by maximising hamming distance. For MNIST level classification problems, results demonstrate up to 10% improvement in accuracy, approx. 383X reduction in training time and approx. 86X reduction in inference time.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-08
# 非プロプライエタリなプレプロシージャによる予測可能なプライバシ

Provable Privacy with Non-Private Pre-Processing ( http://arxiv.org/abs/2403.13041v2 )

ライセンス: Link先を確認
Yaxi Hu, Amartya Sanyal, Bernhard Schölkopf, (参考訳) Differentially Private(DP)機械学習パイプラインを分析する場合、データ依存の事前処理の潜在的なプライバシコストは、プライバシ会計においてしばしば見過ごされる。 本研究では,非プライベートなデータ依存型前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。 本フレームワークは,Smooth DPと呼ばれるDPの変種と,前処理アルゴリズムの限界感度という,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。 汎用フレームワークに加えて、複数のDPアルゴリズムと組み合わせて使用する場合、データ計算、量子化、復号化、PCAなどの複数のデータ依存事前処理アルゴリズムに対して、全体的なプライバシー保証を提供する。 このフレームワークは実装も簡単で、既存のDPパイプラインに直接統合できる。

When analysing Differentially Private (DP) machine learning pipelines, the potential privacy cost of data-dependent pre-processing is frequently overlooked in privacy accounting. In this work, we propose a general framework to evaluate the additional privacy cost incurred by non-private data-dependent pre-processing algorithms. Our framework establishes upper bounds on the overall privacy guarantees by utilising two new technical notions: a variant of DP termed Smooth DP and the bounded sensitivity of the pre-processing algorithms. In addition to the generic framework, we provide explicit overall privacy guarantees for multiple data-dependent pre-processing algorithms, such as data imputation, quantization, deduplication and PCA, when used in combination with several DP algorithms. Notably, this framework is also simple to implement, allowing direct integration into existing DP pipelines.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-08
# MMIDR:知識蒸留によるマルチモーダル誤情報解釈のための大規模言語モデル

MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation ( http://arxiv.org/abs/2403.14171v3 )

ライセンス: Link先を確認
Longzheng Wang, Xiaohan Xu, Lei Zhang, Jiarui Lu, Yongxiu Xu, Hongbo Xu, Minghao Tang, Chuang Zhang, (参考訳) 近年,マルチモーダル誤報の自動検出が注目されている。 しかし,マルチモーダルな誤情報検出のための強力な大規模言語モデル (LLM) の可能性はいまだ検討されていない。 また,マルチモーダルな誤報を低コストかつアクセシブルな方法で解釈する方法をLLMに教える方法は,まだ未解決の問題である。 そこで本研究では,マルチモーダル誤報の意思決定プロセスにおいて,LLMを学習し,質の高い文章説明を提供するためのフレームワークであるMMIDRを提案する。 マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。 このパイプラインは、視覚情報処理モジュールとエビデンス検索モジュールからなる。 その後、プロプライエタリなLCMに処理内容を与え、マルチモーダル誤報の真偽を解釈する合理性を抽出する。 さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。 マルチモーダル誤情報検出タスクにおけるLCMの性能に関するいくつかの研究課題を探るため,命令追従型マルチモーダル誤情報データセットを構築し,総合的な実験を行った。 実験の結果,我々のMMIDRは十分な検出性能を示し,その評価を支援するための説得力のある合理性を提供する能力を有していることが明らかとなった。

Automatic detection of multimodal misinformation has gained a widespread attention recently. However, the potential of powerful Large Language Models (LLMs) for multimodal misinformation detection remains underexplored. Besides, how to teach LLMs to interpret multimodal misinformation in cost-effective and accessible way is still an open question. To address that, we propose MMIDR, a framework designed to teach LLMs in providing fluent and high-quality textual explanations for their decision-making process of multimodal misinformation. To convert multimodal misinformation into an appropriate instruction-following format, we present a data augmentation perspective and pipeline. This pipeline consists of a visual information processing module and an evidence retrieval module. Subsequently, we prompt the proprietary LLMs with processed contents to extract rationales for interpreting the authenticity of multimodal misinformation. Furthermore, we design an efficient knowledge distillation approach to distill the capability of proprietary LLMs in explaining multimodal misinformation into open-source LLMs. To explore several research questions regarding the performance of LLMs in multimodal misinformation detection tasks, we construct an instruction-following multimodal misinformation dataset and conduct comprehensive experiments. The experimental findings reveal that our MMIDR exhibits sufficient detection performance and possesses the capacity to provide compelling rationales to support its assessments.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-08
# WEEP:計算病理学における弱教師付きCNNモデルの空間的解釈法

WEEP: A method for spatial interpretation of weakly supervised CNN models in computational pathology ( http://arxiv.org/abs/2403.15238v2 )

ライセンス: Link先を確認
Abhinav Sharma, Bojing Liu, Mattias Rantalainen, (参考訳) ディープラーニングは、高解像度の病理組織像(WSI)のモデリングを可能にする。 タイルレベルのデータの弱教師付き学習は、典型的には、患者またはWSIレベルにのみラベルが存在するタスク(例えば、患者の結果や組織学的評価)に適用される。 この文脈では、そのようなモデルからの予測の空間的解釈可能性を改善する必要がある。 モデル解釈のための新しい方法 Wsi rEgion sElection aPproach (WEEP) を提案する。 これは、特定の予測ラベルを割り当てるために必要なWSIの空間領域を確立するための原則的かつ直接的な方法を提供する。 乳がん計算病理領域における二分分類課題におけるWEEPについて検討した。 WEEPは実装が容易で、モデルベースの意思決定プロセスに直接接続され、研究アプリケーションと診断アプリケーションの両方に関連する情報を提供する。

Deep learning enables the modelling of high-resolution histopathology whole-slide images (WSI). Weakly supervised learning of tile-level data is typically applied for tasks where labels only exist on the patient or WSI level (e.g. patient outcomes or histological grading). In this context, there is a need for improved spatial interpretability of predictions from such models. We propose a novel method, Wsi rEgion sElection aPproach (WEEP), for model interpretation. It provides a principled yet straightforward way to establish the spatial area of WSI required for assigning a particular prediction label. We demonstrate WEEP on a binary classification task in the area of breast cancer computational pathology. WEEP is easy to implement, is directly connected to the model-based decision process, and offers information relevant to both research and diagnostic applications.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-08
# マルコフ論理ネットワークにおけるドメインサイズ一般化の理解

Understanding Domain-Size Generalization in Markov Logic Networks ( http://arxiv.org/abs/2403.15933v2 )

ライセンス: Link先を確認
Florian Chen, Felix Weitkämper, Sagar Malhotra, (参考訳) マルコフ論理ネットワーク(MLN)の一般化挙動を,大きさの異なる関係構造にまたがって検討する。 複数の研究が、あるドメインで学んだMLNが、異なるサイズのドメイン間でうまく一般化しないことに気付いた。 この振る舞いは、異なるドメインサイズで使用する場合、MLNの内部一貫性の欠如から生じます。 本稿では,この不整合を定量化し,MLNパラメータの分散を考慮に入れた。 パラメータの分散は、異なる領域サイズから取られたMLNの辺分布間のKL分散も有界である。 これらの境界を用いて、パラメータの分散を最小化しながらデータをログライクな状態に最大化することは、ドメインサイズをまたいだ一般化という2つの自然な概念に対応することを示す。 我々の理論的結果は、指数ランダムグラフや他のマルコフネットワークに基づく関係モデルに適用できる。 最後に、正規化やドメインサイズ認識MLNなどのMLNパラメータの分散を減少させることで知られている解が、MLNの内部整合性を高めることを観察する。 我々は,パラメータ分散を制御する異なる手法を用いて,4つの異なるデータセット上で実験により結果を検証することにより,パラメータ分散の制御がより良い一般化をもたらすことを示す。

We study the generalization behavior of Markov Logic Networks (MLNs) across relational structures of different sizes. Multiple works have noticed that MLNs learned on a given domain generalize poorly across domains of different sizes. This behavior emerges from a lack of internal consistency within an MLN when used across different domain sizes. In this paper, we quantify this inconsistency and bound it in terms of the variance of the MLN parameters. The parameter variance also bounds the KL divergence between an MLN's marginal distributions taken from different domain sizes. We use these bounds to show that maximizing the data log-likelihood while simultaneously minimizing the parameter variance corresponds to two natural notions of generalization across domain sizes. Our theoretical results apply to Exponential Random Graphs and other Markov network based relational models. Finally, we observe that solutions known to decrease the variance of the MLN parameters, like regularization and Domain-Size Aware MLNs, increase the internal consistency of the MLNs. We empirically verify our results on four different datasets, with different methods to control parameter variance, showing that controlling parameter variance leads to better generalization.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-08
# 脳電図を用いた対話教育におけるChatGPTの適用効果の検討

Investigation of the effectiveness of applying ChatGPT in Dialogic Teaching Using Electroencephalography ( http://arxiv.org/abs/2403.16687v2 )

ライセンス: Link先を確認
Jiayue Zhang, Yiheng Liu, Wenqi Cai, Yali Peng, Jingjing Yu, Senqing Qi, Taotao Long, Bao Ge, (参考訳) 近年、人工知能技術の急速な発展、特にChatGPTのような大規模言語モデル(LLM)の出現は、教育分野への応用に大きな可能性を示している。 LLMは、知識を解釈し、質問に答え、文脈を考慮し、学生に対話的な教えを支援する能力を持っている。 したがって,LLMの指導的役割を効果的に果たす能力について検討し,対話型教育シナリオにおける人間教育者に似た学習を促進することは,非常に貴重な研究課題である。 この研究は、34人の大学生を参加者として募集し、ランダムに2つのグループに分けられた。 実験群はChatGPTを用いて対話型指導を行い,コントロール群は人間教師と対話した。 両グループは情報関連コースであるDigital Image Processingでヒストグラム等化単位を学習した。 調査の結果,保持試験における両群間に比較スコアが認められた。 しかし,ChatGPTとの対話に携わる学生は,移行試験において低い成績を示した。 脳波データによると、ChatGPTと相互作用する学生は認知活動のレベルが高く、ChatGPTが知識基盤の確立と認知活動の促進に役立つことが示唆された。 しかし、学生の育成に力を入れている。 知識の応用と創造性は 重要ではありません 研究結果から,ChatGPTは情報関連科目における対話指導における教科の遂行に全力を尽くすことができないことが明らかとなった。 ChatGPTと従来の人間の教師を組み合わせることが、より理想的なアプローチかもしれない。 両者のシナジスティックな利用は、生徒により包括的な学習支援を提供し、教育の質の向上に寄与する。

In recent years, the rapid development of artificial intelligence technology, especially the emergence of large language models (LLMs) such as ChatGPT, has presented significant prospects for application in the field of education. LLMs possess the capability to interpret knowledge, answer questions, and consider context, thus providing support for dialogic teaching to students. Therefore, an examination of the capacity of LLMs to effectively fulfill instructional roles, thereby facilitating student learning akin to human educators within dialogic teaching scenarios, is an exceptionally valuable research topic. This research recruited 34 undergraduate students as participants, who were randomly divided into two groups. The experimental group engaged in dialogic teaching using ChatGPT, while the control group interacted with human teachers. Both groups learned the histogram equalization unit in the information-related course "Digital Image Processing". The research findings show comparable scores between the two groups on the retention test. However, students who engaged in dialogue with ChatGPT exhibited lower performance on the transfer test. Electroencephalography data revealed that students who interacted with ChatGPT exhibited higher levels of cognitive activity, suggesting that ChatGPT could help students establish a knowledge foundation and stimulate cognitive activity. However, its strengths on promoting students. knowledge application and creativity were insignificant. Based upon the research findings, it is evident that ChatGPT cannot fully excel in fulfilling teaching tasks in the dialogue teaching in information related courses. Combining ChatGPT with traditional human teachers might be a more ideal approach. The synergistic use of both can provide students with more comprehensive learning support, thus contributing to enhancing the quality of teaching.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-08
# LASIL:長期マイクロトラフィックシミュレーションのための学習者支援型模倣学習

LASIL: Learner-Aware Supervised Imitation Learning For Long-term Microscopic Traffic Simulation ( http://arxiv.org/abs/2403.17601v2 )

ライセンス: Link先を確認
Ke Guo, Zhenwei Miao, Wei Jing, Weiwei Liu, Weizi Li, Dayang Hao, Jia Pan, (参考訳) 微視的交通シミュレーションは、個々の車両の挙動や交通の流れに関する洞察を提供することによって、輸送工学において重要な役割を担っている。 しかし,様々な交通条件下での運転動作を正確に再現する現実的なシミュレータを作成することは,大きな課題となる。 ヒューリスティックなモデルに依存する従来のシミュレータは、現実の交通環境の複雑さのために正確なシミュレーションを行うことができないことが多い。 共変量シフトの問題により、既存の模倣学習ベースのシミュレータは安定した長期シミュレーションを生成できないことが多い。 本稿では,マルチエージェント模倣学習における共変量シフト問題に対処するために,学習者認識による模倣学習と呼ばれる新しい手法を提案する。 エキスパートと学習者の状態分布を同時にモデル化する変分オートエンコーダを活用することにより、拡張状態が学習者の状態分布を認識しているように専門家の状態を強化する。 都市交通シミュレーションに応用した本手法は,実世界のデータセットpNEUMAで評価した場合,短期的および長期的マクロ的リアリズムにおいて,既存の最先端ベースラインよりも大幅に改善されていることを示す。

Microscopic traffic simulation plays a crucial role in transportation engineering by providing insights into individual vehicle behavior and overall traffic flow. However, creating a realistic simulator that accurately replicates human driving behaviors in various traffic conditions presents significant challenges. Traditional simulators relying on heuristic models often fail to deliver accurate simulations due to the complexity of real-world traffic environments. Due to the covariate shift issue, existing imitation learning-based simulators often fail to generate stable long-term simulations. In this paper, we propose a novel approach called learner-aware supervised imitation learning to address the covariate shift problem in multi-agent imitation learning. By leveraging a variational autoencoder simultaneously modeling the expert and learner state distribution, our approach augments expert states such that the augmented state is aware of learner state distribution. Our method, applied to urban traffic simulation, demonstrates significant improvements over existing state-of-the-art baselines in both short-term microscopic and long-term macroscopic realism when evaluated on the real-world dataset pNEUMA.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-08
# 効率的なマルチタスク地球観測モデルのためのニューラル埋め込み圧縮

Neural Embedding Compression For Efficient Multi-Task Earth Observation Modelling ( http://arxiv.org/abs/2403.17886v3 )

ライセンス: Link先を確認
Carlos Gomes, Thomas Brunschwiler, (参考訳) 地球観測(EO)における大規模データのリポジトリが成長するにつれて、モデルトレーニングと推論のための転送と保存コストが増大し、重要なリソースが消費される。 本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。 我々は、ニューラルネットワークによる基礎モデル(FM)を適用し、圧縮率と埋め込みユーティリティのトレードオフをナビゲートしながらマルチタスクの埋め込みを生成する。 FMパラメータのごく一部(10%)を短いトレーニング期間(事前トレーニングのイテレーションの1%)に更新します。 シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。 従来の圧縮を生データに適用した場合と比較すると、NECも同様の精度で75%から90%のデータを削減できる。 99.7%の圧縮でも、シーン分類タスクでパフォーマンスは5%低下した。 全体として、NECはマルチタスクEOモデリングのためのデータ効率は高いがパフォーマンスのアプローチである。

As repositories of large scale data in earth observation (EO) have grown, so have transfer and storage costs for model training and inference, expending significant resources. We introduce Neural Embedding Compression (NEC), based on the transfer of compressed embeddings to data consumers instead of raw data. We adapt foundation models (FM) through learned neural compression to generate multi-task embeddings while navigating the tradeoff between compression rate and embedding utility. We update only a small fraction of the FM parameters (10%) for a short training period (1% of the iterations of pre-training). We evaluate NEC on two EO tasks: scene classification and semantic segmentation. Compared with applying traditional compression to the raw data, NEC achieves similar accuracy with a 75% to 90% reduction in data. Even at 99.7% compression, performance drops by only 5% on the scene classification task. Overall, NEC is a data-efficient yet performant approach for multi-task EO modelling.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-08
# オプトメカニカルハミルトニアンの非マルコフダイナミクスに基づく自律量子熱機関

Autonomous Quantum Heat Engine Based on Non-Markovian Dynamics of an Optomechanical Hamiltonian ( http://arxiv.org/abs/2403.18515v2 )

ライセンス: Link先を確認
Miika Rasola, Mikko Möttönen, (参考訳) 本稿では,動作流体が高調波発振器で構成される自律型量子熱エンジンの動作周波数を駆動モードで調整する手法を提案する。 作動流体は、それぞれピークパワースペクトルを示す2つのヒート貯水池と、コールド貯水池よりも高い周波数でピークされるホット貯水池とを結合する。 駆動モードが十分な振幅のコヒーレントな状態で初期化され、利用したオプティメカニカルハミルトニアンおよび貯水池のパラメータが適当であるようにして、駆動モードは作業流体に対して近似オットーサイクルを誘導し、その結果、その振動振幅が時間とともに増加し始める。 この量子熱エンジンの解析的および非マルコフ的準古典的モデルを構築し、量子熱エンジンの出力として合理的に強力なコヒーレント場を生成することを示す。 この一般的な理論的な提案は、非マルコフ系における量子熱エンジンの詳細な研究を裏付けるものである。 さらに、オプティメカルシステムのような特定の物理的実現と、その後の自律量子熱エンジンの実験的実現の道を開く。

We propose a recipe for demonstrating an autonomous quantum heat engine where the working fluid consists of a harmonic oscillator, the frequency of which is tuned by a driving mode. The working fluid is coupled two heat reservoirs each exhibiting a peaked power spectrum, a hot reservoir peaked at a higher frequency than the cold reservoir. Provided that the driving mode is initialized in a coherent state with a high enough amplitude and the parameters of the utilized optomechanical Hamiltonian and the reservoirs are appropriate, the driving mode induces an approximate Otto cycle for the working fluid and consequently its oscillation amplitude begins to increase in time. We build both an analytical and a non-Markovian quasiclassical model for this quantum heat engine and show that reasonably powerful coherent fields can be generated as the output of the quantum heat engine. This general theoretical proposal heralds the in-depth studies of quantum heat engines in the non-Markovian regime. Further, it paves the way for specific physical realizations, such as those in optomechanical systems, and for the subsequent experimental realization of an autonomous quantum heat engine.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# 人間のフィードバックによるアライメントの学習ダイナミクスの理解

Understanding the Learning Dynamics of Alignment with Human Feedback ( http://arxiv.org/abs/2403.18742v3 )

ライセンス: Link先を確認
Shawn Im, Yixuan Li, (参考訳) 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。 既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。 我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。 本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。 我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。 我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。 Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。

Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# パワーとプレイ - チームのAI倫理に関する議論で"批判へのリセンス"を探る

Power and Play: Investigating "License to Critique" in Teams' AI Ethics Discussions ( http://arxiv.org/abs/2403.19049v2 )

ライセンス: Link先を確認
David Gray Widder, Laura Dabbish, James Herbsleb, Nikolas Martelaro, (参考訳) 過去の研究は、チェックリストやツールキットのようなAI倫理の介入を設計しようとしており、実践者がより倫理的なAIシステムを設計するのを手助けしている。 しかし、他の研究は、これらの介入が介入の中で対処されるものに対する批判を制限するのにどのように役立つかを示す一方で、より広範な懸念を非合法に示している。 本稿では,AI倫理に関する幅広い議論の引き金となるゲームとして,標準がいかに反帰的クロージャを制定し,権力関係が人々が批判を提起するかどうか,どのように影響するかを検討するために,我々は3つのコーポレートチームと1つのアクティビストチームを採用する。 私たちはこれを、AI倫理に関する議論において、チームの過去の議論を反映させ、彼らの"批判に対するライセンス"に影響を与える可能性のある要因を調べるために、コントラストのポイントとして使用します。 次に、このゲームの特定の余裕が議論にどう影響するかを報告し、ゲーム内で発生した仮説的文脈が現実世界の変化の実行可能なメカニズムになりそうにないことを示す。 我々は、グループ内のパワーダイナミクスと「スコープ」の概念が、AI倫理に関する議論で批判を提起する意志があるかどうかを議論し、ゲームが製品やプラクティスに直接変更する可能性は低いが、メンバーが将来の集団行動に対して批判的に整合した同盟を見出すことが可能である、という私たちの発見について議論する。

Past work has sought to design AI ethics interventions--such as checklists or toolkits--to help practitioners design more ethical AI systems. However, other work demonstrates how these interventions may instead serve to limit critique to that addressed within the intervention, while rendering broader concerns illegitimate. In this paper, drawing on work examining how standards enact discursive closure and how power relations affect whether and how people raise critique, we recruit three corporate teams, and one activist team, each with prior context working with one another, to play a game designed to trigger broad discussion around AI ethics. We use this as a point of contrast to trigger reflection on their teams' past discussions, examining factors which may affect their "license to critique" in AI ethics discussions. We then report on how particular affordances of this game may influence discussion, and find that the hypothetical context created in the game is unlikely to be a viable mechanism for real world change. We discuss how power dynamics within a group and notions of "scope" affect whether people may be willing to raise critique in AI ethics discussions, and discuss our finding that games are unlikely to enable direct changes to products or practice, but may be more likely to allow members to find critically-aligned allies for future collective action.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# 拡散モデルを用いたバースト超解法による知覚品質向上

Burst Super-Resolution with Diffusion Models for Improving Perceptual Quality ( http://arxiv.org/abs/2403.19428v3 )

ライセンス: Link先を確認
Kyotaro Tokoro, Kazutoshi Akita, Norimichi Ukita, (参考訳) バーストLR画像は単一のLR画像と比較してSR画質を向上させるのに有用であるが、バーストLR画像を受け入れる前のSRネットワークは決定論的に訓練され、ぼやけたSR画像を生成することが知られている。 さらに、バーストLR画像を完全に整列させることは困難であり、SR画像はよりぼやけたものになる。 このようなぼやけた画像は知覚的に劣化しているため、我々は鋭い高忠実度境界を再構築することを目指している。 このような高忠実度画像は拡散モデルによって再構成することができる。 しかし,拡散モデルを用いた先行SR法は,バーストSRタスクに対して適切に最適化されていない。 具体的には、ランダムサンプルから始まる逆過程は、バーストSRを含む画像の強調と復元に最適化されない。 一方,本提案手法では,拡散モデルの中間段階に供給される初期バーストSR画像の再構成にバーストLR特性を用いる。 中間段階からの逆過程 1)画像のグローバル構造を再構築するための拡散ステップをスキップし、 2) 細かなテクスチャを精錬するためのステップに焦点を当てる。 実験結果から,本手法は知覚品質指標のスコアを向上させることができることが示された。 コード:https://github.com/placerkyo/BSRD

While burst LR images are useful for improving the SR image quality compared with a single LR image, prior SR networks accepting the burst LR images are trained in a deterministic manner, which is known to produce a blurry SR image. In addition, it is difficult to perfectly align the burst LR images, making the SR image more blurry. Since such blurry images are perceptually degraded, we aim to reconstruct the sharp high-fidelity boundaries. Such high-fidelity images can be reconstructed by diffusion models. However, prior SR methods using the diffusion model are not properly optimized for the burst SR task. Specifically, the reverse process starting from a random sample is not optimized for image enhancement and restoration methods, including burst SR. In our proposed method, on the other hand, burst LR features are used to reconstruct the initial burst SR image that is fed into an intermediate step in the diffusion model. This reverse process from the intermediate step 1) skips diffusion steps for reconstructing the global structure of the image and 2) focuses on steps for refining detailed textures. Our experimental results demonstrate that our method can improve the scores of the perceptual quality metrics. Code: https://github.com/placerkyo/BSRD
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# セマンティックセグメンテーションのための不確実性推定基準の再検討

Segmentation Re-thinking Uncertainty Estimation Metrics for Semantic Segmentation ( http://arxiv.org/abs/2403.19826v2 )

ライセンス: Link先を確認
Qitian Ma, Shyam Nanda Rai, Carlo Masone, Tatiana Tommasi, (参考訳) コンピュータビジョンの領域では、セマンティックセグメンテーションは機械学習の基本的な応用として現れ、画像の個々のピクセルは異なるセマンティックカテゴリに分類される。 このタスクは、各セグメンテーション予測の信頼性を評価する重要な尺度である不確実な定量化を組み込むことで、従来の精度メトリクスを超越する。 このような定量化は、特に精度が最重要であるアプリケーションにおいて、情報的な意思決定を促進するのに有効である。 画像セグメンテーションタスクにおけるエントロピーに基づく不確実性を評価するための特別なツールとして,PAvPU(パッチ精度対パッチ不確実性)と呼ばれる手法が開発された。 しかし,本研究では,PAvPUフレームワークの中核となる3つの欠陥を同定し,その改善を目的とした堅牢な解法を提案する。 これらの課題に対処することで、特に高い安全性と精度を要求されるシナリオにおいて、不確実性定量化の信頼性と適用性を高め、重要なアプリケーションにおけるセマンティックセグメンテーション手法の進歩に寄与することを目指している。

In the domain of computer vision, semantic segmentation emerges as a fundamental application within machine learning, wherein individual pixels of an image are classified into distinct semantic categories. This task transcends traditional accuracy metrics by incorporating uncertainty quantification, a critical measure for assessing the reliability of each segmentation prediction. Such quantification is instrumental in facilitating informed decision-making, particularly in applications where precision is paramount. Within this nuanced framework, the metric known as PAvPU (Patch Accuracy versus Patch Uncertainty) has been developed as a specialized tool for evaluating entropy-based uncertainty in image segmentation tasks. However, our investigation identifies three core deficiencies within the PAvPU framework and proposes robust solutions aimed at refining the metric. By addressing these issues, we aim to enhance the reliability and applicability of uncertainty quantification, especially in scenarios that demand high levels of safety and accuracy, thus contributing to the advancement of semantic segmentation methodologies in critical applications.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# TFB:時系列予測手法の総合的・公正なベンチマークに向けて

TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods ( http://arxiv.org/abs/2403.20150v2 )

ライセンス: Link先を確認
Xiangfei Qiu, Jilin Hu, Lekui Zhou, Xingjian Wu, Junyang Du, Buang Zhang, Chenjuan Guo, Aoying Zhou, Christian S. Jensen, Zhenli Sheng, Bin Yang, (参考訳) 時系列は、経済、交通、健康、エネルギーといった様々な領域で生成され、将来の価値の予測には多くの重要な応用がある。 驚くことではないが、多くの予測方法が提案されている。 進展を確実にするためには、このような手法を包括的で信頼性の高い方法で実証的に研究・比較できることが不可欠である。 そこで本研究では,時系列予測(TSF)手法の自動ベンチマークであるTFBを提案する。 TFBは、データセット、比較方法、評価パイプラインに関連する欠点に対処することで、最先端の技術を進化させる。 1) データドメインのカバー不足。 2伝統的な方法に対するステレオタイプバイアス及び 3)無矛盾で柔軟性のないパイプライン。 よりよいドメインカバレッジを達成するために、トラフィック、電気、エネルギー、環境、自然、経済、株式市場、銀行、健康、ウェブの10の異なるドメインからのデータセットを含めます。 また、選択したデータセットが包括的であることを確実にするための時系列のキャラクタリゼーションも提供します。 いくつかの手法に対するバイアスを取り除くために,統計的学習,機械学習,深層学習など,さまざまな手法を含めるとともに,さまざまな評価戦略やメトリクスをサポートし,さまざまな手法のより包括的な評価を確実にする。 ベンチマークへのさまざまなメソッドの統合をサポートし、公正な比較を可能にするため、TFBは、バイアスを排除したフレキシブルでスケーラブルなパイプラインを備えている。 次に,21種類の一変量時系列予測(UTSF)法を8,068個の一変量時系列に対して,14個の多変量時系列予測(MTSF)法を25個のデータセット上で徹底的に評価するためにTFBを用いる。 ベンチマークコードとデータはhttps://github.com/decisionintelligence/TFBで公開されている。

Time series are generated in diverse domains such as economic, traffic, health, and energy, where forecasting of future values has numerous important applications. Not surprisingly, many forecasting methods are being proposed. To ensure progress, it is essential to be able to study and compare such methods empirically in a comprehensive and reliable manner. To achieve this, we propose TFB, an automated benchmark for Time Series Forecasting (TSF) methods. TFB advances the state-of-the-art by addressing shortcomings related to datasets, comparison methods, and evaluation pipelines: 1) insufficient coverage of data domains, 2) stereotype bias against traditional methods, and 3) inconsistent and inflexible pipelines. To achieve better domain coverage, we include datasets from 10 different domains: traffic, electricity, energy, the environment, nature, economic, stock markets, banking, health, and the web. We also provide a time series characterization to ensure that the selected datasets are comprehensive. To remove biases against some methods, we include a diverse range of methods, including statistical learning, machine learning, and deep learning methods, and we also support a variety of evaluation strategies and metrics to ensure a more comprehensive evaluations of different methods. To support the integration of different methods into the benchmark and enable fair comparisons, TFB features a flexible and scalable pipeline that eliminates biases. Next, we employ TFB to perform a thorough evaluation of 21 Univariate Time Series Forecasting (UTSF) methods on 8,068 univariate time series and 14 Multivariate Time Series Forecasting (MTSF) methods on 25 datasets. The benchmark code and data are available at https://github.com/decisionintelligence/TFB.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-08
# 必要な設計:マルチモーダル事前学習のための視覚的質問応答の利用

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training ( http://arxiv.org/abs/2404.00226v2 )

ライセンス: Link先を確認
Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen, Qiong Wang, Faqin Lv, Baoliang Zhao, Yin Hu, (参考訳) マルチモーダル・プレトレーニング(Multimodal pre-training)は、医療分野におけるその可能性を示す。 しかし、多くの事前訓練タスクは、臨床医からの追加のアノテーションを必要としており、そのほとんどは、異なる病理の望ましい特徴を学ぶために、モデルを明示的に導くことに失敗している。 我々の知識を最大限に活用するために、我々はまず視覚質問応答(VQA)をマルチモーダル・プレトレーニングに利用し、対象とする病理機能に焦点を当てたフレームワークをガイドする。 本研究では,医学報告における記述を活用して,異なる疾患に関連する多粒質質問応答ペアを設計し,専門家の注釈を余分に必要とせず,事前学習の枠組みを支援する。 また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。 これは視覚言語ギャップを狭め、モダリティアライメントを促進する。 私たちのフレームワークは、レポート生成、分類、セグメンテーション、および5つのデータセットにわたる検出の4つのダウンストリームタスクに適用されます。 大規模な実験は、他の最先端手法と比較して、我々のフレームワークの優位性を実証している。 私たちのコードは受け入れ次第解放されます。

Multimodal pre-training demonstrates its potential in the medical domain, which learns medical visual representations from paired medical reports. However, many pre-training tasks require extra annotations from clinicians, and most of them fail to explicitly guide the model to learn the desired features of different pathologies. To the best of our knowledge, we are the first to utilize Visual Question Answering (VQA) for multimodal pre-training to guide the framework focusing on targeted pathological features. In this work, we leverage descriptions in medical reports to design multi-granular question-answer pairs associated with different diseases, which assist the framework in pre-training without requiring extra annotations from experts. We also propose a novel pre-training framework with a quasi-textual feature transformer, a module designed to transform visual features into a quasi-textual space closer to the textual domain via a contrastive learning strategy. This narrows the vision-language gap and facilitates modality alignment. Our framework is applied to four downstream tasks: report generation, classification, segmentation, and detection across five datasets. Extensive experiments demonstrate the superiority of our framework compared to other state-of-the-art methods. Our code will be released upon acceptance.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-08
# DRCT:画像の超解像度をインフォメーション・ボトルネックから遠ざける

DRCT: Saving Image Super-resolution away from Information Bottleneck ( http://arxiv.org/abs/2404.00722v3 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, (参考訳) 近年、ビジョントランスフォーマーをベースとした低レベル視覚タスクの応用が広く成功している。 CNNベースのモデルとは異なり、Transformerは長距離依存のキャプチャに適しており、非ローカル領域の情報を利用した画像の再構築を可能にする。 超解像領域では、グローバル空間情報を捕捉する能力と、異なるウィンドウ間の情報交換を容易にするシフト・ウインドウ・アテンション機構により、スウィントランスフォーマーベースのアプローチが主流となっている。 多くの研究者は、受容領域を拡張したり、複雑なネットワークを設計することで、画像の品質とネットワーク効率を向上し、賞賛できる結果を得た。 しかし,空間情報は深度の増加により前方伝播過程において減少傾向にあり,空間情報が失われる傾向にあり,その結果,モデルのポテンシャルが制限されることがわかった。 そこで本研究では,層間密な残差接続による空間情報の損失を軽減することを目的としたDense-Residual-connect Transformer (DRCT)を提案する。 実験結果から,本手法は単純であるだけでなく,最先端の手法を超越し,NTIRE2024で順調に動作し,優れた効率を達成できることが示唆された。

In recent years, Vision Transformer-based applications to low-level vision tasks have achieved widespread success. Unlike CNN-based models, Transformers are more adept at capturing long-range dependencies, enabling the reconstruction of images utilizing information from non-local areas. In the domain of super-resolution, Swin-transformer-based approaches have become mainstream due to their capacity to capture global spatial information and their shifting-window attention mechanism that facilitates the interchange of information between different windows. Many researchers have enhanced image quality and network efficiency by expanding the receptive field or designing complex networks, yielding commendable results. However, we observed that spatial information tends to diminish during the forward propagation process due to increased depth, leading to a loss of spatial information and, consequently, limiting the model's potential. To address this, we propose the Dense-residual-connected Transformer (DRCT), aimed at mitigating the loss of spatial information through dense-residual connections between layers, thereby unleashing the model's potential and enhancing performance. Experiment results indicate that our approach is not only straightforward but also achieves remarkable efficiency, surpassing state-of-the-art methods and performing commendably at NTIRE2024.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-08
# ジャイロによるニューラルシングルイメージの劣化

Gyro-based Neural Single Image Deblurring ( http://arxiv.org/abs/2404.00916v2 )

ライセンス: Link先を確認
Heemin Yang, Jaesung Rim, Seungyong Lee, Seung-Hwan Baek, Sunghyun Cho, (参考訳) 本稿では,ジャイロセンサを用いて画像の劣化を効果的に解消する,新しい単一画像分解手法であるGyroDeblurNetを提案する。 ジャイロセンサーは、露光時のカメラの動きに関する貴重な情報を提供する。 しかし,センサノイズ,カメラモジュールとジャイロセンサの位置のずれ,翻訳動作情報の欠如,ジャイロセンサで動きを捉えられない移動物体など,様々な情報源からの重大な誤りにより,現実のジャイロデータを効果的に活用することは困難である。 ジャイロエラーを処理するため、GyroDeblurNetはジャイロ精製ブロックとジャイロ除去ブロックという2つの新しいニューラルネットワークブロックを備えている。 ジャイロ精錬ブロックは、入力画像からのぼやけた情報を用いて、誤差のあるジャイロデータを精錬する。 一方、ジャイロ除去ブロックは、精製されたジャイロデータを用いて入力画像からぼかしを除去し、入力画像からのぼかし情報を利用してジャイロ誤差を補正する。 誤ったジャイロデータを用いてニューラルネットワークをトレーニングするために,カリキュラム学習に基づくトレーニング戦略を提案する。 また、現実世界の複雑なカメラの揺れを表す新しいジャイロデータ埋め込み方式を導入する。 最後に,ジャイロ画像の学習と評価のための合成データセットと実際のデータセットを提案する。 提案手法は, 誤ジャイロデータを有効利用することにより, 最先端の劣化品質を実現することを実証した。

In this paper, we present GyroDeblurNet, a novel single image deblurring method that utilizes a gyro sensor to effectively resolve the ill-posedness of image deblurring. The gyro sensor provides valuable information about camera motion during exposure time that can significantly improve deblurring quality. However, effectively exploiting real-world gyro data is challenging due to significant errors from various sources including sensor noise, the disparity between the positions of a camera module and a gyro sensor, the absence of translational motion information, and moving objects whose motions cannot be captured by a gyro sensor. To handle gyro error, GyroDeblurNet is equipped with two novel neural network blocks: a gyro refinement block and a gyro deblurring block. The gyro refinement block refines the error-ridden gyro data using the blur information from the input image. On the other hand, the gyro deblurring block removes blur from the input image using the refined gyro data and further compensates for gyro error by leveraging the blur information from the input image. For training a neural network with erroneous gyro data, we propose a training strategy based on the curriculum learning. We also introduce a novel gyro data embedding scheme to represent real-world intricate camera shakes. Finally, we present a synthetic dataset and a real dataset for the training and evaluation of gyro-based single image deblurring. Our experiments demonstrate that our approach achieves state-of-the-art deblurring quality by effectively utilizing erroneous gyro data.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-08
# コンピュータビジョンにおける知識蒸留の概観

A Comprehensive Review of Knowledge Distillation in Computer Vision ( http://arxiv.org/abs/2404.00936v3 )

ライセンス: Link先を確認
Sheikh Musa Kaleem, Tufail Rouf, Gousia Habib, Tausifa jan Saleem, Brejesh Lall, (参考訳) 近年、ディープラーニング技術は最先端の機械学習技術を上回ることが実証されており、コンピュータビジョンが最も顕著な例の1つである。 しかし、ディープラーニングモデルは、大きなモデルサイズと高い複雑さのため、リソース制約のある環境にデプロイする際の大きな欠点に悩まされる。 知識蒸留は、この課題を克服するための重要な解決策の1つです。 本稿では, 複雑なモデルをより小さく, より単純なものに圧縮する技術である, 知識蒸留研究の現状について検討する。 本稿では,知識蒸留に関する主要な原則と技術の概要を述べるとともに,コンピュータビジョン分野における知識蒸留の応用について概説する。 本レビューは, 知識蒸留のメリットと, その有効性向上のために克服すべき課題に焦点を当てる。

Deep learning techniques have been demonstrated to surpass preceding cutting-edge machine learning techniques in recent years, with computer vision being one of the most prominent examples. However, deep learning models suffer from significant drawbacks when deployed in resource-constrained environments due to their large model size and high complexity. Knowledge Distillation is one of the prominent solutions to overcome this challenge. This review paper examines the current state of research on knowledge distillation, a technique for compressing complex models into smaller and simpler ones. The paper provides an overview of the major principles and techniques associated with knowledge distillation and reviews the applications of knowledge distillation in the domain of computer vision. The review focuses on the benefits of knowledge distillation, as well as the problems that must be overcome to improve its effectiveness.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-08
# 360+x:Panoptic Multi-modal Scene Understanding Dataset

360+x: A Panoptic Multi-modal Scene Understanding Dataset ( http://arxiv.org/abs/2404.00989v2 )

ライセンス: Link先を確認
Hao Chen, Yuqi Hou, Chenyuan Qu, Irene Testini, Xiaohan Hong, Jianbo Jiao, (参考訳) 世界の人間の知覚は、様々な視点とモダリティによって形作られています。 既存のデータセットの多くは、ある視点からのシーン理解(例えば、自我中心または第三者の視点)に焦点を当てていますが、私たちのデータセットは、パノスコープ(つまり、複数のデータモダリティを持つ複数の視点)を提供しています。 具体的には,映像,多チャンネル音声,指向性バイノーラル遅延,位置データ,テキストシーン記述などの多彩なモダリティを備えた立体パノラマ・フロントビュー,およびエゴセントリックな単眼/双眼ビューをカプセル化し,世界全体を包括的に観察する。 図1は、私たちの360+xデータセットの28のシーンカテゴリを垣間見せています。 私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。 ベンチマーク分析を通じて,提案した360+xデータセットに5つの異なるシーン理解タスクを提示し,各データモダリティと視点の影響と有用性を評価する。 このユニークなデータセットが、総合的なシーン理解の範囲を広げ、より多様な視点からこれらの問題にアプローチするようコミュニティに促すことを願っています。

Human perception of the world is shaped by a multitude of viewpoints and modalities. While many existing datasets focus on scene understanding from a certain perspective (e.g. egocentric or third-person views), our dataset offers a panoptic perspective (i.e. multiple viewpoints with multiple data modalities). Specifically, we encapsulate third-person panoramic and front views, as well as egocentric monocular/binocular views with rich modalities including video, multi-channel audio, directional binaural delay, location data and textual scene descriptions within each scene captured, presenting comprehensive observation of the world. Figure 1 offers a glimpse of all 28 scene categories of our 360+x dataset. To the best of our knowledge, this is the first database that covers multiple viewpoints with multiple data modalities to mimic how daily information is accessed in the real world. Through our benchmark analysis, we presented 5 different scene understanding tasks on the proposed 360+x dataset to evaluate the impact and benefit of each data modality and perspective in panoptic scene understanding. We hope this unique dataset could broaden the scope of comprehensive scene understanding and encourage the community to approach these problems from more diverse perspectives.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-08
# 非教師的行動セグメンテーションのための時間的一貫した不均衡最適輸送

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation ( http://arxiv.org/abs/2404.01518v3 )

ライセンス: Link先を確認
Ming Xu, Stephen Gould, (参考訳) 本稿では,最適な移動問題の解法を基礎として,長編未編集ビデオのためのアクションセグメンテーションタスクを提案する。 時間的一貫性をGromov-Wasserstein問題に符号化することにより、ビデオフレームとアクションクラス間のノイズ親和性/マッチングコスト行列から時間的整合セグメンテーションをデコードすることができる。 従来の手法とは異なり,ビデオが時間的整合性を達成するためには,動作順序を知る必要はない。 さらに、得られた(融合した)グロモフ=ワッサーシュタイン問題は、プロジェクションミラー降下を数回繰り返してGPU上で効率的に解ける。 自己学習のための擬似ラベルを生成するための教師なし学習環境において,本手法の有効性を実証する。 我々は、Breakfast、50-Salads、YouTube Instructions、Desktop Assemblyデータセットのセグメンテーションアプローチと教師なし学習パイプラインを評価し、教師なしビデオアクションセグメンテーションタスクの最先端結果を得た。

We propose a novel approach to the action segmentation task for long, untrimmed videos, based on solving an optimal transport problem. By encoding a temporal consistency prior into a Gromov-Wasserstein problem, we are able to decode a temporally consistent segmentation from a noisy affinity/matching cost matrix between video frames and action classes. Unlike previous approaches, our method does not require knowing the action order for a video to attain temporal consistency. Furthermore, our resulting (fused) Gromov-Wasserstein problem can be efficiently solved on GPUs using a few iterations of projected mirror descent. We demonstrate the effectiveness of our method in an unsupervised learning setting, where our method is used to generate pseudo-labels for self-training. We evaluate our segmentation approach and unsupervised learning pipeline on the Breakfast, 50-Salads, YouTube Instructions and Desktop Assembly datasets, yielding state-of-the-art results for the unsupervised video action segmentation task.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# LPSNet: エンド・ツー・エンドヒューマン・ポースとレンズレスイメージングによる形状推定

LPSNet: End-to-End Human Pose and Shape Estimation with Lensless Imaging ( http://arxiv.org/abs/2404.01941v3 )

ライセンス: Link先を確認
Haoyang Ge, Qiao Feng, Hailong Jia, Xiongzheng Li, Xiangjun Yin, You Zhou, Jingyu Yang, Kun Li, (参考訳) レンズレス画像を用いたHPS(Human pose and shape)推定は、プライバシ保護に有用であるだけでなく、この装置の小型で単純な構造のため、隠蔽監視のシナリオにも利用できる。 しかし、この課題は、キャプチャーされた測定の本来のあいまいさと、レンズレスデータから人間のポーズや形状を直接推定する効果的な方法が欠如していることから、重大な課題を提起する。 本稿では,レンズレス計測から知識まで,人間の3次元ポーズと形状を復元する初のエンドツーエンドフレームワークを提案する。 具体的には、光学的に符号化されたマスクを用いてレンズレス計測をデコードし、効率的な特徴抽出を行うマルチスケールレンズレス特徴デコーダを設計する。 また,人間の手足端推定精度を向上させるために,両頭補助補助機構を提案する。 さらに、レンズレスイメージングシステムを構築し、レンズレスイメージングシステムによって取得された様々なデータセットに対して、本手法の有効性を検証する。

Human pose and shape (HPS) estimation with lensless imaging is not only beneficial to privacy protection but also can be used in covert surveillance scenarios due to the small size and simple structure of this device. However, this task presents significant challenges due to the inherent ambiguity of the captured measurements and lacks effective methods for directly estimating human pose and shape from lensless data. In this paper, we propose the first end-to-end framework to recover 3D human poses and shapes from lensless measurements to our knowledge. We specifically design a multi-scale lensless feature decoder to decode the lensless measurements through the optically encoded mask for efficient feature extraction. We also propose a double-head auxiliary supervision mechanism to improve the estimation accuracy of human limb ends. Besides, we establish a lensless imaging system and verify the effectiveness of our method on various datasets acquired by our lensless imaging system.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# ブラウン粒子と物質波

Brownian Particles and Matter Waves ( http://arxiv.org/abs/2404.02016v2 )

ライセンス: Link先を確認
Nicos Makris, (参考訳) 微小レオロジーによるブラウン粒子のランダムな運動を極小のナノメートルで観測する顕著な進歩を考慮し, ブラウン粒子が量子デコヒーレンス(英語版)の先行引数を使わずに粒子-波双対性を示すことができるかどうかを考察した。 まず、時間非依存の拡散係数を持つ無記憶粘性流体にブラウン粒子が浸漬されている場合について検討し、粒子波双対性を示すためのブラウン粒子の要求は、拡散係数が逆時間に比例しなければならないという不安定な結果をもたらす。 この発見は、量子力学がマルコフ拡散過程と等価でないという過去の結論に一致する。 次に,ブラウン粒子が散逸を伴わずとも調和ポテンシャルに閉じ込められている場合について検討する。 散逸のない場合のフォッカー・プランク方程式と散逸のない場合のシュロディンガー方程式の両方の解は、同じ物理的に許容できる結果をもたらす。ブラウン粒子が粒子-波双対性を示すためには、その平均運動エネルギーは量子調和振動子の基底状態エネルギーの半分である必要がある。 私たちの1次元の計算では、このトラップは非常に強く、ブラウンナノ粒子を非常に硬い固体に埋め込む必要があることが示されています。

In view of the remarkable progress in micro-rheology to monitor the random motion of Brownian particles with size as small as few nanometers, in association that de Broglie matter waves have been experimentally observed for large molecules of comparable nanometer size; we examine whether Brownian particles can manifest a particle-wave duality without employing a priori arguments from quantum decoherence. First, we examine the case where Brownian particles are immersed in a memoryless viscous fluid with a time-independent diffusion coefficient; and the requirement for the Brownian particles to manifest a particle-wave duality leads to the untenable result that the diffusion coefficient has to be proportional to the inverse time; therefore, diverging at early times. This finding agrees with past conclusions--that quantum mechanics is not equivalent to a Markovian diffusion process. Next, we examine the case where the Brownian particle is trapped in a harmonic potential well with and without dissipation. Both solutions of the Fokker-Plank equation for the case with dissipation, and of the Schrodinger equation for the case without dissipation lead to the same physically acceptable result-that for the Brownian particle to manifest a particle-wave duality, its mean kinetic energy needs to be half the ground-state energy of the quantum harmonic oscillator. Our one-dimensional calculations show that for this to happen, the trapping needs to be very strong so that a Brownian nanoparticle needs to be embedded in an extremely stiff solid.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# 騒音に強いロバスト性を持つ中性個体群

Already Moderate Population Sizes Provably Yield Strong Robustness to Noise ( http://arxiv.org/abs/2404.02090v2 )

ライセンス: Link先を確認
Denis Antipov, Benjamin Doerr, Alexandra Ivanova, (参考訳) 経験から、典型的な進化的アルゴリズムは、ノイズ関数評価のような確率的障害にうまく対応できることが示されている。 1+\lambda)$と$(1,\lambda)$の進化的アルゴリズムのこの最初の数学的ランタイム解析では、両方のアルゴリズムがOneMaxベンチマークの漸近的ランタイムを増大させることなく、一定のノイズ確率を許容できることが示される。 これに対し、集団サイズ$\lambda$ sufficesは、少なくとも問題サイズ$n$の対数である。 この方向に向けられた唯一の結果は、現実的でない1ビットノイズモデルであり、問題サイズが超直線的であることが必要であり、OneMaxベンチマークのノイズレスランタイムでは、ほぼ3分の1の保証が保証された。 より強力な結果は、ノイズのない子孫は親と騒々しい子孫の間に偏りのある均一な交叉と見なすことができるという新しい証明理論に基づくものである。 この知見から得られた技術的補題は、進化的アルゴリズムの数学的ランタイム解析にも応用できると楽観的である。

Experience shows that typical evolutionary algorithms can cope well with stochastic disturbances such as noisy function evaluations. In this first mathematical runtime analysis of the $(1+\lambda)$ and $(1,\lambda)$ evolutionary algorithms in the presence of prior bit-wise noise, we show that both algorithms can tolerate constant noise probabilities without increasing the asymptotic runtime on the OneMax benchmark. For this, a population size $\lambda$ suffices that is at least logarithmic in the problem size $n$. The only previous result in this direction regarded the less realistic one-bit noise model, required a population size super-linear in the problem size, and proved a runtime guarantee roughly cubic in the noiseless runtime for the OneMax benchmark. Our significantly stronger results are based on the novel proof argument that the noiseless offspring can be seen as a biased uniform crossover between the parent and the noisy offspring. We are optimistic that the technical lemmas resulting from this insight will find applications also in future mathematical runtime analyses of evolutionary algorithms.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# 光衛星画像における船種分類の強化:ResNetと畳み込みブロック注意モジュールの統合による性能向上

Enhancing Ship Classification in Optical Satellite Imagery: Integrating Convolutional Block Attention Module with ResNet for Improved Performance ( http://arxiv.org/abs/2404.02135v3 )

ライセンス: Link先を確認
Ryan Donghan Kwon, Gangjoo Robin Nam, Jisoo Tak, Junseob Shin, Hyerin Cha, Yeom Hyeok, Seung Won Lee, (参考訳) 本研究では,光衛星画像から船種分類を行うための高度な畳み込みニューラルネットワーク (CNN) アーキテクチャを提案し,CBAM (Convolutional Block Attention Module) と追加アーキテクチャの革新によって性能を著しく向上させた。 基礎となるResNet50モデルに基づいて、私たちはまず、標準CBAMを組み込んで、モデルがより有益な機能に焦点を向け、ベースラインであるResNet50の85%と比較して87%の精度を実現しました。 さらなる拡張には、マルチスケールの機能統合、深く分離可能な畳み込み、拡張された畳み込みが含まれ、CBAMを改良した強化ResNetモデルで頂点に達した。 このモデルは95%の精度を示し、精度、リコール、f1スコアは全て様々な船級で大幅に改善された。 特にばら積み貨物船と石油タンカーのクラスは、ほぼ完全な精度とリコール率を示し、船の正確な識別と分類におけるモデルの強化能力を強調した。 注意熱マップ解析により、改善されたモデルの有効性がさらに検証され、背景の複雑さに関わらず、関連する船の特徴により注意が向けられた。 これらの知見は、高解像度衛星画像分類のためのCNNにおける注意機構とアーキテクチャ革新の統合の可能性を示している。 この研究は、クラス不均衡と計算コストの課題を乗り越え、新しいまたは稀な船型認識におけるスケーラビリティと適応性への今後の方向性を提案する。 本研究は,リモートセンシング分野における高度な深層学習技術の応用に向けた基礎研究であり,スケーラブルで効率的な衛星画像分類に関する洞察を提供する。

This study presents an advanced Convolutional Neural Network (CNN) architecture for ship classification from optical satellite imagery, significantly enhancing performance through the integration of the Convolutional Block Attention Module (CBAM) and additional architectural innovations. Building upon the foundational ResNet50 model, we first incorporated a standard CBAM to direct the model's focus towards more informative features, achieving an accuracy of 87% compared to the baseline ResNet50's 85%. Further augmentations involved multi-scale feature integration, depthwise separable convolutions, and dilated convolutions, culminating in the Enhanced ResNet Model with Improved CBAM. This model demonstrated a remarkable accuracy of 95%, with precision, recall, and f1-scores all witnessing substantial improvements across various ship classes. The bulk carrier and oil tanker classes, in particular, showcased nearly perfect precision and recall rates, underscoring the model's enhanced capability in accurately identifying and classifying ships. Attention heatmap analyses further validated the improved model's efficacy, revealing a more focused attention on relevant ship features, regardless of background complexities. These findings underscore the potential of integrating attention mechanisms and architectural innovations in CNNs for high-resolution satellite imagery classification. The study navigates through the challenges of class imbalance and computational costs, proposing future directions towards scalability and adaptability in new or rare ship type recognition. This research lays a groundwork for the application of advanced deep learning techniques in the domain of remote sensing, offering insights into scalable and efficient satellite image classification.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# 保存チェックポイントの線形結合による一貫性と拡散モデルの改善

Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better ( http://arxiv.org/abs/2404.02241v2 )

ライセンス: Link先を確認
Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko, Sergey Yekhanin, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang, (参考訳) Diffusion Models (DM) と Consistency Models (CM) は、様々なタスクにおいて優れた生成品質を持つ人気のある生成モデルである。 トレーニングDMとCMでは、中間重みチェックポイントが十分に活用されず、最後の収束チェックポイントのみが使用される。 本研究では,SGDでは到達できないが,適切なチェックポイント平均化によって得られるような,高品質なモデルウェイトがしばしば存在することを明らかにする。 そこで本研究では,DMとCMの性能向上のための簡易かつ効率的なLCSCを提案し,学習軌道に沿ったチェックポイントと進化探索から導出される係数を組み合わせた。 LCSCの値は2つのユースケースを通して示します。 (a)訓練費の削減。 LCSCでは、完全にトレーニングされたモデルと同等のサンプル品質を得るために、DM/CMを少ないイテレーション数と/または低いバッチサイズでトレーニングするだけです。 例えば、LCSCはCMのトレーニングスピードアップ(CIFAR-10では23$\times$、ImageNet-64では15$\times$)を実現している。 $\textbf{ (b)事前訓練モデルの導入。 フルトレーニングがすでに完了していると仮定すると、LCSCは最終的な収束モデルの生成品質や速度をさらに向上させることができる。 例えば, LCSCは, CIFAR-10 の生成品質を維持しながら, 2 NFE の連続蒸留における基本モデルよりも 1 個の関数評価 (NFE) により優れた性能を実現し, DM の NFE を 15 から 9 に減少させる。 私たちのコードはhttps://github.com/imagination-research/LCSC.comで公開されています。

Diffusion Models (DM) and Consistency Models (CM) are two types of popular generative models with good generation quality on various tasks. When training DM and CM, intermediate weight checkpoints are not fully utilized and only the last converged checkpoint is used. In this work, we find that high-quality model weights often lie in a basin which cannot be reached by SGD but can be obtained by proper checkpoint averaging. Based on these observations, we propose LCSC, a simple but effective and efficient method to enhance the performance of DM and CM, by combining checkpoints along the training trajectory with coefficients deduced from evolutionary search. We demonstrate the value of LCSC through two use cases: $\textbf{(a) Reducing training cost.}$ With LCSC, we only need to train DM/CM with fewer number of iterations and/or lower batch sizes to obtain comparable sample quality with the fully trained model. For example, LCSC achieves considerable training speedups for CM (23$\times$ on CIFAR-10 and 15$\times$ on ImageNet-64). $\textbf{(b) Enhancing pre-trained models.}$ Assuming full training is already done, LCSC can further improve the generation quality or speed of the final converged models. For example, LCSC achieves better performance using 1 number of function evaluation (NFE) than the base model with 2 NFE on consistency distillation, and decreases the NFE of DM from 15 to 9 while maintaining the generation quality on CIFAR-10. Our code is available at https://github.com/imagination-research/LCSC.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# 緊急給電における電気自動車のルーティング問題--テレコム基地局の救済に向けて

Electric Vehicle Routing Problem for Emergency Power Supply: Towards Telecom Base Station Relief ( http://arxiv.org/abs/2404.02448v2 )

ライセンス: Link先を確認
Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri, Yuta Toyama, Masaki Nakamura, Yuusuke Nakano, (参考訳) 当社は、通信事業者として、停電時においても、通信サービスを維持するための重要な使命を持っています。 ミッションを達成するためには、通信基地局のパワーを維持することが不可欠である。 ここでは、電気自動車(EV)が基地局に直接電力を供給し、その場所を走行するソリューションについて考察する。 目標は、すべてのEVの総走行距離と、ダウンした基地局の数の両方を最小化するEVルートを見つけることである。 本稿では、このルーティング問題をEVRP(EVRP)の新たな変種として定式化し、ルールベースの車両セレクタと強化学習(RL)ベースのノードセレクタを組み合わせた解法を提案する。 車両セレクタのルールは、選択されたEVが動き始めると、正確な環境状態を保証する。 さらに、RLモデルによるノード選択により、緊急時に重要な高速経路生成が可能となる。 合成データセットと実データセットの両方で解法を評価する。 その結果, 目的値や計算時間の観点から, 解法はベースラインよりも優れていた。 さらに,解解器の一般化と拡張性を解析し,目に見えない設定や大規模問題に対する能力を実証する。 https://ntt-dkiku.github.io/rl-evrpeps.com/vc/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s

As a telecom provider, our company has a critical mission to maintain telecom services even during power outages. To accomplish the mission, it is essential to maintain the power of the telecom base stations. Here we consider a solution where electric vehicles (EVs) directly supply power to base stations by traveling to their locations. The goal is to find EV routes that minimize both the total travel distance of all EVs and the number of downed base stations. In this paper, we formulate this routing problem as a new variant of the Electric Vehicle Routing Problem (EVRP) and propose a solver that combines a rule-based vehicle selector and a reinforcement learning (RL)-based node selector. The rule of the vehicle selector ensures the exact environmental states when the selected EV starts to move. In addition, the node selection by the RL model enables fast route generation, which is critical in emergencies. We evaluate our solver on both synthetic datasets and real datasets. The results show that our solver outperforms baselines in terms of the objective value and computation time. Moreover, we analyze the generalization and scalability of our solver, demonstrating the capability toward unseen settings and large-scale problems. Check also our project page: https://ntt-dkiku.github.io/rl-evrpeps.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-08
# 経路整合性を考慮した自己監督型多物体追跡

Self-Supervised Multi-Object Tracking with Path Consistency ( http://arxiv.org/abs/2404.05136v1 )

ライセンス: Link先を確認
Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo, (参考訳) 本稿では,手動のオブジェクト識別管理を使わずに,ロバストなオブジェクトマッチングを学習するための経路整合性の概念を提案する。 我々のキーとなる考え方は、物体をフレームを通して追跡するために、観察できるフレーム、すなわち観察中のフレームをスキップすることで、モデルから複数の異なる関連結果を得ることができることである。 観測結果の違いが物体の同一性を変えることはないため、得られた関連性は一貫性があるべきである。 この理論に基づいて、複数の観測経路を生成し、それぞれがスキップすべき異なるフレームの集合を指定し、関連結果を強制するパス一貫性損失を定式化する。 提案した損失を利用して、自己スーパービジョンのみでオブジェクトマッチングモデルをトレーニングします。 3つの追跡データセット(MOT17, PersonPath22, KITTI)の広範囲な実験により,本手法は様々な評価指標に対して一貫したマージンで既存の教師なし手法よりも優れており,教師なし手法に近い性能を達成できることを示した。

In this paper, we propose a novel concept of path consistency to learn robust object matching without using manual object identity supervision. Our key idea is that, to track a object through frames, we can obtain multiple different association results from a model by varying the frames it can observe, i.e., skipping frames in observation. As the differences in observations do not alter the identities of objects, the obtained association results should be consistent. Based on this rationale, we generate multiple observation paths, each specifying a different set of frames to be skipped, and formulate the Path Consistency Loss that enforces the association results are consistent across different observation paths. We use the proposed loss to train our object matching model with only self-supervision. By extensive experiments on three tracking datasets (MOT17, PersonPath22, KITTI), we demonstrate that our method outperforms existing unsupervised methods with consistent margins on various evaluation metrics, and even achieves performance close to supervised methods.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# GloSoFarID:衛星画像におけるソーラーファーム識別のための地球規模のマルチスペクトルデータセット

GloSoFarID: Global multispectral dataset for Solar Farm IDentification in satellite imagery ( http://arxiv.org/abs/2404.05180v1 )

ライセンス: Link先を確認
Zhiyuan Yang, Ryan Rad, (参考訳) 太陽光発電(PV)技術は、クリーンエネルギーと再生可能エネルギーの国際的追求における重要な解決策として、ますます認識されている。 この技術は、太陽光発電を温室効果ガスの排出なしに電気に変換することで、持続可能なエネルギー代替手段の必要性に対処する。 地球規模の二酸化炭素排出量を削減できるだけでなく、有限で再生不可能なエネルギー源への依存を減らす。 この文脈では、クリーンエネルギーへの世界的なシフトを理解し、促進するために、ソーラーパネルファームのモニタリングが不可欠である。 本研究は、ソーラーパネルファームのマルチスペクトル衛星画像の包括的グローバルデータセットを開発することで、この取り組みに寄与する。 このデータセットは、世界中のソーラーパネルファームの展開と分布を正確にマッピングし分析できる堅牢な機械学習モデルをトレーニングするための基盤となることを意図している。 この取り組みから得られた洞察は、持続可能なエネルギーの未来のための情報的意思決定の指針となるだろう。 https://github.com/yzyly 1992/GloSoFarID

Solar Photovoltaic (PV) technology is increasingly recognized as a pivotal solution in the global pursuit of clean and renewable energy. This technology addresses the urgent need for sustainable energy alternatives by converting solar power into electricity without greenhouse gas emissions. It not only curtails global carbon emissions but also reduces reliance on finite, non-renewable energy sources. In this context, monitoring solar panel farms becomes essential for understanding and facilitating the worldwide shift toward clean energy. This study contributes to this effort by developing the first comprehensive global dataset of multispectral satellite imagery of solar panel farms. This dataset is intended to form the basis for training robust machine learning models, which can accurately map and analyze the expansion and distribution of solar panel farms globally. The insights gained from this endeavor will be instrumental in guiding informed decision-making for a sustainable energy future. https://github.com/yzyly1992/GloSoFarID
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 相互作用認識軌道条件による複数エージェントの長期3次元人物予測

Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning ( http://arxiv.org/abs/2404.05218v1 )

ライセンス: Link先を確認
Jaewoo Jeong, Daehee Park, Kuk-Jin Yoon, (参考訳) 人間は多様な用途に注意を喚起します。 しかし、人間の動作とエージェント間の複雑な相互作用のマルチモーダルな性質をモデル化する上での課題は、特により長い時間スケールとより多くのエージェントで持続する。 本稿では,多モードグローバルな軌跡をまず予測し,その後各モードで各局所的なポーズ予測を行う,粗大な予測手法を応用した,対話型トラジェクトリを考慮した長期マルチエージェントのポーズ予測モデルを提案する。 そこでTrajectory2Poseモデルでは,局所運動条件のグローバルな軌跡と軌道条件の局所的なポーズの相互予測のためのグラフベースのエージェント・ワイズ・インタラクション・モジュールを導入している。 本モデルは,人間の動作の多モード性と長期多エージェント相互作用の複雑さを効果的に処理し,複雑な環境における性能を向上させる。 さらに、実世界の画像と2Dアノテーションから新しいデータセットを構築することで、長期(6s+)マルチエージェント(5+)データセットの欠如に対処し、提案モデルの包括的な評価を可能にする。 複雑なデータセットと単純なデータセットの両方における最先端予測性能は,本手法の一般化の有効性を裏付けるものである。 コードはhttps://github.com/Jaewoo97/T2Pで公開されている。

Human pose forecasting garners attention for its diverse applications. However, challenges in modeling the multi-modal nature of human motion and intricate interactions among agents persist, particularly with longer timescales and more agents. In this paper, we propose an interaction-aware trajectory-conditioned long-term multi-agent human pose forecasting model, utilizing a coarse-to-fine prediction approach: multi-modal global trajectories are initially forecasted, followed by respective local pose forecasts conditioned on each mode. In doing so, our Trajectory2Pose model introduces a graph-based agent-wise interaction module for a reciprocal forecast of local motion-conditioned global trajectory and trajectory-conditioned local pose. Our model effectively handles the multi-modality of human motion and the complexity of long-term multi-agent interactions, improving performance in complex environments. Furthermore, we address the lack of long-term (6s+) multi-agent (5+) datasets by constructing a new dataset from real-world images and 2D annotations, enabling a comprehensive evaluation of our proposed model. State-of-the-art prediction performance on both complex and simpler datasets confirms the generalized effectiveness of our method. The code is available at https://github.com/Jaewoo97/T2P.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# LLM推論器:大規模言語モデルを用いたステップバイステップ推論の新しい評価,ライブラリ,解析

LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models ( http://arxiv.org/abs/2404.05221v1 )

ライセンス: Link先を確認
Shibo Hao, Yi Gu, Haotian Luo, Tianyang Liu, Xiyan Shao, Xinyuan Wang, Shuhua Xie, Haodi Ma, Adithya Samavedhi, Qiyue Gao, Zhen Wang, Zhiting Hu, (参考訳) 複雑な問題に対処し、堅牢性と解釈可能性を高めるために、LLM(Large Language Models)には正確なステップバイステップ推論を生成することが不可欠である。 先進的な推論手法の開発に関する研究が山積しているにもかかわらず、多種多様なLCMを体系的に分析し、推論連鎖を生成するための推論戦略は重要な課題である。 課題は,(1)異なるタスク上で生成された推論連鎖を自動評価する手法,(2)体系的比較のための多種多様な推論アプローチの統一的な形式化と実装の2つの重要な要素の欠如に起因している。 本稿では,(1)完全自動推論チェーン評価のためのAutoRaceを導入する。 既存のメトリクスは、高価なヒューマンアノテーションや事前定義されたLCMプロンプトに依存しているため、異なるタスクに適応できない。 対照的にAutoRaceは、各タスクに適した詳細な評価基準を自動的に作成し、基準に従って正確な評価を行うためにGPT-4を使用する。 2) LLM Reasonersは,検索,報酬,世界モデルコンポーネントの統一的な定式化の下で,既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化したライブラリである。 新しい評価とライブラリーにより,(3)異なる推論手法(例えば,CoT,ToT,RAP)について広範な研究を行う。 この分析は、報酬誘導、検索の幅広さ、世界モデル、プロンプトフォーマットなど、推論に寄与するさまざまな要因に関する興味深い知見を明らかにしている。

Generating accurate step-by-step reasoning is essential for Large Language Models (LLMs) to address complex problems and enhance robustness and interpretability. Despite the flux of research on developing advanced reasoning approaches, systematically analyzing the diverse LLMs and reasoning strategies in generating reasoning chains remains a significant challenge. The difficulties stem from the lack of two key elements: (1) an automatic method for evaluating the generated reasoning chains on different tasks, and (2) a unified formalism and implementation of the diverse reasoning approaches for systematic comparison. This paper aims to close the gap: (1) We introduce AutoRace for fully automated reasoning chain evaluation. Existing metrics rely on expensive human annotations or pre-defined LLM prompts not adaptable to different tasks. In contrast, AutoRace automatically creates detailed evaluation criteria tailored for each task, and uses GPT-4 for accurate evaluation following the criteria. (2) We develop LLM Reasoners, a library for standardized modular implementation of existing and new reasoning algorithms, under a unified formulation of the search, reward, and world model components. With the new evaluation and library, (3) we conduct extensive study of different reasoning approaches (e.g., CoT, ToT, RAP). The analysis reveals interesting findings about different factors contributing to reasoning, including the reward-guidance, breadth-vs-depth in search, world model, and prompt formats, etc.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# LayoutLLM: ドキュメント理解のための大規模言語モデルによるレイアウトインストラクションチューニング

LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding ( http://arxiv.org/abs/2404.05225v1 )

ライセンス: Link先を確認
Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao, (参考訳) 近年,大規模言語モデル (LLM) やマルチモーダル大規模言語モデル (MLLM) を文書理解に活用することが,非常に有望であることが証明されている。 しかし、文書理解にLLM/MLLMを用いた以前の研究は、文書レイアウト情報を十分に探求し、活用していないため、正確な文書理解には不可欠である。 本稿では,LLM/MLLMに基づく文書理解手法であるLayoutLLMを提案する。 LayoutLLMのコアはレイアウト命令のチューニング戦略であり、特にドキュメントレイアウトの理解と利用を高めるために設計されている。 提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。 レイアウトを意識した事前学習において,文書レベル,領域レベル,セグメントレベルの情報に対応する3つの事前学習タスク群が導入された。 さらに、レイアウトチェーン(LayoutCoT)と呼ばれる新しいモジュールが考案され、LayoutLLMは質問に関連する領域に集中し、正確な回答を生成することができる。 LayoutCoTは文書理解のパフォーマンスを高めるのに有効です。 一方、ある程度の解釈可能性を持ち、手動による検査と修正を容易にする。 標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。 LayoutLLMのトレーニングデータはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LayoutL LMで公開されている。

Recently, leveraging large language models (LLMs) or multimodal large language models (MLLMs) for document understanding has been proven very promising. However, previous works that employ LLMs/MLLMs for document understanding have not fully explored and utilized the document layout information, which is vital for precise document understanding. In this paper, we propose LayoutLLM, an LLM/MLLM based method for document understanding. The core of LayoutLLM is a layout instruction tuning strategy, which is specially designed to enhance the comprehension and utilization of document layouts. The proposed layout instruction tuning strategy consists of two components: Layout-aware Pre-training and Layout-aware Supervised Fine-tuning. To capture the characteristics of document layout in Layout-aware Pre-training, three groups of pre-training tasks, corresponding to document-level, region-level and segment-level information, are introduced. Furthermore, a novel module called layout chain-of-thought (LayoutCoT) is devised to enable LayoutLLM to focus on regions relevant to the question and generate accurate answers. LayoutCoT is effective for boosting the performance of document understanding. Meanwhile, it brings a certain degree of interpretability, which could facilitate manual inspection and correction. Experiments on standard benchmarks show that the proposed LayoutLLM significantly outperforms existing methods that adopt open-source 7B LLMs/MLLMs for document understanding. The training data of the LayoutLLM is publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LayoutL LM
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 製品記述とQAによる自己スーパービジョンオピニオン要約

Product Description and QA Assisted Self-Supervised Opinion Summarization ( http://arxiv.org/abs/2404.05243v1 )

ライセンス: Link先を確認
Tejpalsingh Siledar, Rupasai Rangaraju, Sankara Sri Raghava Ravindra Muddu, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera, Swaprava Nath, Pushpak Bhattacharyya, (参考訳) eコマースでは、意見要約は製品レビューに見られる意見の一致を要約するプロセスである。 しかし,製品記述や質問応答 (QA) などの追加ソースの可能性は少なくなっている。 さらに、教師付きトレーニングデータがないため、この作業は困難である。 そこで本研究では,レビューからの情報を活用する新しい合成データセット作成(SDC)戦略と,レビューの1つを疑似要約として選択し,教師付きトレーニングを実現するための追加情報源を提案する。 提案するOpinion Summarization (MEDOS) 用マルチエンコーダデコーダフレームワークでは,各ソースに別個のエンコーダを用いて,要約を生成しながら情報の選択を効果的に行う。 評価のために、追加ソースでテストセットが利用できないため、Amazon、Oposum+、Flipkartテストセットを拡張し、ChatGPTを利用して要約を注釈します。 9つのテストセットでの実験では、SDCアプローチとMEDOSモデルの組み合わせにより、SOTAよりも平均14.5%改良されたROUGE-1 F1が達成されている。 さらに、比較分析は、より情報的な要約を生成するために追加のソースを組み込むことの重要性を浮き彫りにしている。 人間の評価では、MEDOSのコヒーレンスと流速は、既存のモデルと比較して0.41と0.5(-1から1)と比較的高いことが示されている。 我々の知識を最大限に活用するために、我々は、自己監督的な環境で追加のソースを活用する意見要約を初めて生成する。

In e-commerce, opinion summarization is the process of summarizing the consensus opinions found in product reviews. However, the potential of additional sources such as product description and question-answers (QA) has been considered less often. Moreover, the absence of any supervised training data makes this task challenging. To address this, we propose a novel synthetic dataset creation (SDC) strategy that leverages information from reviews as well as additional sources for selecting one of the reviews as a pseudo-summary to enable supervised training. Our Multi-Encoder Decoder framework for Opinion Summarization (MEDOS) employs a separate encoder for each source, enabling effective selection of information while generating the summary. For evaluation, due to the unavailability of test sets with additional sources, we extend the Amazon, Oposum+, and Flipkart test sets and leverage ChatGPT to annotate summaries. Experiments across nine test sets demonstrate that the combination of our SDC approach and MEDOS model achieves on average a 14.5% improvement in ROUGE-1 F1 over the SOTA. Moreover, comparative analysis underlines the significance of incorporating additional sources for generating more informative summaries. Human evaluations further indicate that MEDOS scores relatively higher in coherence and fluency with 0.41 and 0.5 (-1 to 1) respectively, compared to existing models. To the best of our knowledge, we are the first to generate opinion summaries leveraging additional sources in a self-supervised setting.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 任意の芸術的スタイルのためのテキスト・ツー・イメージ合成:サブディビジョンとデュアルバインディングによるパーソナライズされた芸術的画像生成の進歩

Text-to-Image Synthesis for Any Artistic Styles: Advancements in Personalized Artistic Image Generation via Subdivision and Dual Binding ( http://arxiv.org/abs/2404.05256v1 )

ライセンス: Link先を確認
Junseo Park, Beomseok Ko, Hyeryung Jang, (参考訳) 安定拡散(Stable Diffusion)のようなテキスト・画像モデルの最近の進歩は、自然言語のプロンプトを通じて視覚画像を合成する能力を示している。 DreamBoothによって実証されたテキスト・ツー・イメージ・モデルをパーソナライズする1つのアプローチは、特定の対象のいくつかの画像とユニークなテキスト識別子を結合することによって、事前訓練されたモデルを微調整する。 既存のファインチューニング手法は、著名な画家の様式に従って画像を描画する能力を示しているが、線、形、テクスチャ、色などの様式的属性の抽象的、広義の視覚的知覚により、異なる芸術様式をカプセル化したイメージを制作することを学ぶことは依然として困難である。 本稿では,パーソナライズのための新しい手法であるSingle-StyleForgeを提案する。 事前訓練されたテキスト間の拡散モデルを微調整し、テキストプロンプトから特定のスタイルの多様な画像を生成する。 ターゲットスタイルの約15~20の画像を使用することで、ターゲットスタイルの広い範囲にユニークなトークン識別子の基本的な結合を確立する。 また、補助画像を利用してこの結合を強化することで、ターゲットスタイルの一貫性のある方法で人物などの要素を表現するための具体的なガイダンスを提供する。 さらに,StyleForgeの戦略を継承し,複数のトークンを学習するMulti-StyleForgeという手法により,スタイルの品質とテキストイメージのアライメントを改善する方法を提案する。 6つの異なる芸術的スタイルで行われた実験的評価は、生成した画像の品質と、FID、KID、CLIPスコアなどの知覚的忠実度の測定値の両方が大幅に改善されていることを示している。

Recent advancements in text-to-image models, such as Stable Diffusion, have demonstrated their ability to synthesize visual images through natural language prompts. One approach of personalizing text-to-image models, exemplified by DreamBooth, fine-tunes the pre-trained model by binding unique text identifiers with a few images of a specific subject. Although existing fine-tuning methods have demonstrated competence in rendering images according to the styles of famous painters, it is still challenging to learn to produce images encapsulating distinct art styles due to abstract and broad visual perceptions of stylistic attributes such as lines, shapes, textures, and colors. In this paper, we introduce a new method, Single-StyleForge, for personalization. It fine-tunes pre-trained text-to-image diffusion models to generate diverse images in specified styles from text prompts. By using around 15-20 images of the target style, the approach establishes a foundational binding of a unique token identifier with a broad range of the target style. It also utilizes auxiliary images to strengthen this binding, resulting in offering specific guidance on representing elements such as persons in a target style-consistent manner. In addition, we present ways to improve the quality of style and text-image alignment through a method called Multi-StyleForge, which inherits the strategy used in StyleForge and learns tokens in multiple. Experimental evaluation conducted on six distinct artistic styles demonstrates substantial improvements in both the quality of generated images and the perceptual fidelity metrics, such as FID, KID, and CLIP scores.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 対話型およびユーザ中心型アルゴリズム・リコースにおける優先引用の爆発的除去:最初の探索

Exploiting Preference Elicitation in Interactive and User-centered Algorithmic Recourse: An Initial Exploration ( http://arxiv.org/abs/2404.05270v1 )

ライセンス: Link先を確認
Seyedehdelaram Esfahani, Giovanni De Toni, Bruno Lepri, Andrea Passerini, Katya Tentori, Massimo Zancanaro, (参考訳) Algorithmic Recourseは、自動化された機械学習モデルによって下される潜在的に望ましくない決定を覆すために、実行可能な説明、またはリコースプランを提供することを目的としている。 本稿では,ユーザの嗜好を抽出し,効果的なリコース介入に向かわせることを目的とした,ガイド付きインタラクションパターンに基づくインタラクションパラダイムを提案する。 資金貸付の架空の課題として,代替計画とユーザ自身による自由な構成変更の可能性に基づく探索的インタラクションパターンと比較する。 本研究の結果から,利用者はガイドによるインタラクションのパラダイムが効率を向上させることを認識できる可能性が示唆された。 しかし、"What-if"のシナリオを試す自由も減っている。 それでも、純粋に探索的なインターフェースに費やされた時間は効率の欠如として認識されがちであり、魅力、目立ち、信頼性を低下させる。 逆に、ガイドされたインターフェイスでは、知覚された効率に影響を与えることなく、インターフェースの魅力、目立ち、信頼性を高めているように見える。 これは、このタイプのインターフェースが、ガイドされた効果的なソリューションに向かって優しくプッシュしながら探索的な振る舞いをサポートすることによって、これらの2つのアプローチを組み合わせることを示唆しているかもしれない。

Algorithmic Recourse aims to provide actionable explanations, or recourse plans, to overturn potentially unfavourable decisions taken by automated machine learning models. In this paper, we propose an interaction paradigm based on a guided interaction pattern aimed at both eliciting the users' preferences and heading them toward effective recourse interventions. In a fictional task of money lending, we compare this approach with an exploratory interaction pattern based on a combination of alternative plans and the possibility of freely changing the configurations by the users themselves. Our results suggest that users may recognize that the guided interaction paradigm improves efficiency. However, they also feel less freedom to experiment with "what-if" scenarios. Nevertheless, the time spent on the purely exploratory interface tends to be perceived as a lack of efficiency, which reduces attractiveness, perspicuity, and dependability. Conversely, for the guided interface, more time on the interface seems to increase its attractiveness, perspicuity, and dependability while not impacting the perceived efficiency. That might suggest that this type of interfaces should combine these two approaches by trying to support exploratory behavior while gently pushing toward a guided effective solution.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# MindSet: Vision.DNNを重要な心理実験でテストするためのツールボックス

MindSet: Vision. A toolbox for testing DNNs on key psychological experiments ( http://arxiv.org/abs/2404.05290v1 )

ライセンス: Link先を確認
Valerio Biscione, Dong Yin, Gaurav Malhotra, Marin Dujmovic, Milton L. Montero, Guillermo Puebla, Federico Adolfi, Rachel F. Heaton, John E. Hummel, Benjamin D. Evans, Karim Habashy, Jeffrey S. Bowers, (参考訳) ディープニューラルネットワーク(DNN)と人間のビジョンのアライメントを評価するために、複数のベンチマークが開発されている。 ほとんどすべてのケースにおいて、これらのベンチマークは、DNNや人間がどのようにオブジェクトを知覚し、識別するかの仮説をテストするために操作されていない自然主義的なイメージに対する行動と脳の反応からなるという意味で観察的である。 ここでは、30の心理的発見に基づいてDNNをテストするために設計された画像データセットと関連するスクリプトの集合からなるツールボックスMindSet: Visionを紹介する。 すべての実験条件において、刺激は、人間の視覚知覚と物体認識に関する特定の仮説をテストするために体系的に操作される。 画像の事前生成データセットの提供に加えて、さまざまな研究コンテキストに対してデータセットの汎用性を大幅に拡張する多くの設定可能なパラメータや、https://github.com/MindSetVision/mindset-vision.com/mindSetVision/mindset-visionでアクセス可能な3つの異なる方法(類似性判定、アウト・オブ・ディストリビューション分類、デコーダメソッド)を使用して、これらのデータセット上でDNNのテストを容易にするコードを提供しています。 これらのメソッドでResNet-152をテストし、ツールボックスの使い方の例を示します。

Multiple benchmarks have been developed to assess the alignment between deep neural networks (DNNs) and human vision. In almost all cases these benchmarks are observational in the sense they are composed of behavioural and brain responses to naturalistic images that have not been manipulated to test hypotheses regarding how DNNs or humans perceive and identify objects. Here we introduce the toolbox MindSet: Vision, consisting of a collection of image datasets and related scripts designed to test DNNs on 30 psychological findings. In all experimental conditions, the stimuli are systematically manipulated to test specific hypotheses regarding human visual perception and object recognition. In addition to providing pre-generated datasets of images, we provide code to regenerate these datasets, offering many configurable parameters which greatly extend the dataset versatility for different research contexts, and code to facilitate the testing of DNNs on these image datasets using three different methods (similarity judgments, out-of-distribution classification, and decoder method), accessible at https://github.com/MindSetVision/mindset-vision. We test ResNet-152 on each of these methods as an example of how the toolbox can be used.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 一定製品市場メーカーのための自動攻撃合成

Automated Attack Synthesis for Constant Product Market Makers ( http://arxiv.org/abs/2404.05297v1 )

ライセンス: Link先を確認
Sujin Han, Jinseo Kim, Sung-Ju Lee, Insu Yun, (参考訳) 分散金融は、従来の金融では不可能だった多くの新しい応用を可能にする。 しかし、コンポーザビリティのバグなど、新しいタイプの脆弱性も導入されている。 構成可能性のバグは、複数のスマートコントラクトが連携する際の誤った振る舞いにつながる問題を指す。 構成可能性のバグの典型的な例は、トークン契約と、分散取引における最も広く使われているモデルであるCPMM(Constant Product Market Makers)の間のバグである。 2022年以降、23回の攻撃により合計220万USドルが失われた。 スマートコントラクト監査会社であるBlockSecは、2023年2月に138件のエクスプロイトが発生したと報告している。 本稿では,CPMMコンポーザビリティバグに対するエンドツーエンドのエクスプロイトを自動的に検出し,生成するCPMM-Exploiterを提案する。 このようなエンドツーエンドのエクスプロイトの生成は、複数の契約の巨大な検索スペースと、金融サービスに関連するさまざまな手数料のために困難である。 この問題に対処するために,これらの脆弱性に関する現実世界のエクスプロイトを調査し,それらが2つの安全不変量に違反して発生することを確認した。 そこで我々は,これらのバグの検出を目的とした新しい文法ベースのファズーであるCPMM-Exploiterを実装した。 CPMM-Exploiterはファジィを使って不変性を壊すトランザクションを見つける。 そして、これらのトランザクションを洗練して、攻撃者に利益をもたらす。 実世界の2つのエクスプロイトデータセット上でCPMM-Exploiterを評価した。 CPMM-Exploiterはそれぞれ0.91と0.89のリコールを獲得し、5つのベースラインはそれぞれ0.36と0.58のリコールを達成した。 さらに,EthereumおよびBinanceネットワークの最新ブロック上でCPMM-Exploiterを動作させることにより,CPMM-Exploiterの評価を行った。 18の新たなエクスプロイトを成功させ、合計で12.9万米ドルの利益を得ることができた。

Decentralized Finance enables many novel applications that were impossible in traditional finances. However, it also introduces new types of vulnerabilities, such as composability bugs. The composability bugs refer to issues that lead to erroneous behaviors when multiple smart contracts operate together. One typical example of composability bugs is those between token contracts and Constant Product Market Makers (CPMM), the most widely used model for Decentralized Exchanges. Since 2022, 23 exploits of such kind have resulted in a total loss of 2.2M USD. BlockSec, a smart contract auditing company, once reported that 138 exploits of such kind occurred just in February 2023. We propose CPMM-Exploiter, which automatically detects and generates end-to-end exploits for CPMM composability bugs. Generating such end-to-end exploits is challenging due to the large search space of multiple contracts and various fees involved with financial services. To tackle this, we investigated real-world exploits regarding these vulnerabilities and identified that they arise due to violating two safety invariants. Based on this observation, we implemented CPMM-Exploiter, a new grammar-based fuzzer targeting the detection of these bugs. CPMM-Exploiter uses fuzzing to find transactions that break the invariants. It then refines these transactions to make them profitable for the attacker. We evaluated CPMM-Exploiter on two real-world exploit datasets. CPMM-Exploiter obtained recalls of 0.91 and 0.89, respectively, while five baselines achieved maximum recalls of 0.36 and 0.58, respectively. We further evaluated CPMM-Exploiter by running it on the latest blocks of the Ethereum and Binance networks. It successfully generated 18 new exploits, which can result in 12.9K USD profit in total.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-08
# 行動レベルにおける言語エージェントのための客観的なソーシャルインテリジェンスベンチマークに向けて

Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level ( http://arxiv.org/abs/2404.05337v1 )

ライセンス: Link先を確認
Chenxu Wang, Bin Dai, Huaping Liu, Baoyuan Wang, (参考訳) 著名な大規模言語モデルは、多くのドメインにおいて人間レベルのパフォーマンスを示しており、派生したエージェントが人間と社会の相互作用をシミュレートすることさえ可能である。 現実的な研究は、サンドボックスシミュレーションやエボデードシミュレーターにおける接地言語エージェントの実践性を裏付けてきたが、現在のソーシャルインテリジェンスベンチマークは、言語レベルにとどまるか、主観的なメトリクスを使用するかのいずれかである。 より現実的で客観的な評価を追求するために,マルチエージェントシミュレーションにおける目標達成点を精査することにより,言語エージェントの「textbf{objectively}」を「textbf{action level}」で評価する「Social Tasks in Sandbox Simulation (STSS)」ベンチマークを導入する。 さらに,対話シナリオをサンプルとして,言語レベルのベンチマークを構築し,経済的に慎重な予備評価を行い,一般的なベンチマークと整合する。 エージェント・アーキテクチャの意義を評価するため,既存のエージェントに付随するターゲット駆動型プランニング(TDP)モジュールを実装した。 我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。 さらに、異なる言語エージェントを効果的に識別し、言語モデルとエージェントアーキテクチャの両方を評価するためのベンチマークとしての有用性を示唆している。

Prominent large language models have exhibited human-level performance in many domains, even enabling the derived agents to simulate human and social interactions. While practical works have substantiated the practicability of grounding language agents in sandbox simulation or embodied simulators, current social intelligence benchmarks either stay at the language level or use subjective metrics. In pursuit of a more realistic and objective evaluation, we introduce the Social Tasks in Sandbox Simulation (STSS) benchmark, which assesses language agents \textbf{objectively} at the \textbf{action level} by scrutinizing the goal achievements within the multi-agent simulation. Additionally, we sample conversation scenarios to build a language-level benchmark to provide an economically prudent preliminary evaluation and align with prevailing benchmarks. To gauge the significance of agent architecture, we implement a target-driven planning (TDP) module as an adjunct to the existing agent. Our evaluative findings highlight that the STSS benchmark is challenging for state-of-the-art language agents. Furthermore, it effectively discriminates between distinct language agents, suggesting its usefulness as a benchmark for evaluating both language models and agent architectures.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# 分数化自由拡散誘導における空間的不整合の再考

Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance ( http://arxiv.org/abs/2404.05384v1 )

ライセンス: Link先を確認
Dazhong Shen, Guanglu Song, Zeyue Xue, Fu-Yun Wang, Yu Liu, (参考訳) 分類自由誘導(CFG)は、画像空間全体のテキストガイダンスの強度を制御するためにCFGスケールを導入し、テキストから画像への拡散モデルに広く用いられている。 しかし,大域的なCFG尺度は,様々な意味的強度と画像品質の空間的矛盾をもたらすと論じる。 そこで本研究では,S-CFG (Semantic-Aware Classifier-Free Guidance) という新しい手法を提案する。 具体的には、まずトレーニング不要なセマンティックセマンティックセマンティクスを設計し、各デノジングステップにおいて、潜在画像を比較的独立したセマンティクス領域に分割する。 特に、デノナイズされたU-netバックボーン内のクロスアテンションマップは、各パッチを対応するトークンに割り当てるために再正規化され、セルフアテンションマップはセマンティック領域の完了に使用される。 そして,多様な意味単位の増幅のバランスをとるために,各意味領域にまたがるCFG尺度を適応的に調整し,テキスト誘導度を均一なレベルに再スケールする。 最後に、様々なテキスト・画像拡散モデルにおける元のCFG戦略よりもS-CFGの方が、余分な訓練コストを要さずに優れていることを示す。 私たちのコードはhttps://github.com/SmilesDZgk/S-CFGで利用可能です。

Classifier-Free Guidance (CFG) has been widely used in text-to-image diffusion models, where the CFG scale is introduced to control the strength of text guidance on the whole image space. However, we argue that a global CFG scale results in spatial inconsistency on varying semantic strengths and suboptimal image quality. To address this problem, we present a novel approach, Semantic-aware Classifier-Free Guidance (S-CFG), to customize the guidance degrees for different semantic units in text-to-image diffusion models. Specifically, we first design a training-free semantic segmentation method to partition the latent image into relatively independent semantic regions at each denoising step. In particular, the cross-attention map in the denoising U-net backbone is renormalized for assigning each patch to the corresponding token, while the self-attention map is used to complete the semantic regions. Then, to balance the amplification of diverse semantic units, we adaptively adjust the CFG scales across different semantic regions to rescale the text guidance degrees into a uniform level. Finally, extensive experiments demonstrate the superiority of S-CFG over the original CFG strategy on various text-to-image diffusion models, without requiring any extra training cost. our codes are available at https://github.com/SmilesDZgk/S-CFG.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# PAT:ロングテールセグメンテーションのための画素ワイド適応トレーニング

PAT: Pixel-wise Adaptive Training for Long-tailed Segmentation ( http://arxiv.org/abs/2404.05393v1 )

ライセンス: Link先を確認
Khoi Do, Duong Nguyen, Nguyen H. Tran, Viet Dung Nguyen, (参考訳) クラス頻度を超えて,様々なクラス固有予測におけるクラスワイド関係とラベルマスクの不均衡が長いセグメンテーション学習に与える影響を認識した。 これらの課題に対処するために、長い尾のセグメンテーションに適した革新的なPixel-wise Adaptive Training (PAT)技術を提案する。 PATには2つの重要な特徴がある。 1) 等級勾配等級均質化, 等級勾配等級化 2) pixel-wise class-specific loss adaptation (PCLA)。 第一に、クラスワイドグレードの等質化は、モデル更新に対するクラスワイドの影響を等しく考慮することで、ラベルマスク間の不均衡を軽減するのに役立つ。 第2に、PCLAは、予測信頼度が低い学習クラスを奨励し、信頼度の高い授業を忘れないようにすることにより、長い尾の分布におけるレアクラスと、以前のトレーニング段階からの不正確な予測の両方の有害な影響に取り組む。 この組み合わせアプローチは、モデルが以前に学んだ知識を忘れないようにしながら、堅牢な学習を促進する。 PATは、NyUデータセットで現在の最先端を2.2%上回る、大幅なパフォーマンス向上を示している。 さらに、OxfordPetIII、CityScape、NYUの3つの一般的なデータセットで示されるように、全体のピクセル単位の精度を2.85%向上し、ユニオン値の交叉を2.07%向上させる。

Beyond class frequency, we recognize the impact of class-wise relationships among various class-specific predictions and the imbalance in label masks on long-tailed segmentation learning. To address these challenges, we propose an innovative Pixel-wise Adaptive Training (PAT) technique tailored for long-tailed segmentation. PAT has two key features: 1) class-wise gradient magnitude homogenization, and 2) pixel-wise class-specific loss adaptation (PCLA). First, the class-wise gradient magnitude homogenization helps alleviate the imbalance among label masks by ensuring equal consideration of the class-wise impact on model updates. Second, PCLA tackles the detrimental impact of both rare classes within the long-tailed distribution and inaccurate predictions from previous training stages by encouraging learning classes with low prediction confidence and guarding against forgetting classes with high confidence. This combined approach fosters robust learning while preventing the model from forgetting previously learned knowledge. PAT exhibits significant performance improvements, surpassing the current state-of-the-art by 2.2% in the NyU dataset. Moreover, it enhances overall pixel-wise accuracy by 2.85% and intersection over union value by 2.07%, with a particularly notable declination of 0.39% in detecting rare classes compared to Balance Logits Variation, as demonstrated on the three popular datasets, i.e., OxfordPetIII, CityScape, and NYU.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# SafetyPrompts:大規模言語モデルの安全性評価と改善のためのオープンデータセットの体系的レビュー

SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety ( http://arxiv.org/abs/2404.05399v1 )

ライセンス: Link先を確認
Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy, (参考訳) 過去2年間、大きな言語モデル(LLM)の安全性に関する懸念が急速に高まっている。 研究者や実践者は、LSMの安全性を評価し改善するための新しいデータセットを多数導入することで、これらの懸念に対処してきた。 しかし、これらの研究の多くは平行して行われており、バイアスや有毒なコンテンツ生成に関する短期的リスクの軽減から、長期的な破滅的なリスクポテンシャルの評価まで、非常に異なる目標を念頭に置いている。 これにより、研究者や実践者が特定のユースケースに最も関連性の高いデータセットを見つけ、将来の作業が満たすデータセットカバレッジのギャップを特定するのが難しくなる。 これらの問題を解決するために,LLMの安全性を評価し改善するためのオープンデータセットの体系的レビューを行う。 我々は、数ヶ月にわたって反復的でコミュニティ主導のプロセスを通じて特定した102のデータセットをレビューした。 完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップなど、パターンとトレンドを強調します。 LLMリリースのパブリッシュや人気のあるLLMベンチマークにおいて、現在の評価プラクティスは極めて慣用的であり、利用可能なデータセットのごく一部しか使用していないことを発見した。 LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comをベースとしており、LLM安全性の分野が発展するにつれて、継続的に更新することを約束しています。

The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# PerkwE_COQA: 文脈キーワード抽出と大規模言語モデルを組み合わせたペルシャ語会話質問応答の強化

PerkwE_COQA: enhance Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models ( http://arxiv.org/abs/2404.05406v1 )

ライセンス: Link先を確認
Pardis Moradbeiki, Nasser Ghadiri, (参考訳) スマートシティは生活の質を高めるために住民の関与を必要としている。 会話型クエリー回答は、ユーザエンゲージメントの新たなアプローチである。 古典的なシステムを超えた高度な対話型質問応答の需要が高まっている。 既存のアプローチでは、LLMはCQAに有望な機能を提供するが、会話コンテキストのニュアンスを捉えるのに苦労する可能性がある。 新しいアプローチでは、コンテンツを理解し、ニーズを満たすためにユーザと複数ステップの会話を行う。 本稿では,ペルシア語対話型質問応答システム(CQA)の性能向上のための新しい手法を提案する。 LLM(Large Language Models)と文脈キーワード抽出の長所を組み合わせる。 提案手法は,会話の流れに特有なキーワードを抽出し,LLMにユーザの意図を理解し,より関連性の高い一貫性のある応答を生成する。 LLMのみのベースラインに比べてCQA性能は有意に向上した。 提案手法は,暗黙的な質問を効果的に処理し,文脈に関連のある回答を提示し,会話の文脈に大きく依存する複雑な質問に対処する。 その結果,本手法は従来の手法とLCMのみの基準値よりも最大8%高い性能を示した。

Smart cities need the involvement of their residents to enhance quality of life. Conversational query-answering is an emerging approach for user engagement. There is an increasing demand of an advanced conversational question-answering that goes beyond classic systems. Existing approaches have shown that LLMs offer promising capabilities for CQA, but may struggle to capture the nuances of conversational contexts. The new approach involves understanding the content and engaging in a multi-step conversation with the user to fulfill their needs. This paper presents a novel method to elevate the performance of Persian Conversational question-answering (CQA) systems. It combines the strengths of Large Language Models (LLMs) with contextual keyword extraction. Our method extracts keywords specific to the conversational flow, providing the LLM with additional context to understand the user's intent and generate more relevant and coherent responses. We evaluated the effectiveness of this combined approach through various metrics, demonstrating significant improvements in CQA performance compared to an LLM-only baseline. The proposed method effectively handles implicit questions, delivers contextually relevant answers, and tackles complex questions that rely heavily on conversational context. The findings indicate that our method outperformed the evaluation benchmarks up to 8% higher than existing methods and the LLM-only baseline.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# 大規模言語モデルを用いた関係抽出 : 接点位置のケーススタディ

Relation Extraction Using Large Language Models: A Case Study on Acupuncture Point Locations ( http://arxiv.org/abs/2404.05415v1 )

ライセンス: Link先を確認
Yiming Li, Xueqing Peng, Jianfu Li, Xu Zuo, Suyuan Peng, Donghong Pei, Cui Tao, Hua Xu, Na Hong, (参考訳) アキュポイントの正確な位置は治療効果に欠かせない。 GPT(Generative Pre-trained Transformers)のような大規模言語モデル(LLM)の高度な言語理解能力は、テキスト知識ソースからキューポイント位置に関連する関係を抽出する重要な機会となる。 本研究は,GPTと従来の深層学習モデル(LSTM)とバイオメディカルテキストマイニング用トランスフォーマー(BioBERT)による双方向エンコーダ表現)を比較した。 我々は、西太平洋地域(WHO標準)における世界保健機関標準治療点位置を、361の検問点を記載したコーパスとして利用した。 アクポイント間の5種類の関係('direction_of'、'distance_of'、'part_of'、'near_acupoint'、'located_near')(n=3,174)を注釈した。 BioBERT、LSTM、事前訓練GPT-3.5、微調整GPT-3.5、および事前訓練GPT-4の5つのモデルを比較した。 パフォーマンス指標には、マイクロ平均一致精度、リコール、F1スコアが含まれていた。 その結果, 微調整GPT-3.5はF1スコアの他のモデルよりも常に優れていた。 全体としては、F1の最高スコアは0.92である。 本研究は, GPT などの LLM が聴取者位置関係の抽出に有効であることを示すとともに, 聴取者の知識を正確にモデル化し, 聴取訓練・実践における標準的実践を促進することを目的としている。 この知見は, 自然言語処理におけるLLMsの可能性を示すとともに, 従来および補完医療における情報応用の進展にも寄与する。

In acupuncture therapy, the accurate location of acupoints is essential for its effectiveness. The advanced language understanding capabilities of large language models (LLMs) like Generative Pre-trained Transformers (GPT) present a significant opportunity for extracting relations related to acupoint locations from textual knowledge sources. This study aims to compare the performance of GPT with traditional deep learning models (Long Short-Term Memory (LSTM) and Bidirectional Encoder Representations from Transformers for Biomedical Text Mining (BioBERT)) in extracting acupoint-related location relations and assess the impact of pretraining and fine-tuning on GPT's performance. We utilized the World Health Organization Standard Acupuncture Point Locations in the Western Pacific Region (WHO Standard) as our corpus, which consists of descriptions of 361 acupoints. Five types of relations ('direction_of,' 'distance_of,' 'part_of,' 'near_acupoint,' and 'located_near') (n= 3,174) between acupoints were annotated. Five models were compared: BioBERT, LSTM, pre-trained GPT-3.5, and fine-tuned GPT-3.5, as well as pre-trained GPT-4. Performance metrics included micro-average exact match precision, recall, and F1 scores. Our results demonstrate that fine-tuned GPT-3.5 consistently outperformed other models in F1 scores across all relation types. Overall, it achieved the highest micro-average F1 score of 0.92. This study underscores the effectiveness of LLMs like GPT in extracting relations related to acupoint locations, with implications for accurately modeling acupuncture knowledge and promoting standard implementation in acupuncture training and practice. The findings also contribute to advancing informatics applications in traditional and complementary medicine, showcasing the potential of LLMs in natural language processing.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# Open Autonomy Safety Case Framework

The Open Autonomy Safety Case Framework ( http://arxiv.org/abs/2404.05444v1 )

ライセンス: Link先を確認
Michael Wagner, Carmen Carlan, (参考訳) システムセーフティケースは、証拠証拠によって支持された所定の環境で運用されている所定のシステムの安全目標の満足度について、説得力があり、理解し、有効な議論である。 2020年にUL 4600が発行されて以来、安全ケースは自動運転車(AV)の安全性を測定し、管理し、通信するためのベストプラクティスとなっている。 UL 4600は、AVの安全ケースの構築方法、AVとその運用環境の複雑さ、使用済み技術の新規性、様々な規制や技術基準に従う必要性、そしてサイバーセキュリティの懸念と倫理的配慮に対処するために、AVの安全ケースの開発を困難にしている。 この目的のために、安全ケースの開発を支援するために戦略、引数テンプレート、その他のガイダンスをもたらす安全ケースフレームワークが提案されている。 本稿では,自律走行車産業との長年の取り組みの中で開発されたオープン・オートノミー・セーフティ・ケース・フレームワークについて,自律走行車に安全かつ責任を持って配置する方法のロードマップとして紹介する。

A system safety case is a compelling, comprehensible, and valid argument about the satisfaction of the safety goals of a given system operating in a given environment supported by convincing evidence. Since the publication of UL 4600 in 2020, safety cases have become a best practice for measuring, managing, and communicating the safety of autonomous vehicles (AVs). Although UL 4600 provides guidance on how to build the safety case for an AV, the complexity of AVs and their operating environments, the novelty of the used technology, the need for complying with various regulations and technical standards, and for addressing cybersecurity concerns and ethical considerations make the development of safety cases for AVs challenging. To this end, safety case frameworks have been proposed that bring strategies, argument templates, and other guidance together to support the development of a safety case. This paper introduces the Open Autonomy Safety Case Framework, developed over years of work with the autonomous vehicle industry, as a roadmap for how AVs can be deployed safely and responsibly.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# PetKaz at SemEval-2024 Task 8: Linguistics can Capture the specifics of LLM- generated Text?

PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? ( http://arxiv.org/abs/2404.05483v1 )

ライセンス: Link先を確認
Kseniia Petukhova, Roman Kazakov, Ekaterina Kochmar, (参考訳) 本稿では,SemEval-2024タスク8「マルチジェネレータ,マルチドメイン,多言語ブラックボックスマシン生成テキスト検出」に提案する。 具体的には、RoBERTaベースからの埋め込みと多様性機能を組み合わせることに依存し、再サンプリングされたトレーニングセットを使用する。 我々はSubtask A (monolingual track) のランキングで124位から12位となり、我々のアプローチは未知のモデルや領域にまたがって一般化可能であり、精度は0.91であることを示した。

In this paper, we present our submission to the SemEval-2024 Task 8 "Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection", focusing on the detection of machine-generated texts (MGTs) in English. Specifically, our approach relies on combining embeddings from the RoBERTa-base with diversity features and uses a resampled training set. We score 12th from 124 in the ranking for Subtask A (monolingual track), and our results show that our approach is generalizable across unseen models and domains, achieving an accuracy of 0.91.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# PetKaz at SemEval-2024 Task 3: Advancing Emotion Classification with a LLM for Emotion-Cause Pair extract in Conversations (英語)

PetKaz at SemEval-2024 Task 3: Advancing Emotion Classification with an LLM for Emotion-Cause Pair Extraction in Conversations ( http://arxiv.org/abs/2404.05502v1 )

ライセンス: Link先を確認
Roman Kazakov, Kseniia Petukhova, Ekaterina Kochmar, (参考訳) 本稿では,SemEval-2023 Task~3 "The Competition of Multimodal Emotion Cause Analysis in Conversations" に提案する。 具体的には、感情分類のための微調整GPT-3.5と、原因を検出するためのBiLSTMベースのニューラルネットワークの組み合わせに頼っている。 我々はSubtask 1のランキングで2位となり、0.264で記録された平均F1スコアのうちの1つを通したアプローチの有効性を実証した。

In this paper, we present our submission to the SemEval-2023 Task~3 "The Competition of Multimodal Emotion Cause Analysis in Conversations", focusing on extracting emotion-cause pairs from dialogs. Specifically, our approach relies on combining fine-tuned GPT-3.5 for emotion classification and a BiLSTM-based neural network to detect causes. We score 2nd in the ranking for Subtask 1, demonstrating the effectiveness of our approach through one of the highest weighted-average proportional F1 scores recorded at 0.264.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# 身体的拘束による自己説明可能なアクダクタンス学習

Self-Explainable Affordance Learning with Embodied Caption ( http://arxiv.org/abs/2404.05603v1 )

ライセンス: Link先を確認
Zhipeng Zhang, Zhimin Wei, Guolei Sun, Peng Wang, Luc Van Gool, (参考訳) 視覚的アベイランス学習の分野では、従来の手法は主に人間の行動パターンを記述した豊富な画像やビデオを使用してオブジェクト操作のためのアクション可能性領域を特定し、ロボットタスクに様々な応用を行った。 しかし、太鼓を叩くか携帯するかといった曖昧さや複雑な場面の処理にまつわる複雑さなど、アクションの曖昧さという大きな課題に直面している。 また,人間の介入によってロボットのエラーを時間内に修正することが重要である。 これらの課題に対処するために,具体的キャプションを組み込んだ自己説明力学習(SEA)を導入する。 このイノベーションにより、ロボットは意図を明確にし、説明可能な視覚言語キャプションと視覚的余裕学習のギャップを埋めることができる。 適切なデータセットがないため、画像、ヒートマップ、埋め込みキャプションを統合した、このタスクに適した先駆的なデータセットとメトリクスを公開します。 さらに, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。 定量的および定性的実験により,本手法の有効性を実証した。

In the field of visual affordance learning, previous methods mainly used abundant images or videos that delineate human behavior patterns to identify action possibility regions for object manipulation, with a variety of applications in robotic tasks. However, they encounter a main challenge of action ambiguity, illustrated by the vagueness like whether to beat or carry a drum, and the complexities involved in processing intricate scenes. Moreover, it is important for human intervention to rectify robot errors in time. To address these issues, we introduce Self-Explainable Affordance learning (SEA) with embodied caption. This innovation enables robots to articulate their intentions and bridge the gap between explainable vision-language caption and visual affordance learning. Due to a lack of appropriate dataset, we unveil a pioneering dataset and metrics tailored for this task, which integrates images, heatmaps, and embodied captions. Furthermore, we propose a novel model to effectively combine affordance grounding with self-explanation in a simple but efficient manner. Extensive quantitative and qualitative experiments demonstrate our method's effectiveness.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# Anchoral: 大規模かつ不均衡なデータセットのための計算効率の良いアクティブラーニング

AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets ( http://arxiv.org/abs/2404.05623v1 )

ライセンス: Link先を確認
Pietro Lesci, Andreas Vlachos, (参考訳) 不均衡な分類タスクのアクティブラーニングは、マイノリティクラスが自然に稀に発生するため、困難である。 したがって、乱れのない大量のデータを集めることは、マイノリティなインスタンスをキャプチャするのに不可欠である。 標準的なプールベースのアクティブラーニングは、大きなプールでは計算コストが高く、初期決定境界を過度に適合させることで、入力空間の探索に失敗し、少数インスタンスを見つけることで、しばしば低い精度に達する。 これらの問題に対処するため、AnchorALを提案する。 各イテレーションで、Anchoralはラベル付けされたセットまたはアンカーからクラス固有のインスタンスを選択し、プールから最も類似しないインスタンスを検索する。 この結果のサブプールは、アクティブな学習に使用される。 小さな固定サイズのサブプールAnchorALを使用することで、任意のアクティブな学習戦略を大規模プールに拡張することができる。 各イテレーションで異なるアンカーを動的に選択することで、クラスバランスが促進され、初期決定境界の過度な適合が防止され、少数インスタンスの新しいクラスタの発見が促進される。 AnchorALは、さまざまな分類タスク、アクティブラーニング戦略、モデルアーキテクチャにまたがる実験 (i)高速で、実行時間を数時間から数分に短縮することが多い。 (二)より高性能な模型を運転する。 (iii)競合するメソッドよりもバランスのとれたデータセットを返す。

Active learning for imbalanced classification tasks is challenging as the minority classes naturally occur rarely. Gathering a large pool of unlabelled data is thus essential to capture minority instances. Standard pool-based active learning is computationally expensive on large pools and often reaches low accuracy by overfitting the initial decision boundary, thus failing to explore the input space and find minority instances. To address these issues we propose AnchorAL. At each iteration, AnchorAL chooses class-specific instances from the labelled set, or anchors, and retrieves the most similar unlabelled instances from the pool. This resulting subpool is then used for active learning. Using a small, fixed-sized subpool AnchorAL allows scaling any active learning strategy to large pools. By dynamically selecting different anchors at each iteration it promotes class balance and prevents overfitting the initial decision boundary, thus promoting the discovery of new clusters of minority instances. Experiments across different classification tasks, active learning strategies, and model architectures AnchorAL is (i) faster, often reducing runtime from hours to minutes, (ii) trains more performant models, (iii) and returns more balanced datasets than competing methods.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# LTNER:コンテキスト化エンティティマーキングによる名前付きエンティティ認識のための大言語モデルタグ

LTNER: Large Language Model Tagging for Named Entity Recognition with Contextualized Entity Marking ( http://arxiv.org/abs/2404.05624v1 )

ライセンス: Link先を確認
Faren Yan, Peng Yu, Xin Chen, (参考訳) 自然言語処理におけるLLMの使用は、文脈理解と学習の力の強い能力によって、過去2年間に人気が高まっており、学者や業界専門家による研究の波を巻き起こしている。 しかし、NERのような特定のNLPタスクでは、教師付き学習法と比較して、LLMの性能は依然として不足している。 本研究では,革命的コンテキスト化エンティティマーキングゲンメソッドを組み込んだNER処理フレームワークLTNERを開発した。 コスト効率の高いGPT-3.5と、追加の訓練を必要としない文脈学習を併用することにより、NERタスクの処理におけるLLMの精度を大幅に向上する。 CoNLL03データセットのF1スコアは、初期の85.9%から91.9%に増加し、監督された微調整のパフォーマンスに近づいた。 この結果、LLMの可能性のより深い理解につながった。

The use of LLMs for natural language processing has become a popular trend in the past two years, driven by their formidable capacity for context comprehension and learning, which has inspired a wave of research from academics and industry professionals. However, for certain NLP tasks, such as NER, the performance of LLMs still falls short when compared to supervised learning methods. In our research, we developed a NER processing framework called LTNER that incorporates a revolutionary Contextualized Entity Marking Gen Method. By leveraging the cost-effective GPT-3.5 coupled with context learning that does not require additional training, we significantly improved the accuracy of LLMs in handling NER tasks. The F1 score on the CoNLL03 dataset increased from the initial 85.9% to 91.9%, approaching the performance of supervised fine-tuning. This outcome has led to a deeper understanding of the potential of LLMs.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# 逆条件順応によるフレキシブルフェアネス学習

Flexible Fairness Learning via Inverse Conditional Permutation ( http://arxiv.org/abs/2404.05678v1 )

ライセンス: Link先を確認
Yuheng Lai, Leying Guan, (参考訳) 等化確率は、アルゴリズムの公正性の一般的な概念として、人種や性別などの敏感な変数が真の結果に条件付けした場合にアルゴリズムの予測に不公平に影響を与えないようにすることを目的としている。 急速な進歩にもかかわらず、現在の研究の大部分は、1つの機密属性による等化確率の違反に焦点を合わせており、同時に複数の属性を過小評価することの難しさを残している。 このギャップに対処するため, 対人学習と新しい逆条件置換を融合したフェアネス学習手法を提案する。 このアプローチは、複数の機密属性(おそらく混合データ型)を効果的かつ柔軟に処理する。 本手法の有効性と柔軟性は実世界のデータセットのシミュレーション研究と実証分析の両方を通して実証された。

Equalized odds, as a popular notion of algorithmic fairness, aims to ensure that sensitive variables, such as race and gender, do not unfairly influence the algorithm prediction when conditioning on the true outcome. Despite rapid advancements, most of the current research focuses on the violation of equalized odds caused by one sensitive attribute, leaving the challenge of simultaneously accounting for multiple attributes under-addressed. We address this gap by introducing a fairness learning approach that integrates adversarial learning with a novel inverse conditional permutation. This approach effectively and flexibly handles multiple sensitive attributes, potentially of mixed data types. The efficacy and flexibility of our method are demonstrated through both simulation studies and empirical analysis of real-world datasets.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# SwapAnything: パーソナライズされたビジュアル編集における任意オブジェクトスワッピングの実現

SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing ( http://arxiv.org/abs/2404.05717v1 )

ライセンス: Link先を確認
Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang, (参考訳) 個人のコンテンツを効果的に編集することは、個人が創造性を表現し、物語を視覚的ストーリーの中に織り込み、視覚的コンテンツの全体的な品質と影響を高める上で重要な役割を担っている。 そこで本研究では,画像内の任意のオブジェクトを参照によって付与されるパーソナライズされた概念に置き換えると同時に,コンテキストを一定に保つ新しいフレームワークであるSwapAnythingを紹介する。 パーソナライズされた被写体交換法と比較して,SwapAnythingには,(1)主対象ではなく任意の対象物や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの利点がある。 まず、潜在特徴マップに領域制御を適用し、マスク付き変数を忠実なコンテキスト保存と初期意味概念スワップに置き換えることを目的とした変数スワップを提案する。 そして、画像生成過程において、ターゲット位置、形状、スタイル、内容の観点で、意味概念を元の画像にシームレスに適応させる外観適応を導入する。 個人別スワップにおけるベースライン法よりも, 人的, 自動的な評価を総合的に行った結果, アプローチの大幅な改善が示された。 さらにSwapAnythingは、単一のオブジェクト、複数のオブジェクト、部分オブジェクト、クロスドメインスワップタスクにまたがる正確で忠実なスワップ機能を示している。 SwapAnythingはテキストベースのスワップや、オブジェクト挿入のようなスワップ以外のタスクでも優れたパフォーマンスを実現している。

Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# 言語に依存しない表現はゼロショット要約を改善する

Language-Independent Representations Improve Zero-Shot Summarization ( http://arxiv.org/abs/2404.05720v1 )

ライセンス: Link先を確認
Vladimir Solovyev, Danni Liu, Jan Niehues, (参考訳) 下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。 本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。 単言語要約の訓練の後、新しい言語や言語ペアへのゼロショット転送を行う。 まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。 次に,タスク固有の知識を事前訓練された言語生成能力から切り離すためのクエリキー(QK)ファインタニングを提案する。 そして、標準逆言語分類器の欠点を示した後、より直接的に言語に依存しない表現を強制するバランスのとれた変種を提案する。 さらに,筆者らの定性解析では,ソースコードの識別がゼロショット要約性能と相関していることが示されている。 私たちのコードは公開されています。

Finetuning pretrained models on downstream generation tasks often leads to catastrophic forgetting in zero-shot conditions. In this work, we focus on summarization and tackle the problem through the lens of language-independent representations. After training on monolingual summarization, we perform zero-shot transfer to new languages or language pairs. We first show naively finetuned models are highly language-specific in both output behavior and internal representations, resulting in poor zero-shot performance. Next, we propose query-key (QK) finetuning to decouple task-specific knowledge from the pretrained language generation abilities. Then, after showing downsides of the standard adversarial language classifier, we propose a balanced variant that more directly enforces language-agnostic representations. Moreover, our qualitative analyses show removing source language identity correlates to zero-shot summarization performance. Our code is openly available.
翻訳日:2024-04-09 18:32:03 公開日:2024-04-08
# クラス類似性遷移:一般化Fewショットセグメンテーションからのクラス類似性と不均衡の分離

Class Similarity Transition: Decoupling Class Similarities and Imbalance from Generalized Few-shot Segmentation ( http://arxiv.org/abs/2404.05111v1 )

ライセンス: Link先を確認
Shihong Wang, Ruixun Liu, Kaiyu Li, Jiawei Jiang, Xiangyong Cao, (参考訳) Generalized Few-shot Segmentation (GFSS)では、モデルがベースクラスのサンプルの大きなコーパスで訓練され、新しいクラスの限られたサンプルに適合する。 本稿では,基本クラスと新規クラスの関連性に着目し,GFSSを2つの側面で改善する。 1)新学級の学習を促進するため,基礎クラスと新学級の類似性をマイニングし, 2)サポートセットとトレーニングセットのボリューム差によるクラス不均衡の問題を軽減する。 具体的には、まず、基本クラス知識を持つ新しいクラスを学習するための類似性遷移行列を提案する。 次に,GFSSタスクにLDAM損失とトランスダクティブ推論を利用して,クラス不均衡の問題に対処し,サポートセットを過度に適合させる。 また,確率遷移行列を拡張することにより,新しいクラスを学習する際に,基本クラスの破滅的な忘れを軽減できる。 簡単なトレーニングフェーズで,提案手法をベースクラスでトレーニングされた任意のセグメンテーションネットワークに適用することができる。 我々はOpenEarthMapの適応版にメソッドを検証した。 既存のGFSSベースラインと比較すると,提案手法は3%から7%に拡張され,OpenEarthMap Land Cover Mapping Few-Shot Challengeでは2位にランクインしている。 コード:https://github.com/earth-insights/ClassTrans

In Generalized Few-shot Segmentation (GFSS), a model is trained with a large corpus of base class samples and then adapted on limited samples of novel classes. This paper focuses on the relevance between base and novel classes, and improves GFSS in two aspects: 1) mining the similarity between base and novel classes to promote the learning of novel classes, and 2) mitigating the class imbalance issue caused by the volume difference between the support set and the training set. Specifically, we first propose a similarity transition matrix to guide the learning of novel classes with base class knowledge. Then, we leverage the Label-Distribution-Aware Margin (LDAM) loss and Transductive Inference to the GFSS task to address the problem of class imbalance as well as overfitting the support set. In addition, by extending the probability transition matrix, the proposed method can mitigate the catastrophic forgetting of base classes when learning novel classes. With a simple training phase, our proposed method can be applied to any segmentation network trained on base classes. We validated our methods on the adapted version of OpenEarthMap. Compared to existing GFSS baselines, our method excels them all from 3% to 7% and ranks second in the OpenEarthMap Land Cover Mapping Few-Shot Challenge at the completion of this paper. Code: https://github.com/earth-insights/ClassTrans
翻訳日:2024-04-09 15:53:11 公開日:2024-04-08
# 大規模QED2における準粒子分布:量子計算に向けて

Quasi-parton distributions in massive QED2: Towards quantum computation ( http://arxiv.org/abs/2404.05112v1 )

ライセンス: Link先を確認
Sebastian Grieninger, Kazuki Ikeda, Ismail Zahed, (参考訳) 我々は,古典コンピュータ上でディジタル量子シミュレーションを行い,量子電磁力学(QED2)における最も軽い$\eta'$中間子の準粒子分布を解析した。 ハミルトン作用素とブースト作用素は、開境界条件を持つ空間格子のスピン量子ビットに写像される。 正確な対角化における最も低い励起状態は、強い結合における異常な$\eta'$状態と弱い結合における非正準重中間子と臨界点における尖点との間に連続的に介在することが示されている。 強化された$\eta'$状態は相対論的キネマティクスに従っているが、光度限界に大きな偏差がある。 空間準粒子分布関数と$\eta'$状態の振幅は、強い結合と弱い結合の両方において急速性を高めるために数値的に計算され、正確な光フロント結果と比較される。 空間パルトン分布の増大形から得られた数値結果は、フォック空間近似から導かれる光パルトン分布の逆フーリエ変換とよく比較される。 解析では、パルトン分布の現在の格子プログラムに直面する制限のいくつかを指摘する。

We analyze the quasi-parton distributions of the lightest $\eta'$ meson in massive two-dimensional Quantum electrodynamics (QED2) by performing a digital quantum simulation on a classical computer (exact diagonalization). The Hamiltonian and boost operators are mapped onto spin qubits in a spatial lattice with open boundary conditions. The lowest excited state in the exact diagonalization is shown to interpolate continuously between an anomalous $\eta'$ state at strong coupling,and a non-anomalous heavy meson at weak coupling, with a cusp at the critical point. The boosted $\eta'$ state follows relativistic kinematics but with large deviations in the luminal limit. The spatial quasi-parton distribution function and amplitude for the $\eta'$ state are computed numerically for increasing rapidity both at strong and weak coupling, and compared to the exact light front results. The numerical results from the boosted form of the spatial parton distributions, compare fairly with the inverse Fourier transformation of the luminal parton distributions, derived in the lowest Fock space approximation. Our analysis points out some of the limitations facing the current lattice program for the parton distributions.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-08
# 電磁場を持つ非相対論的シュレーディンガー方程式の時間依存保存作用素と抵抗の量子化

Time-dependent conserved operators for non-relativistic Schrödinger equation with electromagnetic field and quantization of resistance ( http://arxiv.org/abs/2404.05115v1 )

ライセンス: Link先を確認
Jorge A. Lizarraga, (参考訳) 2つの系が研究され、1つは定電場の影響下で荷電粒子、もう1つは定電場の影響下で荷電粒子である。 どちらの系に対しても、完備なシュリンガー方程式の時間依存解を導出するのに使える時間依存保存作用素を見つけることができる。 これらの保存作用素はシステムの対称性を定義するために用いられる。 ユニタリ作用素の作用の下での波動関数の不変性の議論は、フォン・クリッツィーの定数の整数倍の抵抗と比抵抗の量子化につながる。

Two systems are studied: the first one involves a charged particle under the influence of a constant electric field, and the second one involves a charged particle under the influence of a constant electromagnetic field. For both systems, it is possible to find time-dependent conserved operators that can be used to derive time-dependent solutions to the complete Schr\"odinger equation. These conserved operators are employed to define the symmetries of the system. An argument of invariance of the wave function under the action of a unitary operator leads to the quantization of resistance and resistivity, in integer multiples of the von Klitzing's constant, for the first and second cases respectively.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-08
# NMon:ジョセフソン接合の並列配列に基づく拡張トランモン量子ビット

NMon: enhanced transmon qubit based on parallel arrays of Josephson junctions ( http://arxiv.org/abs/2404.05122v1 )

ライセンス: Link先を確認
Oguzhan Can, Marcel Franz, (参考訳) ジョセフソン接合の並列配列を利用した新しい超伝導量子ビットアーキテクチャを提案する。 この設計は、典型的には$|\alpha_r| \approx 0.1 - 0.3$の範囲で大幅に改善された相対アンハーモニック性を提供するが、電荷およびフラックスチャネルの遷移行列要素はトランスモン量子ビットと同等である。 また,提案装置は,フラキソニウム量子ビットの強化版と同様のパラメータ構造を含む,例外的なチューニング性も備えている。 特に、フラックスノイズの影響を受け、行列要素のさらなるスケール削減を可能にし、量子情報処理アプリケーションへの適合性をさらに高めている。

We introduce a novel superconducting qubit architecture utilizing parallel arrays of Josephson junctions. This design offers a substantialy improved relative anharmonicity, typically within the range of $|\alpha_r| \approx 0.1 - 0.3$, while maintaining transition matrix elements in both the charge and flux channels that are on par with those of transmon qubits. Our proposed device also features exceptional tunability and includes a parameter regime akin to an enhanced version of the fluxonium qubit. Notably, it enables an additional order of magnitude reduction in matrix elements influenced by flux noise, thus further enhancing its suitability for quantum information processing applications.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-08
# シミュレーション画像とVice Versaによるディープラーニング予測の改善

Improving Deep Learning Predictions with Simulated Images, and Vice Versa ( http://arxiv.org/abs/2404.05128v1 )

ライセンス: Link先を確認
Nazifa Azam Khan, Mikolaj Cieslak, Ian McQuillan, (参考訳) 人工ニューラルネットワークは、しばしば作物の特徴を特定するために使用される。 しかし、それらのモデルのトレーニングには多くの注釈付きイメージが必要です。 リンデンマイヤー系 (L-systems) で開発された植物などの手続き的モデルは、視覚的に現実的なシミュレーションを生成するために作成され、したがって、アノテーションが暗黙的に知られている植物シミュレーションの画像を生成することができる。 これらの合成画像は、表現型タスクのためのトレーニングニューラルネットワークにおいて、実際の画像を増強または完全に置き換えることができる。 本稿では,L系から生成した合成画像が実画像の予測に役立てられる状況を理解するために,トウモロコシとカノーラの双方で訓練に使用される実画像と合成画像の量を体系的に変化させる。 この研究は、合成画像におけるリアリズムが予測を改善する程度についても検討する。 さらに、ニューラルネットワークの予測がLシステム自体を校正し、フィードバックループを作成するのにどのように役立つかを確認する。

Artificial neural networks are often used to identify features of crop plants. However, training their models requires many annotated images, which can be expensive and time-consuming to acquire. Procedural models of plants, such as those developed with Lindenmayer-systems (L-systems) can be created to produce visually realistic simulations, and hence images of plant simulations, where annotations are implicitly known. These synthetic images can either augment or completely replace real images in training neural networks for phenotyping tasks. In this paper, we systematically vary amounts of real and synthetic images used for training in both maize and canola to better understand situations where synthetic images generated from L-systems can help prediction on real images. This work also explores the degree to which realism in the synthetic images improves prediction. Furthermore, we see how neural network predictions can be used to help calibrate L-systems themselves, creating a feedback loop.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 深層学習を用いたイメージベースアガルウッドレジン部セグメンテーション

Image-based Agarwood Resinous Area Segmentation using Deep Learning ( http://arxiv.org/abs/2404.05129v1 )

ライセンス: Link先を確認
Irwandi Hipiny, Johari Abdullah, Noor Alamshah Bolhassan, (参考訳) アガルウッド樹脂化合物の手作業抽出法は、手間がかかる作業であり、熟練労働者を必要とし、人的ミスを被る。 商用のアガーウッド産業は、コンピュータ数値制御(CNC)マシンを使用して、このタスクに人間の努力を置き換えようと積極的に研究している。 CNCマシンは、焼成が必要な木材領域を(0,0,0)をRGB値としてマークしたバイナリ画像から生成されたGコードスクリプトを受信する。 そこで本研究では,Deep Learning Image segmentation法を提案する。 私たちのセットアップでは、断面画像をキャプチャして、イメージファイルをコンピュータに渡します。 コンピュータは、自動画像セグメンテーションを実行し、CNCマシンにGコードスクリプトを供給する。 本稿では、最先端のDeep Learningセグメンテーション手法を用いて達成された初期セグメンテーション結果を報告し、セグメンテーション精度を向上するための潜在的な改善について議論する。

The manual extraction method of Agarwood resinous compound is laborious work, requires skilled workers, and is subject to human errors. Commercial Agarwood industries have been actively exploring using Computer Numerical Control (CNC) machines to replace human effort for this particular task. The CNC machine accepts a G-code script produced from a binary image in which the wood region that needs to be chiselled off is marked with (0, 0, 0) as its RGB value. Rather than requiring a human expert to perform the region marking, we propose using a Deep learning image segmentation method instead. Our setup involves a camera that captures the cross-section image and then passes the image file to a computer. The computer performs the automated image segmentation and feeds the CNC machine with a G-code script. In this article, we report the initial segmentation results achieved using a state-of-the-art Deep learning segmentation method and discuss potential improvements to refine the segmentation accuracy.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# フェデレーション学習によるプライバシー保護型サイバー脅威検出の実現

Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning ( http://arxiv.org/abs/2404.05130v1 )

ライセンス: Link先を確認
Yu Bi, Yekai Li, Xuan Feng, Xianghang Mi, (参考訳) 優れたパフォーマンスと広く採用されているにもかかわらず、機械学習ベースのセキュリティ検出モデル(例えば、マルウェア分類器)は、攻撃者の概念の漂流と回避的進化の対象となる。 しかし、さまざまなプライバシ保護規則(GDPRなど)の施行により、セキュリティベンダがモバイルデバイスからSMSスパムや非スパムメッセージなど、個人関連およびプライバシに敏感な脅威データセットを収集することは、ますます困難あるいは禁じられている。 このような障害に対処するために,プライバシを保護したサイバー脅威検出のためのフェデレーション学習の実現可能性について,有効性,ビザンチンレジリエンス,効率の観点から体系的に検討した。 これは、複数の脅威データセットと脅威検出モデルの構築によって実現され、さらに重要なのは、現実的およびセキュリティ固有の実験の設計である。 我々は、SMSスパム検出とAndroidマルウェア検出という2つの代表的な脅威検出タスクについてFLを評価する。 FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。 また、ほとんどの非IIDデータ分布は、モデルの性能に小さなまたは無視的な影響がある一方、ラベルベースの高レベルの非IID分布は、FLトレーニングにおいて非無視的な変動と遅延を引き起こす可能性がある。 そして、現実的な脅威モデルの下で、FLはデータ中毒とモデル中毒の両方の攻撃に対して敵対的であることが判明した。 特に、実用的なデータ中毒攻撃による攻撃効果は、モデル精度の0.14\%の損失に留まらない。 FL効率に関して、ラベルベースの非IIDシナリオで見られるように、ブートストラップ戦略はトレーニング遅延を軽減するのに効果的であることが判明した。

Despite achieving good performance and wide adoption, machine learning based security detection models (e.g., malware classifiers) are subject to concept drift and evasive evolution of attackers, which renders up-to-date threat data as a necessity. However, due to enforcement of various privacy protection regulations (e.g., GDPR), it is becoming increasingly challenging or even prohibitive for security vendors to collect individual-relevant and privacy-sensitive threat datasets, e.g., SMS spam/non-spam messages from mobile devices. To address such obstacles, this study systematically profiles the (in)feasibility of federated learning for privacy-preserving cyber threat detection in terms of effectiveness, byzantine resilience, and efficiency. This is made possible by the build-up of multiple threat datasets and threat detection models, and more importantly, the design of realistic and security-specific experiments. We evaluate FL on two representative threat detection tasks, namely SMS spam detection and Android malware detection. It shows that FL-trained detection models can achieve a performance that is comparable to centrally trained counterparts. Also, most non-IID data distributions have either minor or negligible impact on the model performance, while a label-based non-IID distribution of a high extent can incur non-negligible fluctuation and delay in FL training. Then, under a realistic threat model, FL turns out to be adversary-resistant to attacks of both data poisoning and model poisoning. Particularly, the attacking impact of a practical data poisoning attack is no more than 0.14\% loss in model accuracy. Regarding FL efficiency, a bootstrapping strategy turns out to be effective to mitigate the training delay as observed in label-based non-IID scenarios.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# EcoVerse:Eco-Relevance分類、環境影響分析、スタンス検出のためのアノテーション付きTwitterデータセット

EcoVerse: An Annotated Twitter Dataset for Eco-Relevance Classification, Environmental Impact Analysis, and Stance Detection ( http://arxiv.org/abs/2404.05133v1 )

ライセンス: Link先を確認
Francesca Grasso, Stefano Locci, Giovanni Siragusa, Luigi Di Caro, (参考訳) 人類学的な生態危機は、NLP(Natural Language Processing)コミュニティを含む、アカデミー内のすべての人が緊急に直面しなければならない重要な課題である。 近年、気候中心の談話を中心に活動が活発化しているが、気候変動以外の重要な環境や生態に関する話題は、その重要な重要性にもかかわらず、ほとんど未解決のままである。 感情分析のようなメインストリームのNLPタスクが現場を支配しているが、特定の事象や実践の環境影響の分析を含む文献には、まだ触れられていない領域が残っている。 このギャップに対処するために、EcoVerseは、幅広い環境トピックにまたがる3,023のつぶやきからなる注釈付き英語のTwitterデータセットである。 本研究では,環境関連分類,スタンス検出,環境影響分析のための独自のアプローチの導入を目的とした3段階のアノテーションスキームを提案する。 データセットの作成に繋がったデータ収集、フィルタリング、ラベル付けのプロセスについて詳述する。 Remarkable Inter-Annotator Agreementは、アノテーションスキームが高品質の一貫性のあるアノテーションを生成することを示している。 BERTモデルを用いたその後の分類実験について述べる。 これらの結果は、特に環境テキストに適したモデルのための余地を示す一方で、奨励的な結果をもたらす。 このデータセットは、さらなる研究を刺激するために自由に利用できる。

Anthropogenic ecological crisis constitutes a significant challenge that all within the academy must urgently face, including the Natural Language Processing (NLP) community. While recent years have seen increasing work revolving around climate-centric discourse, crucial environmental and ecological topics outside of climate change remain largely unaddressed, despite their prominent importance. Mainstream NLP tasks, such as sentiment analysis, dominate the scene, but there remains an untouched space in the literature involving the analysis of environmental impacts of certain events and practices. To address this gap, this paper presents EcoVerse, an annotated English Twitter dataset of 3,023 tweets spanning a wide spectrum of environmental topics. We propose a three-level annotation scheme designed for Eco-Relevance Classification, Stance Detection, and introducing an original approach for Environmental Impact Analysis. We detail the data collection, filtering, and labeling process that led to the creation of the dataset. Remarkable Inter-Annotator Agreement indicates that the annotation scheme produces consistent annotations of high quality. Subsequent classification experiments using BERT-based models, including ClimateBERT, are presented. These yield encouraging results, while also indicating room for a model specifically tailored for environmental texts. The dataset is made freely available to stimulate further research.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 過去からのLiDARを用いた単分子3次元検出器の改良

Better Monocular 3D Detectors with LiDAR from the Past ( http://arxiv.org/abs/2404.05139v1 )

ライセンス: Link先を確認
Yurong You, Cheng Perng Phoo, Carlos Andres Diaz-Ruiz, Katie Z Luo, Wei-Lun Chao, Mark Campbell, Bharath Hariharan, Kilian Q Weinberger, (参考訳) 正確な3Dオブジェクト検出は、自動運転に不可欠である。 LiDARベースの検出器は目覚ましい性能を達成したが、高コストのLiDARセンサーは安価な車両に広く採用されるのを妨げている。 カメラベースの検出器は安価な代替品だが、画像の奥行きの曖昧さのため、LiDARベースの検出器に比べて性能が劣ることが多い。 本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。 具体的には、推定時刻において、カメラベースの検出器は、過去のトラバーサル(LiDARセンサーを搭載した他のハイエンド車両)から複数のラベルのないLiDARスキャンにアクセスすることができると仮定する。 そこで我々はAsyncDepthと呼ばれる新しい、シンプルで、エンドツーエンドのトレーニング可能なフレームワークを提案し、モノクロ3D検出器の同じ位置にある非同期LiDARトラバーサルから関連性を効果的に抽出した。 我々は、複数の最先端モデルとデータセットにまたがって、一貫性があり、重要なパフォーマンス向上(最大9AP)を示し、追加のレイテンシは9.66ミリ秒、ストレージコストは小さくなった。

Accurate 3D object detection is crucial to autonomous driving. Though LiDAR-based detectors have achieved impressive performance, the high cost of LiDAR sensors precludes their widespread adoption in affordable vehicles. Camera-based detectors are cheaper alternatives but often suffer inferior performance compared to their LiDAR-based counterparts due to inherent depth ambiguities in images. In this work, we seek to improve monocular 3D detectors by leveraging unlabeled historical LiDAR data. Specifically, at inference time, we assume that the camera-based detectors have access to multiple unlabeled LiDAR scans from past traversals at locations of interest (potentially from other high-end vehicles equipped with LiDAR sensors). Under this setup, we proposed a novel, simple, and end-to-end trainable framework, termed AsyncDepth, to effectively extract relevant features from asynchronous LiDAR traversals of the same location for monocular 3D detectors. We show consistent and significant performance gain (up to 9 AP) across multiple state-of-the-art models and datasets with a negligible additional latency of 9.66 ms and a small storage cost.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# Plug and Play with Prompts: Prompt Tuning Approach for Controling Text Generation

Plug and Play with Prompts: A Prompt Tuning Approach for Controlling Text Generation ( http://arxiv.org/abs/2404.05143v1 )

ライセンス: Link先を確認
Rohan Deepak Ajwani, Zining Zhu, Jonathan Rose, Frank Rudzicz, (参考訳) Transformer-based Large Language Models (LLM) は、テキストベースのプロンプトに応答して、例外的な言語生成能力を示す。 しかし、特に小さなモデルでは、テキストプロンプトによる生成方向の制御は困難である。 本研究では,制御言語生成におけるPrompt Tuningの利用について検討する。 生成したテキストは、小さな言語モデルを用いて訓練されたインプット埋め込みを使用して、識別器として使用される。 さらに、これらの迅速な埋め込みは、非常に小さなデータセットでトレーニングでき、数百のトレーニング例も少ないことを実証する。 そこで本手法は,言語モデル出力を制御するためのデータとパラメータの効率的なソリューションを提供する。 SST-5とYelp(センチメント分析)、GYAFC(フォーマル性)、JIGSAW(有害言語)の4つのデータセットについて広範囲に評価を行った。 最後に, 言語モデルによる有害, 有害, 偏見を緩和する手法の有効性を実証する。

Transformer-based Large Language Models (LLMs) have shown exceptional language generation capabilities in response to text-based prompts. However, controlling the direction of generation via textual prompts has been challenging, especially with smaller models. In this work, we explore the use of Prompt Tuning to achieve controlled language generation. Generated text is steered using prompt embeddings, which are trained using a small language model, used as a discriminator. Moreover, we demonstrate that these prompt embeddings can be trained with a very small dataset, with as low as a few hundred training examples. Our method thus offers a data and parameter efficient solution towards controlling language model outputs. We carry out extensive evaluation on four datasets: SST-5 and Yelp (sentiment analysis), GYAFC (formality) and JIGSAW (toxic language). Finally, we demonstrate the efficacy of our method towards mitigating harmful, toxic, and biased text generated by language models.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# LLMによる臨床効率の向上: 心疾患患者に対する放電ノートの作成

Enhancing Clinical Efficiency through LLM: Discharge Note Generation for Cardiac Patients ( http://arxiv.org/abs/2404.05144v1 )

ライセンス: Link先を確認
HyoJe Jung, Yunha Kim, Heejung Choi, Hyeram Seo, Minkyoung Kim, JiYe Han, Gaeun Kee, Seohyun Park, Soyoung Ko, Byeolhee Kim, Suyeon Kim, Tae Joon Jun, Young-Hak Kim, (参考訳) 退院記を含む医療文書は、患者のケアの質、継続性、効果的な医療コミュニケーションを確保するために不可欠である。 しかし、これらの文書を手作業で作成することは時間を要するだけでなく、矛盾や潜在的な誤りも生じやすい。 人工知能(AI)を用いたこのドキュメンテーションプロセスの自動化は、医療における将来的なイノベーションの領域である。 本研究は、特に心臓患者に対して、特に大言語モデル(LLM)を応用して、手動で吐出音符を作成する際の非効率性と不正確性を直接的に解決するものである。 本研究は,広い範囲の医療記録と医師評価を含む,心臓科センターからの実質的なデータセットを用いて,LCMのドキュメンテーションプロセスの強化能力を評価する。 評価した各種モデルの中で,Mistral-7Bは,ドキュメンテーション効率と患者のケア継続性の両方を著しく向上させる吐出音を正確に生成することにより,自分自身を区別した。 これらのノートは、医療専門家による厳密な質的評価を受け、臨床関連性、完全性、可読性、および情報的意思決定とケア計画への貢献について高い評価を受けた。 これらの結果は定量的分析と合わせて,Mistral-7Bが複雑な医療情報を簡潔でコヒーレントな要約に蒸留する際の有効性を確認した。 以上の結果から,Mistral-7B などの特殊な LLM が医療ドキュメンテーションワークフローの整備や患者医療の進展に有効である可能性が示唆された。 この研究は、医療に高度なAI技術を統合するための基礎を築き、患者のドキュメンテーションに革命をもたらし、より良いケア結果をサポートする可能性を実証する。

Medical documentation, including discharge notes, is crucial for ensuring patient care quality, continuity, and effective medical communication. However, the manual creation of these documents is not only time-consuming but also prone to inconsistencies and potential errors. The automation of this documentation process using artificial intelligence (AI) represents a promising area of innovation in healthcare. This study directly addresses the inefficiencies and inaccuracies in creating discharge notes manually, particularly for cardiac patients, by employing AI techniques, specifically large language model (LLM). Utilizing a substantial dataset from a cardiology center, encompassing wide-ranging medical records and physician assessments, our research evaluates the capability of LLM to enhance the documentation process. Among the various models assessed, Mistral-7B distinguished itself by accurately generating discharge notes that significantly improve both documentation efficiency and the continuity of care for patients. These notes underwent rigorous qualitative evaluation by medical expert, receiving high marks for their clinical relevance, completeness, readability, and contribution to informed decision-making and care planning. Coupled with quantitative analyses, these results confirm Mistral-7B's efficacy in distilling complex medical information into concise, coherent summaries. Overall, our findings illuminate the considerable promise of specialized LLM, such as Mistral-7B, in refining healthcare documentation workflows and advancing patient care. This study lays the groundwork for further integrating advanced AI technologies in healthcare, demonstrating their potential to revolutionize patient documentation and support better care outcomes.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# UniMix: 逆気象下でのドメイン適応性と一般化可能なLiDARセマンティックセマンティックセマンティックセグメンテーションを目指して

UniMix: Towards Domain Adaptive and Generalizable LiDAR Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2404.05145v1 )

ライセンス: Link先を確認
Haimei Zhao, Jing Zhang, Zhuo Chen, Shanshan Zhao, Dacheng Tao, (参考訳) LiDARセマンティックセグメンテーション(LSS)は自動運転において重要な課題であり、有望な進歩を遂げている。 しかし, 従来のLSS法は, 晴れた天候下で同じ領域内のデータセットを用いて, 従来から検討・評価されてきた。 現実のアプリケーションにおける安全性と信頼性を確保するためには、見えないシーンやすべての気象条件におけるLSSモデルの堅牢性が不可欠である。 そこで本研究では,LSSモデルの適応性と一般化性を高める普遍的手法であるUniMixを提案する。 UniMixはまず、物理的に有効な悪天候シミュレーションを利用してブリッジドメインを構築する。 次に、ユニバーサルミキシング演算子は、空間、強度、意味分布について定義され、与えられた領域から混合されたサンプルを持つ中間領域を生成する。 提案した2つのテクニックを教師主導のフレームワークに統合することで、UniMixはドメインギャップを効果的に軽減し、LSSモデルで天候ロスとドメイン不変表現を学習できるようにする。 私たちはUniMixを2つの主要な設定に捧げました。 1) 特定気象源領域から悪天候目標領域にモデルを適応させる非監督領域適応 2) ドメインの一般化, 悪天候下での見えない場面によく一般化するモデルを学ぶ。 広範囲な実験により、さまざまなタスクやデータセットにわたるUniMixの有効性が検証され、いずれも最先端の手法よりも優れたパフォーマンスを実現している。 コードはリリースされます。

LiDAR semantic segmentation (LSS) is a critical task in autonomous driving and has achieved promising progress. However, prior LSS methods are conventionally investigated and evaluated on datasets within the same domain in clear weather. The robustness of LSS models in unseen scenes and all weather conditions is crucial for ensuring safety and reliability in real applications. To this end, we propose UniMix, a universal method that enhances the adaptability and generalizability of LSS models. UniMix first leverages physically valid adverse weather simulation to construct a Bridge Domain, which serves to bridge the domain gap between the clear weather scenes and the adverse weather scenes. Then, a Universal Mixing operator is defined regarding spatial, intensity, and semantic distributions to create the intermediate domain with mixed samples from given domains. Integrating the proposed two techniques into a teacher-student framework, UniMix efficiently mitigates the domain gap and enables LSS models to learn weather-robust and domain-invariant representations. We devote UniMix to two main setups: 1) unsupervised domain adaption, adapting the model from the clear weather source domain to the adverse weather target domain; 2) domain generalization, learning a model that generalizes well to unseen scenes in adverse weather. Extensive experiments validate the effectiveness of UniMix across different tasks and datasets, all achieving superior performance over state-of-the-art methods. The code will be released.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 量子スパース状態生成のための最適回路サイズを目指して

Towards Optimal Circuit Size for Quantum Sparse State Preparation ( http://arxiv.org/abs/2404.05147v1 )

ライセンス: Link先を確認
Rui Mao, Guojing Tian, Xiaoming Sun, (参考訳) 一般的な量子状態と比較して、スパース状態は量子計算の分野でより頻繁に発生する。 本研究では,非零振幅$s$の量子状態に対する準備について検討し,2つのアルゴリズムを提案する。 最初のアルゴリズムは$O(ns/\log n + n)$ gatesを使用し、以前のメソッドを$O(\log n)$で改善する。 さらに、振幅を意識しない任意のアルゴリズムに対して一致する下界を確立し、少なくとも$\operatorname{poly}(n)$ acillary qubits を用いる。 2番目のアルゴリズムは、短いハミルトニアンパスを示す二進弦向けに調整されている。 応用は、$U(1)$-invariant state with $k$ down-spins in a chain of length $n$, which our algorithm constructs a circuit of size $O\left(\binom{n}{k}\log n\right)$である。 これは以前の結果を$O(n/\log n)$で上回り、下界の$O\left(\binom{n}{k}\right)$に近い。 2つのアルゴリズムは、既存のギャップを理論的に縮小し、数値的に利点を増大させる。

Compared to general quantum states, the sparse states arise more frequently in the field of quantum computation. In this work, we consider the preparation for $n$-qubit sparse quantum states with $s$ non-zero amplitudes and propose two algorithms. The first algorithm uses $O(ns/\log n + n)$ gates, improving upon previous methods by $O(\log n)$. We further establish a matching lower bound for any algorithm which is not amplitude-aware and employs at most $\operatorname{poly}(n)$ ancillary qubits. The second algorithm is tailored for binary strings that exhibit a short Hamiltonian path. An application is the preparation of $U(1)$-invariant state with $k$ down-spins in a chain of length $n$, including Bethe states, for which our algorithm constructs a circuit of size $O\left(\binom{n}{k}\log n\right)$. This surpasses previous results by $O(n/\log n)$ and is close to the lower bound $O\left(\binom{n}{k}\right)$. Both the two algorithms shrink the existing gap theoretically and provide increasing advantages numerically.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 正規化を用いた付加音モデルの同定可能性に関する一般化基準

Generalized Criterion for Identifiability of Additive Noise Models Using Majorization ( http://arxiv.org/abs/2404.05148v1 )

ライセンス: Link先を確認
Aramayis Dallakyan, Yang Ni, (参考訳) 観測データから因果関係の発見は非常に困難である。 近年の多くのアプローチは、有向非巡回グラフ(DAG)モデルの特定のクラスを特定することを目的として、確率分布に制約を課す複雑さや不確実性の概念に依存している。 本稿では,加法雑音モデルの条件分散に制約を課すDAGに対する新しい識別可能性基準を提案する。 この基準は、(条件)分布の不確実性の尺度として(条件)分散を用いる文献において、既存の識別可能性基準を拡張し、一般化することを実証する。 線形構造方程式モデルに対して、共分散行列のコレスキー因子の対角要素に適用される弱偏化の概念を利用して、変数の位相的順序付けを学習する新しいアルゴリズムを提案する。 大規模なシミュレーションと銀行の接続データの解析を通じて,DAGの回復に成功するためのアプローチの有効性を実証する。 本論文の結果を再現するためのコードは, 補足材料で利用可能である。

The discovery of causal relationships from observational data is very challenging. Many recent approaches rely on complexity or uncertainty concepts to impose constraints on probability distributions, aiming to identify specific classes of directed acyclic graph (DAG) models. In this paper, we introduce a novel identifiability criterion for DAGs that places constraints on the conditional variances of additive noise models. We demonstrate that this criterion extends and generalizes existing identifiability criteria in the literature that employ (conditional) variances as measures of uncertainty in (conditional) distributions. For linear Structural Equation Models, we present a new algorithm that leverages the concept of weak majorization applied to the diagonal elements of the Cholesky factor of the covariance matrix to learn a topological ordering of variables. Through extensive simulations and the analysis of bank connectivity data, we provide evidence of the effectiveness of our approach in successfully recovering DAGs. The code for reproducing the results in this paper is available in Supplementary Materials.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 包括的フィードバックによるインセンティブに適合したオンライン学習における真偽の価格について:WSU-UXに対する後悔の念

On the price of exact truthfulness in incentive-compatible online learning with bandit feedback: A regret lower bound for WSU-UX ( http://arxiv.org/abs/2404.05155v1 )

ライセンス: Link先を確認
Ali Mortazavi, Junhao Lin, Nishant A. Mehta, (参考訳) 古典的な予測ゲームと専門的な助言と二進的な結果の1つの観点では、各専門家は反対に選択された信念を維持し、この信念を正直に報告する。 本稿では,この問題の新たな戦略的バリエーションとして,各専門家が,自らの信念に基づいた将来的な評価を最大化するために,戦略的に報告する自己資本的(レコメンデーション・シーキング)の専門家が検討する。 本研究の目的は、インセンティブに相応しい利己的な専門家問題(IC、または「emph{truthful}」)のためのアルゴリズムを設計することであり、すなわち、各専門家の最善の戦略は、真に報告することであり、同時に、アルゴリズムが、最高の信念を持つ専門家に対して、サブリニアな後悔を楽しむことを確実にすることである。 Freeman et al (2020) は、最近この問題を情報と盗賊の設定で研究し、賃金制度に関する先行研究を生かして真面目で非相対的なアルゴリズムを得た。 完全な情報に基づく結果が古典的(最高の専門家)問題のミニマックスレートと一致する一方で、バンドイットアルゴリズムWSU-UXの最もよく知られた後悔は$O(T^{2/3})$であり、古典的(最高のバンドイット)設定のミニマックスレートとは一致しない。 高い後悔が彼らの分析の成果であったのか、あるいはWSU-UXの限界だったのかは不明だった。 損失列の明示的な構成を通して、アルゴリズムは最悪の場合$\Omega(T^{2/3})$low boundに苦しむことを示した。 左開は、異なるICアルゴリズムが$O(\sqrt{T})$ regretを得る可能性である。 しかし、この設定では、ICアルゴリズムの限られた設計スペースのため、WSU-UXはそのようなアルゴリズムにとって自然な選択であった。

In one view of the classical game of prediction with expert advice with binary outcomes, in each round, each expert maintains an adversarially chosen belief and honestly reports this belief. We consider a recently introduced, strategic variant of this problem with selfish (reputation-seeking) experts, where each expert strategically reports in order to maximize their expected future reputation based on their belief. In this work, our goal is to design an algorithm for the selfish experts problem that is incentive-compatible (IC, or \emph{truthful}), meaning each expert's best strategy is to report truthfully, while also ensuring the algorithm enjoys sublinear regret with respect to the expert with the best belief. Freeman et al. (2020) recently studied this problem in the full information and bandit settings and obtained truthful, no-regret algorithms by leveraging prior work on wagering mechanisms. While their results under full information match the minimax rate for the classical ("honest experts") problem, the best-known regret for their bandit algorithm WSU-UX is $O(T^{2/3})$, which does not match the minimax rate for the classical ("honest bandits") setting. It was unclear whether the higher regret was an artifact of their analysis or a limitation of WSU-UX. We show, via explicit construction of loss sequences, that the algorithm suffers a worst-case $\Omega(T^{2/3})$ lower bound. Left open is the possibility that a different IC algorithm obtains $O(\sqrt{T})$ regret. Yet, WSU-UX was a natural choice for such an algorithm owing to the limited design room for IC algorithms in this setting.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 超長いコヒーレンス時間を持つ単一光子の量子及び古典的2光子干渉

Quantum and Classical Two-photon Interference of Single Photons with Ultralong Coherence Time ( http://arxiv.org/abs/2404.05158v1 )

ライセンス: Link先を確認
Manman Wang, Yanfeng Li, Hanqing Liu, Haiqiao Ni, Zhichuan Niu, Xiaogang Wei, Renfu Yang, Chengyong Hu, (参考訳) 2光子干渉(TPI)は量子光学の基本的な現象であり、量子情報科学と技術において重要な役割を果たす。 TPIは一般に、TPI可視性とビート可視性の両方に対して100\%の上限を持つ量子干渉と見なされている。 しかし、必ずしもそうとは限らない。 本稿では,光子相関時間よりも5桁長い超長コヒーレンス時間を持つ単一光子の量子的および古典的TPIを同時観測する。 TPIの可視性は94.3\%\pm 0.2\%$であるが、ビート可視性は50\%$である。 単光子統計による反バンチング中心ディップの他に、不明瞭な光子の相互相関曲線における2つの束縛側ピークを観察する。 古典的波動重畳理論または量子場アプローチを用いて、実験をうまく再現し説明する相互相関関数に対して同じ式を導出する。 単一光子のストリームを持つ量子TPIは古典的TPIと等価であり、どちらも光子のコヒーレンス時間における2階干渉から生じる4階干渉である。

Two-photon interference (TPI) is a fundamental phenomenon in quantum optics and plays a crucial role in quantum information science and technology. TPI is commonly considered as quantum interference with an upper bound of $100\%$ for both the TPI visibility and the beat visibility in contrast to its classical counterpart with a maximum visibility of $50\%$. However, this is not always the case. Here we report a simultaneous observation of quantum and classical TPI of single photons with ultralong coherence time which is longer than the photon correlation time by five orders of magnitude. We observe a TPI visibility of $94.3\%\pm 0.2\%$ but a beat visibility of $50\%$. Besides an anti-bunching central dip due to single-photon statistics, we observe two bunching side peaks in cross-correlation curves for indistinguishable photons. Using either classical wave superposition theory or quantum field approach, we derive the same expressions for the cross-correlation functions which reproduce and explain the experiments well. We conclude that quantum TPI with a stream of single photons is equivalent to classical TPI, both of which are the fourth-order interference arising from the second-order interference occurring on the time scale of photon coherence time.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# セマンティックステルス:いくつかの手法を用いたNLPの逆テキスト攻撃

Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods ( http://arxiv.org/abs/2404.05159v1 )

ライセンス: Link先を確認
Roopkatha Dey, Aivy Debnath, Sayak Kumar Dutta, Kaustav Ghosh, Arijit Mitra, Arghya Roy Chowdhury, Jaydip Sen, (参考訳) 機械翻訳、感情分析、質問応答といった現実世界の様々な応用において、NLPモデルによって重要な役割が演じられ、医療から金融まで、領域における効率的なコミュニケーションと意思決定プロセスが促進される。 しかし、これらの自然言語処理モデルの頑健性には、テキストの敵対攻撃による大きな課題が生じる。 これらの攻撃は、人間の解釈可能性を維持しながらモデルの予測を誤解させる入力テキストを意図的に操作することを含む。 BERTのような最先端のモデルが様々な自然言語処理タスクで達成した顕著な性能にもかかわらず、入力テキストの敵の摂動に弱いままであることがわかった。 テキスト分類器の攻撃に対する脆弱性に対処するため,本論文では,BERT-on-BERT攻撃,PWWS攻撃,Fraud Bargain's Attack (FBA) の3つの異なる攻撃メカニズムを被害者モデルBERTを用いて検討した。 IMDB、AG News、SST2データセットを活用して、BERT分類器モデルにおけるこれらの攻撃の有効性を評価するために、徹底的な比較分析を行う。 解析の結果, PWWSは最も強力な敵として出現し, 複数の評価シナリオにおいて他の手法よりも一貫して優れており, テキスト分類の逆例を生成する上での有効性を強調していることが明らかとなった。 総合的な実験を通じて,これらの攻撃の性能を評価し,PWWS攻撃が他の攻撃よりも優れており,より低ランタイム,高い精度,良好な意味的類似性スコアが示されている。 本論文の重要な洞察は,3つの最先端攻撃機構の相対的性能を評価することである。

In various real-world applications such as machine translation, sentiment analysis, and question answering, a pivotal role is played by NLP models, facilitating efficient communication and decision-making processes in domains ranging from healthcare to finance. However, a significant challenge is posed to the robustness of these natural language processing models by text adversarial attacks. These attacks involve the deliberate manipulation of input text to mislead the predictions of the model while maintaining human interpretability. Despite the remarkable performance achieved by state-of-the-art models like BERT in various natural language processing tasks, they are found to remain vulnerable to adversarial perturbations in the input text. In addressing the vulnerability of text classifiers to adversarial attacks, three distinct attack mechanisms are explored in this paper using the victim model BERT: BERT-on-BERT attack, PWWS attack, and Fraud Bargain's Attack (FBA). Leveraging the IMDB, AG News, and SST2 datasets, a thorough comparative analysis is conducted to assess the effectiveness of these attacks on the BERT classifier model. It is revealed by the analysis that PWWS emerges as the most potent adversary, consistently outperforming other methods across multiple evaluation scenarios, thereby emphasizing its efficacy in generating adversarial examples for text classification. Through comprehensive experimentation, the performance of these attacks is assessed and the findings indicate that the PWWS attack outperforms others, demonstrating lower runtime, higher accuracy, and favorable semantic similarity scores. The key insight of this paper lies in the assessment of the relative performances of three prevalent state-of-the-art attack mechanisms.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 大規模言語モデルを用いたパーキンソン病検出のための自発音声の言語変化

Linguistic Changes in Spontaneous Speech for Detecting Parkinsons Disease Using Large Language Models ( http://arxiv.org/abs/2404.05160v1 )

ライセンス: Link先を確認
Jonathan Crawford, (参考訳) パーキンソン病(英: Parkinsons disease)は、世界で2番目に多い神経変性疾患である。 複雑性に関する症状の不均一性や、表現表現の出現のタイプとタイミングが原因で、疾患の検出と診断は困難である。 典型的には、言語障害は前頭葉に存在し、運動症状に先行して、言語に基づくアプローチがパーキンソン病の早期診断方法として役立つことを示唆する。 さらに、改良された言語モデルはアンサンブル技術によって他のアプローチを強化する可能性がある。 大規模言語モデルの分野は急速に進展しており、パーキンソン病の検出や言語学の高次元表現による現在の言語学的アプローチの改善にこれらの新しいモデルの使用を探求する機会が提示されている。 本研究では,パーキンソン病を自動的に検出するための最先端の大規模言語モデルの有用性を,最大73%の精度で評価した。

Parkinsons disease is the second most prevalent neurodegenerative disorder with over ten million active cases worldwide and one million new diagnoses per year. Detecting and subsequently diagnosing the disease is challenging because of symptom heterogeneity with respect to complexity, as well as the type and timing of phenotypic manifestations. Typically, language impairment can present in the prodromal phase and precede motor symptoms suggesting that a linguistic-based approach could serve as a diagnostic method for incipient Parkinsons disease. Additionally, improved linguistic models may enhance other approaches through ensemble techniques. The field of large language models is advancing rapidly, presenting the opportunity to explore the use of these new models for detecting Parkinsons disease and to improve on current linguistic approaches with high-dimensional representations of linguistics. We evaluate the application of state-of-the-art large language models to detect Parkinsons disease automatically from spontaneous speech with up to 73% accuracy.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# 高次摂動理論補正のための量子回路

Quantum Circuit for High Order Perturbation Theory Corrections ( http://arxiv.org/abs/2404.05162v1 )

ライセンス: Link先を確認
Junxu Li, Xingyu Gao, (参考訳) 摂動理論(PT)は、物理学者と化学者の両方にとって最も強力で実りの多い道具の1つであり、様々な応用に繋がった。 過去数十年間、量子コンピューティングの進歩は、古典的な方法に代わる機会を与えてきた。 近年,低次PT補正を推定する一般量子回路が提案されている。 本稿では,PT計算のための量子回路を再検討し,高次PT補正法,特に第3次,第4次補正法について述べる。 これらのPT補正において,各項を推定可能な量子回路を提案する。 提案回路の基本的な動作は2つある。 1つは摂動項を近似し、もう1つは摂動エネルギー差の逆を近似する。 提案手法は高次PT補正に一般化することができる。

Perturbation theory (PT) might be one of the most powerful and fruitful tools for both physicists and chemists, which has led to a wide variety of applications. Over the past decades, advances in quantum computing provide opportunities for alternatives to classical methods. Recently, a general quantum circuit estimating the low order PT corrections has been proposed. In this article, we revisit the quantum circuits for PT calculations, and develop the methods for higher order PT corrections of eigenenergy, especially the 3rd and 4th order corrections. We present the feasible quantum circuit to estimate each term in these PT corrections. There are two the fundamental operations in the proposed circuit. One approximates the perturbation terms, the other approximates the inverse of unperturbed energy difference. The proposed method can be generalized to higher order PT corrections.
翻訳日:2024-04-09 15:43:25 公開日:2024-04-08
# セマンティックフロー:モノクロ映像から動的シーンのセマンティックフィールドを学習する

Semantic Flow: Learning Semantic Field of Dynamic Scenes from Monocular Videos ( http://arxiv.org/abs/2404.05163v1 )

ライセンス: Link先を確認
Fengrui Tian, Yueqi Duan, Angtian Wang, Jianfei Guo, Shaoyi Du, (参考訳) 本研究では,モノクラービデオの動的シーンをニューラルネットワークで表現するセマンティックフローのパイオニアとなる。 個々の点の色や体積密度から動的シーンを再構成する従来のNeRF法とは対照的に、セマンティックフローはリッチな3次元モーション情報を含む連続流れから意味学を学ぶ。 本研究では,2次元映像フレームから3次元フロー特徴を抽出する場合の視野方向における2次元から3次元のあいまいさの問題として,フロー特徴のフレーム上のセマンティクスへの寄与を記述した不透明度先行としてボリューム密度を考察する。 より具体的には、動的シーン内のフローを予測するためのフローネットワークを最初に学習し、ビデオフレームからフロー特徴を抽出するフロー特徴集約モジュールを提案する。 そして,フローの特徴から動き情報を抽出するフローアテンションモジュールを提案し,それに続いてセマンティックネットワークを用いてフローの意味ロジットを出力する。 ビデオフレーム上のセマンティックラベルでフロー特徴を監督するために,ロジットとボリューム密度を視方向に統合する。 実験の結果,本モデルは複数の動的シーンから学習可能であり,インスタンスレベルのシーン編集,セマンティック補完,動的シーントラッキング,新規シーンへのセマンティック適応など,一連の新しいタスクをサポートすることがわかった。 コードはhttps://github.com/tianfr/Semantic-Flow/.comで入手できる。

In this work, we pioneer Semantic Flow, a neural semantic representation of dynamic scenes from monocular videos. In contrast to previous NeRF methods that reconstruct dynamic scenes from the colors and volume densities of individual points, Semantic Flow learns semantics from continuous flows that contain rich 3D motion information. As there is 2D-to-3D ambiguity problem in the viewing direction when extracting 3D flow features from 2D video frames, we consider the volume densities as opacity priors that describe the contributions of flow features to the semantics on the frames. More specifically, we first learn a flow network to predict flows in the dynamic scene, and propose a flow feature aggregation module to extract flow features from video frames. Then, we propose a flow attention module to extract motion information from flow features, which is followed by a semantic network to output semantic logits of flows. We integrate the logits with volume densities in the viewing direction to supervise the flow features with semantic labels on video frames. Experimental results show that our model is able to learn from multiple dynamic scenes and supports a series of new tasks such as instance-level scene editing, semantic completions, dynamic scene tracking and semantic adaption on novel scenes. Codes are available at https://github.com/tianfr/Semantic-Flow/.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# 木を運動方程式で符号化したリアルタイムな共変量シフトへの適応

Adapting to Covariate Shift in Real-time by Encoding Trees with Motion Equations ( http://arxiv.org/abs/2404.05168v1 )

ライセンス: Link先を確認
Tham Yik Foong, Heng Zhang, Mao Po Yuan, Danilo Vasconcellos Vargas, (参考訳) 入力分布シフトは多くの現実世界システムにおいて重要な問題を示す。 ここでは、入力分布の変化に動的に適応できる適応アルゴリズムであるXenovertを紹介する。 完全な二分木であり、連続的な入力のストリームを受信しながら、連続的な入力空間をいくつかの均一な密度の間隔に適応的に分割する。 このプロセスは、ソースの分布をシフト対象の分布に間接的にマッピングし、シフトが発生した後も、ダウンストリームデコーダ/オペレーションとの関係を保存する。 本稿では,5つのシフトデータセットのうち4つは,Xenovertと統合されたニューラルネットワークによってより優れた結果が得られることを実証し,機械学習モデルの再トレーニングのハードルを省いた。 我々は、分布シフトが劇的である場合でも、予期せぬ入力分布シフトへの適応を必要とする多くのアプリケーションにXenovertを適用することができると予測している。

Input distribution shift presents a significant problem in many real-world systems. Here we present Xenovert, an adaptive algorithm that can dynamically adapt to changes in input distribution. It is a perfect binary tree that adaptively divides a continuous input space into several intervals of uniform density while receiving a continuous stream of input. This process indirectly maps the source distribution to the shifted target distribution, preserving the data's relationship with the downstream decoder/operation, even after the shift occurs. In this paper, we demonstrated how a neural network integrated with Xenovert achieved better results in 4 out of 5 shifted datasets, saving the hurdle of retraining a machine learning model. We anticipate that Xenovert can be applied to many more applications that require adaptation to unforeseen input distribution shifts, even when the distribution shift is drastic.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# QMix:ロバスト網膜疾患診断のための混合ノイズによる品質認識学習

QMix: Quality-aware Learning with Mixed Noise for Robust Retinal Disease Diagnosis ( http://arxiv.org/abs/2404.05169v1 )

ライセンス: Link先を確認
Junlin Hou, Jilan Xu, Rui Feng, Hao Chen, (参考訳) 医用画像取得の複雑さとアノテーションの難しさにより、医用画像データセットには必然的にノイズが含まれている。 ラベルを間違えたノイズのあるデータは、ディープニューラルネットワークの堅牢性と一般化能力に影響を与える。 従来のノイズ学習手法は, ラベル付き画像から発生するノイズ, ラベル付き画像がすべて画質が高いことを前提として, ラベル付き画像から発生するノイズを主に考慮していた。 しかし、医療画像は、異常な品質の問題、すなわち、病気の診断に識別的視覚的特徴が欠落しているデータノイズに悩まされがちである。 本稿では,混合雑音下での堅牢な疾患診断モデルを学習する,QMixと呼ばれる雑音学習フレームワークを提案する。 QMixは、各トレーニングエポックにおけるサンプル分離と品質を意識した半教師付きトレーニングを交互に行う。 サンプル分離段階では,(1)正確なラベル付き画像,(2)高品質のラベル付き画像,(3)低品質のラベル付き画像とを効果的に分離するために,共同不確実性損失基準を設計する。 半教師付きトレーニングフェーズでは,分離したサンプルから頑健な特徴表現を学習するために,疾患診断モデルを訓練する。 具体的には、トレーニング中に低品質のラベル付き画像の効果を軽減するために、サンプルリライジング損失を考案する。 一方、低品質なラベル付き画像と正確なラベル付き画像とを区別するために、コントラスト強調損失を提案する。 QMixは、5つのパブリック網膜画像データセットで最先端の疾患診断性能を達成し、混合雑音に対する堅牢性を大幅に改善した。

Due to the complexity of medical image acquisition and the difficulty of annotation, medical image datasets inevitably contain noise. Noisy data with wrong labels affects the robustness and generalization ability of deep neural networks. Previous noise learning methods mainly considered noise arising from images being mislabeled, i.e. label noise, assuming that all mislabeled images are of high image quality. However, medical images are prone to suffering extreme quality issues, i.e. data noise, where discriminative visual features are missing for disease diagnosis. In this paper, we propose a noise learning framework, termed as QMix, that learns a robust disease diagnosis model under mixed noise. QMix alternates between sample separation and quality-aware semisupervised training in each training epoch. In the sample separation phase, we design a joint uncertainty-loss criterion to effectively separate (1) correctly labeled images; (2) mislabeled images with high quality and (3) mislabeled images with low quality. In the semi-supervised training phase, we train a disease diagnosis model to learn robust feature representation from the separated samples. Specifically, we devise a sample-reweighing loss to mitigate the effect of mislabeled images with low quality during training. Meanwhile, a contrastive enhancement loss is proposed to further distinguish mislabeled images with low quality from correctly labeled images. QMix achieved state-of-the-art disease diagnosis performance on five public retinal image datasets and exhibited substantial improvement on robustness against mixed noise.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# 固体状態に人工原子を持つハイブリッド量子系

Hybrid quantum systems with artificial atoms in solid state ( http://arxiv.org/abs/2404.05174v1 )

ライセンス: Link先を確認
Cleaven Chia, Ding Huang, Victor Leong, Jian Feng Kong, Kuan Eng Johnson Goh, (参考訳) 過去数十年の大半で主要なシングルプラットフォーム量子ビットの開発は、量子情報技術の進歩を加速させてきたが、同時に様々なプラットフォームの限界も強調している。 材料中の電荷/スピンノイズなどの固有の問題は、特定のプラットフォームを妨げる一方で、スケールアップの試みにおけるデコヒーレンスの増加は、量子ビットの品質やカップリングに深刻な影響を及ぼした。 さらに、量子システム間のコヒーレントな情報伝達のための普遍的な解は、いまだに欠落している。 1つ以上のキュービットプラットフォームを組み合わせることで、現在の単一プラットフォームキュービットが抱える重大な問題を軽減し、場合によっては、同じハイブリッドプラットフォーム上で静的なキュービットから空飛ぶキュービットへの変換を容易にするような、新しいハイブリッドプラットフォームを構築することができる。 生まれたばかりのこの領域は、堅牢でスケーラブルな量子ビット開発に新たな光を放ち、研究の方向性に新たな推進力を与える可能性がある。 ここでは, 人工原子を固体とするハイブリッドシステムの要件を定義し, 提案あるいは試行されたシステムでそれらを実証し, このようなハイブリッド量子システムの展望をまとめる。

The development of single-platform qubits, predominant for most of the last few decades, has driven the progress of quantum information technologies but also highlighted the limitations of various platforms. Some inherent issues such as charge/spin noise in materials hinder certain platforms, while increased decoherence upon attempts to scale-up severely impact qubit quality and coupling on others. In addition, a universal solution for coherent information transfer between quantum systems remains lacking. By combining one or more qubit platforms, one could potentially create new hybrid platforms that might alleviate significant issues that current single platform qubits suffer from, and in some cases, even facilitate the conversion of static to flying qubits on the same hybrid platform. While nascent, this is an area of rising importance that could shed new light on robust and scalable qubit development and provide new impetus for research directions. Here, we define the requirements for hybrid systems with artificial atoms in solid state, exemplify them with systems that have been proposed or attempted, and conclude with our outlook for such hybrid quantum systems.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# 多視点ステレオ再構成のための適応学習

Adaptive Learning for Multi-view Stereo Reconstruction ( http://arxiv.org/abs/2404.05181v1 )

ライセンス: Link先を確認
Qinglu Min, Jie Zhao, Zhihao Zhang, Chen Min, (参考訳) 近年,多視点ステレオ(MVS)の課題において,ディープラーニングが優れた性能を示した。 しかし、深部MVSに適用される損失関数はめったに研究されていない。 本稿では,深度に基づくMVS手法において,既存の損失関数の特性を初めて解析する。 回帰に基づく損失は数学的な期待を計算し、分類に基づく損失は離散化された深さの値を出力する。 この目的のために、我々は適応ワッサースタイン損失という新しい損失関数を提案し、これは真と予測される深さの確率分布の差を狭めることができる。 さらに,サブピクセル予測精度を向上させるために,シンプルだが効果的なオフセットモジュールが導入された。 DTU, Tanks and Temples, BlendedMVS など,様々なベンチマークに対する大規模な実験により,適応ワッサーシュタイン損失とオフセットモジュールを用いた提案手法が最先端の性能を達成することを示した。

Deep learning has recently demonstrated its excellent performance on the task of multi-view stereo (MVS). However, loss functions applied for deep MVS are rarely studied. In this paper, we first analyze existing loss functions' properties for deep depth based MVS approaches. Regression based loss leads to inaccurate continuous results by computing mathematical expectation, while classification based loss outputs discretized depth values. To this end, we then propose a novel loss function, named adaptive Wasserstein loss, which is able to narrow down the difference between the true and predicted probability distributions of depth. Besides, a simple but effective offset module is introduced to better achieve sub-pixel prediction accuracy. Extensive experiments on different benchmarks, including DTU, Tanks and Temples and BlendedMVS, show that the proposed method with the adaptive Wasserstein loss and the offset module achieves state-of-the-art performance.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# DLoRA:大規模言語モデルのための分散パラメータ効率の良いファインチューニングソリューション

DLoRA: Distributed Parameter-Efficient Fine-Tuning Solution for Large Language Model ( http://arxiv.org/abs/2404.05182v1 )

ライセンス: Link先を確認
Chao Gao, Sai Qian Zhang, (参考訳) 下流タスクにおける大規模言語モデル(LLM)の性能を高めるために、あるLCMパラメータを微調整し、トレーニングデータセットの特性に適合させる方法がある。 このプロセスは一般にパラメータ効率細調整(PEFT)として知られている。 LLMのスケールのため、PEFT操作は通常、パブリック環境(例えばクラウドサーバ)で実行される。 これにより、機密性の高いユーザーデータを公共環境間で共有する必要があるため、潜在的なプライバシー上の懸念が生じる。 これらの課題に対処するため,DLoRAと呼ばれる分散PEFTフレームワークを提案する。 DLoRAはスケーラブルなPEFT操作をクラウドとユーザデバイス間で協調的に実行可能にする。 提案したKil and Reviveアルゴリズムと組み合わせることで,DLoRAはユーザのデバイス上での計算および通信負荷を大幅に低減し,精度とプライバシ保護に優れることを示す。

To enhance the performance of large language models (LLM) on downstream tasks, one solution is to fine-tune certain LLM parameters and make it better align with the characteristics of the training dataset. This process is commonly known as parameter-efficient fine-tuning (PEFT). Due to the scale of LLM, PEFT operations are usually executed in the public environment (e.g., cloud server). This necessitates the sharing of sensitive user data across public environments, thereby raising potential privacy concerns. To tackle these challenges, we propose a distributed PEFT framework called DLoRA. DLoRA enables scalable PEFT operations to be performed collaboratively between the cloud and user devices. Coupled with the proposed Kill and Revive algorithm, the evaluation results demonstrate that DLoRA can significantly reduce the computation and communication workload over the user devices while achieving superior accuracy and privacy protection.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# ASEデータセットの欠陥分類のためのVLM-LLM特徴付きプログレッシブアライメント

Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset ( http://arxiv.org/abs/2404.05183v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu, (参考訳) 従来の欠陥分類アプローチは2つの障壁に直面している。 1)不十分なトレーニングデータと不安定なデータ品質。 十分な欠陥サンプルの収集は高価で時間費用がかかるため、データセットの分散につながる。 認識と学習の困難が伴う。 2)視覚的モダリティの過度依存性 画像パターンとテクスチャが与えられたデータセットのすべての欠陥クラスに対して単調である場合、従来のAOIシステムの性能は保証できない。 機械的故障により画質が損なわれる場合や、欠陥情報が本質的に識別し難い場合は、ディープモデルの性能が保証できない。 主な疑問は、“これら2つの問題を同時に解決するにはどうすればよいか? 実現可能な戦略は、データセット内の別の機能を探求し、卓越したビジョン言語モデル(VLM)とLarge-Languageモデル(LLM)を驚くべきゼロショット機能と組み合わせることである。 本研究では,欠陥分類のために画像上に記録されたリッチなデータ記述を含む特殊なASEデータセットを提案するが,欠陥特徴を直接学習するのは困難である。 次に,提案するASEデータセットを用いた欠陥分類に対するVLM-LLMのプロンプトを提案する。 そこで本研究では,プログレッシブな特徴アライメント(PFA)ブロックを設計し,画像テキストの特徴を洗練し,少数のシナリオ下でのアライメントの困難さを軽減する。 最後に、提案したCMAFモジュールは、異なるモダリティ特徴を効果的に融合することができる。 ASEデータセットのいくつかの欠陥分類法に対して,本手法の有効性を実証した。

Traditional defect classification approaches are facing with two barriers. (1) Insufficient training data and unstable data quality. Collecting sufficient defective sample is expensive and time-costing, consequently leading to dataset variance. It introduces the difficulty on recognition and learning. (2) Over-dependence on visual modality. When the image pattern and texture is monotonic for all defect classes in a given dataset, the performance of conventional AOI system cannot be guaranteed. In scenarios where image quality is compromised due to mechanical failures or when defect information is inherently difficult to discern, the performance of deep models cannot be guaranteed. A main question is, "how to solve those two problems when they occur at the same time?" The feasible strategy is to explore another feature within dataset and combine an eminent vision-language model (VLM) and Large-Language model (LLM) with their astonishing zero-shot capability. In this work, we propose the special ASE dataset, including rich data description recorded on image, for defect classification, but the defect feature is uneasy to learn directly. Secondly, We present the prompting for VLM-LLM against defect classification with the proposed ASE dataset to activate extra-modality feature from images to enhance performance. Then, We design the novel progressive feature alignment (PFA) block to refine image-text feature to alleviate the difficulty of alignment under few-shot scenario. Finally, the proposed Cross-modality attention fusion (CMAF) module can effectively fuse different modality feature. Experiment results have demonstrated our method's effectiveness over several defect classification methods for the ASE dataset.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ

Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v1 )

ライセンス: Link先を確認
Juan C. Mej ıa-Fragoso, Manuel A. Florez, Rocıo Bernal-Olaya, (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。 特に興味深いのは、豊富な地熱資源を持つコロンビアである。 活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。 残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。 間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。 計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。 我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。 グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。 我々は,本モデルの予測精度が 12 % 以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。 最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。

Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12\% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# 深層学習における制御粒子系の収束解析-有限から無限まで-

Convergence analysis of controlled particle systems arising in deep learning: from finite to infinite sample size ( http://arxiv.org/abs/2404.05185v1 )

ライセンス: Link先を確認
Huafu Liao, Alpár R. Mészáros, Chenchen Mou, Chao Zhou, (参考訳) 本稿では, サンプルサイズが無限に大きくなるにつれて, 関連するサンプル最適制御問題の制限挙動について検討する。 Nサンプルを持つ神経SDEは、集中制御されたN粒子系にリンクすることができる。 N-粒子系に対応するハミルトン-ヤコビ-ベルマン方程式を解析し、Nに一様である正則性を求める。 これらの一様正則性結果を用いて、目的関数の最小値と、標本サイズNが無限大になる傾向にあるニューラルネットワークSDEの最適パラメータの収束を示す。 制限対象はボレル確率測度のワッサーシュタイン空間上で定義される適当な関数と同一視できる。 さらに、定量的な代数収束率も得られる。

This paper deals with a class of neural SDEs and studies the limiting behavior of the associated sampled optimal control problems as the sample size grows to infinity. The neural SDEs with N samples can be linked to the N-particle systems with centralized control. We analyze the Hamilton--Jacobi--Bellman equation corresponding to the N-particle system and establish regularity results which are uniform in N. The uniform regularity estimates are obtained by the stochastic maximum principle and the analysis of a backward stochastic Riccati equation. Using these uniform regularity results, we show the convergence of the minima of objective functionals and optimal parameters of the neural SDEs as the sample size N tends to infinity. The limiting objects can be identified with suitable functions defined on the Wasserstein space of Borel probability measures. Furthermore, quantitative algebraic convergence rates are also obtained.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# LGSDF:地域更新支援によるサイン付き距離場の継続的なグローバルラーニング

LGSDF: Continual Global Learning of Signed Distance Fields Aided by Local Updating ( http://arxiv.org/abs/2404.05187v1 )

ライセンス: Link先を確認
Yufeng Yue, Yinan Deng, Jiahui Wang, Yi Yang, (参考訳) ESDF (Euclidean Signed Distance Field) の暗黙的な再構成では、任意の地点から最も近い障害物まで、署名された距離を回帰するためにニューラルネットワークをトレーニングする。 しかし、既存のアルゴリズムは通常、トレーニングデータとして生の観測と矛盾し、結果としてマップのパフォーマンスが低下する。 本稿では,ローカル更新によるESDF連続グローバル学習アルゴリズムLGSDFを提案する。 フロントエンドでは、軸整列格子を事前処理されたセンサ観測によって動的に更新し、インクリメンタルフュージョンにより、限られた視方向による推定誤差が軽減される。 バックエンドでは、ランダムに初期化された暗黙のESDFニューラルネットワークが、これらのグリッドによって導かれる連続的な自己教師付き学習を実行し、滑らかで連続的なマップを生成する。 複数の場面で得られた結果から,LGSDF は SOTA (State Of The Art) の明示的および暗黙的マッピングアルゴリズムと比較して,より正確な ESDF マップとメッシュを構築可能であることが示された。 LGSDFのソースコードはhttps://github.com/BIT-DYN/LGSDFで公開されている。

Implicit reconstruction of ESDF (Euclidean Signed Distance Field) involves training a neural network to regress the signed distance from any point to the nearest obstacle, which has the advantages of lightweight storage and continuous querying. However, existing algorithms usually rely on conflicting raw observations as training data, resulting in poor map performance. In this paper, we propose LGSDF, an ESDF continual Global learning algorithm aided by Local updating. At the front end, axis-aligned grids are dynamically updated by pre-processed sensor observations, where incremental fusion alleviates estimation error caused by limited viewing directions. At the back end, a randomly initialized implicit ESDF neural network performs continual self-supervised learning guided by these grids to generate smooth and continuous maps. The results on multiple scenes show that LGSDF can construct more accurate ESDF maps and meshes compared with SOTA (State Of The Art) explicit and implicit mapping algorithms. The source code of LGSDF is publicly available at https://github.com/BIT-DYN/LGSDF.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# 私のモデルをマージしたか? 大規模言語モデルIP保護法のモデルマージに対するロバスト性について

Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging ( http://arxiv.org/abs/2404.05188v1 )

ライセンス: Link先を確認
Tianshuo Cong, Delong Ran, Zesen Liu, Xinlei He, Jinyuan Liu, Yichen Gong, Qi Li, Anyu Wang, Xiaoyun Wang, (参考訳) モデルマージは、高価なコンピューティングデバイス(GPUなど)に依存しない、あるいは特定のトレーニングデータの収集を必要としない、有望な軽量モデルエンパワーメント技術である。 代わりに、下流のタスク機能を吸収するために、さまざまな上流モデルのパラメータを編集する。 しかし、認証されていないモデルのマージは、元の上流モデルの知的財産権(IP)を侵害することができる。 本稿では,モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。 本稿では、量子化透かしとインストラクショナルフィンガープリントと、タスク算術、TIES-MERGINGなどの高度なモデル統合技術について検討する。 実験結果から,現在のLarge Language Model (LLM) の透かし技術はマージモデルでは生き残れないが,モデルフィンガープリント技術では生き残ることが示唆された。 本研究の目的は, モデル統合は, モデルIP保護技術の堅牢性評価において不可欠であるべきであり, オープンソースLLMコミュニティの健全な開発を促進することである。

Model merging is a promising lightweight model empowerment technique that does not rely on expensive computing devices (e.g., GPUs) or require the collection of specific training data. Instead, it involves editing different upstream model parameters to absorb their downstream task capabilities. However, uncertified model merging can infringe upon the Intellectual Property (IP) rights of the original upstream models. In this paper, we conduct the first study on the robustness of IP protection methods in model merging scenarios. We investigate two state-of-the-art IP protection techniques: Quantization Watermarking and Instructional Fingerprint, along with various advanced model merging technologies, such as Task Arithmetic, TIES-MERGING, and so on. Experimental results indicate that current Large Language Model (LLM) watermarking techniques cannot survive in the merged models, whereas model fingerprinting techniques can. Our research aims to highlight that model merging should be an indispensable consideration in the robustness assessment of model IP protection techniques, thereby promoting the healthy development of the open-source LLM community.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# ATFNet:長期連続予測のための適応時間周波数アンサンブルネットワーク

ATFNet: Adaptive Time-Frequency Ensembled Network for Long-term Time Series Forecasting ( http://arxiv.org/abs/2404.05192v1 )

ライセンス: Link先を確認
Hengyu Ye, Jiadong Chen, Shijin Gong, Fuxin Jiang, Tieying Zhang, Jianjun Chen, Xiaofeng Gao, (参考訳) 時系列データ分析の複雑な性質は、時間と周波数領域の表現によって提供される異なる利点から大きく恩恵を受ける。 時間領域は、特に非周期的系列において、局所的な依存関係を表現するのに優れているが、周波数領域は、グローバルな依存関係を捉えるのに優れており、明らかに周期的なパターンを持つ級数にとって理想的である。 これらの長所を両立させるために,時間領域モジュールと周波数領域モジュールを組み合わせた,時系列データにおける局所的およびグローバル的依存関係を同時キャプチャする革新的なフレームワークであるAFFNetを提案する。 具体的には、入力時系列の周期性に基づいて2つのモジュール間の重みを動的に調整する新しいメカニズムであるドミナント・ハーモニック・シリーズ・エナジー・ウェイトリングを導入する。 周波数領域モジュールでは、離散周波数の不整合の課題に対処するために、拡張DFTを用いて従来の離散フーリエ変換(DFT)を強化する。 さらに、複素数値スペクトル注意機構は、異なる周波数の組み合わせ間の複雑な関係を識別するための新しいアプローチを提供する。 複数の実世界のデータセットにわたる大規模な実験により、我々のATFNetフレームワークは、長期の時系列予測において現在の最先端の手法より優れていることが示された。

The intricate nature of time series data analysis benefits greatly from the distinct advantages offered by time and frequency domain representations. While the time domain is superior in representing local dependencies, particularly in non-periodic series, the frequency domain excels in capturing global dependencies, making it ideal for series with evident periodic patterns. To capitalize on both of these strengths, we propose ATFNet, an innovative framework that combines a time domain module and a frequency domain module to concurrently capture local and global dependencies in time series data. Specifically, we introduce Dominant Harmonic Series Energy Weighting, a novel mechanism for dynamically adjusting the weights between the two modules based on the periodicity of the input time series. In the frequency domain module, we enhance the traditional Discrete Fourier Transform (DFT) with our Extended DFT, designed to address the challenge of discrete frequency misalignment. Additionally, our Complex-valued Spectrum Attention mechanism offers a novel approach to discern the intricate relationships between different frequency combinations. Extensive experiments across multiple real-world datasets demonstrate that our ATFNet framework outperforms current state-of-the-art methods in long-term time series forecasting.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# HSViT:水平にスケーラブルな視覚変換器

HSViT: Horizontally Scalable Vision Transformer ( http://arxiv.org/abs/2404.05196v1 )

ライセンス: Link先を確認
Chenhao Xu, Chang-Tsun Li, Chee Peng Lim, Douglas Creighton, (参考訳) Vision Transformer (ViT) アーキテクチャはコンピュータビジョンにおいて注目され、マルチメディアコミュニティから大きな注目を集める一方で、シフト、スケール、回転不変性に関する事前知識(帰納バイアス)の欠如は、大規模なデータセットで事前学習を必要とする。 さらに、ViTと畳み込みニューラルネットワーク(CNN)の両方で成長するレイヤとパラメータは、主にエッジデバイス上の制約された計算リソースのために、モバイルマルチメディアサービスへの適用性を妨げている。 本稿では、上記の課題を軽減するために、新しい水平拡張型視覚変換器(HSViT)を提案する。 具体的には、新しい画像レベルの機能埋め込みにより、ViTは畳み込み層に固有の帰納バイアスをよりよく活用することができる。 これに基づいて、革新的な水平スケーラブルアーキテクチャが設計され、複数のノードにわたるViTモデルの協調的なトレーニングと推論を容易にしながら、モデルのレイヤとパラメータの数を減らす。 実験結果は、大規模なデータセットを事前トレーニングせずに、HSViTは最先端の手法よりも最大10%高いトップ1の精度を達成し、誘導バイアスの優れた保存を保証していることを示している。 コードはhttps://github.com/xuchenhao001/HSViT.comで入手できる。

While the Vision Transformer (ViT) architecture gains prominence in computer vision and attracts significant attention from multimedia communities, its deficiency in prior knowledge (inductive bias) regarding shift, scale, and rotational invariance necessitates pre-training on large-scale datasets. Furthermore, the growing layers and parameters in both ViT and convolutional neural networks (CNNs) impede their applicability to mobile multimedia services, primarily owing to the constrained computational resources on edge devices. To mitigate the aforementioned challenges, this paper introduces a novel horizontally scalable vision transformer (HSViT). Specifically, a novel image-level feature embedding allows ViT to better leverage the inductive bias inherent in the convolutional layers. Based on this, an innovative horizontally scalable architecture is designed, which reduces the number of layers and parameters of the models while facilitating collaborative training and inference of ViT models across multiple nodes. The experimental results depict that, without pre-training on large-scale datasets, HSViT achieves up to 10% higher top-1 accuracy than state-of-the-art schemes, ascertaining its superior preservation of inductive bias. The code is available at https://github.com/xuchenhao001/HSViT.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# マルチヴォールト難読テンプレートを用いたセキュアでプライベートなアンサンブルマッチング

A secure and private ensemble matcher using multi-vault obfuscated templates ( http://arxiv.org/abs/2404.05205v1 )

ライセンス: Link先を確認
Babak Poorebrahim Gilkalaye, Shubhabrata Mukherjee, Reza Derakhshani, (参考訳) バイオメトリック・サンプルの無効性とプライバシーの懸念が伴うことを考えると、バイオメトリック・テンプレートのセキュリティとセキュアなマッチングは、よく設計された現代のバイオメトリック・システムの本質的な特徴である。 本稿では,バイオメトリックテンプレート情報を十分なチャフで隠蔽する難読化手法を提案する。 主な考え方は、元のテンプレートからn個のサブテンプレートを作成し、各サブテンプレートをm個のチャフポイントで隠すことで、チャフポイントの数を実用レベルまで減少させることである。 検証中、バイオメトリッククエリに最も近いベクトルは、各ヴォールトから検索され、格納されたハッシュ値と比較されたハッシュ値を生成する。 本稿では,GAN(Generative Adversarial Network)が生成した合成顔画像の有効性を,セキュアなVault認証システム内で'random chaff Point'として示す。 このアプローチは、トレーニングとデプロイメントの間、ユーザのアイデンティティを保護します。 我々は,AT&T,GT,LFWの顔データを用いて,それぞれ0.99,0.99,0.90のROC領域を試験した。 これらの数値は保護されていないテンプレートに近いものであり,本手法が精度に悪影響を及ぼさないことを示す。

Given the irrevocability of biometric samples and mounting privacy concerns, biometric template security and secure matching are among the essential features of any well-designed modern biometric system. In this paper, we propose an obfuscation method that hides the biometric template information with just enough chaff. The main idea is to reduce the number of chaff points to a practical level by creating n sub-templates from the original template and hiding each sub-template with m chaff points. During verification, s closest vectors to the biometric query are retrieved from each vault and then combined to generate hash values that are compared with the stored hash value. We demonstrate the effectiveness of synthetic facial images, generated by a Generative Adversarial Network (GAN), as ``random chaff points'' within a secure-vault authorization system. This approach safeguards user identities during training and deployment. We tested our protocol using the AT&T, GT, and LFW face datasets, with the ROC areas under the curve being 0.99, 0.99, and 0.90, respectively. These numbers were close to those of the unprotected templates, showing that our method does not adversely affect accuracy.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# SoundingActions: ナレーション付きエゴセントリックビデオからアクションがどのように聞こえるかを学ぶ

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos ( http://arxiv.org/abs/2404.05206v1 )

ライセンス: Link先を確認
Changan Chen, Kumar Ashutosh, Rohit Girdhar, David Harwath, Kristen Grauman, (参考訳) そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。 既存の手法は、既知の音声-視覚対応によるキュレートされたデータに依存するが、マルチモーダル・コントラスト・コンセンサス・コーディング(MC3)の埋め込みは、すべてのモダリティ対が一致した場合、オーディオ、言語、視覚の関連性を強化し、一方のペアが一致しない場合にはそれらの関連性を低下させる。 提案手法は,2つのデータセット(Ego4DとEPIC-Sounds)と複数のクロスモーダルタスクにおいて,近年のマルチモーダル埋め込み技術よりも優れた性能を示す。

We propose a novel self-supervised embedding to learn how actions sound from narrated in-the-wild egocentric videos. Whereas existing methods rely on curated data with known audio-visual correspondence, our multimodal contrastive-consensus coding (MC3) embedding reinforces the associations between audio, language, and vision when all modality pairs agree, while diminishing those associations when any one pair does not. We show our approach can successfully discover how the long tail of human actions sound from egocentric video, outperforming an array of recent multimodal embedding techniques on two datasets (Ego4D and EPIC-Sounds) and multiple cross-modal tasks.
翻訳日:2024-04-09 15:33:28 公開日:2024-04-08
# iVPT:多層動的接続による視覚プロンプトチューニングにおけるタスク関連情報共有の改善

iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection ( http://arxiv.org/abs/2404.05207v1 )

ライセンス: Link先を確認
Nan Zhou, Jiaxin Chen, Di Huang, (参考訳) 近年の進歩は、事前学習された視覚変換器を様々な下流タスクに適応させる際に、視覚的プロンプトチューニング(VPT)の大きな可能性を示している。 しかし、既存のソリューションのほとんどは、各レイヤでのプロンプトを独立して最適化しているため、レイヤ間のプロンプトトークンにエンコードされたタスク関連情報の使用は無視される。 さらに、既存のプロンプト構造は、入力画像のタスク関連ノイズから干渉しやすく、タスク関連情報の共有に悪影響を及ぼす可能性がある。 本稿では,新しい VPT アプローチである \textbf{iVPT} を提案する。 これは、隣接層からの入力プロンプトトークンのためのクロス層動的接続(CDC)を革新的に組み込んで、タスク関連情報の効果的な共有を可能にする。 さらに,レイヤ間の情報共有を容易にする動的アグリゲーション(DA)モジュールを設計する。 CDCとDAの組み合わせにより、VPTフレームワーク内の注意プロセスの柔軟性が向上する。 これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別し、追加的な方法でプロンプトトークンによってさらに強化することで、注意力強化(AR)機構を導入する。 24の画像分類とセマンティックセグメンテーションのベンチマークによる大規模な実験は、提案したiVPTの利点を最先端のものと比較して明らかに示している。

Recent progress has shown great potential of visual prompt tuning (VPT) when adapting pre-trained vision transformers to various downstream tasks. However, most existing solutions independently optimize prompts at each layer, thereby neglecting the usage of task-relevant information encoded in prompt tokens across layers. Additionally, existing prompt structures are prone to interference from task-irrelevant noise in input images, which can do harm to the sharing of task-relevant information. In this paper, we propose a novel VPT approach, \textbf{iVPT}. It innovatively incorporates a cross-layer dynamic connection (CDC) for input prompt tokens from adjacent layers, enabling effective sharing of task-relevant information. Furthermore, we design a dynamic aggregation (DA) module that facilitates selective sharing of information between layers. The combination of CDC and DA enhances the flexibility of the attention process within the VPT framework. Building upon these foundations, iVPT introduces an attentive reinforcement (AR) mechanism, by automatically identifying salient image tokens, which are further enhanced by prompt tokens in an additive manner. Extensive experiments on 24 image classification and semantic segmentation benchmarks clearly demonstrate the advantage of the proposed iVPT, compared to the state-of-the-art counterparts.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# 六方晶窒化ホウ素中のスピン中心を用いた量子センシングの新しい経路

Proximity-Induced Exchange Interaction: a New Pathway for Quantum Sensing using Spin Centers in Hexagonal Boron Nitride ( http://arxiv.org/abs/2404.05208v1 )

ライセンス: Link先を確認
Lingnan Shen, Di Xiao, Ting Cao, (参考訳) ヘキサゴナル窒化ホウ素(hBN)の欠陥は、2次元のファンデルワールス物質であり、様々な量子応用においてその可能性に対する幅広い関心を高めている。 hBNの2Dの性質のため、hBNのスピン中心はターゲット物質に近接して設計することができ、ダイヤモンドの窒素空孔(NV)中心のような3D中心よりも有利である。 本稿では,hBNにおけるスピン中心と磁気近接効果によって誘導される磁性基板との交換相互作用によって駆動される新しい量子センシングプロトコルを提案する。 第一原理計算により, 双極子-双極子相互作用が近接する場合, 等級差で支配されることを示す。 相互作用は、hBNのスピン中心とターゲットのファンデルワールス磁石の間の全ての積み重ね構成で反強磁性のままである。 さらに,スピン中心とターゲットの空間的分離の関数としての交換場のスケーリング挙動について検討した。

Defects in hexagonal boron nitride (hBN), a two-dimensional van der Waals material, have raised wide range interest for its potential in various quantum applications. Due to hBN's 2D nature, spin center in hBN can be engineered in close proximity to target material, providing advantages over their 3D counterparts, such as nitrogen-vacancy (NV) center in diamond. Here we propose a novel quantum sensing protocol driven by exchange interaction between spin center in hBN and the underlying magnetic substrate induced by magnetic proximity effect. By first-principle calculation, we demonstrate the induced exchange interaction dominates over dipole-dipole interaction by orders of magnitude when in proximity. The interaction remains antiferromagnetic across all stacking configuration between the spin center in hBN and the target van der Waals magnets. Additionally, we explored the scaling behavior of the exchange field as a function of the spatial separation between the spin center and the targets.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# 最大フォワード型コアインフレーション

Maximally Forward-Looking Core Inflation ( http://arxiv.org/abs/2404.05209v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Karin Klieber, Christophe Barrette, Maximilian Goebel, (参考訳) タイムリーな金融政策決定には、タイムリーなインフレ対策が必要である。 私たちは、その目標を達成するために明示的に設計された新しいコアインフレーションシリーズを作成します。 より正確には、アセンブレージュ回帰(Assemblage Regression)は、価格指数のサブコンポーネント重量を最適化する一般化された非負のリッジ回帰問題である。 各期間のランクに応じてサブコンポーネントを注文すると、アルゴリズムは教師付きトリミングされたインフレーションを学ぶように切り替わる。 米国とユーロ圏の広範囲にわたるアウト・オブ・サンブル(アウト・オブ・サンブル)予測実験では、中長期のインフレ進展を前と後の両方で示唆する上で、大幅な改善が見られた。 教師付きトリミング版から来るものは特に印象的であり、従来の指標とは対照的な高度に非対称なトリミングに起因する。 また、この指標は早ければ2020年半ばにインフレに対する最初の上昇圧力を示し、2022年にはターンポイントを素早く捉えた。 また、地理的地域からのインフレーションの組み立て、時間的アグリゲーションの縮小、上向きまたは下向きのインフレーションリスクに特化した中核的措置の構築等についても検討する。

Timely monetary policy decision-making requires timely core inflation measures. We create a new core inflation series that is explicitly designed to succeed at that goal. Precisely, we introduce the Assemblage Regression, a generalized nonnegative ridge regression problem that optimizes the price index's subcomponent weights such that the aggregate is maximally predictive of future headline inflation. Ordering subcomponents according to their rank in each period switches the algorithm to be learning supervised trimmed inflation - or, put differently, the maximally forward-looking summary statistic of the realized price changes distribution. In an extensive out-of-sample forecasting experiment for the US and the euro area, we find substantial improvements for signaling medium-term inflation developments in both the pre- and post-Covid years. Those coming from the supervised trimmed version are particularly striking, and are attributable to a highly asymmetric trimming which contrasts with conventional indicators. We also find that this metric was indicating first upward pressures on inflation as early as mid-2020 and quickly captured the turning point in 2022. We also consider extensions, like assembling inflation from geographical regions, trimmed temporal aggregation, and building core measures specialized for either upside or downside inflation risks.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# シーケンスデータ理解のための双方向ロングランジパーザ

Bidirectional Long-Range Parser for Sequential Data Understanding ( http://arxiv.org/abs/2404.05210v1 )

ライセンス: Link先を確認
George Leotescu, Daniel Voinea, Alin-Ionut Popa, (参考訳) トランスは強力なデータモデリングフレームワークであり、幅広いタスクにおいて顕著なパフォーマンスを担っている。 しかし、長周期データを処理するのに最適で非効率であるため、スケーラビリティという点では制限がある。 この目的のために, BLRP (Bidirectional Long-Range Parser) を導入した。 局所的スライディングウインドウアプローチと大域的双方向潜在空間合成技術を組み合わせた短距離および長距離ヒューリスティックスを利用する。 本稿では,Long-Range-Arena ベンチマークと CIFAR ベンチマークにおける最先端手法に対する競争結果と,計算効率の実証を併用して,視覚領域と言語領域に対するアプローチの利点と汎用性を示す。

The transformer is a powerful data modelling framework responsible for remarkable performance on a wide range of tasks. However, they are limited in terms of scalability as it is suboptimal and inefficient to process long-sequence data. To this purpose we introduce BLRP (Bidirectional Long-Range Parser), a novel and versatile attention mechanism designed to increase performance and efficiency on long-sequence tasks. It leverages short and long range heuristics in the form of a local sliding window approach combined with a global bidirectional latent space synthesis technique. We show the benefits and versatility of our approach on vision and language domains by demonstrating competitive results against state-of-the-art methods on the Long-Range-Arena and CIFAR benchmarks together with ablations demonstrating the computational efficiency.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# ハイパースペクトル画像クラスタリングのためのマルチレベルグラフサブスペースコントラスト学習

Multi-level Graph Subspace Contrastive Learning for Hyperspectral Image Clustering ( http://arxiv.org/abs/2404.05211v1 )

ライセンス: Link先を確認
Jingxin Wang, Renxiang Guan, Kainan Gao, Zihao Li, Hao Li, Xianju Li, Chang Tang, (参考訳) ハイパースペクトル画像(HSI)クラスタリングは、その複雑さが高いため、難しい課題である。 サブスペースクラスタリングはHSIの優れた性能を示すが、従来の手法はHSIデータのグローバルな相互作用を無視する傾向にある。 本研究では,HSIクラスタリングのためのマルチレベルグラフサブスペースコントラスト学習(MLGSC)を提案する。 モデルは以下の主な部分に分けられる。 グラフ畳み込み部分空間構築:2つのグラフ畳み込みビューを構築するためにスペクトルとテクスチャのフェーチャを利用する。 局所グロバルグラフ表現: 局所グラフ表現はステップバイステップの畳み込みによって得られ, より代表的なグローバルグラフ表現は注意に基づくプーリング戦略を用いて得られた。 マルチレベルグラフ部分空間のコントラスト学習: 多レベルコントラスト学習は、局所的・グローバルな共同グラフ表現を得るために行われ、ビュー間の正のサンプルの整合性を改善し、より堅牢なグラフ埋め込みを得るために行われた。 具体的には,HSIデータのグローバル表現をよりよく学習するために,グラフレベルのコントラスト学習を用いる。 ノードレベルの視点内および視点間コントラスト学習は、HSIの局所領域の合同表現を学習するために設計されている。 提案したモデルは、Indian Pines、Pavia University、Houston、Xu Zhouの4つの人気のあるHSIデータセットで評価されている。 全体のアキュラシーは97.75%、99.96%、92.28%、95.73%であり、現在の最先端クラスタリング法よりもかなり優れている。

Hyperspectral image (HSI) clustering is a challenging task due to its high complexity. Despite subspace clustering shows impressive performance for HSI, traditional methods tend to ignore the global-local interaction in HSI data. In this study, we proposed a multi-level graph subspace contrastive learning (MLGSC) for HSI clustering. The model is divided into the following main parts. Graph convolution subspace construction: utilizing spectral and texture feautures to construct two graph convolution views. Local-global graph representation: local graph representations were obtained by step-by-step convolutions and a more representative global graph representation was obtained using an attention-based pooling strategy. Multi-level graph subspace contrastive learning: multi-level contrastive learning was conducted to obtain local-global joint graph representations, to improve the consistency of the positive samples between views, and to obtain more robust graph embeddings. Specifically, graph-level contrastive learning is used to better learn global representations of HSI data. Node-level intra-view and inter-view contrastive learning is designed to learn joint representations of local regions of HSI. The proposed model is evaluated on four popular HSI datasets: Indian Pines, Pavia University, Houston, and Xu Zhou. The overall accuracies are 97.75%, 99.96%, 92.28%, and 95.73%, which significantly outperforms the current state-of-the-art clustering methods.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# DiffCJK:CJK文字生成のための条件拡散モデル

DiffCJK: Conditional Diffusion Model for High-Quality and Wide-coverage CJK Character Generation ( http://arxiv.org/abs/2404.05212v1 )

ライセンス: Link先を確認
Yingtao Tian, (参考訳) 中国語、日本語、韓国語(CJK)は、多くの母語話者を抱えており、社会や文化に大きな影響を与えている。 CJK言語の型付けは、スクリプトの複雑さとユニークな文学的伝統のために、幅広い要件を課している。 この型付けプロセスの重要な側面は、CJKフォントが約10万文字に対して一貫したグリフのセットを提供する必要があることである。 しかし、そのようなフォントの作成は本質的に労働集約的で高価であり、タイプセット、歴史的、美学、芸術目的のための新しいCJKフォントの開発を著しく妨げている。 このギャップを埋めるため,近年の拡散型生成モデルの発展を動機とし, 条件付き標準グリフ形式を用いて, 対象とするスタイルでグリフを生成する新しい拡散法を提案する。 実験の結果,本手法は印刷スタイルと手書きスタイルの両方のフォントを生成することができることがわかった。 さらに,本手法はCJK以外の中国語にヒントを得たスクリプトに対して,目覚ましいゼロショットの一般化機能を示す。 また,本手法はスムーズなスタイルの補間を容易にするとともに,フォント生成プロセスにおいて重要なベクトル化に適したビットマップ画像を生成する。 要約して,提案手法は,CJK文字のための高品質な生成モデル支援フォント作成への扉を開く。

Chinese, Japanese, and Korean (CJK), with a vast number of native speakers, has profound influence on society and culture. The typesetting of CJK languages carries a wide range of requirements due to the complexity of their scripts and unique literary traditions. A critical aspect of this typesetting process is that CJK fonts need to provide a set of consistent-looking glyphs for approximately one hundred thousand characters. However, creating such a font is inherently labor-intensive and expensive, which significantly hampers the development of new CJK fonts for typesetting, historical, aesthetic, or artistic purposes. To bridge this gap, we are motivated by recent advancements in diffusion-based generative models and propose a novel diffusion method for generating glyphs in a targeted style from a \emph{single} conditioned, standard glyph form. Our experiments show that our method is capable of generating fonts of both printed and hand-written styles, the latter of which presents a greater challenge. Moreover, our approach shows remarkable zero-shot generalization capabilities for non-CJK but Chinese-inspired scripts. We also show our method facilitates smooth style interpolation and generates bitmap images suitable for vectorization, which is crucial in the font creation process. In summary, our proposed method opens the door to high-quality, generative model-assisted font creation for CJK characters, for both typesetting and artistic endeavors.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# 論理的誤りの同定におけるLLMの評価--HCI研究におけるLLMの採用におけるリゴールの呼びかけ

Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research ( http://arxiv.org/abs/2404.05213v1 )

ライセンス: Link先を確認
Gionnieve Lim, Simon T. Perrault, (参考訳) HCI研究におけるLLMの採用への関心が高まっている。 しかしながら、LSMはパナセアと見なされることが多いが、それはその能力と、それらが意図したタスクに適しているかどうかの監視が伴うためである。 厳格な評価をした後、LCMを批判的に採用すべきである、と我々は主張する。 そこで本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。 ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。 これにより、まだ不足している領域を念頭に置きながら、LCMの適用を進める自信が得られます。 本稿では,LLMを意図したタスクに利用する際の評価手法,結果,考察について述べる。

There is increasing interest in the adoption of LLMs in HCI research. However, LLMs may often be regarded as a panacea because of their powerful capabilities with an accompanying oversight on whether they are suitable for their intended tasks. We contend that LLMs should be adopted in a critical manner following rigorous evaluation. Accordingly, we present the evaluation of an LLM in identifying logical fallacies that will form part of a digital misinformation intervention. By comparing to a labeled dataset, we found that GPT-4 achieves an accuracy of 0.79, and for our intended use case that excludes invalid or unidentified instances, an accuracy of 0.90. This gives us the confidence to proceed with the application of the LLM while keeping in mind the areas where it still falls short. The paper describes our evaluation approach, results and reflections on the use of the LLM for our intended task.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# パーソナライズされたビデオゲズ推定のための時空間注意とガウス過程

Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation ( http://arxiv.org/abs/2404.05215v1 )

ライセンス: Link先を確認
Swati Jindal, Mohit Yadav, Roberto Manduchi, (参考訳) 迷路は人間の行動や注意を解析するための重要なプロンプトである。 近年,顔画像から視線方向を決定することへの関心が高まっている。 しかしながら、ビデオ視線推定は、ビデオシーケンスにおける視線の動的進化の理解、静的背景の扱い、照明のバリエーションへの適応など、重大な課題に直面している。 これらの課題に対処するために,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。 本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。 この技術は、時間的シーケンスモデルによる正確な視線方向予測を可能にし、空間観測を時間的洞察に変換することにより、視線推定精度を大幅に向上させる。 さらに,本手法はガウス過程を統合し,個々の特徴を包含し,少数のラベル付きサンプルを用いてモデルのパーソナライズを容易にする。 実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。 具体的には,提案手法はGaze360データセット上での最先端性能を実現し,パーソナライズなしで2.5^\circ$に改善する。 さらに、3つのサンプルでモデルをパーソナライズすることで、$0.8^\circ$のさらなる改善を実現した。 コードと事前トレーニングされたモデルは、 \url{https://github.com/jswati31/stage}で利用できる。

Gaze is an essential prompt for analyzing human behavior and attention. Recently, there has been an increasing interest in determining gaze direction from facial videos. However, video gaze estimation faces significant challenges, such as understanding the dynamic evolution of gaze in video sequences, dealing with static backgrounds, and adapting to variations in illumination. To address these challenges, we propose a simple and novel deep learning model designed to estimate gaze from videos, incorporating a specialized attention module. Our method employs a spatial attention mechanism that tracks spatial dynamics within videos. This technique enables accurate gaze direction prediction through a temporal sequence model, adeptly transforming spatial observations into temporal insights, thereby significantly improving gaze estimation accuracy. Additionally, our approach integrates Gaussian processes to include individual-specific traits, facilitating the personalization of our model with just a few labeled samples. Experimental results confirm the efficacy of the proposed approach, demonstrating its success in both within-dataset and cross-dataset settings. Specifically, our proposed approach achieves state-of-the-art performance on the Gaze360 dataset, improving by $2.5^\circ$ without personalization. Further, by personalizing the model with just three samples, we achieved an additional improvement of $0.8^\circ$. The code and pre-trained models are available at \url{https://github.com/jswati31/stage}.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# アウト・オブ・ディストリビューション(Out-of-Distribution)データ: 敵事例の知人 -- 調査

Out-of-Distribution Data: An Acquaintance of Adversarial Examples -- A Survey ( http://arxiv.org/abs/2404.05219v1 )

ライセンス: Link先を確認
Naveen Karunanayake, Ravin Gunawardena, Suranga Seneviratne, Sanjay Chawla, (参考訳) 現実世界のアプリケーションにデプロイされるディープニューラルネットワーク(DNN)は、アウト・オブ・ディストリビューション(OOD)データや敵の例に遭遇する可能性がある。 これらは、DNNの信頼性と堅牢性に大きな影響を及ぼす可能性のある、分散シフトの異なる形態を表している。 伝統的に、OODの検出と敵の堅牢性は別の課題として対処されてきた。 本調査は, この2つの領域の交点に着目し, 研究コミュニティが共同研究を行った経緯について考察する。 その結果、ロバストOOD検出と統一ロバストネスの2つの主要な研究方向が明らかになった。 ロバストOOD検出は、OOD検出器を騙すために逆操作された場合でも、IDデータとODデータとを区別することを目的としている。 統一ロバストネスは、DNNを敵攻撃とOOD入力の両方に対して堅牢にするための単一のアプローチを求めている。 そこでまず,分布シフトの概念に基づく分類法を確立する。 このフレームワークは、OOD検出と統一ロバスト性が、OOD検出、オープンセット認識、異常検出などの分散シフトに対処する他の研究領域とどのように関係しているかを明らかにする。 続いて、ロバストOOD検出と統一ロバスト性に関する既存の研究についてレビューする。 最後に、既存の作業の限界を強調し、統一されたフレームワーク内での敵とOODの入力を探索する有望な研究方向を提案する。

Deep neural networks (DNNs) deployed in real-world applications can encounter out-of-distribution (OOD) data and adversarial examples. These represent distinct forms of distributional shifts that can significantly impact DNNs' reliability and robustness. Traditionally, research has addressed OOD detection and adversarial robustness as separate challenges. This survey focuses on the intersection of these two areas, examining how the research community has investigated them together. Consequently, we identify two key research directions: robust OOD detection and unified robustness. Robust OOD detection aims to differentiate between in-distribution (ID) data and OOD data, even when they are adversarially manipulated to deceive the OOD detector. Unified robustness seeks a single approach to make DNNs robust against both adversarial attacks and OOD inputs. Accordingly, first, we establish a taxonomy based on the concept of distributional shifts. This framework clarifies how robust OOD detection and unified robustness relate to other research areas addressing distributional shifts, such as OOD detection, open set recognition, and anomaly detection. Subsequently, we review existing work on robust OOD detection and unified robustness. Finally, we highlight the limitations of the existing work and propose promising research directions that explore adversarial and OOD inputs within a unified framework.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# StylizedGS:3次元ガウス平滑化のための制御可能なスティル化

StylizedGS: Controllable Stylization for 3D Gaussian Splatting ( http://arxiv.org/abs/2404.05220v1 )

ライセンス: Link先を確認
Dingxi Zhang, Zhuoxun Chen, Yu-Jie Yuan, Fang-Lue Zhang, Zhenliang He, Shiguang Shan, Lin Gao, (参考訳) XRの急速な発展に伴い、3D生成と編集がますます重要になってきており、その中でもスタイリゼーションは3D外観編集の重要なツールである。 単一の参照スタイルのイメージによって、一貫した3D芸術的なスタイリゼーションを実現することができ、ユーザフレンドリーな編集方法である。 しかし、最近のNeRFベースの3Dスタイリング手法は、実際のユーザエクスペリエンスに影響を与える効率の問題に直面しており、暗黙的な性質は、幾何学的なパターンスタイルを転送する能力を制限している。 さらに、アーティストがスタイリングされたシーンを柔軟にコントロールできる能力は非常に望ましいと考えられており、創造的な探検に結びつく環境が育まれている。 本稿では,3次元ガウススプラッティング(3DGS)表現に基づく知覚因子を適応的に制御する3DニューラルスタイルトランスファーフレームワークであるStylizedGSを紹介する。 3DGSは高効率の利点をもたらす。 本研究では,スタイリゼーション前のスタイリゼーション効果に影響を与えるリコンストラクションにおいて,フロータを除去するGSフィルタを提案する。 次に、3DGSの幾何学的パラメータと色パラメータを微調整することにより、最も近い隣り合うスタイルの損失をスタイリングするために導入し、また、他の正規化による深度保存の損失は、幾何学的内容の改ざんを防ぐために提案する。 さらに、特別に設計された損失により、StylizedGSは、ユーザがスタイリング中に色、スタイリングされたスケール、リージョンを制御でき、カスタマイズされた機能を持つことができる。 本手法は,忠実なブラシストロークとフレキシブル制御による幾何整合性を特徴とする高品質なスタイリゼーションを実現する。 各種シーンおよびスタイルにわたる広範囲な実験により,スタイル化品質と推論FPSの両方に関して,本手法の有効性と有効性を示した。

With the rapid development of XR, 3D generation and editing are becoming more and more important, among which, stylization is an important tool of 3D appearance editing. It can achieve consistent 3D artistic stylization given a single reference style image and thus is a user-friendly editing way. However, recent NeRF-based 3D stylization methods face efficiency issues that affect the actual user experience and the implicit nature limits its ability to transfer the geometric pattern styles. Additionally, the ability for artists to exert flexible control over stylized scenes is considered highly desirable, fostering an environment conducive to creative exploration. In this paper, we introduce StylizedGS, a 3D neural style transfer framework with adaptable control over perceptual factors based on 3D Gaussian Splatting (3DGS) representation. The 3DGS brings the benefits of high efficiency. We propose a GS filter to eliminate floaters in the reconstruction which affects the stylization effects before stylization. Then the nearest neighbor-based style loss is introduced to achieve stylization by fine-tuning the geometry and color parameters of 3DGS, while a depth preservation loss with other regularizations is proposed to prevent the tampering of geometry content. Moreover, facilitated by specially designed losses, StylizedGS enables users to control color, stylized scale and regions during the stylization to possess customized capabilities. Our method can attain high-quality stylization results characterized by faithful brushstrokes and geometric consistency with flexible controls. Extensive experiments across various scenes and styles demonstrate the effectiveness and efficiency of our method concerning both stylization quality and inference FPS.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# ITA-ECBS: 目標割り当てと経路フィンディングを併用した境界下最適化アルゴリズム

ITA-ECBS: A Bounded-Suboptimal Algorithm for Combined Target-Assignment and Path-Finding Problem ( http://arxiv.org/abs/2404.05223v1 )

ライセンス: Link先を確認
Yimin Tang, Sven Koenig, Jiaoyang Li, (参考訳) マルチエージェントパス探索(MAPF, Multi-Agent Path Finding)とは、複数のロボットの衝突のない経路を見つけることであり、多くのアプリケーションにおいて重要な役割を果たす。 特定のターゲットを各エージェントに割り当てる場合もあります。 MAPFの変種であるTAPF(Combined Target-Assignment and Path-Finding)問題では、エージェントに同時にターゲットを割り当て、衝突のない経路を計画する必要がある。 CBM、CBS-TA、ITA-CBSを含むいくつかのアルゴリズムは、TAPF問題を最適に解くことができ、ITA-CBSがフロータイムの主要な方法である。 しかし, ITA-CBS ではなく CBS-TA から派生した唯一のサブ最適化手法である ECBS-TA は, 最適な ITA-CBS 法を有界-準最適変種に適応させることは, 異なる探索ノードにおけるターゲット割り当て解のばらつきのため, 課題である。 ITA-ECBS を ITA-CBS の最初の有界-準最適変種として紹介する。 ITA-ECBSは、効率を高めるために焦点探索を使用し、新しい下界行列に基づいて目標割り当てを決定する。 ITA-ECBSは,54,033例中87.42%でベースライン法であるCBS-TAよりも優れていた。

Multi-Agent Path Finding (MAPF), i.e., finding collision-free paths for multiple robots, plays a critical role in many applications. Sometimes, assigning a specific target to each agent also presents a challenge. The Combined Target-Assignment and Path-Finding (TAPF) problem, a variant of MAPF, requires simultaneously assigning targets to agents and planning collision-free paths. Several algorithms, including CBM, CBS-TA, and ITA-CBS, can optimally solve the TAPF problem, with ITA-CBS being the leading method of flowtime. However, the only existing suboptimal method ECBS-TA, is derived from CBS-TA rather than ITA-CBS, and adapting the optimal ITA-CBS method to its bounded-suboptimal variant is a challenge due to the variability of target assignment solutions in different search nodes. We introduce ITA-ECBS as the first bounded-suboptimal variant of ITA-CBS. ITA-ECBS employs focal search to enhance efficiency and determines target assignments based on a new lower bound matrix. We show that ITA-ECBS outperforms the baseline method ECBS-TA in 87.42% of 54,033 test cases.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# Iof-maint -- モジュールメンテナンスオントロジー

Iof-maint -- Modular maintenance ontology ( http://arxiv.org/abs/2404.05224v1 )

ライセンス: Link先を確認
Melinda Hodkiewicz, Caitlin Woods, Matt Selway, Markus Stumptner, (参考訳) 本稿では,保守オントロジー(Iof-maint)について述べる。 Iof-maintはIndustrial Ontology Foundry Core(IOF Core)に準拠したモジュールオントロジーであり、20のクラスと2のリレーションシップを含んでいる。 さまざまなデータ駆動のユースケースで使用されるメンテナンス固有の用語のセットを提供する。 Iof-maintはOWL DL推論をサポートし、ドキュメント化され、GitHubでアクティブにメンテナンスされている。 本稿では,Iof-maint参照オントロジーの進化を,産業保守作業順序,手順,障害モードデータを扱う多数のアプリケーションオントロジーで特定される共通概念の抽出に基づいて記述する。

In this paper we present a publicly-available maintenance ontology (Iof-maint). Iof-maint is a modular ontology aligned with the Industrial Ontology Foundry Core (IOF Core) and contains 20 classes and 2 relations. It provides a set of maintenance-specific terms used in a wide variety of practical data-driven use cases. Iof-maint supports OWL DL reasoning, is documented, and is actively maintained on GitHub. In this paper, we describe the evolution of the Iof-maint reference ontology based on the extraction of common concepts identified in a number of application ontologies working with industry maintenance work order, procedure and failure mode data.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# コモン・ハール状態モデルについての一考察

A Note on the Common Haar State Model ( http://arxiv.org/abs/2404.05227v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Aditya Gulati, Yao-Ting Lin, (参考訳) 共通ランダム文字列モデル(Common random string model)は、古典暗号における一般的なモデルであり、このモデルでは多くの構成が提案されている。 我々は、Chen, Coladangelo, Sattath (arXiv 2024) による独立研究でも研究された Common Haar State Model と呼ばれるこのモデルの量子アナログについて研究した。 このモデルでは、暗号システムのすべてのパーティが1つ以上のi.i.d Haar状態の多くのコピーを受け取る。 我々の主な成果は、統計学的に安全なPSSGの構築である。 a) PRSGの出力長は、キーサイズよりも厳密に大きい。 (b) 攻撃者が$O\left(\frac{\lambda}{(\log(\lambda))^{1.01}} \right)$擬似乱数状態のコピーを受け取ったとしても、セキュリティは保持する。 我々は、一致した下界を示すことによって、構築の最適性を示す。 私たちの構造は単純で、その分析は初等技術を用いています。

Common random string model is a popular model in classical cryptography with many constructions proposed in this model. We study a quantum analogue of this model called the common Haar state model, which was also studied in an independent work by Chen, Coladangelo and Sattath (arXiv 2024). In this model, every party in the cryptographic system receives many copies of one or more i.i.d Haar states. Our main result is the construction of a statistically secure PRSG with: (a) the output length of the PRSG is strictly larger than the key size, (b) the security holds even if the adversary receives $O\left(\frac{\lambda}{(\log(\lambda))^{1.01}} \right)$ copies of the pseudorandom state. We show the optimality of our construction by showing a matching lower bound. Our construction is simple and its analysis uses elementary techniques.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# モデルシミュレーションと衛星検索の空間的評価のためのポイントスケール土壌水分測定の実証的アップスケーリング

Empirical Upscaling of Point-scale Soil Moisture Measurements for Spatial Evaluation of Model Simulations and Satellite Retrievals ( http://arxiv.org/abs/2404.05229v1 )

ライセンス: Link先を確認
Yi Yu, Brendan P. Malone, Luigi J. Renzullo, (参考訳) モデルおよび衛星由来の土壌水分(SM)の推定値の評価は、通常、その場でのSM測定との比較に依存する。 しかし、空間的支持(すなわちスケール)における固有のミスマッチは、ポイント・ツー・ピクセル比較の慎重な解釈を必要とする。 モデルまたは検索されたSMの分解能に対するその場測定値のアップスケーリングにより、より公平な比較と統計的により確固とした評価が導かれる。 本研究では,28地点から100km×100kmの農地に対する100mの分解能に,時空間融合と機械学習を組み合わせて点スケールSM測定を外挿するアップスケーリング手法を提案する。 我々は4倍のクロスバリデーションを行い,0.6から0.9の範囲で連続的に比較相関性能を示した。 提案手法は, クラスタAとBの2つの空間部分集合を用いてクラスタ間戦略に基づいて, さらに検証を行った。 クロスクラスタ・バリデーションは, 現場でカバーされていない領域において, SMの空間変動を地図化するためのアップスケーリング・アプローチの能力を強調し, 相関性能は0.6から0.8の範囲に及んだ。 概して,本提案手法は,SMの点計測を気候モデルグリッドやリモートセンシング観測に類似した空間スケールに外挿する方法を提供する。 今後の調査では、モデルシミュレーション、衛星検索、フィールドキャンペーンデータといった独立したデータを用いて、アップスケーリングアプローチのさらなる評価を行う必要がある。

The evaluation of modelled or satellite-derived soil moisture (SM) estimates is usually dependent on comparisons against in-situ SM measurements. However, the inherent mismatch in spatial support (i.e., scale) necessitates a cautious interpretation of point-to-pixel comparisons. The upscaling of the in-situ measurements to a commensurate resolution to that of the modelled or retrieved SM will lead to a fairer comparison and statistically more defensible evaluation. In this study, we presented an upscaling approach that combines spatiotemporal fusion with machine learning to extrapolate point-scale SM measurements from 28 in-situ sites to a 100 m resolution for an agricultural area of 100 km by 100 km. We conducted a four-fold cross-validation, which consistently demonstrated comparable correlation performance across folds, ranging from 0.6 to 0.9. The proposed approach was further validated based on a cross-cluster strategy by using two spatial subsets within the study area, denoted as cluster A and B, each of which equally comprised of 12 in-situ sites. The cross-cluster validation underscored the capability of the upscaling approach to map the spatial variability of SM within areas that were not covered by in-situ sites, with correlation performance ranging between 0.6 and 0.8. In general, our proposed upscaling approach offers an avenue to extrapolate point measurements of SM to a spatial scale more akin to climatic model grids or remotely sensed observations. Future investigations should delve into a further evaluation of the upscaling approach using independent data, such as model simulations, satellite retrievals or field campaign data.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# PromptAD:Few-Shot 異常検出のための正規サンプルのみを用いた学習プロンプト

PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection ( http://arxiv.org/abs/2404.05231v1 )

ライセンス: Link先を確認
Xiaofan Li, Zhizhong Zhang, Xin Tan, Chengwei Chen, Yanyun Qu, Yuan Xie, Lizhuang Ma, (参考訳) 視覚言語モデルは、数発の産業異常検出に大きな改善をもたらしており、通常は急速エンジニアリングを通じて数百のプロンプトを設計する必要がある。 自動シナリオでは,まず従来のプロンプト学習をベースラインとして多クラスパラダイムを用いて,プロンプトを自動的に学習するが,一クラス異常検出ではうまく動作しないことがわかった。 そこで本研究では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。 まず,正常なプロンプトと異常なサフィックスを連結することにより,通常のプロンプトを異常なプロンプトに変換できるセマンティック・コンカネーションを提案する。 さらに,異常画像の欠如によるトレーニング課題を軽減するために,異常画像と異常画像とのマージンを明示的に制御する明示的異常マージンの概念を導入する。 画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。

The vision-language model has brought great improvement to few-shot industrial anomaly detection, which usually needs to design of hundreds of prompts through prompt engineering. For automated scenarios, we first use conventional prompt learning with many-class paradigm as the baseline to automatically learn prompts but found that it can not work well in one-class anomaly detection. To address the above problem, this paper proposes a one-class prompt learning method for few-shot anomaly detection, termed PromptAD. First, we propose semantic concatenation which can transpose normal prompts into anomaly prompts by concatenating normal prompts with anomaly suffixes, thus constructing a large number of negative samples used to guide prompt learning in one-class setting. Furthermore, to mitigate the training challenge caused by the absence of anomaly images, we introduce the concept of explicit anomaly margin, which is used to explicitly control the margin between normal prompt features and anomaly prompt features through a hyper-parameter. For image-level/pixel-level anomaly detection, PromptAD achieves first place in 11/12 few-shot settings on MVTec and VisA.
翻訳日:2024-04-09 15:23:43 公開日:2024-04-08
# 数値計画のための新奇ヒューリスティックス, マルチキュー検索, ポートフォリオ

Novelty Heuristics, Multi-Queue Search, and Portfolios for Numeric Planning ( http://arxiv.org/abs/2404.05235v1 )

ライセンス: Link先を確認
Dillon Z. Chen, Sylvie Thiébaux, (参考訳) ヒューリスティック検索は計画上の問題を解決するための強力なアプローチであり、数値的な計画も例外ではない。 本稿では,ヒューリスティック・インフォリティー向上のための様々な強力な手法を用いて,ヒューリスティック・インフォリティ向上のためのヒューリスティック・サーチの性能向上を図り,マンハッタン距離ヒューリスティック,マルチキュー・サーチとポートフォリオの活用を探求する。

Heuristic search is a powerful approach for solving planning problems and numeric planning is no exception. In this paper, we boost the performance of heuristic search for numeric planning with various powerful techniques orthogonal to improving heuristic informedness: numeric novelty heuristics, the Manhattan distance heuristic, and exploring the use of multi-queue search and portfolios for combining heuristics.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 階層型ニューラル表現を用いたスパースビュー3次元シーンのスタイリング

Stylizing Sparse-View 3D Scenes with Hierarchical Neural Representation ( http://arxiv.org/abs/2404.05236v1 )

ライセンス: Link先を確認
Y. Wang, A. Gao, Y. Gong, Y. Zeng, (参考訳) 近年,前訓練されたニューラル放射場(NeRF)のシーン再構成力を利用する3Dスタイルのトランスファー手法の急増が提案されている。 このようにしてシーンのスタイリングを成功させるためには、まずシーンの収集された画像から写真リアルなラディアンスフィールドを再構築する必要がある。 しかし、スパース・インプット・ビューのみが利用可能である場合、プレトレーニングされた数発のNeRFは、しばしば高周波のアーティファクトに悩まされる。 エンコーディングに基づくシーン表現をターゲットスタイルで直接最適化することで、スパース入力からより忠実なスタイリングシーンを生成することができるか? 本稿では,コンテンツセマンティクスとスタイルテクスチャの分離の観点から,スパースビューシーンのスタイリングについて考察する。 暗黙的なシーン表現から直接高品質なスタイリングシーンを生成するために,新しい階層的エンコーディングに基づくニューラル表現を設計した粗大なスパークビューシーンスタイリングフレームワークを提案する。 また,リアルなスタイリゼーションを実現し,より優れたコンテンツ保存を実現するために,コンテンツ強度アニールを用いた新しい最適化手法を提案する。 広汎な実験により,スパース・ビュー・シーンの高品質なスタイリゼーションを実現し,スタイリゼーションの質と効率の点で微調整ベースラインに優れることを示した。

Recently, a surge of 3D style transfer methods has been proposed that leverage the scene reconstruction power of a pre-trained neural radiance field (NeRF). To successfully stylize a scene this way, one must first reconstruct a photo-realistic radiance field from collected images of the scene. However, when only sparse input views are available, pre-trained few-shot NeRFs often suffer from high-frequency artifacts, which are generated as a by-product of high-frequency details for improving reconstruction quality. Is it possible to generate more faithful stylized scenes from sparse inputs by directly optimizing encoding-based scene representation with target style? In this paper, we consider the stylization of sparse-view scenes in terms of disentangling content semantics and style textures. We propose a coarse-to-fine sparse-view scene stylization framework, where a novel hierarchical encoding-based neural representation is designed to generate high-quality stylized scenes directly from implicit scene representations. We also propose a new optimization strategy with content strength annealing to achieve realistic stylization and better content preservation. Extensive experiments demonstrate that our method can achieve high-quality stylization of sparse-view scenes and outperforms fine-tuning-based baselines in terms of stylization quality and efficiency.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 除草剤の経時的影響

Spatiotemporal effects in heralded state preparation ( http://arxiv.org/abs/2404.05237v1 )

ライセンス: Link先を確認
Filippus S. Roux, (参考訳) しばしば量子光学状態の生成に使用されるヘラルディングは、プロセスの時空間特性の影響を決定するために研究されている。 すべての時空間自由度を組み入れ、これらの状態が負の領域を持つウィグナー汎函数を持つように準備されている場合を考えるために、量子情報技術に適した資源であるウィグナー汎函数アプローチに従う。 一般表現は単光子置換状態と単光子付加状態に導かれる。 例として,光子置換真空状態,光子付加コヒーレント状態,および光子付加熱状態を考える。 ウィグナー関数的アプローチは、実験条件によって課される時空間変換の重要性を明らかにする。

Heralding, which is often used for preparing quantum optical states, is studied to determine the effects of the spatiotemporal properties of the process. Incorporating all the spatiotemporal degrees of freedom, we follow a Wigner functional approach to consider cases where these states are prepared to have Wigner functionals with negative regions, being suitable resources for quantum information technologies. General expressions are derived for single-photon-subtracted and single-photon-added states. As examples, we consider the photon-subtracted squeezed vacuum state, the photon-added coherent state, and the photon-added thermal state. The Wigner functional approach reveals the importance of the spatiotemporal transformations imposed by the experimental conditions.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 人間とAIチームの分類精度が常に向上しない機械を対話的に案内することを可能にする

Allowing humans to interactively guide machines where to look does not always improve a human-AI team's classification accuracy ( http://arxiv.org/abs/2404.05238v1 )

ライセンス: Link先を確認
Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen, (参考訳) Explainable AI (XAI) における何千もの論文、注目マップ \cite{vaswani2017attention} と特徴属性マップ \cite{bansal2020sam} が、AIの決定に重要な入力機能を説明する共通の手段として確立されている。 ユーザがテスト時に入力機能の重要点を編集できるようにすることで、ダウンストリームタスクにおける人間-AIチームの精度が向上するかどうか、興味深いが、未調査の疑問である。 本稿では、入力とトレーニングセット画像のパッチワイド対応を最初に予測し、それらを分類決定に使用する、最先端のアンテホックな説明手法であるCHM-Corrを用いてこの問題に対処する。 我々はCHM-Corr上にインタラクティブなインタフェースを構築し、CHM-Corrが提供する初期特徴属性マップを直接編集することができる。 CHM-Corr++インターフェースを使用すると、ユーザは、モデルが出力を変更するかどうか、いつ、どのように変更するかについての洞察を得て、静的な説明以上の理解を深めます。 1,400ドルの意思決定を行った18人の機械学習研究者によるユーザスタディでは、静的な説明よりもCUB-200の鳥の画像分類において、対話的なアプローチはユーザの精度を向上しないことが示された。 このことは、相互作用がXAIの有効性を本質的に向上させる...\cite{sokol 2020one,sun2022 Explorloring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022rethinking,cheng2019 explaining,liu2021understanding" という信念に挑戦し、将来の研究の必要性を高めている。 我々の研究は、モデル注意を操作するインタラクティブツールをオープンソース化することでこの分野に寄与し、コンピュータビジョンにおける人間とAIの効果的な相互作用を実現するための将来の研究の基盤となる。 We release code and data on \href{https://anonymous.4open.science/r/CHMCorrPlusPlus/}{github}. インターフェースは \href{http://137.184.82.109:7080/}{here} で利用可能です。

Via thousands of papers in Explainable AI (XAI), attention maps \cite{vaswani2017attention} and feature attribution maps \cite{bansal2020sam} have been established as a common means for explaining the input features that are important to AI's decisions. It is an interesting but unexplored question whether allowing users to edit the importance scores of input features at test time would improve the human-AI team's accuracy on downstream tasks. In this paper, we address this question by taking CHM-Corr, a state-of-the-art, ante-hoc explanation method \cite{taesiri2022visual} that first predicts patch-wise correspondences between the input and the training-set images, and then uses them to make classification decisions. We build an interactive interface on top of CHM-Corr, enabling users to directly edit the initial feature attribution map provided by CHM-Corr. Via our CHM-Corr++ interface, users gain insights into if, when, and how the model changes its outputs, enhancing understanding beyond static explanations. Our user study with 18 machine learning researchers who performed $\sim$1,400 decisions shows that our interactive approach does not improve user accuracy on CUB-200 bird image classification over static explanations. This challenges the belief that interactivity inherently boosts XAI effectiveness~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022ret hinking,cheng2019explaining,liu2021understanding} and raises needs for future research. Our work contributes to the field by open-sourcing an interactive tool for manipulating model attention, and it lays the groundwork for future research to enable effective human-AI interaction in computer vision. We release code and data on \href{https://anonymous.4open.science/r/CHMCorrPlusPlus/}{github}. Our interface are available \href{http://137.184.82.109:7080/}{here}.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 前向きトレーニングアルゴリズムのための軽量推論

Lightweight Inference for Forward-Forward Training Algorithm ( http://arxiv.org/abs/2404.05241v1 )

ライセンス: Link先を確認
Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。 一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。 これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。 これにより、Forward-Forwardアルゴリズムを含む、新しい世代のフォワード専用技術が生まれた。 本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。 我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。

The human brain performs tasks with an outstanding energy-efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# アスペクトカテゴリー検出のための教師付き直動機械学習

Supervised Gradual Machine Learning for Aspect Category Detection ( http://arxiv.org/abs/2404.05245v1 )

ライセンス: Link先を確認
Murtadha Ahmed, Qun Chen, (参考訳) アスペクトカテゴリー検出(ACD)は、あるレビュー文の中で暗黙的かつ明示的な側面を識別することを目的としている。 ACDの最先端のアプローチでは、ディープニューラルネットワーク(DNN)を使用して、この問題をマルチラベル分類タスクとして解決している。 しかし、カテゴリ固有の表現の学習は、実世界のシナリオでは容易には利用できないラベル付きサンプルの量に大きく依存している。 本稿では,DNNとGradual Machine Learning(GML)を教師付き環境で組み合わせて,ACDタスクに取り組むための新しい手法を提案する。 GMLの段階的推論においてラベル付きインスタンスとラベルなしインスタンス間の効果的な知識伝達を容易にする意味関係モデリングにおけるDNNの強みを活用することを目的としている。 これを実現するために、我々はまずDNNの学習された潜在空間を分析し、インスタンス間の関係、すなわち類似または反対の関係をモデル化する。 次に、これらの関係を、知識を効率的に伝達する因子グラフのバイナリ機能として表現する。 最後に、提案したソリューションを実際のベンチマークデータセットで比較検討し、GMLアプローチがDNNと協調して特徴抽出を行い、純粋なDNNソリューションを一貫して上回ることを示す。

Aspect Category Detection (ACD) aims to identify implicit and explicit aspects in a given review sentence. The state-of-the-art approaches for ACD use Deep Neural Networks (DNNs) to address the problem as a multi-label classification task. However, learning category-specific representations heavily rely on the amount of labeled examples, which may not readily available in real-world scenarios. In this paper, we propose a novel approach to tackle the ACD task by combining DNNs with Gradual Machine Learning (GML) in a supervised setting. we aim to leverage the strength of DNN in semantic relation modeling, which can facilitate effective knowledge transfer between labeled and unlabeled instances during the gradual inference of GML. To achieve this, we first analyze the learned latent space of the DNN to model the relations, i.e., similar or opposite, between instances. We then represent these relations as binary features in a factor graph to efficiently convey knowledge. Finally, we conduct a comparative study of our proposed solution on real benchmark datasets and demonstrate that the GML approach, in collaboration with DNNs for feature extraction, consistently outperforms pure DNN solutions.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# ノイズ抑制状態を持つ連続可変量子鍵分布

Continuous-variable quantum key distribution with noisy squeezed states ( http://arxiv.org/abs/2404.05247v1 )

ライセンス: Link先を確認
Akash nag Oruganti, Ivan Derkach, Vladyslav C. Usenko, (参考訳) 連続可変(CV)量子鍵分布(QKD)プロトコルのセキュリティと性能におけるノイズキャンザリングの役割について考察する。 Squeezingは、チャネルノイズや損失に対する堅牢性の向上、シークレットキーレートの改善など、CV QKDにおける数多くのアドバンテージとして長年認識されてきた。 しかし、強制された状態のノイズは、必然的にソースの光学的損失から生じるものであり、盗聴器による潜在的搾取に関する懸念を生じさせる。 このノイズが悲観的に信頼できないと仮定される場合、これは特に関係がある。 圧縮された状態における信頼できないノイズの割り当てに対処し、盗聴者により多くの情報を提供する可能性があるため、通常、解答防止ノイズはプロトコルのセキュリティにとって有害であることを示す。 反スキーズノイズは生成したキーデータに直接寄与しないかもしれないが、パラメータ推定に関与しており、信頼されたとしても有害である可能性がある。 本研究は,無症候性および有限サイズレジームにおける消音効果について検討した。 提案手法は, 信頼を仮定することによる雑音に対する肯定的な影響と限界を強調した。 さらに,ファイバおよび自由空間のフェージングリンクにおける信頼できないノイズの有害な影響を強調した。 本研究は,実シナリオにおける圧縮状態CVQKDプロトコルの実装と最適化に不可欠な知見を提供する。

We address the role of noisy squeezing in security and performance of continuous-variable (CV) quantum key distribution (QKD) protocols. Squeezing has long been recognized for its numerous advantages in CV QKD, such as enhanced robustness against channel noise and loss, and improved secret key rates. However, the noise of the squeezed states, that unavoidably originates already from optical loss in the source, raises concerns about its potential exploitation by an eavesdropper. This is particularly relevant if this noise is pessimistically assumed untrusted. We address the allocation of untrusted noise within a squeezed state and show that anti-squeezing noise is typically more harmful for security of the protocols, as it potentially provides more information to an eavesdropper. Although the anti-squeezing noise may not directly contribute to the generated key data, it is involved in parameter estimation and can in fact be harmful even if considered trusted. Our study covers the effects of anti-squeezing noise in both the asymptotic and finite-size regimes. We highlight the positive effects and limitations of imposing trust assumption on anti-squeezing noise. Additionally, we emphasize the detrimental impact of untrusted noise in both fiber and free-space fading links. Our findings offer essential insights for practical implementations and optimization of squeezed-state CV QKD protocols in realistic scenarios.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# SAFE-GIL:SAFEty Guided Imitation Learning

SAFE-GIL: SAFEty Guided Imitation Learning ( http://arxiv.org/abs/2404.05249v1 )

ライセンス: Link先を確認
Yusuf Umut Ciftci, Zeyuan Feng, Somil Bansal, (参考訳) 行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。 しかし、行動のクローン化は、専門家のデモから逸脱し、破滅的なシステム障害を招き、安全クリティカルなアプリケーションでの使用を制限することで、ポリシーのエラーが複雑になる、という「複雑なエラー」問題に悩まされる。 オンラインデータアグリゲーション手法は、模倣ポリシーのロールアウトと繰り返しのトレーニングを犠牲にしてこの問題に対処することができる。 本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。 このアルゴリズムは、システムのダイナミックスにおいて、模倣エラーを敵対的障害として抽象化し、データ収集中にそれを注入し、専門家を安全クリティカルな状態に暴露し、修正アクションを収集する。 我々の手法は、安全クリティカルな状態において専門家の行動をより密に再現し、より重要でない状態においてより分散させることができるように訓練をバイアスする。 提案手法を,自律走行および自律タクシー作業におけるDAggerといくつかの行動クローニング手法を比較し,特にエラーの可能性が低い低データシステムにおいて,性能がわずかに低下した場合に,高いタスク成功と安全性を示す。

Behavior Cloning is a popular approach to Imitation Learning, in which a robot observes an expert supervisor and learns a control policy. However, behavior cloning suffers from the "compounding error" problem - the policy errors compound as it deviates from the expert demonstrations and might lead to catastrophic system failures, limiting its use in safety-critical applications. On-policy data aggregation methods are able to address this issue at the cost of rolling out and repeated training of the imitation policy, which can be tedious and computationally prohibitive. We propose SAFE-GIL, an off-policy behavior cloning method that guides the expert via adversarial disturbance during data collection. The algorithm abstracts the imitation error as an adversarial disturbance in the system dynamics, injects it during data collection to expose the expert to safety critical states, and collects corrective actions. Our method biases training to more closely replicate expert behavior in safety-critical states and allows more variance in less critical states. We compare our method with several behavior cloning techniques and DAgger on autonomous navigation and autonomous taxiing tasks and show higher task success and safety, especially in low data regimes where the likelihood of error is higher, at a slight drop in the performance.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 教育物語からテーマを解釈する

Interpreting Themes from Educational Stories ( http://arxiv.org/abs/2404.05250v1 )

ライセンス: Link先を確認
Yigeng Zhang, Fabio A. González, Thamar Solorio, (参考訳) 読解はNLPコミュニティにおける重要な研究の焦点であり続けている。 機械読解理解(MRC)の最近の進歩は、主にリテラル理解に焦点を当てており、内容の表面レベルでの理解に言及している。 本研究は、物語文の主題を推論することに焦点を当て、解釈的理解という次のレベルに焦点を当てる。 本稿では,教育物語の解釈的理解に特化して設計された最初のデータセットについて紹介する。 データセットはさまざまなジャンルや文化の原点にまたがっていて、人間の注釈付きテーマキーワードに様々なレベルの粒度がある。 さらに、物語の主観に対する解釈的理解の異なる抽象化の下で、NLPタスクを定式化する。 最先端の手法による広範な実験を行った結果,NLP研究において課題であり,重要な課題であることがわかった。 データセットとソースコードは、https://github.com/RiTUAL-UH/EduStory.comで公開されている。

Reading comprehension continues to be a crucial research focus in the NLP community. Recent advances in Machine Reading Comprehension (MRC) have mostly centered on literal comprehension, referring to the surface-level understanding of content. In this work, we focus on the next level - interpretive comprehension, with a particular emphasis on inferring the themes of a narrative text. We introduce the first dataset specifically designed for interpretive comprehension of educational narratives, providing corresponding well-edited theme texts. The dataset spans a variety of genres and cultural origins and includes human-annotated theme keywords with varying levels of granularity. We further formulate NLP tasks under different abstractions of interpretive comprehension toward the main idea of a story. After conducting extensive experiments with state-of-the-art methods, we found the task to be both challenging and significant for NLP research. The dataset and source code have been made publicly available to the research community at https://github.com/RiTUAL-UH/EduStory.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# CodeEnhance: 低照度画像強調のためのコードブック駆動アプローチ

CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement ( http://arxiv.org/abs/2404.05253v1 )

ライセンス: Link先を確認
Xu Wu, XianXu Hou, Zhihui Lai, Jie Zhou, Ya-nan Zhang, Witold Pedrycz, Linlin Shen, (参考訳) 低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。 しかし, 従来の手法では, 1) 多様な明るさ劣化からの回復の不確実性, (2) 騒音抑制や光の増強によるテクスチャや色情報の喪失, という2つの課題に直面している。 本稿では、これらの課題に対処するために、量子化された事前情報と画像の精細化を活用して、新しいエンハンスメント手法、CodeEnhanceを提案する。 特に、LLIEを低照度画像から高画質画像から学習した離散コードブックへのイメージ・ツー・コードマッピングとして再設計する。 このプロセスを強化するために、セマンティック・エンベディング・モジュール(SEM)を導入し、セマンティック・インベディング・モジュールを低レベルな特徴と統合し、コードブック・シフト(CS)メカニズムを導入しました。 さらに、画像再構成時にテクスチャや色情報を洗練するためのInteractive Feature Transformation (IFT) モジュールを提案する。 実世界および合成ベンチマークの広範な実験により、事前知識の取り込みと制御可能な情報伝達により、LLIEの性能は品質と忠実度において著しく向上することが示された。 提案したCodeEnhanceは、不均一照明、ノイズ、色歪みなど、様々な劣化に対して優れた堅牢性を示す。

Low-light image enhancement (LLIE) aims to improve low-illumination images. However, existing methods face two challenges: (1) uncertainty in restoration from diverse brightness degradations; (2) loss of texture and color information caused by noise suppression and light enhancement. In this paper, we propose a novel enhancement approach, CodeEnhance, by leveraging quantized priors and image refinement to address these challenges. In particular, we reframe LLIE as learning an image-to-code mapping from low-light images to discrete codebook, which has been learned from high-quality images. To enhance this process, a Semantic Embedding Module (SEM) is introduced to integrate semantic information with low-level features, and a Codebook Shift (CS) mechanism, designed to adapt the pre-learned codebook to better suit the distinct characteristics of our low-light dataset. Additionally, we present an Interactive Feature Transformation (IFT) module to refine texture and color information during image reconstruction, allowing for interactive enhancement based on user preferences. Extensive experiments on both real-world and synthetic benchmarks demonstrate that the incorporation of prior knowledge and controllable information transfer significantly enhances LLIE performance in terms of quality and fidelity. The proposed CodeEnhance exhibits superior robustness to various degradations, including uneven illumination, noise, and color distortion.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# オートエンコーダと統合したHSIとLiDARアテンションを用いた教師なし帯域選択

Unsupervised Band Selection Using Fused HSI and LiDAR Attention Integrating With Autoencoder ( http://arxiv.org/abs/2404.05258v1 )

ライセンス: Link先を確認
Judy X Yang, Jun Zhou, Jing Wang, Hui Tian, Alan Wee Chung Liew, (参考訳) ハイパースペクトルイメージング(HSI)における帯域選択は,データ処理の最適化と解析精度の向上に重要である。 従来のアプローチは、個々のバンド内のスペクトル特性と画素特性を独立して分析することに集中してきた。 これらのアプローチは、Light Detection and Ranging (LiDAR)のような複数のデータソースを統合するという潜在的な利点を見落としている。 これらの課題に対処するために,アテンション機構を組み込んだ新しいアン教師なしバンド選択フレームワークと,再構成に基づくバンド選択のためのオートエンコーダを提案する。 提案手法では,コンボリューショナルオートエンコーダを用いて特徴マスクの処理を行い,注目スコアを用いてHSIとLiDARデータを統合する。 この融合は、必要不可欠な空間的特徴とスペクトル的特徴を効果的に捉え、ハイパースペクトルデータセットの冗長性を減少させる。 既存の非教師付きバンド選択と融合モデルに対して,我々の革新的な融合バンド選択手法の包括的比較分析を行う。 実験ではHouston 2013、Trento、MUUFLEといったデータセットを使用しました。 その結果,本手法はより優れた分類精度を実現し,既存モデルよりも大幅に優れていることがわかった。 このHSIバンド選択の強化は、LiDARの機能を取り入れることによって促進され、異なるソースからの機能を統合するという大きな利点を浮き彫りにしている。

Band selection in hyperspectral imaging (HSI) is critical for optimising data processing and enhancing analytical accuracy. Traditional approaches have predominantly concentrated on analysing spectral and pixel characteristics within individual bands independently. These approaches overlook the potential benefits of integrating multiple data sources, such as Light Detection and Ranging (LiDAR), and is further challenged by the limited availability of labeled data in HSI processing, which represents a significant obstacle. To address these challenges, this paper introduces a novel unsupervised band selection framework that incorporates attention mechanisms and an Autoencoder for reconstruction-based band selection. Our methodology distinctively integrates HSI with LiDAR data through an attention score, using a convolutional Autoencoder to process the combined feature mask. This fusion effectively captures essential spatial and spectral features and reduces redundancy in hyperspectral datasets. A comprehensive comparative analysis of our innovative fused band selection approach is performed against existing unsupervised band selection and fusion models. We used data sets such as Houston 2013, Trento, and MUUFLE for our experiments. The results demonstrate that our method achieves superior classification accuracy and significantly outperforms existing models. This enhancement in HSI band selection, facilitated by the incorporation of LiDAR features, underscores the considerable advantages of integrating features from different sources.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# セルオートマトン、多値論理およびディープニューラルネットワーク

Cellular automata, many-valued logic, and deep neural networks ( http://arxiv.org/abs/2404.05259v1 )

ライセンス: Link先を確認
Yani Zhang, Helmut Bölcskei, (参考訳) 我々は、進化トレースから、細胞オートマトン(CA)の挙動を規定する論理的ルールを学ぶためのディープニューラルネットワークの基本能力を特徴付ける理論を開発する。 これはまず、CAとLukasiewicz命題論理の間の新しい接続を確立することで達成される。 二項CAはブール論理において本質的に作用することが数十年前から知られているが、一般CAにはそのような関係は存在しない。 本稿では,多値論理,特にLukasiewicz命題論理が一般CAを論理機械として特徴付けるのに適した言語であることを示す。 これは、CA遷移関数を連続部分線型関数に補間することで行われ、マクノートンの定理により、CAを特徴づけるMV論理の式が得られる。 深部修正線形ユニット(ReLU)ネットワークが連続的な断片的線形関数を実現することを認識すると、これらの公式は深部ReLUネットワークによってCA進化トレースから自然に抽出される。 対応するアルゴリズムとソフトウェア実装とが提供される。 最後に、繰り返しニューラルネットワークによりCAの動的挙動を実現できることを示す。

We develop a theory characterizing the fundamental capability of deep neural networks to learn, from evolution traces, the logical rules governing the behavior of cellular automata (CA). This is accomplished by first establishing a novel connection between CA and Lukasiewicz propositional logic. While binary CA have been known for decades to essentially perform operations in Boolean logic, no such relationship exists for general CA. We demonstrate that many-valued (MV) logic, specifically Lukasiewicz propositional logic, constitutes a suitable language for characterizing general CA as logical machines. This is done by interpolating CA transition functions to continuous piecewise linear functions, which, by virtue of the McNaughton theorem, yield formulae in MV logic characterizing the CA. Recognizing that deep rectified linear unit (ReLU) networks realize continuous piecewise linear functions, it follows that these formulae are naturally extracted from CA evolution traces by deep ReLU networks. A corresponding algorithm together with a software implementation is provided. Finally, we show that the dynamical behavior of CA can be realized by recurrent neural networks.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# Unbridled Icarus:Multimodal Large Language Model Securityにおける画像入力の可能性に関する調査

Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security ( http://arxiv.org/abs/2404.05264v1 )

ライセンス: Link先を確認
Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li, (参考訳) MLLM(Multimodal Large Language Models)は,AGI(Artificial General Intelligence)の新たな境界を常に定義し,日常生活のさまざまな側面に影響を与える顕著な能力を示す。 画像モダリティは、深い意味情報と、他のモダリティと比較してより連続的な数学的性質に富み、統合されたMLLMの機能を大幅に強化する。 しかし、この統合は二重刃の剣として機能し、攻撃者に非常に隠蔽的で有害な攻撃を悪用するための広範な脆弱性を提供する。 強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。 本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。 まず,MLLMの基礎的構成要素とトレーニングプロセスについて述べる。 その後,MLLMに固有のセキュリティ脆弱性を概説し,脅威モデルを構築した。 さらに,MLLMの攻撃・防御機構に関する既存の学術談話を分析し,分析し,今後のMLLMのセキュリティ研究への提言をまとめる。 この包括的分析を通じて,MLLMのセキュリティ問題に対する学術的理解を深め,信頼性の高いMLLMシステムの開発を促進することを目的としている。

Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities that increasingly influence various aspects of our daily lives, constantly defining the new boundary of Artificial General Intelligence (AGI). Image modalities, enriched with profound semantic information and a more continuous mathematical nature compared to other modalities, greatly enhance the functionalities of MLLMs when integrated. However, this integration serves as a double-edged sword, providing attackers with expansive vulnerabilities to exploit for highly covert and harmful attacks. The pursuit of reliable AI systems like powerful MLLMs has emerged as a pivotal area of contemporary research. In this paper, we endeavor to demostrate the multifaceted risks associated with the incorporation of image modalities into MLLMs. Initially, we delineate the foundational components and training processes of MLLMs. Subsequently, we construct a threat model, outlining the security vulnerabilities intrinsic to MLLMs. Moreover, we analyze and summarize existing scholarly discourses on MLLMs' attack and defense mechanisms, culminating in suggestions for the future research on MLLM security. Through this comprehensive analysis, we aim to deepen the academic understanding of MLLM security challenges and propel forward the development of trustworthy MLLM systems.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# MC$^2$:カスタマイズマルチコンセプト生成のためのマルチコンセプトガイダンス

MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation ( http://arxiv.org/abs/2404.05268v1 )

ライセンス: Link先を確認
Jiaxiu Jiang, Yabo Zhang, Kailai Feng, Xiaohe Wu, Wangmeng Zuo, (参考訳) カスタマイズされたテキスト・ツー・イメージ生成は、ユーザ特定概念のインスタンス化を合成することを目的としており、個別概念の扱いにおいて前例のない進歩を遂げている。 しかし、複数のカスタマイズされた概念に拡張する場合、既存の手法は柔軟性と忠実さの限界を示し、限られた種類のモデルの組み合わせを調節するだけであり、異なる概念の特徴が混在する可能性がある。 本稿では,MC$^2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入する。 MC$^2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離し、様々な異種単一概念のカスタマイズモデルの統合を可能にする。 視覚的およびテキスト的トークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中させ、無関係なトークンの影響を減少させる。 MC$^2$は、入力プロンプトや参照画像との整合性において追加の訓練を必要とする従来の手法を超越することを示した。 さらに、MC$^2$はテキスト・画像生成の合成能力を高めるために拡張され、魅力的な結果が得られる。 コードはhttps://github.com/JIANGJiaXiu/MC-2.comで公開される。

Customized text-to-image generation aims to synthesize instantiations of user-specified concepts and has achieved unprecedented progress in handling individual concept. However, when extending to multiple customized concepts, existing methods exhibit limitations in terms of flexibility and fidelity, only accommodating the combination of limited types of models and potentially resulting in a mix of characteristics from different concepts. In this paper, we introduce the Multi-concept guidance for Multi-concept customization, termed MC$^2$, for improved flexibility and fidelity. MC$^2$ decouples the requirements for model architecture via inference time optimization, allowing the integration of various heterogeneous single-concept customized models. It adaptively refines the attention weights between visual and textual tokens, directing image regions to focus on their associated words while diminishing the impact of irrelevant ones. Extensive experiments demonstrate that MC$^2$ even surpasses previous methods that require additional training in terms of consistency with input prompt and reference images. Moreover, MC$^2$ can be extended to elevate the compositional capabilities of text-to-image generation, yielding appealing results. Code will be publicly available at https://github.com/JIANGJiaXiu/MC-2.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 機会コスト探索に基づくデータトランザクションチェーンの構築

Constructing Data Transaction Chains Based on Opportunity Cost Exploration ( http://arxiv.org/abs/2404.05272v1 )

ライセンス: Link先を確認
Jie Liu, Tao Feng, Yan Jiang, Peizheng Wang, Chao Wu, (参考訳) データトレーディングはますます注目を集めている。 しかし、データ固有の複製性とプライバシの懸念により、従来のトレーディング理論を直接データ市場に適用することは困難である。 本稿では,データ取引市場と従来の取引市場を比較し,データの複製性とプライバシがデータ市場に与える影響に注目した。 データ市場のコンテキストにおける従来のマイクロ経済の機会コストの概念を、データの複製性によって根本的に変える方法について論じる。 さらに、データのプライバシを損なうことなく、この変更を活用してメリットを最大化する方法について検討する。 本稿では、プライバシドメインチェーン内のデータ循環の制約を概説し、これらの制約の下でデータの価値を最大化するモデルを提案する。 特定のアプリケーションシナリオが提供され、実験がこのモデルの可解性を示す。

Data trading is increasingly gaining attention. However, the inherent replicability and privacy concerns of data make it challenging to directly apply traditional trading theories to data markets. This paper compares data trading markets with traditional ones, focusing particularly on how the replicability and privacy of data impact data markets. We discuss how data's replicability fundamentally alters the concept of opportunity cost in traditional microeconomics within the context of data markets. Additionally, we explore how to leverage this change to maximize benefits without compromising data privacy. This paper outlines the constraints for data circulation within the privacy domain chain and presents a model that maximizes data's value under these constraints. Specific application scenarios are provided, and experiments demonstrate the solvability of this model.
翻訳日:2024-04-09 15:13:56 公開日:2024-04-08
# 高対称グラフによる高対称性クディットシェルド付き絡み目の作成

Creating highly symmetric qudit heralded entanglement through highly symmetric graphs ( http://arxiv.org/abs/2404.05273v1 )

ライセンス: Link先を確認
Seungbeom Chin, (参考訳) 近年の注目は、より大きなヒルベルト空間における量子情報の探索に、情報容量の増大とロバストな量子通信の可能性を提供するクォーディットを利用することに向けられている。 高次元ヒルベルト空間における量子相関を研究する上では,マルチパーティタイト・クウディアングルメントの効率的な生成が不可欠であるが,この増大次元は回路設計を混乱させる。 本研究では,線形量子ネットワーク (LQG 図) のグラフ図が,高対称性のqudit multipartite Heralded entanglement を簡易に生成できることを示す。 LQG図は、状態対称性を直接回路構造に付与することにより、回路複雑性の低減を可能にする。 この知見を生かして、$N$-partite $N$-level anti-symmetric (singlet) および symmetric (Dicke) 状態を生成するための厳密なスキームを提案する。 本研究では,高次元エンタングルメントの最適回路設計と系統的グラフィカル戦略について検討した。

Recent attention has turned to exploring quantum information within larger Hilbert spaces by utilizing qudits, which offer increased information capacity and potential for robust quantum communications. While the efficient generation of multipartite qudit entanglement is crucial for studying quantum correlations in high-dimensional Hilbert spaces, the increased dimension makes the circuit design challanging, especially when the entanglement is generated by heralding detections. In this work, we demonstrate that the graph picture of linear quantum networks (LQG picture) can provide a simplified method to generate qudit multipartite heralded entanglement of high symmetries. The LQG picture enables the reduction of circuit complexity by directly imposing the state symmetry onto the circuit structure. Leveraging this insight, we propose heralded schemes for generating $N$-partite $N$-level anti-symmetric (singlet) and symmetric (Dicke) states. Our study shed light on the optimal circuit design of high-dimensional entanglement with a systematic graphical strategy.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# ビデオスナップショット圧縮イメージングのためのディープ光学

Deep Optics for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2404.05274v1 )

ライセンス: Link先を確認
Ping Wang, Lishun Wang, Xin Yuan, (参考訳) ビデオスナップショット圧縮イメージング(SCI)は、2D検出器の単一のショットのみでビデオフレームのシーケンスをキャプチャすることを目的としており、背骨は光変調パターン(マスクとも呼ばれる)と計算再構成アルゴリズムに収まる。 高度なディープラーニングアルゴリズムと成熟したハードウェアは、ビデオSCIを実用的なアプリケーションに組み込んでいる。 しかし、SCIの日光の下では2つの雲があります。 一 高時間多重化の犠牲者としての低ダイナミックレンジ、及び 二 実システムにおける既存のディープラーニングアルゴリズムの劣化 これらの課題に対処するために,マスクと再構成ネットワークを協調的に最適化するディープ光学フレームワークを提案する。 具体的には、まず、動き認識とフルダイナミックレンジ計測を実現するための新しいタイプの構造マスクを提案する。 計測領域における動作認識特性を考慮し,Res2formerと呼ばれる長時間の時間依存性をキャプチャするためにTransformerを用いたビデオSCI再構成のための効率的なネットワークを開発した。 さらに、実システムに近いエンドツーエンドモデルのトレーニングを保証するため、ビデオSCIの前方モデルにセンサ応答を導入している。 最後に、学習した構造マスクをデジタルマイクロミラーデバイスに実装する。 合成および実データによる実験結果により,提案手法の有効性が検証された。 これは、現実世界のビデオSCIのマイルストーンだ、と私たちは信じている。 ソースコードとデータはhttps://github.com/pwangcs/DeepOpticsSCIで公開されている。

Video snapshot compressive imaging (SCI) aims to capture a sequence of video frames with only a single shot of a 2D detector, whose backbones rest in optical modulation patterns (also known as masks) and a computational reconstruction algorithm. Advanced deep learning algorithms and mature hardware are putting video SCI into practical applications. Yet, there are two clouds in the sunshine of SCI: i) low dynamic range as a victim of high temporal multiplexing, and ii) existing deep learning algorithms' degradation on real system. To address these challenges, this paper presents a deep optics framework to jointly optimize masks and a reconstruction network. Specifically, we first propose a new type of structural mask to realize motion-aware and full-dynamic-range measurement. Considering the motion awareness property in measurement domain, we develop an efficient network for video SCI reconstruction using Transformer to capture long-term temporal dependencies, dubbed Res2former. Moreover, sensor response is introduced into the forward model of video SCI to guarantee end-to-end model training close to real system. Finally, we implement the learned structural masks on a digital micro-mirror device. Experimental results on synthetic and real data validate the effectiveness of the proposed framework. We believe this is a milestone for real-world video SCI. The source code and data are available at https://github.com/pwangcs/DeepOpticsSCI.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# MOSE:シーンクイズを用いた視覚に基づく道路側3次元物体検出

MOSE: Boosting Vision-based Roadside 3D Object Detection with Scene Cues ( http://arxiv.org/abs/2404.05280v1 )

ライセンス: Link先を確認
Xiahan Chen, Mingjian Chen, Sanli Tang, Yi Niu, Jiang Zhu, (参考訳) 道路沿いのカメラに基づく3D物体検出は、車載カメラからの隠蔽と短い知覚範囲の課題を軽減するための、自動運転のための追加の手段である。 従来の道路側3次元物体検出法は主に物体の深さや高さをモデル化し、カメラの静止やフレーム間の一貫性の特性を無視することに焦点を当てていた。 本研究では,Scene cuEsを用いたMOnocular 3Dオブジェクト検出のための新しいフレームワークMOSEを提案する。 シーンキューはフレーム不変のシーン特有の特徴であり、オブジェクトのローカライゼーションに不可欠であり、実際の道路の表面と仮想地上面の間の高さと直感的にみなすことができる。 提案手法では,シーンキューバンクが同一シーンの複数のフレームからシーンキューを集約するように設計されている。 そして、変換器ベースのデコーダが集約されたシーンキューと3Dオブジェクト位置のための3D位置埋め込みを持ち上げ、異種シーンにおける一般化能力を向上する。 2つの公開ベンチマークによる大規模な実験結果から,提案手法の最先端性能が既存手法をはるかに上回ることを示す。

3D object detection based on roadside cameras is an additional way for autonomous driving to alleviate the challenges of occlusion and short perception range from vehicle cameras. Previous methods for roadside 3D object detection mainly focus on modeling the depth or height of objects, neglecting the stationary of cameras and the characteristic of inter-frame consistency. In this work, we propose a novel framework, namely MOSE, for MOnocular 3D object detection with Scene cuEs. The scene cues are the frame-invariant scene-specific features, which are crucial for object localization and can be intuitively regarded as the height between the surface of the real road and the virtual ground plane. In the proposed framework, a scene cue bank is designed to aggregate scene cues from multiple frames of the same scene with a carefully designed extrinsic augmentation strategy. Then, a transformer-based decoder lifts the aggregated scene cues as well as the 3D position embeddings for 3D object location, which boosts generalization ability in heterologous scenes. The extensive experiment results on two public benchmarks demonstrate the state-of-the-art performance of the proposed method, which surpasses the existing methods by a large margin.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# 財務年度報告における特徴抽出のためのマルチタスク学習

Multi-Task Learning for Features Extraction in Financial Annual Reports ( http://arxiv.org/abs/2404.05281v1 )

ライセンス: Link先を確認
Syrielle Montariol, Matej Martinc, Andraž Pelicon, Senja Pollak, Boshko Koloski, Igor Lončarski, Aljoša Valentinčič, (参考訳) 企業のさまざまなパフォーマンス指標を評価する上で、焦点は厳格に財務的な(質的な)公開情報から質的な(テキスト的な)情報へとシフトしている。 このテキストデータは、例えば、財務パフォーマンスや環境、社会、ガバナンス(ESG)の基準に関する定量的データを補完するスタイリスティックな特徴を通じて、貴重な弱信号を提供することができる。 本研究では、財務感情、客観性、前向き文予測、ESGコンテンツ検出に焦点をあてて、財務テキスト分類に様々なマルチタスク学習手法を用いる。 提案手法は,複数タスクの学習において,最終目標タスクの特徴として,補助的タスク予測を明示的に付加することによる肯定的な効果を強調した。 次に、これらの分類器を用いて、FTSE350企業の年次報告からテキストの特徴を抽出し、ESG定量スコアとそれらの特徴との関係について検討する。

For assessing various performance indicators of companies, the focus is shifting from strictly financial (quantitative) publicly disclosed information to qualitative (textual) information. This textual data can provide valuable weak signals, for example through stylistic features, which can complement the quantitative data on financial performance or on Environmental, Social and Governance (ESG) criteria. In this work, we use various multi-task learning methods for financial text classification with the focus on financial sentiment, objectivity, forward-looking sentence prediction and ESG-content detection. We propose different methods to combine the information extracted from training jointly on different tasks; our best-performing method highlights the positive effect of explicitly adding auxiliary task predictions as features for the final target task during the multi-task training. Next, we use these classifiers to extract textual features from annual reports of FTSE350 companies and investigate the link between ESG quantitative scores and these features.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# イベントからすべてのオブジェクトを検出する

Detecting Every Object from Events ( http://arxiv.org/abs/2404.05285v1 )

ライセンス: Link先を確認
Haitian Zhang, Chang Xu, Xinya Wang, Bingde Liu, Guang Hua, Lei Yu, Wen Yang, (参考訳) 物体検出は、自律運転において重要であり、未知のカテゴリの物体をローカライズすることがより現実的かつ難しい:クラス非依存物体検出(CAOD)として知られる試みである。 CAODに関する既存の研究は主に通常のカメラに依存しているが、これらのフレームベースのセンサーは通常、レイテンシが高く、ダイナミックレンジが限られており、現実のシナリオでは安全性のリスクが生じる。 本研究では,そのサブミリ秒レイテンシと高ダイナミックレンジを特徴とする,いわゆるイベントカメラによって実現された新しいモダリティを,ロバストなCAODに適用する。 本稿では,イベントベースの視覚において,クラスに依存しない高速なオープンワールドオブジェクト検出を実現するためのアプローチとして,イベント中のすべてのオブジェクトの検出(DEOE)を提案する。 高速なイベントベースバックボーン(リカレント・ビジョン・トランスフォーマー)を基盤として,空間的および時間的コンバージェンスを共同で検討し,潜在的な物体を同定する。 検出されたポテンシャルオブジェクトは、背景として抑制されるのを避けるために、ソフトな正のサンプルとして同化される。 さらに,前景背景分類と新しい対象発見タスクを分離し,背景をフィルタリングする強力な能力を保ちながら,新しい対象の局所化におけるモデルの一般化を高めるために,不整合オブジェクトヘッドを導入する。 RGBベースのCAODの進歩と、最先端のイベントベースオブジェクト検出器を統合した3つの強力なベースライン手法と比較して、大規模な実験により、提案手法の優位性が確認された。 私たちのコードはhttps://github.com/Hatins/DEOEで公開されています。

Object detection is critical in autonomous driving, and it is more practical yet challenging to localize objects of unknown categories: an endeavour known as Class-Agnostic Object Detection (CAOD). Existing studies on CAOD predominantly rely on ordinary cameras, but these frame-based sensors usually have high latency and limited dynamic range, leading to safety risks in real-world scenarios. In this study, we turn to a new modality enabled by the so-called event camera, featured by its sub-millisecond latency and high dynamic range, for robust CAOD. We propose Detecting Every Object in Events (DEOE), an approach tailored for achieving high-speed, class-agnostic open-world object detection in event-based vision. Built upon the fast event-based backbone: recurrent vision transformer, we jointly consider the spatial and temporal consistencies to identify potential objects. The discovered potential objects are assimilated as soft positive samples to avoid being suppressed as background. Moreover, we introduce a disentangled objectness head to separate the foreground-background classification and novel object discovery tasks, enhancing the model's generalization in localizing novel objects while maintaining a strong ability to filter out the background. Extensive experiments confirm the superiority of our proposed DEOE in comparison with three strong baseline methods that integrate the state-of-the-art event-based object detector with advancements in RGB-based CAOD. Our code is available at https://github.com/Hatins/DEOE.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# スパース表現を用いた機器分光応答関数の飛行中推定

In-Flight Estimation of Instrument Spectral Response Functions Using Sparse Representations ( http://arxiv.org/abs/2404.05298v1 )

ライセンス: Link先を確認
Jihanne El Haouari, Jean-Michel Gaucel, Christelle Pittet, Jean-Yves Tourneret, Herwig Wendt, (参考訳) 高分解能分光器のキャラクタリゼーションを得るためには、ISRFの正確な推定が不可欠である。 分光器は異なる光学素子で構成されており、測定の誤差を誘発し、可能な限り正確にモデル化する必要がある。 現在、これらの応答関数を推定するためにパラメトリックモデルが使われている。 しかし、これらのモデルは、実用用途で遭遇するISRF形状の多様性を常に考慮してはならない。 本稿では,辞書に属する原子のスパース表現に基づく新しいISRF推定法について検討する。 この方法は、複数のリモートセンシングミッションの再現性を評価するために、様々な高分解能分光計に適用される。 提案手法は、より一般的なパラメトリックモデルと比較して非常に競争力があり、正規化ISRF推定誤差は1%未満である。

Accurate estimates of Instrument Spectral Response Functions (ISRFs) are crucial in order to have a good characterization of high resolution spectrometers. Spectrometers are composed of different optical elements that can induce errors in the measurements and therefore need to be modeled as accurately as possible. Parametric models are currently used to estimate these response functions. However, these models cannot always take into account the diversity of ISRF shapes that are encountered in practical applications. This paper studies a new ISRF estimation method based on a sparse representation of atoms belonging to a dictionary. This method is applied to different high-resolution spectrometers in order to assess its reproducibility for multiple remote sensing missions. The proposed method is shown to be very competitive when compared to the more commonly used parametric models, and yields normalized ISRF estimation errors less than 1%.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# 適応ウェーブレット変換を統合したテクスチャ分類ネットワーク

Texture Classification Network Integrating Adaptive Wavelet Transform ( http://arxiv.org/abs/2404.05300v1 )

ライセンス: Link先を確認
Su-Xi Yu, Jing-Yuan He, Yi Wang, Yu-Jiao Cai, Jun Yang, Bo Lin, Wei-Bin Yang, Jian Ruan, (参考訳) Graves病は超音波画像で甲状腺の質感の滑らかさと形態を判定し臨床的に診断される一般的な疾患である。 現在、Graves病の自動診断に最も広く用いられているアプローチは、特徴抽出と分類の両方に畳み込みニューラルネットワーク(CNN)を使用している。 しかし, これらの手法は, テクスチャの特徴を捉える上で, 限られた有効性を示す。 本研究は,テクスチャ特徴記述におけるウェーブレットの高容量化を前提として,Lifting Schemeを利用した学習可能なウェーブレットモジュールをCNNに統合し,ResNet18モデルに並列ウェーブレットブランチを組み込んでテクスチャ特徴抽出を強化する。 本モデルでは,空間領域と周波数領域のテクスチャ特性を同時に解析し,分類精度を最適化する。 収集した超音波データセットと利用可能な天然画像テクスチャデータセットについて実験を行い、提案したネットワークは97.27%の精度と95.60%のリコール、60.765%の精度で自然画像テクスチャデータセットを再現し、ResNetの精度を超え、我々のアプローチの有効性を損なう。

Graves' disease is a common condition that is diagnosed clinically by determining the smoothness of the thyroid texture and its morphology in ultrasound images. Currently, the most widely used approach for the automated diagnosis of Graves' disease utilizes Convolutional Neural Networks (CNNs) for both feature extraction and classification. However, these methods demonstrate limited efficacy in capturing texture features. Given the high capacity of wavelets in describing texture features, this research integrates learnable wavelet modules utilizing the Lifting Scheme into CNNs and incorporates a parallel wavelet branch into the ResNet18 model to enhance texture feature extraction. Our model can analyze texture features in spatial and frequency domains simultaneously, leading to optimized classification accuracy. We conducted experiments on collected ultrasound datasets and publicly available natural image texture datasets, our proposed network achieved 97.27% accuracy and 95.60% recall on ultrasound datasets, 60.765% accuracy on natural image texture datasets, surpassing the accuracy of ResNet and conrming the effectiveness of our approach.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# ネットワーク障害によるコンセプトドリフト中のリンク負荷予測における適応学習とインクリメンタル学習

Liquid Neural Network-based Adaptive Learning vs. Incremental Learning for Link Load Prediction amid Concept Drift due to Network Failures ( http://arxiv.org/abs/2404.05304v1 )

ライセンス: Link先を確認
Omran Ayoub, Davide Andreoletti, Aleksandra Knapińska, Róża Goścień, Piotr Lechowicz, Tiziano Leidi, Silvia Giordano, Cristina Rottondi, Krzysztof Walkowiak, (参考訳) 一般的には、新たに利用可能なデータを活用する学習モデルに定期的に適合するインクリメンタルな学習技術を使用して取り組まれる。 これらの技術の主な制限は、再訓練のための大量のデータに依存することである。 新たなデータを取得する必要性は、再トレーニングに先立って時間的遅延を導入し、突然のコンセプトドリフトが2回の連続的なリトレーニングで発生した場合、モデルを不正確なものにする可能性がある。 通信ネットワークにおいて、障害後の再ルーティングは、トラフィックデータの分布とパターンの劇的なシフトを誘発し、タイムリーなモデル適応を必要とする可能性がある。 本研究では,交通予測問題に対するこの問題に対処し,適応学習アルゴリズム,すなわち液体ニューラルネットワークを活用するアプローチを提案する。 障害シナリオの広範囲なシミュレーションを通じて,提案手法の予測性能と,漸進学習に基づく参照手法の予測性能を比較した。 実験の結果,交通パターンの変化が顕著な状況において,提案手法は漸進的な学習手法よりも優れていた。

Adapting to concept drift is a challenging task in machine learning, which is usually tackled using incremental learning techniques that periodically re-fit a learning model leveraging newly available data. A primary limitation of these techniques is their reliance on substantial amounts of data for retraining. The necessity of acquiring fresh data introduces temporal delays prior to retraining, potentially rendering the models inaccurate if a sudden concept drift occurs in-between two consecutive retrainings. In communication networks, such issue emerges when performing traffic forecasting following a~failure event: post-failure re-routing may induce a drastic shift in distribution and pattern of traffic data, thus requiring a timely model adaptation. In this work, we address this challenge for the problem of traffic forecasting and propose an approach that exploits adaptive learning algorithms, namely, liquid neural networks, which are capable of self-adaptation to abrupt changes in data patterns without requiring any retraining. Through extensive simulations of failure scenarios, we compare the predictive performance of our proposed approach to that of a reference method based on incremental learning. Experimental results show that our proposed approach outperforms incremental learning-based methods in situations where the shifts in traffic patterns are drastic.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# 低可視界における4次元レーダデータからの人間検出

Human Detection from 4D Radar Data in Low-Visibility Field Conditions ( http://arxiv.org/abs/2404.05307v1 )

ライセンス: Link先を確認
Mikael Skog, Oleksandr Kotlyar, Vladimír Kubelka, Martin Magnusson, (参考訳) 自動運転技術は、公道や鉱山などの工業環境での利用が増えている。 歩行者、車両、その他の障害物を検出することは不可欠であるが、有害な磁場条件は、カメラやライダーのような古典的なセンサーの性能に悪影響を及ぼす。 レーダは、例えば塵、煙、霧、霧の影響を受けない、有望なモダリティである。 特に、現代の4Dイメージングレーダは、範囲、垂直角度、水平角度、ドップラー速度の寸法にわたってターゲット応答を提供する。 セマンティックセグメンテーションにこの4Dレーダのモダリティを利用するCNNアーキテクチャTMVA4Dを提案する。 CNNは、標高、方位、範囲、ドップラー速度次元を含む4Dレーダーデータの一連の2次元投影に基づいて、背景クラスと個人クラスを区別するよう訓練されている。 また,自動車に搭載された4Dレーダを用いて,産業環境下で収集されたデータからなる新しいデータセットをコンパイルするプロセスの概要を述べる。 このデータセット上でTMVA4Dを用いてmIoUスコア78.2%、mDiceスコア86.1%を達成し、背景と人物の2つのクラスで評価する。

Autonomous driving technology is increasingly being used on public roads and in industrial settings such as mines. While it is essential to detect pedestrians, vehicles, or other obstacles, adverse field conditions negatively affect the performance of classical sensors such as cameras or lidars. Radar, on the other hand, is a promising modality that is less affected by, e.g., dust, smoke, water mist or fog. In particular, modern 4D imaging radars provide target responses across the range, vertical angle, horizontal angle and Doppler velocity dimensions. We propose TMVA4D, a CNN architecture that leverages this 4D radar modality for semantic segmentation. The CNN is trained to distinguish between the background and person classes based on a series of 2D projections of the 4D radar data that include the elevation, azimuth, range, and Doppler velocity dimensions. We also outline the process of compiling a novel dataset consisting of data collected in industrial settings with a car-mounted 4D radar and describe how the ground-truth labels were generated from reference thermal images. Using TMVA4D on this dataset, we achieve an mIoU score of 78.2% and an mDice score of 86.1%, evaluated on the two classes background and person
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# CLIPping the Limits: Finding the Sweet Spot for Relevant Images in Automated Driving Systems Perception Testing

CLIPping the Limits: Finding the Sweet Spot for Relevant Images in Automated Driving Systems Perception Testing ( http://arxiv.org/abs/2404.05309v1 )

ライセンス: Link先を確認
Philipp Rigoll, Laurenz Adolph, Lennart Ries, Eric Sax, (参考訳) 認識システム、特にカメラは自動走行システムの目玉だ。 確実かつ堅牢に機能することを保証することは、車両の自動化において重要なビルディングブロックである。 自動走行システムの認識をテストするには様々な方法がある。 しかし、究極的には、それは常に特定の入力データの下での知覚システムの振舞いの調査に繋がる。 カメラ画像は入力データの重要な部分である。 そのため、自動走行システムのテストのために画像データセットが収集されるが、これらのデータセットに特定の画像を見つけることは容易ではない。 ニューラルネットワークの最近の進歩により、自然言語のプロンプトと類似性に応じてデータセット内の画像をソートする手法が現在存在する。 検索結果の提供をさらに自動化するために、これらのソート結果のしきい値定義を自動化し、結果としてプロンプトに関連する画像のみを返すことでコントリビューションを行う。 私たちの焦点は、偽陽性と偽陰性を平等に防止することにあります。 また,本手法が堅牢であり,仮定が満たされていない場合には,フォールバックソリューションを提供することも重要である。

Perception systems, especially cameras, are the eyes of automated driving systems. Ensuring that they function reliably and robustly is therefore an important building block in the automation of vehicles. There are various approaches to test the perception of automated driving systems. Ultimately, however, it always comes down to the investigation of the behavior of perception systems under specific input data. Camera images are a crucial part of the input data. Image data sets are therefore collected for the testing of automated driving systems, but it is non-trivial to find specific images in these data sets. Thanks to recent developments in neural networks, there are now methods for sorting the images in a data set according to their similarity to a prompt in natural language. In order to further automate the provision of search results, we make a contribution by automating the threshold definition in these sorted results and returning only the images relevant to the prompt as a result. Our focus is on preventing false positives and false negatives equally. It is also important that our method is robust and in the case that our assumptions are not fulfilled, we provide a fallback solution.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# 非熱的漸近状態に対するエネルギー交換統計とゆらぎ定理

Energy exchange statistics and fluctuation theorem for non-thermal asymptotic states ( http://arxiv.org/abs/2404.05310v1 )

ライセンス: Link先を確認
Santiago Hernández-Gómez, Francesco Poggiali, Paola Cappellaro, Francesco S. Cataliotti, Andrea Trombettoni, Nicole Fabbri, Stefano Gherardini, (参考訳) 異なる熱平衡における2つの体間の交換エネルギー統計は、ジャジンスキー=W'ojcikの揺らぎ定理に従う。 対応するエネルギースケール係数は、平衡時の体に関連する逆温度の差である。 本研究では、量子系を熱的でない漸近状態へと導く散逸的な量子力学を考察する。 非熱状態にジャジンスキー-W\'ojcik定理を一般化するために、エネルギースケール係数$\eta^{*}$の存在に対して十分な条件${\cal I}$を同定する。 この$\eta^*$は逆温度の違いの役割を果たす。 条件 ${\cal I}$ の物理的解釈を議論し、初期状態のほぼ完全なメモリ損失に等しいことを示す。 レーザーパルスと消散の連続による窒素空孔中心の1つの実験により,${\cal I}$の有効性から得られる定量偏差に対する我々の結果の堅牢性を評価した。

Exchange energy statistics between two bodies at different thermal equilibrium obey the Jarzynski-W\'ojcik fluctuation theorem. The corresponding energy scale factor is the difference of the inverse temperatures associated to the bodies at equilibrium. In this work, we consider a dissipative quantum dynamics leading the quantum system towards a, possibly non-thermal, asymptotic state. To generalize the Jarzynski-W\'ojcik theorem to non-thermal states, we identify a sufficient condition ${\cal I}$ for the existence of an energy scale factor $\eta^{*}$ that is unique, finite and time-independent, such that the characteristic function of the exchange energy distribution becomes identically equal to $1$ for any time. This $\eta^*$ plays the role of the difference of inverse temperatures. We discuss the physical interpretation of the condition ${\cal I}$, showing that it amounts to an almost complete memory loss of the initial state. The robustness of our results against quantifiable deviations from the validity of ${\cal I}$ is evaluated by experimental studies on a single nitrogen-vacancy center subjected to a sequence of laser pulses and dissipation.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# BruSLeAttack: クエリ効率の良いスコアベースのブラックボックススパース攻撃

BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack ( http://arxiv.org/abs/2404.05311v1 )

ライセンス: Link先を確認
Viet Quoc Vo, Ehsan Abbasnejad, Damith C. Ranasinghe, (参考訳) モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。 スパース攻撃は、最小数のl0境界摂動を発見し、入力をモデル化し、敵の例や間違ったモデル決定を作成することを目的としている。 しかし、ブラックボックスモデルに対するクエリベースの高密度攻撃とは対照的に、スコアベースの設定でクエリに対して信頼性スコア情報を提供するモデルであっても、スパース対逆摂動を構築することは簡単ではない。 なぜなら、そのような攻撃が原因であるからである。 i) NPハード問題,及び 二 識別不能な検索空間 この問題に対するBruSLeAttackアルゴリズムを新たに開発し,より高速(よりクエリ効率のよい)ベイズアルゴリズムを提案する。 Google Cloud Visionで実証された機械学習・アズ・ア・サービス(MLaaS)に対する攻撃デモや、敵のトレーニング体制の堅牢性テスト、最近のブラックボックス攻撃に対する防御など、幅広い攻撃評価を行います。 提案した攻撃スケールは、異なるモデルアーキテクチャにわたるImageNetなどの標準的なコンピュータビジョンタスクにおいて、最先端の攻撃成功率とクエリ効率を達成する。 アーティファクトとDIY攻撃サンプルはGitHubで入手可能です。 重要なことは、我々の作業はモデルの脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。

We study the unique, less-well understood problem of generating sparse adversarial samples simply by observing the score-based replies to model queries. Sparse attacks aim to discover a minimum number-the l0 bounded-perturbations to model inputs to craft adversarial examples and misguide model decisions. But, in contrast to query-based dense attack counterparts against black-box models, constructing sparse adversarial perturbations, even when models serve confidence score information to queries in a score-based setting, is non-trivial. Because, such an attack leads to i) an NP-hard problem; and ii) a non-differentiable search space. We develop the BruSLeAttack-a new, faster (more query-efficient) Bayesian algorithm for the problem. We conduct extensive attack evaluations including an attack demonstration against a Machine Learning as a Service (MLaaS) offering exemplified by Google Cloud Vision and robustness testing of adversarial training regimes and a recent defense against black-box attacks. The proposed attack scales to achieve state-of-the-art attack success rates and query efficiency on standard computer vision tasks such as ImageNet across different model architectures. Our artefacts and DIY attack samples are available on GitHub. Importantly, our work facilitates faster evaluation of model vulnerabilities and raises our vigilance on the safety, security and reliability of deployed systems.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# HOEG: オブジェクト中心予測プロセスモニタリングの新しいアプローチ

HOEG: A New Approach for Object-Centric Predictive Process Monitoring ( http://arxiv.org/abs/2404.05316v1 )

ライセンス: Link先を確認
Tim K. Smit, Hajo A. Reijers, Xixi Lu, (参考訳) 予測プロセスモニタリングは、残りの時間を予測するなど、進行中のプロセス実行の将来の状態を予測することに焦点を当てる。 オブジェクト中心のプロセスマイニングの最近の進歩は、オブジェクトとイベントデータと、イベント間の明示的な関係を豊かにしている。 このリッチなデータを活用するために、さまざまなノードタイプを持つグラフ構造にイベントとオブジェクトを統合する、異種オブジェクトイベントグラフ符号化(HOEG)を提案する。 オブジェクトの機能を集約することなく、よりニュアンスで情報に富んだ表現を生成する。 そして、予測タスクにこれらの多様なオブジェクト特徴を組み込んだ異種グラフニューラルネットワークアーキテクチャを採用する。 我々は,HOEGの性能と拡張性を評価し,既存の2つのグラフベースエンコーディングと2つのベースラインモデルに対してベンチマークを行った。 本評価では,オランダの大手金融機関における実生活プロセスを含む3つのイベントログ(OCEL)を用いて評価を行った。 その結果、HOEGは既存のモデルとよく競合し、OCELが情報的オブジェクト属性やイベントオブジェクトの相互作用を含む場合、それらを上回ることが示唆された。

Predictive Process Monitoring focuses on predicting future states of ongoing process executions, such as forecasting the remaining time. Recent developments in Object-Centric Process Mining have enriched event data with objects and their explicit relations between events. To leverage this enriched data, we propose the Heterogeneous Object Event Graph encoding (HOEG), which integrates events and objects into a graph structure with diverse node types. It does so without aggregating object features, thus creating a more nuanced and informative representation. We then adopt a heterogeneous Graph Neural Network architecture, which incorporates these diverse object features in prediction tasks. We evaluate the performance and scalability of HOEG in predicting remaining time, benchmarking it against two established graph-based encodings and two baseline models. Our evaluation uses three Object-Centric Event Logs (OCELs), including one from a real-life process at a major Dutch financial institution. The results indicate that HOEG competes well with existing models and surpasses them when OCELs contain informative object attributes and event-object interactions.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# オープンメタバースの基盤としてのWebXR, Aフレーム, Networked-Aframe

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture ( http://arxiv.org/abs/2404.05317v1 )

ライセンス: Link先を確認
Giuseppe Macario, (参考訳) 本研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を容易にするために、Aフレームフレームワークとネットワークフレームフレームワークを活用する、WebXRベースのクロスプラットフォーム概念アーキテクチャを提案する。 空間的ウェブアプリの概念を導入することにより、この研究はメタバースについての議論に寄与し、仮想環境へのアクセスを民主化し、ウェブを通じて現実を拡張したアーキテクチャを提供し、Tim Berners-Lee氏のWorld Wide Webという当初のビジョンをデジタル領域のオープンプラットフォームとして扱う。

This work proposes a WebXR-based cross-platform conceptual architecture, leveraging the A-Frame and Networked-Aframe frameworks, in order to facilitate the development of an open, accessible, and interoperable metaverse. By introducing the concept of spatial web app, this research contributes to the discourse on the metaverse, offering an architecture that democratizes access to virtual environments and extended reality through the web, and aligns with Tim Berners-Lee's original vision of the World Wide Web as an open platform in the digital realm.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# サイバー物理・ロボットシステムのための確率的オンライン最適化

Stochastic Online Optimization for Cyber-Physical and Robotic Systems ( http://arxiv.org/abs/2404.05318v1 )

ライセンス: Link先を確認
Hao Ma, Melanie Zeilinger, Michael Muehlebach, (参考訳) 本稿では,サイバー物理システムやロボットシステムの文脈で頻繁に発生する確率的プログラミング問題を解決するための,勾配に基づく新しいオンライン最適化フレームワークを提案する。 我々の問題定式化は、一般に連続状態と行動空間を持つサイバー物理システムの進化をモデル化する制約に適合し、状態が部分的にのみ観察される場合にのみ非線形である。 また、学習過程に事前知識としてダイナミクスの近似モデルを導入し、ダイナミックスの粗い推定でさえアルゴリズムの収束を著しく改善できることを示す。 我々のオンライン最適化フレームワークは勾配降下法と準ニュートン法の両方を含み、非凸条件下でのアルゴリズムの統一収束解析を提供する。 また,システム力学における誤差のモデル化がアルゴリズムの収束率に与える影響を特徴付ける。 最後に,4脚歩行ロボットであるフレキシブルビームのシミュレーションや,ピンポン演奏ロボットを用いた実世界実験において,本アルゴリズムの評価を行った。

We propose a novel gradient-based online optimization framework for solving stochastic programming problems that frequently arise in the context of cyber-physical and robotic systems. Our problem formulation accommodates constraints that model the evolution of a cyber-physical system, which has, in general, a continuous state and action space, is nonlinear, and where the state is only partially observed. We also incorporate an approximate model of the dynamics as prior knowledge into the learning process and show that even rough estimates of the dynamics can significantly improve the convergence of our algorithms. Our online optimization framework encompasses both gradient descent and quasi-Newton methods, and we provide a unified convergence analysis of our algorithms in a non-convex setting. We also characterize the impact of modeling errors in the system dynamics on the convergence rate of the algorithms. Finally, we evaluate our algorithms in simulations of a flexible beam, a four-legged walking robot, and in real-world experiments with a ping-pong playing robot.
翻訳日:2024-04-09 15:04:06 公開日:2024-04-08
# 時空におけるコンポーザブル量子プロトコルへの不定因数順序過程のマッピング

Mapping indefinite causal order processes to composable quantum protocols in a spacetime ( http://arxiv.org/abs/2404.05319v1 )

ライセンス: Link先を確認
Matthias Salzger, V. Vilasini, (参考訳) 高次量子過程の形式主義は、エージェントの操作の順序が定式かつ非環状である必要はないが、量子重ね合わせの対象となる量子過程の理論的形式化を提供する。 これは不定因果構造(ICS)の概念に結びつき、多くの関心を集めている。 しかし、これらの情報理論的アプローチと因果関係の時空間的概念とのインターフェースは理解されず、情報理論的性格化の進展にもかかわらず、時空間におけるICSの物理的現実性に関する疑問が持続する。 さらに、これまでの研究はICSフレームワークではプロセスの構成がそれほど単純ではないことを示唆しており、これが時空における物理実験の観測構成性とどのように結びつくのかという疑問を提起している。 これらの点に対処するために、量子回路の形式と、興味深いICSプロセスのクラスをモデル化する因果順序の量子制御(QC-QC)と、時空で構成可能な量子情報プロトコルをモデル化する因果箱の形式を比較した。 我々は,QC-QCフレームワークのセットアップ仮定を時空間に組み込んで,これらの設定された仮定を満たす因果箱に,QC-QCの振る舞いを仮定によって定義された関連する部分空間で再現しながら,Fock空間に作用することを示す。 最近導入された微粒化の概念を用いて、因果箱は、QC-QCの元々のICSを、時空構造と互換性のある、明確に定義された非循環的な因果順序を持つ量子演算の集合へと展開するQC-QCの微細化に対応することを示す。 また, 相対論的因果関係とFock空間構造の本質的役割を強調しつつ, 物理実験の構成可能性の回復についても明らかにした。

Formalisms for higher order quantum processes provide a theoretical formalisation of quantum processes where the order of agents' operations need not be definite and acyclic, but may be subject to quantum superpositions. This has led to the concept of indefinite causal structures (ICS) which have garnered much interest. However, the interface between these information-theoretic approaches and spatiotemporal notions of causality is less understood, and questions relating to the physical realisability of ICS in a spatiotemporal context persist despite progress in their information-theoretic characterisation. Further, previous work suggests that composition of processes is not so straightforward in ICS frameworks, which raises the question of how this connects with the observed composability of physical experiments in spacetime. To address these points, we compare the formalism of quantum circuits with quantum control of causal order (QC-QC), which models an interesting class of ICS processes, with that of causal boxes, which models composable quantum information protocols in spacetime. We incorporate the set-up assumptions of the QC-QC framework into the spatiotemporal perspective and show that every QC-QC can be mapped to a causal box that satisfies these set up assumptions and acts on a Fock space while reproducing the QC-QC's behaviour in a relevant subspace defined by the assumptions. Using a recently introduced concept of fine-graining, we show that the causal box corresponds to a fine-graining of the QC-QC, which unravels the original ICS of the QC-QC into a set of quantum operations with a well-defined and acyclic causal order, compatible with the spacetime structure. Our results also clarify how the composability of physical experiments is recovered, while highlighting the essential role of relativistic causality and the Fock space structure.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 不正促進のためのリフレクテッドサーチポゾン

Reflected Search Poisoning for Illicit Promotion ( http://arxiv.org/abs/2404.05320v1 )

ライセンス: Link先を確認
Sangyi Wu, Jialong Xue, Shaoxuan Zhou, Xianghang Mi, (参考訳) 新興のブラックハット検索エンジン最適化(SEO)技術として、リフレクトサーチ中毒(RSP)は、従来の宣伝感染で要求される継続的なウェブサイト妥協の負担を回避しつつ、高位のウェブサイトの評判を解放し、不正なプロモーションテキスト(IPT)による検索エンジンを効率的かつステルス的に汚染することを可能にする。 しかし、RSPのセキュリティへの影響についてはほとんど分かっていない。例えば、不正なプロモーションキャンペーンがRSPによって配布されているか、また、通常の検索ユーザーがRSPによって配布された不正なプロモーションテキストにどの程度の頻度で露出できるかである。 本研究では,RSPをベースとした不正プロモーションに関する最初のセキュリティ研究を行い,ICPの取得,解析,侵入を行うエンドツーエンドの手法を用いて実現した。 その結果、RSPを介して配布されるIPTは大規模で、継続的に成長し、違法なカテゴリーと自然言語の両方で多様であることが判明した。 特に、麻薬取引、データ盗難、偽造品、ハッキングサービスなど、14の違法カテゴリーに属する1100万以上のICTを特定しました。 また、基礎となるRSPのケースは、数万もの上位サイトを悪用し、また、私たちが調査した4つの人気検索エンジン、特にGoogle SearchとBingを広範囲に悪用している。 さらに, 良質な検索ユーザが, ある程度のIPTに曝されていることが確認された。 潜在的な顧客(被害者検索ユーザー)との対話を容易にするため、不一致者はIPT、特にインスタントメッセージアカウントに様々な種類の連絡先を埋め込む傾向がある。 これらのICTコンタクトのさらなる浸潤は、根底にある不正なキャンペーンが大規模に行われていることを明らかにしている。 これらの知見は、ICPとRSPの負のセキュリティへの影響を強調しており、RSPによる違法なプロモーションを緩和するためのさらなる努力を求めている。

As an emerging black hat search engine optimization (SEO) technique, reflected search poisoning (RSP) allows a miscreant to free-ride the reputation of high-ranking websites, poisoning search engines with illicit promotion texts (IPTs) in an efficient and stealthy manner, while avoiding the burden of continuous website compromise as required by traditional promotion infections. However, little is known about the security implications of RSP, e.g., what illicit promotion campaigns are being distributed by RSP, and to what extent regular search users can be exposed to illicit promotion texts distributed by RSP. In this study, we conduct the first security study on RSP-based illicit promotion, which is made possible through an end-to-end methodology for capturing, analyzing, and infiltrating IPTs. As a result, IPTs distributed via RSP are found to be large-scale, continuously growing, and diverse in both illicit categories and natural languages. Particularly, we have identified over 11 million distinct IPTs belonging to 14 different illicit categories, with typical examples including drug trading, data theft, counterfeit goods, and hacking services. Also, the underlying RSP cases have abused tens of thousands of high-ranking websites, as well as extensively poisoning all four popular search engines we studied, especially Google Search and Bing. Furthermore, it is observed that benign search users are being exposed to IPTs at a concerning extent. To facilitate interaction with potential customers (victim search users), miscreants tend to embed various types of contacts in IPTs, especially instant messaging accounts. Further infiltration of these IPT contacts reveals that the underlying illicit campaigns are operated on a large scale. All these findings highlight the negative security implications of IPTs and RSPs, and thus call for more efforts to mitigate RSP-driven illicit promotion.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# バック・トゥ・ザ・フューチャー:GNNベースのNO$_2$予測

Back to the Future: GNN-based NO$_2$ Forecasting via Future Covariates ( http://arxiv.org/abs/2404.05324v1 )

ライセンス: Link先を確認
Antonio Giganti, Sara Mandelli, Paolo Bestagini, Umberto Giuriato, Alessandro D'Ausilio, Marco Marcon, Stefano Tubaro, (参考訳) 都市部における湾岸汚染物質排出量の抑制に関する最近の環境問題により、大気汚染の予測は世界中の研究者の目玉となっている。 汚染物質濃度を予測する際には、交通、気象条件、地理情報など、これらの濃度に影響を与える環境要因の影響を含めることが一般的である。 既存のアプローチのほとんどは、この情報を過去の共変量、すなわち汚染物質に影響を及ぼすが影響を受けない過去の外因性変数として利用している。 本稿では,NO$_2$濃度を過去の共変量と将来の共変量で予測する新しい予測手法を提案する。 将来のコバリアイトは天気予報や将来のカレンダーイベントによって表現される。 特に,地上監視局の都市規模ネットワークにおける大気質の観測を行い,データ構造をモデル化し,時空間グラフニューラルネットワーク(STGNN)を用いて予測を推定する。 我々は過去と将来の共変分を現在の観測に埋め込む条件付きブロックを提案する。 有意な時空間表現を抽出した後、これらを融合して予測水平線に投影し、最終的な予測を生成する。 我々の知る限りでは、将来の共変数が構造化された方法で時系列予測に含まれるのは初めてである。 注目すべきは、過去の交通状況を考えるよりも、将来の気象情報に対する条件付けの方が影響が大きいことである。 コード実装はhttps://github.com/polimi-ispl/MAGCRN.comで公開しています。

Due to the latest environmental concerns in keeping at bay contaminants emissions in urban areas, air pollution forecasting has been rising the forefront of all researchers around the world. When predicting pollutant concentrations, it is common to include the effects of environmental factors that influence these concentrations within an extended period, like traffic, meteorological conditions and geographical information. Most of the existing approaches exploit this information as past covariates, i.e., past exogenous variables that affected the pollutant but were not affected by it. In this paper, we present a novel forecasting methodology to predict NO$_2$ concentration via both past and future covariates. Future covariates are represented by weather forecasts and future calendar events, which are already known at prediction time. In particular, we deal with air quality observations in a city-wide network of ground monitoring stations, modeling the data structure and estimating the predictions with a Spatiotemporal Graph Neural Network (STGNN). We propose a conditioning block that embeds past and future covariates into the current observations. After extracting meaningful spatiotemporal representations, these are fused together and projected into the forecasting horizon to generate the final prediction. To the best of our knowledge, it is the first time that future covariates are included in time series predictions in a structured way. Remarkably, we find that conditioning on future weather information has a greater impact than considering past traffic conditions. We release our code implementation at https://github.com/polimi-ispl/MAGCRN.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# Rydberg Superatoms: 量子情報処理と量子光学のための人工量子システム

Rydberg superatoms: An artificial quantum system for quantum information processing and quantum optics ( http://arxiv.org/abs/2404.05330v1 )

ライセンス: Link先を確認
Xiao-Qiang Shao, Shi-Lei Su, Lin Li, Rejish Nath, Jin-Hui Wu, Weibin Li, (参考訳) Dense Rydberg 原子アンサンブルは、その強い長距離双極子-双極子相互作用によって媒介される集合的挙動を興味をそそる。 これらの集団効果は、しばしばリドバーグ超原子を用いてモデル化され、量子情報処理や量子光学における潜在的な応用により、様々な分野において大きな注目を集めている。 本稿では,Rydberg相互作用の理論的基礎を掘り下げ,その操作と検出のための実験的手法を探求する。 また、Rydberg集合効果を量子計算や光量子技術に活用する最新の進歩についても論じる。 理論的研究と実験的実証から洞察を合成することにより、この急速に発展する分野と、量子技術の将来に対するその潜在的影響の包括的概要を提供する。

Dense Rydberg atom ensembles display intriguing collective behaviors mediated by their strong, long-range dipole-dipole interactions. These collective effects, often modeled using Rydberg superatoms, have gained significant attention across various fields due to their potential applications in quantum information processing and quantum optics. In this review article, we delve into the theoretical foundations of Rydberg interactions and explore experimental techniques for their manipulation and detection. We also discuss the latest advancements in harnessing Rydberg collective effects for quantum computation and optical quantum technologies. By synthesizing insights from theoretical studies and experimental demonstrations, we aim to provide a comprehensive overview of this rapidly evolving field and its potential impact on the future of quantum technologies.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# Mask-ControlNet: Mask Promptを追加して高品質な画像生成

Mask-ControlNet: Higher-Quality Image Generation with An Additional Mask Prompt ( http://arxiv.org/abs/2404.05331v1 )

ライセンス: Link先を確認
Zhiqi Huang, Huixin Xiong, Haoyu Wang, Longguang Wang, Zhiheng Li, (参考訳) テキスト・ツー・イメージ・ジェネレーションは特に近年の拡散モデルの発展で大きな進歩をみせている。 テキストはオブジェクトの外観のような詳細な条件を提供できないため、通常、参照画像は生成された画像内のオブジェクトを制御するために利用される。 しかし, 既存の手法では, 前景と背景の関係が複雑である場合, 精度が低い。 この問題に対処するため,マスクプロンプトを導入してMask-ControlNetというフレームワークを開発した。 具体的には、まず大きな視覚モデルを用いて、参照画像の関心対象を分割するマスクを得る。 次に、オブジェクトイメージを拡散モデルに付加的なプロンプトとして使用して、画像生成時の前景と背景領域の関係をよりよく理解する。 実験により, マスクは拡散モデルの制御性を向上し, 参照画像に対する高い忠実性を維持しつつ, 画質の向上を実現していることがわかった。 従来のテキスト・画像生成手法との比較により,ベンチマーク・データセットの定量的・定性的な性能が向上したことを示す。

Text-to-image generation has witnessed great progress, especially with the recent advancements in diffusion models. Since texts cannot provide detailed conditions like object appearance, reference images are usually leveraged for the control of objects in the generated images. However, existing methods still suffer limited accuracy when the relationship between the foreground and background is complicated. To address this issue, we develop a framework termed Mask-ControlNet by introducing an additional mask prompt. Specifically, we first employ large vision models to obtain masks to segment the objects of interest in the reference image. Then, the object images are employed as additional prompts to facilitate the diffusion model to better understand the relationship between foreground and background regions during image generation. Experiments show that the mask prompts enhance the controllability of the diffusion model to maintain higher fidelity to the reference image while achieving better image quality. Comparison with previous text-to-image generation methods demonstrates our method's superior quantitative and qualitative performance on the benchmark datasets.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# PortULAN ExtraGLUEデータセットとモデル:ポルトガルのニューラル処理のためのベンチマークを開始する

PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese ( http://arxiv.org/abs/2404.05333v1 )

ライセンス: Link先を確認
Tomás Osório, Bernardo Leite, Henrique Lopes Cardoso, Luís Gomes, João Rodrigues, Rodrigo Santos, António Branco, (参考訳) ポルトガル語のニューラルモデリングの研究を活用して、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラル言語モデルのコレクションをコントリビュートする。 もともと英語で開発された文献の主流ベンチマークと一致し、ポルトガル語版を起動するために、データセットは英語から最先端の翻訳エンジンで機械翻訳された。 その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。 同様に、低ランク適応アプローチで開発されたそれぞれの微調整されたニューラルネットワークモデルは、ポルトガル語のニューラル処理に関する将来の研究を刺激するベースラインとして利用できる。 すべてのデータセットとモデルが開発され、ポルトガルの2つの変種(ヨーロッパとブラジル)で利用可能である。

Leveraging research on the neural modelling of Portuguese, we contribute a collection of datasets for an array of language processing tasks and a corresponding collection of fine-tuned neural language models on these downstream tasks. To align with mainstream benchmarks in the literature, originally developed in English, and to kick start their Portuguese counterparts, the datasets were machine-translated from English with a state-of-the-art translation engine. The resulting PORTULAN ExtraGLUE benchmark is a basis for research on Portuguese whose improvement can be pursued in future work. Similarly, the respective fine-tuned neural language models, developed with a low-rank adaptation approach, are made available as baselines that can stimulate future work on the neural processing of Portuguese. All datasets and models have been developed and are made available for two variants of Portuguese: European and Brazilian.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 脳腫瘍切除における画像強調法の比較分析:コントラスト,ヒストグラム,ハイブリッドアプローチ

Comparative Analysis of Image Enhancement Techniques for Brain Tumor Segmentation: Contrast, Histogram, and Hybrid Approaches ( http://arxiv.org/abs/2404.05341v1 )

ライセンス: Link先を確認
Shoffan Saifullah, Andri Pranolo, Rafał Dreżewski, (参考訳) 本研究は、画像強調技術が畳み込みニューラルネットワーク(CNN)に基づく脳腫瘍切開に及ぼす影響を、ヒストグラム等化(HE)、コントラスト限定適応ヒストグラム等化(CLAHE)、およびそれらのハイブリッド変異に着目して体系的に検討する。 U-Netアーキテクチャを3064脳MRI画像のデータセットに使用することにより、この研究は、セグメント化の精度を最適化するために、サイズ変更や拡張を含む前処理ステップに発展する。 CNNベースのU-Netアーキテクチャ、トレーニング、検証プロセスの詳細な分析を行う。 比較分析は、精度、損失、MSE、IoU、DSCといったメトリクスを利用しており、ハイブリッドアプローチのCLAHE-HEは、他よりも一貫して優れています。 結果は、その優れた精度(トレーニング、テスト、バリデーションそれぞれ0.9982、0.9939、0.9936)と堅牢なセグメンテーション重なり、ジャカード値は0.9862、0.9847、0.9864、Dice値は0.993、0.9923、0.9932である。 この研究は、神経腫瘍学における診断精度と治療計画をさらに高めるために、セグメンテーション方法論の洗練を求めることで締めくくられている。

This study systematically investigates the impact of image enhancement techniques on Convolutional Neural Network (CNN)-based Brain Tumor Segmentation, focusing on Histogram Equalization (HE), Contrast Limited Adaptive Histogram Equalization (CLAHE), and their hybrid variations. Employing the U-Net architecture on a dataset of 3064 Brain MRI images, the research delves into preprocessing steps, including resizing and enhancement, to optimize segmentation accuracy. A detailed analysis of the CNN-based U-Net architecture, training, and validation processes is provided. The comparative analysis, utilizing metrics such as Accuracy, Loss, MSE, IoU, and DSC, reveals that the hybrid approach CLAHE-HE consistently outperforms others. Results highlight its superior accuracy (0.9982, 0.9939, 0.9936 for training, testing, and validation, respectively) and robust segmentation overlap, with Jaccard values of 0.9862, 0.9847, and 0.9864, and Dice values of 0.993, 0.9923, and 0.9932 for the same phases, emphasizing its potential in neuro-oncological applications. The study concludes with a call for refinement in segmentation methodologies to further enhance diagnostic precision and treatment planning in neuro-oncology.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# ボース・アインシュタイン凝縮体における自由イオンの冷却ダイナミクス

Cooling dynamics of a free ion in a Bose-Einstein condensate ( http://arxiv.org/abs/2404.05347v1 )

ライセンス: Link先を確認
Lorenzo Oghittu, Juliette Simonet, Philipp Wessels-Staarmann, Markus Drescher, Klaus Sengstock, Ludwig Mathey, Antonio Negretti, (参考訳) 初期運動量を与えたBose-Einstein Condensate (BEC) を通過するイオンのダイナミクスについて検討する。 このために、イオンの還元密度行列に対する弱結合極限とラム・ディッケ近似のマスター方程式を導出する。 イオンの運動エネルギーの時間進化について検討し,その期待値であるイオン温度$T_\mathrm{ion}$は,10^{13}\,\mathrm{cm}^{-3}$と10^{14}\,\mathrm{cm}^{-3}$の間において,縮合密度のマイクロ秒のオーダーで数桁減少することを示した。 我々は、この挙動を、初期値の半分に達するのに$T_\mathrm{ion}$で必要とされる時間として半最大で定義し、システムパラメータへの依存性を研究することで特徴づける。 同様に、イオンの運動量演算子の期待値は、同じ時間スケールで9桁のスケールで減少し、イオンの位置が最終値に収束する。 これらの結果から, ホウ素浴との相互作用により, 運動エネルギーと速度の期待値を減少させることで, イオンの冷却とピンニングが可能であり, 現行の原子-イオン実験の直接的妥当性が示唆された。

We investigate the dynamics of an ion moving through a homogeneous Bose-Einstein condensate (BEC) after an initial momentum is imparted. For this, we derive a master equation in the weak-coupling limit and Lamb-Dicke approximation for the reduced density matrix of the ion. We study the time evolution of the ion's kinetic energy and observe that its expectation value, identified as the ion temperature $T_\mathrm{ion}$, is reduced by several orders of magnitude in a time on the order of microseconds for a condensate density in the experimentally relevant range between $10^{13}\,\mathrm{cm}^{-3}$ and $10^{14}\,\mathrm{cm}^{-3}$. We characterize this behavior by defining the duration at half maximum as the time required by $T_\mathrm{ion}$ to reach half of its initial value, and study its dependence on the system parameters. Similarly, we find that the expectation value of the ion's momentum operator is reduced by nine orders of magnitude on the same timescale, making the ion's position converge to a final value. Based on these results, we conclude that the interaction with the bosonic bath allows for cooling and pinning of the ion by decreasing the expectation value of its kinetic energy and velocity, which constitutes a result of direct relevance for current atom-ion experiments.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 自動ラベリングのための反復的リファインメント戦略:医用画像における顔のランドマーク診断

Iterative Refinement Strategy for Automated Data Labeling: Facial Landmark Diagnosis in Medical Imaging ( http://arxiv.org/abs/2404.05348v1 )

ライセンス: Link先を確認
Yu-Hsi Chen, (参考訳) データの自動ラベリング技術は、特に複雑な医用画像の応用において、ディープラーニングモデルの開発を加速するために不可欠である。 しかし、精度と効率の確保は依然として困難である。 本稿では, 皮膚科, 整形外科, 眼科などの医療応用における深層学習モデルの精度と効率を高めるために, 顔のランドマーク診断における自動データラベリングの反復的改善戦略を提案する。 フィードバック機構と高度なアルゴリズムを活用することで、我々のアプローチは初期ラベルを反復的に洗練し、手作業による介入への依存を軽減し、ラベルの品質を改善します。 実験的評価とケーススタディを通じて,医用画像領域にわたる深層学習課題における提案手法の有効性を実証した。 本研究は, 医用画像における深層学習システムの能力を高めるために, 自動ラベリングにおける反復的改善の重要性を強調した。

Automated data labeling techniques are crucial for accelerating the development of deep learning models, particularly in complex medical imaging applications. However, ensuring accuracy and efficiency remains challenging. This paper presents iterative refinement strategies for automated data labeling in facial landmark diagnosis to enhance accuracy and efficiency for deep learning models in medical applications, including dermatology, plastic surgery, and ophthalmology. Leveraging feedback mechanisms and advanced algorithms, our approach iteratively refines initial labels, reducing reliance on manual intervention while improving label quality. Through empirical evaluation and case studies, we demonstrate the effectiveness of our proposed strategies in deep learning tasks across medical imaging domains. Our results highlight the importance of iterative refinement in automated data labeling to enhance the capabilities of deep learning systems in medical imaging applications.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# Certified PEFTSmoothing:ランダム化平滑化によるパラメータ効率の良いファインチューニング

Certified PEFTSmoothing: Parameter-Efficient Fine-Tuning with Randomized Smoothing ( http://arxiv.org/abs/2404.05350v1 )

ライセンス: Link先を確認
Chengyan Fu, Wenjie Wang, (参考訳) ランダム化スムーシングは、入力画像に等方的ガウス雑音を加え、ベース分類器に多数票を返すことにより、L2-ノルムの逆摂動に対してディープラーニングモデルの頑健性にアクセスするための主要な証明されたロバスト性手法である。 理論的には、証明されたノルム境界を提供し、逆例の予測がこの境界内で安定であることを保証する。 広く採用されることを制限する顕著な制約は、ベースモデルをスクラッチからリトレーニングし、堅牢なバージョンを得る必要があることである。 これは、ベースモデルがノイズの増大したデータ分布を学習して正確な投票を行うのに失敗するためである。 この課題を克服する直感的な方法の1つは、ノイズを取り除くためにカスタムトレーニングされたデノイザーを巻き込むことである。 しかし、このアプローチは非効率で準最適である。 近年の大規模モデルトレーニングに触発されて,PEFTSmoothing と呼ばれる代替手法を探索し,ホワイトボックスとブラックボックスの設定の両方でパラメータ効率の良い微細チューニング(PEFT)法を用いてガウス雑音増大データ(英語版)を学習する。 PEFTSmoothing の有効性と有効性を示し,CIFAR-10 では ViT の 98% 以上,SoTA では 20% 以上,CNN では 30% 以上,Diffusion では 61% 以上であった。

Randomized smoothing is the primary certified robustness method for accessing the robustness of deep learning models to adversarial perturbations in the l2-norm, by adding isotropic Gaussian noise to the input image and returning the majority votes over the base classifier. Theoretically, it provides a certified norm bound, ensuring predictions of adversarial examples are stable within this bound. A notable constraint limiting widespread adoption is the necessity to retrain base models entirely from scratch to attain a robust version. This is because the base model fails to learn the noise-augmented data distribution to give an accurate vote. One intuitive way to overcome this challenge is to involve a custom-trained denoiser to eliminate the noise. However, this approach is inefficient and sub-optimal. Inspired by recent large model training procedures, we explore an alternative way named PEFTSmoothing to adapt the base model to learn the Gaussian noise-augmented data with Parameter-Efficient Fine-Tuning (PEFT) methods in both white-box and black-box settings. Extensive results demonstrate the effectiveness and efficiency of PEFTSmoothing, which allow us to certify over 98% accuracy for ViT on CIFAR-10, 20% higher than SoTA denoised smoothing, and over 61% accuracy on ImageNet which is 30% higher than CNN-based denoiser and comparable to the Diffusion-based denoiser.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# フーズボールテーブルのCNNによるゲーム状態検出

CNN-based Game State Detection for a Foosball Table ( http://arxiv.org/abs/2404.05357v1 )

ライセンス: Link先を確認
David Hagens, Jan Knaup, Elke Hergenröther, Andreas Weinmann, (参考訳) Deep Reinforcement Learning Strategies (DRL) を用いたゲームの自動化は、AI研究においてよく知られている課題である。 ビデオゲームにおける特徴抽出には、通常、画像全体が使用されるが、現実の多くのゲームでは実用的ではない。 代わりに、パラメータ空間の次元を小さくして本質的なパラメータを含むゲーム状態を使用することは、有望なアプローチである。 フォスボールのゲームでは、コンパクトで包括的なゲーム状態の記述は、フィギュアの位置シフトと回転と、時間とともにボールの位置で構成される。 特に、ゲーム状態の連続した時間サンプルから速度と加速度を導出することができる。 本稿では,フォスボールのゲーム状態を決定するフィギュア検出システムについて述べる。 加速度計を用いて測定したロッドの回転を含むデータセットをキャプチャし、従来のコンピュータビジョン技術(実験室で)を用いて位置変化を導出した。 このデータセットを使用して、畳み込みニューラルネットワーク(CNN)ベースのエンドツーエンド回帰モデルをトレーニングし、各ロッドの回転とシフトを予測する。 本稿では, 回帰モデルの基本アーキテクチャとして, 異なる最先端CNNを用いたシステム評価を行う。 本システムでは,ゲーム状態を高精度に予測できることを示す。 このシステムは、白黒チームの両方にデータを提供することにより、人間の選手を観察するためにImitation Learning Technique w.r.t.の今後の開発に必要なデータを提供することを目的としている。

The automation of games using Deep Reinforcement Learning Strategies (DRL) is a well-known challenge in AI research. While for feature extraction in a video game typically the whole image is used, this is hardly practical for many real world games. Instead, using a smaller game state reducing the dimension of the parameter space to include essential parameters only seems to be a promising approach. In the game of Foosball, a compact and comprehensive game state description consists of the positional shifts and rotations of the figures and the position of the ball over time. In particular, velocities and accelerations can be derived from consecutive time samples of the game state. In this paper, a figure detection system to determine the game state in Foosball is presented. We capture a dataset containing the rotations of the rods which were measured using accelerometers and the positional shifts were derived using traditional Computer Vision techniques (in a laboratory setting). This dataset is utilized to train Convolutional Neural Network (CNN) based end-to-end regression models to predict the rotations and shifts of each rod. We present an evaluation of our system using different state-of-the-art CNNs as base architectures for the regression model. We show that our system is able to predict the game state with high accuracy. By providing data for both black and white teams, the presented system is intended to provide the required data for future developments of Imitation Learning techniques w.r.t. to observing human players.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 学習訓練サンプルの識別によるアルゴリズム選択と性能予測の改善

Improving Algorithm-Selection and Performance-Prediction via Learning Discriminating Training Samples ( http://arxiv.org/abs/2404.05359v1 )

ライセンス: Link先を確認
Quentin Renau, Emma Hart, (参考訳) アルゴリズム選択モデルのトレーニングに使用される入力データの選択は、モデルの成功の重要な部分であると認識されている。 近年,解法を入力として動作させることによって得られる短い軌跡を用いたアルゴリズム選択のための機能自由化手法が期待されている。 しかし、これらの軌跡が解決者間でどの程度確実に区別されているかは定かではない。 本稿では,解決者のポートフォリオに関して,識別的軌跡を生成するメタアプローチを提案する。 アルゴリズム設定ツールのiraceは、単純なSimulated Annealingアルゴリズム(SA)のパラメータをチューニングして、このデータに基づいてトレーニングされたMLモデルのパフォーマンス指標を最大化するトラジェクトリを生成するために使用される。 アルゴリズム選択と性能予測のために調整SAアルゴリズムから得られたトラジェクトリがMLモデルに使用される場合、生のトラジェクトリデータと探索景観の特徴の両方で訓練されたモデルと比較して、性能指標が大幅に向上することを示す。

The choice of input-data used to train algorithm-selection models is recognised as being a critical part of the model success. Recently, feature-free methods for algorithm-selection that use short trajectories obtained from running a solver as input have shown promise. However, it is unclear to what extent these trajectories reliably discriminate between solvers. We propose a meta approach to generating discriminatory trajectories with respect to a portfolio of solvers. The algorithm-configuration tool irace is used to tune the parameters of a simple Simulated Annealing algorithm (SA) to produce trajectories that maximise the performance metrics of ML models trained on this data. We show that when the trajectories obtained from the tuned SA algorithm are used in ML models for algorithm-selection and performance prediction, we obtain significantly improved performance metrics compared to models trained both on raw trajectory data and on exploratory landscape features.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 協調運転における偽データ注入に対する最適制御器の実現

Optimal Controller Realizations against False Data Injections in Cooperative Driving ( http://arxiv.org/abs/2404.05361v1 )

ライセンス: Link先を確認
Mischa Huisman, Carlos Murguia, Erjen Lefeber, Nathan van de Wouw, (参考訳) サイバー攻撃に対する協調運転の堅牢性を高めるため,我々はFalse-Data Injection(FDI)攻撃の効果を軽減するためのコントローラ指向のアプローチを検討した。 与えられた動的協調型適応クルーズ制御(CACC)スキーム(ベースコントローラ)を再構成することにより、ベースコントローラは攻撃の有無によって異なるロバスト性を持った同一の小隊動作を示す新しいが等価なコントローラ(ベースコントローラ実現)のクラスで表現できることを認識する。 ベースコントローラとシステムダイナミクスを制御状態の可逆座標変換によって新しい座標に書き込むための規範的合成フレームワークを提案する。 入力出力動作は座標変換の下で不変であるため、入力出力動作は影響を受けない(したがって、コントローラの実現はシステムのクローズドループ性能を変化させない)。 しかし、各ベースコントローラの実現には異なるセンサーの組み合わせが必要になるかもしれない。 この目的のために,FDIの攻撃影響を解析し定量化しつつ,線形行列不等式(LMI)を解くことにより,FDI攻撃の影響を最小限に抑えるセンサの最適組み合わせを得る。 シミュレーション研究を通じて、本手法は、検知方式に頼らず、全てのシステム特性を維持せずに、協調運転の堅牢性を高めることを実証する。

To enhance the robustness of cooperative driving to cyberattacks, we study a controller-oriented approach to mitigate the effect of a class of False-Data Injection (FDI) attacks. By reformulating a given dynamic Cooperative Adaptive Cruise Control (CACC) scheme (the base controller), we recognize that the base controller can be represented by a class of new but equivalent controllers (base controller realizations) that exhibits the same platooning behavior with varying robustness in the presence of attacks. We propose a prescriptive synthesis framework where the base controller and the system dynamics are written in new coordinates via an invertible coordinate transformation on the controller state. Because the input-output behavior is invariant under coordinate transformations, the input-output behavior is unaffected (so controller realizations do not change the system's closed-loop performance). However, each base controller realization may require a different combination of sensors. To this end, we obtain the optimal combination of sensors that minimizes the effect of FDI attacks by solving a Linear Matrix Inequality (LMI), while quantifying the FDI's attack impact through reachability analysis. Through simulation studies, we demonstrate that this approach enhances the robustness of cooperative driving, without relying on a detection scheme and maintaining all system properties.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# マルチヘッドアテンションに基づく深層多元学習

Multi-head Attention-based Deep Multiple Instance Learning ( http://arxiv.org/abs/2404.05362v1 )

ライセンス: Link先を確認
Hassan Keshvarikhojasteh, Josien Pluim, Mitko Veta, (参考訳) 本稿では,マルチヘッド・アテンションに基づく深層多元学習モデルであるMAD-MILについて紹介する。 トランスフォーマーのマルチヘッドアテンション機構にインスパイアされたMAD-MILは、CLAMやDS-MILといった先進的なモデルと競合しながら、モデルの複雑さを単純化する。 MNIST-BAGSとTUPAC16, TCGA BRCA, TCGA LUNG, TCGA KIDNEYなどの公開データセットで評価され、MAD-MILは一貫してABMILを上回っている。 これにより、スライド表現における情報多様性、解釈可能性、効率性が向上する。 このモデルの有効性は、トレーニング可能なパラメータを少なくし、計算の複雑さを小さくすることで、自動病理ワークフローにとって有望なソリューションとなる。 私たちのコードはhttps://github.com/tueimage/MAD-MILで利用可能です。

This paper introduces MAD-MIL, a Multi-head Attention-based Deep Multiple Instance Learning model, designed for weakly supervised Whole Slide Images (WSIs) classification in digital pathology. Inspired by the multi-head attention mechanism of the Transformer, MAD-MIL simplifies model complexity while achieving competitive results against advanced models like CLAM and DS-MIL. Evaluated on the MNIST-BAGS and public datasets, including TUPAC16, TCGA BRCA, TCGA LUNG, and TCGA KIDNEY, MAD-MIL consistently outperforms ABMIL. This demonstrates enhanced information diversity, interpretability, and efficiency in slide representation. The model's effectiveness, coupled with fewer trainable parameters and lower computational complexity makes it a promising solution for automated pathology workflows. Our code is available at https://github.com/tueimage/MAD-MIL.
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# 欠落したデータセットに対するパラメータフリークラスタリングアルゴリズム

A parameter-free clustering algorithm for missing datasets ( http://arxiv.org/abs/2404.05363v1 )

ライセンス: Link先を確認
Qi Li, Xianjun Zeng, Shuliang Wang, Wenhao Zhu, Shijie Ruan, Zhimeng Yuan, (参考訳) ある種のオブジェクトが特定の次元に値を持たないようなデータセットの欠如は、現実世界でよく見られる。 欠落したデータセットに対する既存のクラスタリングアルゴリズムは、まず欠落した値を暗示し、次にクラスタリングを実行する。 しかし、計算とクラスタリングの両方のプロセスは入力パラメータを必要とする。 入力パラメータが多すぎると、正確なクラスタリング結果を得るのが困難になる。 いくつかの研究では、決定グラフはクラスタリングアルゴリズムの入力パラメータを置き換えることができるが、現在の決定グラフはオブジェクト間で等価な次元を必要とするため、欠落したデータセットには適さないことが示されている。 そこで本研究では,SDCという単一次元クラスタリングアルゴリズムを提案する。 SDCは、インプットパラメータなしで、欠落したデータセット上で有効なクラスタリング結果が得られるように、インプット処理を除去し、ディメンテーションと分割交叉融合を分割することで、欠落したデータセットに決定グラフを適用する。 3つの評価指標において、SDCはベースラインアルゴリズムを少なくとも13.7%(NMI)、23.8%(ARI)、8.1%(Purity)で上回っている。

Missing datasets, in which some objects have missing values in certain dimensions, are prevalent in the Real-world. Existing clustering algorithms for missing datasets first impute the missing values and then perform clustering. However, both the imputation and clustering processes require input parameters. Too many input parameters inevitably increase the difficulty of obtaining accurate clustering results. Although some studies have shown that decision graphs can replace the input parameters of clustering algorithms, current decision graphs require equivalent dimensions among objects and are therefore not suitable for missing datasets. To this end, we propose a Single-Dimensional Clustering algorithm, i.e., SDC. SDC, which removes the imputation process and adapts the decision graph to the missing datasets by splitting dimension and partition intersection fusion, can obtain valid clustering results on the missing datasets without input parameters. Experiments demonstrate that, across three evaluation metrics, SDC outperforms baseline algorithms by at least 13.7%(NMI), 23.8%(ARI), and 8.1%(Purity).
翻訳日:2024-04-09 14:54:22 公開日:2024-04-08
# インディネイティブラテンアメリカの言語におけるNLPの進歩

NLP Progress in Indigenous Latin American Languages ( http://arxiv.org/abs/2404.05365v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Fazlourrahman Balouchzahi, Sabur Butt, Olga Kolesnikova, Hector Ceballos, Alexander Gelbukh, Thamar Solorio, (参考訳) この論文は、急速な技術進歩に直面した先住民コミュニティの限界化に焦点を当てている。 我々は、これらの言語の文化的豊かさと、自然言語処理(NLP)の領域で見落とされがちなリスクを強調した。 我々はこれらのコミュニティと研究者のギャップを埋めることを目指しており、先住民のコミュニティ観を尊重する包括的技術進歩の必要性を強調している。 我々は、ラテンアメリカ先住民言語のNLPの進展と、ラテンアメリカ先住民言語の地位、NLPにおける表現、その保存と発展に必要な課題と革新について調査する。 この論文は、ラテンアメリカの先住民コミュニティ、特に低資源・先住民コミュニティにおけるNLPの必要性と進歩を理解する上での現在の文献に貢献する。

The paper focuses on the marginalization of indigenous language communities in the face of rapid technological advancements. We highlight the cultural richness of these languages and the risk they face of being overlooked in the realm of Natural Language Processing (NLP). We aim to bridge the gap between these communities and researchers, emphasizing the need for inclusive technological advancements that respect indigenous community perspectives. We show the NLP progress of indigenous Latin American languages and the survey that covers the status of indigenous languages in Latin America, their representation in NLP, and the challenges and innovations required for their preservation and development. The paper contributes to the current literature in understanding the need and progress of NLP for indigenous communities of Latin America, specifically low-resource and indigenous communities in general.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# CDAD-Net: 汎用カテゴリディスカバリにおけるブリッジングドメインギャップ

CDAD-Net: Bridging Domain Gaps in Generalized Category Discovery ( http://arxiv.org/abs/2404.05366v1 )

ライセンス: Link先を確認
Sai Bhargav Rongali, Sarthak Mehrotra, Ankit Jha, Mohamad Hassan N C, Shirsha Bose, Tanisha Gupta, Mainak Singha, Biplab Banerjee, (参考訳) Generalized Category Discovery (GCD)では、既知のクラスと新しいクラスのラベルのないサンプルをクラスタ化し、既知のクラスのトレーニングデータセットを活用する。 これらのデータセット間のドメインシフトによって、健全な課題が発生します。 そこで我々は,Across Domain Generalized Category Discovery (AD-GCD) とCDAD-NET (Class Discoverer Across Domains) の2つを紹介した。 CDAD-NETは、ラベル付き(ソース)データセットとラベルなし(ターゲット)データセットの両方で、潜在的な既知のクラスサンプルを同期するように設計されており、ターゲットデータの明確な分類を強調している。 これを容易にするために,本研究では,ソースドメインクラスプロトタイプと比較して,対象サンプルの距離分布を考慮したエントロピー駆動型対角学習戦略を提案する。 同様に、共有空間の差別的性質は、3つの計量学習目標の融合によって支持される。 ソースドメインでは,サンプルと関連するクラスプロトタイプ間の近接性の改善に重点を置いているが,対象ドメインでは,近接性に富んだ近接性学習手法が組み込まれている。 意味的に整合した画像間のニュアンス的特徴相互関係をさらに強調するため、条件付き画像のインペイントの概念を擁護し、意味的に類似した画像がそれらの解離した画像よりもタスクに有効であることを前提にしている。 実験により、CDAD-NETは既存の文献を8~15%上回り、AD-GCDベンチマークを3つのベンチマークで比較した。

In Generalized Category Discovery (GCD), we cluster unlabeled samples of known and novel classes, leveraging a training dataset of known classes. A salient challenge arises due to domain shifts between these datasets. To address this, we present a novel setting: Across Domain Generalized Category Discovery (AD-GCD) and bring forth CDAD-NET (Class Discoverer Across Domains) as a remedy. CDAD-NET is architected to synchronize potential known class samples across both the labeled (source) and unlabeled (target) datasets, while emphasizing the distinct categorization of the target data. To facilitate this, we propose an entropy-driven adversarial learning strategy that accounts for the distance distributions of target samples relative to source-domain class prototypes. Parallelly, the discriminative nature of the shared space is upheld through a fusion of three metric learning objectives. In the source domain, our focus is on refining the proximity between samples and their affiliated class prototypes, while in the target domain, we integrate a neighborhood-centric contrastive learning mechanism, enriched with an adept neighborsmining approach. To further accentuate the nuanced feature interrelation among semantically aligned images, we champion the concept of conditional image inpainting, underscoring the premise that semantically analogous images prove more efficacious to the task than their disjointed counterparts. Experimentally, CDAD-NET eclipses existing literature with a performance increment of 8-15% on three AD-GCD benchmarks we present.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# ハードウェア対応ディープニューラルネットワーク加速器における量子化とマッピングシナジーの探索

Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators ( http://arxiv.org/abs/2404.05368v1 )

ライセンス: Link先を確認
Jan Klhufek, Miroslav Safar, Vojtech Mrazek, Zdenek Vasicek, Lukas Sekanina, (参考訳) CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは、重量量子化戦略(データタイプとビット幅)やマッピング(アクセラレータのハードウェアユニット上のDNN初等演算の配置とスケジューリング)など、多くの要因に依存する。 実装中にリッチな混合量子化方式を有効にすることで、ハードウェアリソースをより効果的に活用する以前に隠れていたマッピングの空間を開放できることを示す。 量子化重みとアクティベーションと適切なマッピングを利用するCNNは、慎重に最適化されていないCNN実装と比較して、精度、エネルギ、メモリ要求間のトレードオフを著しく改善することができる。 これらのマッピングを見つけ、分析し、活用するには、 (i)現在利用できない混合量子化をサポートするため,汎用的最先端マッピングツール(Timeloop)を拡張した。 2) 加速器上で実行される各DNN層に対して最適なビット幅とマッピングを求めるための効率的な多目的最適化アルゴリズムを提案する。 三 提案手法を検証するための詳細な実験的評価を行う。 2つのCNN (MobileNetV1 と MobileNetV2) と2つのアクセラレータ (Eyeriss と Simba) では、与えられた品質指標 (ImageNet の精度など) に対して、エネルギーの節約は精度低下なしに最大37% であることを示す。

Energy efficiency and memory footprint of a convolutional neural network (CNN) implemented on a CNN inference accelerator depend on many factors, including a weight quantization strategy (i.e., data types and bit-widths) and mapping (i.e., placement and scheduling of DNN elementary operations on hardware units of the accelerator). We show that enabling rich mixed quantization schemes during the implementation can open a previously hidden space of mappings that utilize the hardware resources more effectively. CNNs utilizing quantized weights and activations and suitable mappings can significantly improve trade-offs among the accuracy, energy, and memory requirements compared to less carefully optimized CNN implementations. To find, analyze, and exploit these mappings, we: (i) extend a general-purpose state-of-the-art mapping tool (Timeloop) to support mixed quantization, which is not currently available; (ii) propose an efficient multi-objective optimization algorithm to find the most suitable bit-widths and mapping for each DNN layer executed on the accelerator; and (iii) conduct a detailed experimental evaluation to validate the proposed method. On two CNNs (MobileNetV1 and MobileNetV2) and two accelerators (Eyeriss and Simba) we show that for a given quality metric (such as the accuracy on ImageNet), energy savings are up to 37% without any accuracy drop.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# AI安全性を目指して - AIシステム評価のための分類学

Towards AI Safety: A Taxonomy for AI System Evaluation ( http://arxiv.org/abs/2404.05388v1 )

ライセンス: Link先を確認
Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, (参考訳) 高度なAIの出現は、包括的安全性評価の必要性を前面に浮かび上がらせる。 しかし、異なるコミュニティ(AI、ソフトウェアエンジニアリング、ガバナンスなど)にまたがる異なる実践と用語は、AIシステムと環境余裕(ツールへのアクセスなど)の複雑さと相まって、総合的な評価アプローチを要求している。 本稿では,3つのコンポーネントからなる総合的なAIシステム評価フレームワークを提案する。 1)AI安全評価に関わる分野間のコミュニケーションを促進するための調和した用語 2)AIシステム評価に不可欠な要素を特定する分類 3) 説明可能なAIサプライチェーンに対するAIライフサイクル、利害関係者、必要な評価のマッピング。 このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。

The advent of advanced AI brings to the forefront the need for comprehensive safety evaluation. However, divergent practices and terminologies across different communities (i.e., AI, software engineering, and governance), combined with the complexity of AI systems and environmental affordances (e.g., access to tools), call for a holistic evaluation approach. This paper proposes a framework for comprehensive AI system evaluation comprising three components: 1) harmonised terminology to facilitate communication across disciplines involved in AI safety evaluation; 2) a taxonomy identifying essential elements for AI system evaluation; 3) a mapping between AI lifecycle, stakeholders, and requisite evaluations for accountable AI supply chain. This framework catalyses a deeper discourse on AI system evaluation beyond model-centric approaches.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# T-DEED:スポーツビデオにおける精密イベントスポッティングのための時間識別エンコーダデコーダ

T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos ( http://arxiv.org/abs/2404.05392v1 )

ライセンス: Link先を確認
Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés, (参考訳) 本稿では,スポーツビデオにおける精密イベントスポッティングのためのテンポラル識別エンハンサエンコーダ・デコーダであるT-DEEDを紹介する。 T-DEEDは、フレーム表現間の識別可能性の必要性、予測精度を維持するための高出力時間分解能、様々な時間スケールで情報をキャプチャして様々なダイナミックなイベントを扱う必要性など、タスクにおける複数の課題に対処する。 複数の時間スケールを活用して高出力の時間分解能を実現するエンコーダデコーダと、トークン識別性を高めるために設計された時間モジュールを備える。 これらの特徴を活用して、T-DEEDはFinalSkatingおよびFineDivingデータセット上でSOTAのパフォーマンスを達成する。

In this paper, we introduce T-DEED, a Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in sports videos. T-DEED addresses multiple challenges in the task, including the need for discriminability among frame representations, high output temporal resolution to maintain prediction precision, and the necessity to capture information at different temporal scales to handle events with varying dynamics. It tackles these challenges through its specifically designed architecture, featuring an encoder-decoder for leveraging multiple temporal scales and achieving high output temporal resolution, along with temporal modules designed to increase token discriminability. Leveraging these characteristics, T-DEED achieves SOTA performance on the FigureSkating and FineDiving datasets.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# SoK: フェデレートラーニングにおけるグラディエントリーク

SoK: Gradient Leakage in Federated Learning ( http://arxiv.org/abs/2404.05403v1 )

ライセンス: Link先を確認
Jiacheng Du, Jiahui Hu, Zhibo Wang, Peng Sun, Neil Zhenqiang Gong, Kui Ren, (参考訳) フェデレートラーニング(FL)は、生のデータ露出なしに複数のクライアント間で協調的なモデルトレーニングを可能にする。 しかし、最近の研究では、クライアントのプライベートトレーニングデータをFLで共有する勾配から再構成できることが示されている。 GIA は 'emph{ideal settings' と '助仮定' の下で有効性を示したが、 'emph{practical FL system' に対する実際の有効性は未解明のままである。 このギャップに対処するため,本研究におけるGIAの包括的研究を行っている。 まず、その進化を辿るマイルストーンを確立し、その固有の脅威を明らかにするための体系化を開発するGIAの調査から始めます。 具体的には、既存のGIAが使用した補助仮定を、潜在的な敵に対する現実的なアクセシビリティに基づいて分類する。 より深い分析を容易にするために,実用的なFLシステムにおいてGIAが直面する課題を,3つの視点から強調する: \textit{local training}, \textit{model}, \textit{post-processing}。 次に、8つのデータセットと13のモデルを用いて、さまざまな設定で最先端のGIAの広範な理論的および実証的な評価を行う。 本研究は,実地訓練環境下でのデータ再構成において,GIAに固有の限界があることを示唆するものである。 さらに、それらの効果は訓練されたモデルに敏感であり、勾配に適用した単純な後処理も効果的な防御である。 本研究は,実用FLシステムにおけるGAAの限られた有効性に関する重要な知見を提供する。 事前の誤解を是正することで、この問題についてより正確で現実的な調査を刺激したいと思っています。

Federated learning (FL) enables collaborative model training among multiple clients without raw data exposure. However, recent studies have shown that clients' private training data can be reconstructed from the gradients they share in FL, known as gradient inversion attacks (GIAs). While GIAs have demonstrated effectiveness under \emph{ideal settings and auxiliary assumptions}, their actual efficacy against \emph{practical FL systems} remains under-explored. To address this gap, we conduct a comprehensive study on GIAs in this work. We start with a survey of GIAs that establishes a milestone to trace their evolution and develops a systematization to uncover their inherent threats. Specifically, we categorize the auxiliary assumptions used by existing GIAs based on their practical accessibility to potential adversaries. To facilitate deeper analysis, we highlight the challenges that GIAs face in practical FL systems from three perspectives: \textit{local training}, \textit{model}, and \textit{post-processing}. We then perform extensive theoretical and empirical evaluations of state-of-the-art GIAs across diverse settings, utilizing eight datasets and thirteen models. Our findings indicate that GIAs have inherent limitations when reconstructing data under practical local training settings. Furthermore, their efficacy is sensitive to the trained model, and even simple post-processing measures applied to gradients can be effective defenses. Overall, our work provides crucial insights into the limited effectiveness of GIAs in practical FL systems. By rectifying prior misconceptions, we hope to inspire more accurate and realistic investigations on this topic.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# 言語モデルの物理:その3. 知識キャパシティスケーリング法

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws ( http://arxiv.org/abs/2404.05405v1 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu, Yuanzhi Li, (参考訳) スケーリング法則は、言語モデルのサイズと能力の関係を記述している。 損失やベンチマークによるモデルの能力を評価する以前の研究とは異なり、モデルストアの知識ビットの数を推定する。 我々は、ウィキペディアのページから(米国、首都ワシントンD.C.)タプルとして表される事実知識に焦点を当てる。 複数の制御されたデータセットを通じて、int8に量子化されても言語モデルではパラメータ毎に2ビットの知識を格納することができ、ダウンストリームアプリケーションに対して柔軟にそのような知識を抽出できることを確立した。 その結果、7Bモデルでは14Bビットの知識を格納することができ、我々の推定に基づいて英語のウィキペディアと教科書を上回ります。 さらに,(1)トレーニング期間,(2)モデルアーキテクチャ,(3)量子化,(4)MoEなどの空間的制約,(5)データ信号-雑音比がモデルの知識記憶能力にどのように影響するかを示す。 GPT-2アーキテクチャは、ロータリー埋め込み、マッチ、さらには知識記憶におけるLLaMA/ミストラルアーキテクチャを超越する。 LLaMA/MistralはGatedMLPを使用しており、これは安定性が低く、訓練が難しいためである。 ※ドメイン名(wikipedia.orgなど)によるトレーニングデータの事前適用は、モデルの知識能力を大幅に向上させる。 言語モデルは、知識に富んだドメインを自律的に識別し、優先順位付けし、ストレージ容量を最適化することができる。

Scaling laws describe the relationship between the size of language models and their capabilities. Unlike prior studies that evaluate a model's capability via loss or benchmarks, we estimate the number of knowledge bits a model stores. We focus on factual knowledge represented as tuples, such as (USA, capital, Washington D.C.) from a Wikipedia page. Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications. Consequently, a 7B model can store 14B bits of knowledge, surpassing the English Wikipedia and textbooks combined based on our estimation. More broadly, we present 12 results on how (1) training duration, (2) model architecture, (3) quantization, (4) sparsity constraints such as MoE, and (5) data signal-to-noise ratio affect a model's knowledge storage capacity. Notable insights include: * The GPT-2 architecture, with rotary embedding, matches or even surpasses LLaMA/Mistral architectures in knowledge storage, particularly over shorter training durations. This arises because LLaMA/Mistral uses GatedMLP, which is less stable and harder to train. * Prepending training data with domain names (e.g., wikipedia.org) significantly increases a model's knowledge capacity. Language models can autonomously identify and prioritize domains rich in knowledge, optimizing their storage capacity.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# 光コヒーレンス・トモグラフィー画像のコントラスト画像から画像への変換のための解剖学的条件付け

Anatomical Conditioning for Contrastive Unpaired Image-to-Image Translation of Optical Coherence Tomography Images ( http://arxiv.org/abs/2404.05409v1 )

ライセンス: Link先を確認
Marc S. Seibel, Hristina Uzunova, Timo Kepp, Heinz Handels, (参考訳) 異なるモダリティからの医用画像の統一解析には,画像から画像への変換(I2I)を用いたデータ調和化が望まれる。 本稿では,光コヒーレンストモグラフィー(OCT)を用いたSpectralis-OCT画像とHome-OCT画像のデータセットについて検討する。 I2I翻訳は、画像が損なわれず、両領域間の情報差のため、単射マッピングが存在しないため、困難である。 この問題は、Contrastive Learning for Unpaired I2I Translation (CUT) アプローチによって解決されている。 セグメンテーション・デコーダを付加し,セグメンテーション・デコーダを用いてセグメンテーション・デコーダを復元する。 提案手法は,スタイル変換された画像とターゲット分布との類似性を高める。 重要なことは、教師なし領域適応シナリオにおいて、Home-OCT画像におけるバイオマーカーのセグメンテーションを改善することである。 我々のデータ調和アプローチは, OCT の異なるデバイスを用いて, 年齢関連黄斑病などの疾患のモニタリングに有用である。

For a unified analysis of medical images from different modalities, data harmonization using image-to-image (I2I) translation is desired. We study this problem employing an optical coherence tomography (OCT) data set of Spectralis-OCT and Home-OCT images. I2I translation is challenging because the images are unpaired, and a bijective mapping does not exist due to the information discrepancy between both domains. This problem has been addressed by the Contrastive Learning for Unpaired I2I Translation (CUT) approach, but it reduces semantic consistency. To restore the semantic consistency, we support the style decoder using an additional segmentation decoder. Our approach increases the similarity between the style-translated images and the target distribution. Importantly, we improve the segmentation of biomarkers in Home-OCT images in an unsupervised domain adaptation scenario. Our data harmonization approach provides potential for the monitoring of diseases, e.g., age related macular disease, using different OCT devices.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# L字型カダノフ・ベイム輪郭における量子不純物問題の解法

Solving quantum impurity problems on the L-shaped Kadanoff-Baym contour ( http://arxiv.org/abs/2404.05410v1 )

ライセンス: Link先を確認
Ruofan Chen, Chu Guo, (参考訳) 経路積分形式は、量子不純物問題に対する多くの強力な数値法の構築ブロックである。 しかし、既存の経路積分に基づく数値計算は想像時間または実時間軸でのみ行われており、L字型カダノフ・ベイム輪郭で定式化された最も一般的なシナリオは未探索のままである。 本研究では、最近開発されたグラスマン時間進化行列積演算子(GTEMPO)法を拡張し、カダノフ・バイム輪郭に直接量子不純物問題を解く。 得られた手法は数値的に正確であり、時間離散化誤差と行列積状態結合切断誤差という2つの数値誤差の出所しかなく、どちらもよく制御できる。 この手法の精度は、非相互作用の場合の正確な解と、単軌道アンダーソン不純物モデルに対する実時間および虚時間軸上の既存の計算に対して数値的に証明される。 提案手法は, 制御の少ない近似を用いる場合が多く, 動的平均場理論とその非平衡拡張における実時間不純物解法としても利用できる, 代替手法のベンチマークベースラインとして最適である。

The path integral formalism is the building block of many powerful numerical methods for quantum impurity problems. However, existing path integral based numerical calculations have only been performed in either the imaginary-time or the real-time axis, while the most generic scenario formulated on the L-shaped Kadanoff-Baym contour is left unexplored. In this work, we extended the recently developed Grassmann time-evolving matrix product operator (GTEMPO) method to solve quantum impurity problems directly on the Kadanoff-Baym contour. The resulting method is numerically exact, with only two sources of numerical errors, e.g., the time discretization error and the matrix product state bond truncation error, which can both be well controlled. The accuracy of this method is numerically demonstrated against exact solutions in the noninteracting case, and against existing calculations on the real- and imaginary-time axes for the single-orbital Anderson impurity model. Our method is a perfect benchmarking baseline for its alternatives which often employ less-controlled approximations, and can also be used as a real-time impurity solver in dynamical mean field theory and its non-equilibrium extension.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# テキスト生成における意味的ドリフトの研究

Know When To Stop: A Study of Semantic Drift in Text Generation ( http://arxiv.org/abs/2404.05411v1 )

ライセンス: Link先を確認
Ava Spataru, Eric Hambro, Elena Voita, Nicola Cancedda, (参考訳) 本研究は,現代のLCMがまず正しい事実を生成し,次に「漂流」し,後に誤った事実を生成する傾向があることを示す。 生成したテキスト中の正しい事実と誤事実の分離度を計測し,ウィキペディア形式の伝記を生成する際の仮説を確認するセマンティックドリフトスコアを開発した。 この誤生成パターンは、いつ生成を中止すべきかを知ることで、事実精度を向上させることができることを示している。 そこで我々は,いくつかの早期停止手法における情報量と事実精度のトレードオフを探り,大きなマージンで事実性を改善する。 さらに,意味的類似性による再ランク付けが,ベースラインや早期停止と組み合わせることで,これらの結果をさらに改善できることが示唆された。 最後に、モデルを適切な生成パスに戻すために外部APIを呼び出そうとしますが、肯定的な結果が得られません。 全体として、本手法は、事実精度、情報量、計算コストのトレードオフをバランスさせて、より信頼性の高い情報を生成するために、任意の長文テキスト生成に一般化し、適用することができる。

In this work, we explicitly show that modern LLMs tend to generate correct facts first, then "drift away" and generate incorrect facts later: this was occasionally observed but never properly measured. We develop a semantic drift score that measures the degree of separation between correct and incorrect facts in generated texts and confirm our hypothesis when generating Wikipedia-style biographies. This correct-then-incorrect generation pattern suggests that factual accuracy can be improved by knowing when to stop generation. Therefore, we explore the trade-off between information quantity and factual accuracy for several early stopping methods and manage to improve factuality by a large margin. We further show that reranking with semantic similarity can further improve these results, both compared to the baseline and when combined with early stopping. Finally, we try calling external API to bring the model back to the right generation path, but do not get positive results. Overall, our methods generalize and can be applied to any long-form text generation to produce more reliable information, by balancing trade-offs between factual accuracy, information quantity and computational cost.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# 2つのハンドは1つより優れている: ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド・ハンド

Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks ( http://arxiv.org/abs/2404.05414v1 )

ライセンス: Link先を確認
Maksym Ivashechkin, Oscar Mendez, Richard Bowden, (参考訳) 画像からの3次元ポーズ推定は文献からかなりの関心を集めており、新しい手法により全体の3次元精度が向上した。 現在の課題の1つは、自己閉塞と指の関節が推定に重大な問題を引き起こす、手動インタラクションに対処することである。 ノイズ推定の結果生じる手交叉を最小限に抑える物理的制約を適用した研究はほとんどない。 この研究は、手の体積を連続多様体として表す占有ネットワークを活用することで、手の交差に対処する。 これにより、手の中にある点の確率分布をモデル化することができる。 我々は、手動交差点の可能性を最小限に抑えるために交差点損失関数を設計した。 さらに,メッシュの複雑さの低減,基礎となる3次元骨格抽出,水密度など,多くの点でMANOモデルよりも優れた新しいハンドメッシュパラメータ化を提案する。 ベンチマークのInterHand2.6Mデータセットでは, 交差損失を用いてトレーニングしたモデルは, 接点当たりの平均位置誤差を下げつつ手交点数を著しく減少させることにより, 最先端技術よりも優れた結果が得られる。 さらに,Re:InterHand と SMILE の3次元ハンドアップにおける優れた性能を示し,手話ポーズ推定のような複雑なドメインのハンド・ツー・ハンドの交叉を減らしたことを示す。

3D hand pose estimation from images has seen considerable interest from the literature, with new methods improving overall 3D accuracy. One current challenge is to address hand-to-hand interaction where self-occlusions and finger articulation pose a significant problem to estimation. Little work has applied physical constraints that minimize the hand intersections that occur as a result of noisy estimation. This work addresses the intersection of hands by exploiting an occupancy network that represents the hand's volume as a continuous manifold. This allows us to model the probability distribution of points being inside a hand. We designed an intersection loss function to minimize the likelihood of hand-to-point intersections. Moreover, we propose a new hand mesh parameterization that is superior to the commonly used MANO model in many respects including lower mesh complexity, underlying 3D skeleton extraction, watertightness, etc. On the benchmark InterHand2.6M dataset, the models trained using our intersection loss achieve better results than the state-of-the-art by significantly decreasing the number of hand intersections while lowering the mean per-joint positional error. Additionally, we demonstrate superior performance for 3D hand uplift on Re:InterHand and SMILE datasets and show reduced hand-to-hand intersections for complex domains such as sign-language pose estimation.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# インデクシング分析のインスタンス化: ダッシュボードの統合はデザイン教育をいかにサポートするか

Indexing Analytics to Instances: How Integrating a Dashboard can Support Design Education ( http://arxiv.org/abs/2404.05417v1 )

ライセンス: Link先を確認
Ajit Jain, Andruid Kerne, Nic Lupfer, Gabriel Britain, Aaron Perrine, Yoonsuck Choe, John Keyser, Ruihong Huang, Jinsil Seo, Annie Sungkajun, Robert Lightfoot, Timothy McGuire, (参考訳) デザイン教育を支援するためにAIベースの分析を利用する方法について検討する。 その分析は、学生が視覚的に、概念的にデザインワークを組織化するために、空間とスケールを使用するためのマルチスケールデザインを測定する。 インストラクターに理解しやすくすることを目的として、デザイン分析ダッシュボードとデザインインスタンスを統合した研究成果物と、学生がそれを作成するために使用するデザイン環境を開発した。 我々は,S suchmanの相互の知性の概念が,人間に対する分析の仕組みに関する知見を得るために,どのようにAIを文脈的に調査する必要があるのかを理論的に論じる。 研究成果は,5分野,3部門で検討した。 学生数は236人。 それらの学生に教えた9人のインストラクターは、新しい研究成果を通じて分析を行った。 本研究は,インストラクターへのインタビューの質的分析から得られた知見である。 インストラクタは、分析とダッシュボードでのプレゼンテーションがどのようにデザイン教育に影響を与える可能性があるかを反映している。 1) ダッシュボードにおけるデザイン分析を実際のデザインワークインスタンスにインデクシングすることで、インストラクターが意味を反映し、より広い範囲において、AIベースのデザイン分析がコースコンテキストにおけるインストラクターのアセスメントとフィードバック経験をサポートする技術、(2) マルチスケールデザイン分析、特にデザイン教育を支援する可能性を持つ技術である。 インデクシングによって、コンテキストを提供するリンクを意味します。ここでは、分析の数を視覚的にアノテートされたデザインワークインスタンスに接続します。

We investigate how to use AI-based analytics to support design education. The analytics at hand measure multiscale design, that is, students' use of space and scale to visually and conceptually organize their design work. With the goal of making the analytics intelligible to instructors, we developed a research artifact integrating a design analytics dashboard with design instances, and the design environment that students use to create them. We theorize about how Suchman's notion of mutual intelligibility requires contextualized investigation of AI in order to develop findings about how analytics work for people. We studied the research artifact in 5 situated course contexts, in 3 departments. A total of 236 students used the multiscale design environment. The 9 instructors who taught those students experienced the analytics via the new research artifact. We derive findings from a qualitative analysis of interviews with instructors regarding their experiences. Instructors reflected on how the analytics and their presentation in the dashboard have the potential to affect design education. We develop research implications addressing: (1) how indexing design analytics in the dashboard to actual design work instances helps design instructors reflect on what they mean and, more broadly, is a technique for how AI-based design analytics can support instructors' assessment and feedback experiences in situated course contexts; and (2) how multiscale design analytics, in particular, have the potential to support design education. By indexing, we mean linking which provides context, here connecting the numbers of the analytics with visually annotated design work instances.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# 自律走行経路計画のための残差連鎖予測

Residual Chain Prediction for Autonomous Driving Path Planning ( http://arxiv.org/abs/2404.05423v1 )

ライセンス: Link先を確認
Liguo Zhou, Yirui Zhou, Huaming Liu, Alois Knoll, (参考訳) 自律運転システムの急速に発展する分野において、経路計画アルゴリズムの洗練は、特に複雑な都市シナリオにおいて、動的環境を通って車両をナビゲートするための最重要課題である。 静的なルールや手動で定義されたパラメータに強く依存する従来のパス計画アルゴリズムは、このようなコンテキストでは不足することが多く、より適応的で学習ベースのアプローチの必要性を強調している。 これらのうち、行動のクローン化は、そのシンプルさと効率性、特にエンドツーエンドの経路計画の領域で注目すべき戦略として現れます。 しかし、行動クローニングは、伝統的なマンハッタン距離をメートル法として利用する場合の共変量シフトのような課題に直面している。 そこで本研究では,Residual Chain Lossという新しい概念を紹介した。 残余連鎖損失は損失計算過程を動的に調整し、予測された経路点の時間依存性と精度を高め、計算オーバーヘッドを伴わずにモデルの性能を大幅に改善する。 nuScenesデータセットのテストを通じて、共変量シフトへの対処、ダイナミックな損失調整の容易化、エンドツーエンドのパス計画フレームワークとのシームレスな統合の確保において、メソッドの大幅な進歩を強調します。 我々の発見は、自動運転車の計画コンポーネントに革命をもたらすために、Residual Chain Lossの可能性を浮き彫りにしている。

In the rapidly evolving field of autonomous driving systems, the refinement of path planning algorithms is paramount for navigating vehicles through dynamic environments, particularly in complex urban scenarios. Traditional path planning algorithms, which are heavily reliant on static rules and manually defined parameters, often fall short in such contexts, highlighting the need for more adaptive, learning-based approaches. Among these, behavior cloning emerges as a noteworthy strategy for its simplicity and efficiency, especially within the realm of end-to-end path planning. However, behavior cloning faces challenges, such as covariate shift when employing traditional Manhattan distance as the metric. Addressing this, our study introduces the novel concept of Residual Chain Loss. Residual Chain Loss dynamically adjusts the loss calculation process to enhance the temporal dependency and accuracy of predicted path points, significantly improving the model's performance without additional computational overhead. Through testing on the nuScenes dataset, we underscore the method's substantial advancements in addressing covariate shift, facilitating dynamic loss adjustments, and ensuring seamless integration with end-to-end path planning frameworks. Our findings highlight the potential of Residual Chain Loss to revolutionize planning component of autonomous driving systems, marking a significant step forward in the quest for level 5 autonomous driving system.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# オッドとは何か?統計モデル検査の基礎を改良する

What Are the Odds? Improving the foundations of Statistical Model Checking ( http://arxiv.org/abs/2404.05424v1 )

ライセンス: Link先を確認
Tobias Meggendorfer, Maximilian Weininger, Patrick Wienhöft, (参考訳) マルコフ決定プロセス(MDP)は不確実性の下での意思決定の基本的なモデルである。 非決定論的選択と確率論的不確実性を示す。 従来、検証アルゴリズムは、MDPの振る舞いを管理する確率の正確な知識を前提としていた。 この仮定はしばしば非現実的であるため、統計モデル検査(SMC)は過去20年間に開発された。 MDPを未知の遷移確率で分析し、その結果についてほぼ正しい(PAC)保証を提供する。 モデルベースのSMCアルゴリズムは、MDPをサンプリングし、すべての遷移確率を推定してモデルを構築する。 我々は,これらの手法の基本的な改良点として,濃度不等式を改善するための統計文献を調査し,その一方で,MDPの知識を生かした専門的アプローチを提案する。 我々の改善は、主に設定から独立しているため、多くの種類の問題ステートメントに適用できる。 さらに, 実験結果から, SMCアルゴリズムが収集しなければならないサンプルの数を最大2桁まで削減できることがわかった。

Markov decision processes (MDPs) are a fundamental model for decision making under uncertainty. They exhibit non-deterministic choice as well as probabilistic uncertainty. Traditionally, verification algorithms assume exact knowledge of the probabilities that govern the behaviour of an MDP. As this assumption is often unrealistic in practice, statistical model checking (SMC) was developed in the past two decades. It allows to analyse MDPs with unknown transition probabilities and provide probably approximately correct (PAC) guarantees on the result. Model-based SMC algorithms sample the MDP and build a model of it by estimating all transition probabilities, essentially for every transition answering the question: ``What are the odds?'' However, so far the statistical methods employed by the state of the art SMC algorithms are quite naive. Our contribution are several fundamental improvements to those methods: On the one hand, we survey statistics literature for better concentration inequalities; on the other hand, we propose specialised approaches that exploit our knowledge of the MDP. Our improvements are generally applicable to many kinds of problem statements because they are largely independent of the setting. Moreover, our experimental evaluation shows that they lead to significant gains, reducing the number of samples that the SMC algorithm has to collect by up to two orders of magnitude.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# 政府プロジェクトにおける要件緩和--予備的実証研究

Requirements Elicitation in Government Projects: A Preliminary Empirical Study ( http://arxiv.org/abs/2404.05425v1 )

ライセンス: Link先を確認
Anqi Ren, Lin Liu, Yi Wang, Xiao Liu, Hailong Wang, Kaijia Xu, Xishuo Zhang, Chetan Arora, (参考訳) 政府開発計画は、範囲、利害関係者の複雑さ、規制要件の民間セクターイニシアチブと大きく異なる。 政府プロジェクトに特化した要求工学(RE)活動に焦点を当てた実証的研究が欠如している。 私たちは、政府のプロジェクトに取り組んでいる12人のプロのソフトウェア実践者との、一連の半構造化されたインタビューを通じて、このギャップに対処しました。 これらのインタビュアーは、それぞれ異なる政府機関に勤務する2つのタイプの会社によって雇用されている。 この結果から,特にデータ可視化の面での政府プロジェクトと,利害関係者や政策要件といった他のソフトウェアプロジェクトとの要件適用フェーズの違いが明らかになった。 さらに,要求の誘引,文化,チームダイナミクス,政策含意などにおける人的・社会的側面の包括性についても検討する。 また,政府プロジェクトにおける要件適用段階で直面する主な課題も指摘した。 本研究は,政府ソフトウェアプロジェクトにおけるRE活動のギャップを埋める上で重要な今後の研究課題を浮き彫りにするものである。

Government development projects vary significantly from private sector initiatives in scope, stakeholder complexity, and regulatory requirements. There is a lack of empirical studies focusing on requirements engineering (RE) activities specifically for government projects. We addressed this gap by conducting a series of semi-structured interviews with 12 professional software practitioners working on government projects. These interviewees are employed by two types of companies, each serving different government departments. Our findings uncover differences in the requirements elicitation phase between government projects, particularly for data visualization aspects, and other software projects, such as stakeholders and policy requirements. Additionally, we explore the coverage of human and social aspects in requirements elicitation, finding that culture, team dynamics, and policy implications are critical considerations. Our findings also pinpoint the main challenges encountered during the requirements elicitation phase for government projects. Our findings highlight future research work that is important to bridge the gap in RE activities for government software projects.
翻訳日:2024-04-09 14:44:37 公開日:2024-04-08
# テスト時間ゼロショット時間行動定位

Test-Time Zero-Shot Temporal Action Localization ( http://arxiv.org/abs/2404.05426v1 )

ライセンス: Link先を確認
Benedetta Liberatori, Alessandro Conti, Paolo Rota, Yiming Wang, Elisa Ricci, (参考訳) Zero-Shot Temporal Action Localization (ZS-TAL)は、トレーニング中に見つからないビデオのアクションを特定し、見つけようとしている。 既存のZS-TAL法では、大量の注釈付きトレーニングデータに基づいてモデルを微調整する。 トレーニングベースのZS-TALアプローチでは、教師付き学習のためのラベル付きデータの可用性を前提としている。 さらに、トレーニングプロセスは学習モデルのドメインバイアスを自然に誘導し、任意のビデオに対するモデルの一般化能力に悪影響を及ぼす可能性がある。 これらの考察は、ZS-TAL問題に根本的に新しい視点からアプローチし、トレーニングデータの要求を緩和することを促す。 そこで本研究では,時間的行動局所化(T3AL)のためのテスト時間適応を行う新しい手法を提案する。 簡単に言えば、T3ALは事前訓練されたビジョン・アンド・ランゲージ・モデル(VLM)を適用する。 T3ALは3段階に分かれている。 まず、アクションカテゴリの動画レベル擬似ラベルを、ビデオ全体からの情報を集約して算出する。 そして、自己教師付き学習にインスパイアされた新しい手順を取り入れてアクションローカライゼーションを行う。 最後に、動作領域の提案を洗練するために、最先端キャプションモデルで抽出されたフレームレベルのテキスト記述を用いる。 THUMOS14とActivityNet-v1.3データセットの実験を行い,T3ALの有効性を検証する。 以上の結果から,T3ALは最先端のVLMに基づいてゼロショットベースラインを著しく上回り,テスト時間適応手法の利点が確認された。

Zero-Shot Temporal Action Localization (ZS-TAL) seeks to identify and locate actions in untrimmed videos unseen during training. Existing ZS-TAL methods involve fine-tuning a model on a large amount of annotated training data. While effective, training-based ZS-TAL approaches assume the availability of labeled data for supervised learning, which can be impractical in some applications. Furthermore, the training process naturally induces a domain bias into the learned model, which may adversely affect the model's generalization ability to arbitrary videos. These considerations prompt us to approach the ZS-TAL problem from a radically novel perspective, relaxing the requirement for training data. To this aim, we introduce a novel method that performs Test-Time adaptation for Temporal Action Localization (T3AL). In a nutshell, T3AL adapts a pre-trained Vision and Language Model (VLM). T3AL operates in three steps. First, a video-level pseudo-label of the action category is computed by aggregating information from the entire video. Then, action localization is performed adopting a novel procedure inspired by self-supervised learning. Finally, frame-level textual descriptions extracted with a state-of-the-art captioning model are employed for refining the action region proposals. We validate the effectiveness of T3AL by conducting experiments on the THUMOS14 and the ActivityNet-v1.3 datasets. Our results demonstrate that T3AL significantly outperforms zero-shot baselines based on state-of-the-art VLMs, confirming the benefit of a test-time adaptation approach.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# AutoCodeRover: 自律的なプログラム改善

AutoCodeRover: Autonomous Program Improvement ( http://arxiv.org/abs/2404.05427v1 )

ライセンス: Link先を確認
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury, (参考訳) 研究者たちはここ数十年、ソフトウェア開発プロセスの自動化に大きな進歩を遂げてきた。 問題要約、バグ再現、障害ローカライゼーション、プログラム修復のための自動テクニックが開発され、開発者の作業負荷が軽減された。 大規模言語モデル(LLM)の最近の進歩は、LLMベースのプログラミングアシスタントを使用して自動コーディングを実現する開発プロセスに大きな影響を与えている。 それでもソフトウェアエンジニアリングには、特にソフトウェアメンテナンス(バグを修正するためのプログラムの修正など)とソフトウェア進化(機能追加など)を可能にするために、コーディングとは別にプログラムの改善プロセスが含まれます。 本稿では,Githubの問題を自動で解決し,プログラムの改善を自律的に実現する手法を提案する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 AI研究者や実践者による最近のLLMエージェントアプローチとは対照的に、私たちの見通しはよりソフトウェア工学指向である。 我々は、ソフトウェアプロジェクトを単なるファイルの集合として見るのではなく、プログラム表現(抽象構文木)に取り組んでいる。 コード検索では、プログラム構造をクラス/メソッドの形で活用し、LLMの根本原因理解を強化し、反復探索によるコンテキストの検索を効果的に行う。 テストを用いたスペクトルベースのフォールトローカライゼーションは、コンテキストをさらに鋭くする。 最近提案されたSWE-bench-liteの実験では、バグ修正と機能追加を含む300の現実的なGithubの問題から、AIコミュニティの最近の取り組みと比較して、有効性(SWE-bench-liteの20%以上を解決)が向上している。 我々のワークフローは自律的なソフトウェアエンジニアリングを可能にし、将来、LLMから自動生成されたコードを自律的に改善できると仮定する。

Researchers have made significant progress in automating the software development process in the past decades. Automated techniques for issue summarization, bug reproduction, fault localization, and program repair have been built to ease the workload of developers. Recent progress in Large Language Models (LLMs) has significantly impacted the development process, where developers can use LLM-based programming assistants to achieve automated coding. Nevertheless software engineering involves the process of program improvement apart from coding, specifically to enable software maintenance (e.g. program repair to fix bugs) and software evolution (e.g. feature additions). In this paper, we propose an automated approach for solving Github issues to autonomously achieve program improvement. In our approach called AutoCodeRover, LLMs are combined with sophisticated code search capabilities, ultimately leading to a program modification or patch. In contrast to recent LLM agent approaches from AI researchers and practitioners, our outlook is more software engineering oriented. We work on a program representation (abstract syntax tree) as opposed to viewing a software project as a mere collection of files. Our code search exploits the program structure in the form of classes/methods to enhance LLM's understanding of the issue's root cause, and effectively retrieve a context via iterative search. The use of spectrum based fault localization using tests, further sharpens the context. Experiments on the recently proposed SWE-bench-lite which consists of 300 real-life Github issues involving bug fixing and feature additions show increased efficacy (resolving more than 20% on SWE-bench-lite), as compared to recent efforts from the AI community. We posit that our workflow enables autonomous software engineering, where, in future, auto-generated code from LLMs can be autonomously improved.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 食生活における言語モデル:追加事前学習による密接な関係言語のためのエンコーダの開発

Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining ( http://arxiv.org/abs/2404.05428v1 )

ライセンス: Link先を確認
Nikola Ljubešić, Vít Suchomel, Peter Rupnik, Taja Kuzman, Rik van Noord, (参考訳) 言語モデルの世界は乱暴な時代を経ており、さらに大きなモデルも前例のないスピードで登場している。 しかし、特に科学界では、最大10億個のパラメータのエンコーダモデルが依然として必要であり、その主な用途は、下流の研究に必要なメタデータで大量のデータを集めることであると論じている。 クロアチア語, セルビア語, ボスニア語, モンテネグロ語という, 非常に近縁な言語の集合にこのようなエンコーダモデルが存在することを保証する最善の方法は, これらの言語の多様なベンチマークを設定し, 既存の多言語モデルの事前学習を通じて構築された新しいモデルと比較することである。 限られた計算量であっても、利用可能な多言語モデルを事前学習することで、専用のin-scratchモデルに匹敵する性能が得られることを示す。 また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。

The world of language models is going through turbulent times, better and ever larger models are coming out at an unprecedented speed. However, we argue that, especially for the scientific community, encoder models of up to 1 billion parameters are still very much needed, their primary usage being in enriching large collections of data with metadata necessary for downstream research. We investigate the best way to ensure the existence of such encoder models on the set of very closely related languages - Croatian, Serbian, Bosnian and Montenegrin, by setting up a diverse benchmark for these languages, and comparing the trained-from-scratch models with the new models constructed via additional pretraining of existing multilingual models. We show that comparable performance to dedicated from-scratch models can be obtained by additionally pretraining available multilingual models even with a limited amount of computation. We also show that neighboring languages, in our case Slovenian, can be included in the additional pretraining with little to no loss in the performance of the final model.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# Eグラフを用いたMBA表現の簡易化

Simplifying MBA Expression Using E-Graphs ( http://arxiv.org/abs/2404.05431v1 )

ライセンス: Link先を確認
Seoksu Lee, Hyeongchang Jeon, Eun-Sun Cho, (参考訳) コードの難読化は、プログラムのリバースエンジニアを難しくするために、無意味なコードの追加や既存のコードの複雑さを伴う。 近年、MBA (Mixed Boolean Arithmetic) の難読化がウイルスやマルウェアのコードに適用され、専門家による分析を阻害している。 様々な難読化技術の中で、MBA(Mixed Boolean Arithmetic)難読化は、既存のコードの難読化技術を用いて解読するのが最も難しいと考えられている。 本稿では,MBA表現の簡略化を試みた。 我々は、電子グラフデータ構造を用いて、同じ意味論の複数の表現を効率的に保持し、用語を体系的に書き直し、より単純な表現を見つける。 予備的な実験結果から,我々の電子グラフに基づくMBA難読化手法は,他の手法よりも合理的な性能でより高速に機能することが示された。

Code obfuscation involves the addition of meaningless code or the complication of existing code in order to make a program difficult to reverse engineer. In recent years, MBA (Mixed Boolean Arithmetic) obfuscation has been applied to virus and malware code to impede expert analysis. Among the various obfuscation techniques, Mixed Boolean Arithmetic (MBA) obfuscation is considered the most challenging to decipher using existing code deobfuscation techniques. In this paper, we have attempted to simplify the MBA expression. We use an e-graph data structure to efficiently hold multiple expressions of the same semantics to systematically rewrite terms and find simpler expressions. The preliminary experimental result shows that our e-graph based MBA deobfuscation approach works faster with reasonable performance than other approaches do.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 量子位相空間上の三角形窓関数をもつ非断熱場

Nonadiabatic Field with Triangle Window Functions on Quantum Phase Space ( http://arxiv.org/abs/2404.05432v1 )

ライセンス: Link先を確認
Xin He, Xiangsong Cheng, Baihua Wu, Jian Liu, (参考訳) 有限状態量子系の制約座標-運動位相空間(CPS)の定式化は、最近、三角形ウィンドウ関数アプローチが、2状態系の正確な人口-人口相関関数の同型表現であることを明らかにした。 我々は、トライアングルウィンドウ(TW)関数とCPSマッピングカーネル要素を用いて、離散電子自由度(DOF)の新たな有用な表現を定式化する。 非断熱場(NaF)力学を用いる場合、NaFアプローチの新しい変種(NaF-TW)が提案される。 凝縮相とガス相の両方におけるモデルシステムの広範囲なベンチマークテストは、NaF-TWアプローチが電子と核のDOF間の動的相互作用を忠実に捉えていることを示している。 三角形ウィンドウ関数が最初に提案された対称準古典法(SQC)と比較して、漸近領域における原子運動の分岐特性が重要である場合、NaF-TWの性能は著しく向上する。

The constraint coordinate-momentum phase space (CPS) formulation of finite-state quantum systems has recently revealed that the triangle window function approach is an isomorphic representation of the exact population-population correlation function of the two-state system. We use the triangle window (TW) function and the CPS mapping kernel element to formulate a novel useful representation of discrete electronic degrees of freedom (DOFs). When it is employed with nonadiabatic field (NaF) dynamics, a new variant of the NaF approach (i.e., NaF-TW) is proposed. Extensive benchmark tests of model systems in both the condensed phase and gas phase demonstrate that the NaF-TW approach is competent in faithfully capturing the dynamical interplay between electronic and nuclear DOFs. In comparison to the symmetrical quasi-classical (SQC) method where triangle window functions were originally proposed, the performance of NaF-TW is significantly better when the bifurcation characteristic of nuclear motion in the asymptotic region is important.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# アクション条件付きビデオデータによる予測可能性の向上

Action-conditioned video data improves predictability ( http://arxiv.org/abs/2404.05439v1 )

ライセンス: Link先を確認
Meenakshi Sarkar, Debasish Ghose, (参考訳) 長期的なビデオ生成と予測は、特に移動プラットフォームにカメラを装着する部分的に観察可能なシナリオにおいて、コンピュータビジョンにおいて難しい課題である。 観察された画像フレームと記録剤の動きとの相互作用は、さらなる複雑さをもたらす。 これらの課題に対処するため、我々は、深層2重ジェネレータ・アクターアーキテクチャを用いて、アクションと生成された画像フレームの関係を調査する新しいアプローチである、Action-Conditioned Video Generation (ACVG)フレームワークを導入する。 ACVGはロボットの動作に規定された映像シーケンスを生成し、動的環境における視覚と行動が相互に与える影響の探索と分析を可能にする。 ACVGを他の最先端のフレームワークと比較した総合的な実証的研究を行い、詳細なアブレーション研究とともに、画像フレームのシーケンスとロボットエージェントのアクションのシーケンスからなる屋内ロボット動作データセットにおけるフレームワークの有効性を評価した。

Long-term video generation and prediction remain challenging tasks in computer vision, particularly in partially observable scenarios where cameras are mounted on moving platforms. The interaction between observed image frames and the motion of the recording agent introduces additional complexities. To address these issues, we introduce the Action-Conditioned Video Generation (ACVG) framework, a novel approach that investigates the relationship between actions and generated image frames through a deep dual Generator-Actor architecture. ACVG generates video sequences conditioned on the actions of robots, enabling exploration and analysis of how vision and action mutually influence one another in dynamic environments. We evaluate the framework's effectiveness on an indoor robot motion dataset which consists of sequences of image frames along with the sequences of actions taken by the robotic agent, conducting a comprehensive empirical study comparing ACVG to other state-of-the-art frameworks along with a detailed ablation study.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 確率的実行遅延下における木探索に基づく政策最適化

Tree Search-Based Policy Optimization under Stochastic Execution Delay ( http://arxiv.org/abs/2404.05440v1 )

ライセンス: Link先を確認
David Valensi, Esther Derman, Shie Mannor, Gal Dalal, (参考訳) マルコフ決定プロセス(MDP)の標準的な定式化は、エージェントの決定が直ちに実行されると仮定する。 しかし、ロボット工学や医療といった現実的な多くの応用において、その価値が確率的であるような遅延によって行動が実行される。 本研究では,確率的遅延実行 MDP を導入する。これは,状態の増大に頼らずにランダムな遅延に対処する新しい形式である。 観測された遅延値が与えられた場合、最適性能に到達するためにマルコフポリシーのクラスでポリシー探索を行うことで、決定論的固定遅延ケースを拡張できることが示される。 この知見に則り、マルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。 DEZはモンテカルロ木探索を非遅延の変種であるEfficientZeroと同様に利用し、アクションキューから将来の状態を正確に推測する。 これにより、EfficientZeroのサンプル効率を保ちながら、遅延実行を処理する。 Atari スイートの一連の実験を通して、前回のベースラインは、一定の遅延を伴うシナリオにおいて、ネーブ法よりも優れているが、確率的遅延に直面した場合、性能が劣ることを示した。 対照的に、我々の手法は、定常遅延と確率遅延の両方において、ベースラインを著しく上回る。 コードはhttp://github.com/davidva1/delayed-EZ で公開されている。

The standard formulation of Markov decision processes (MDPs) assumes that the agent's decisions are executed immediately. However, in numerous realistic applications such as robotics or healthcare, actions are performed with a delay whose value can even be stochastic. In this work, we introduce stochastic delayed execution MDPs, a new formalism addressing random delays without resorting to state augmentation. We show that given observed delay values, it is sufficient to perform a policy search in the class of Markov policies in order to reach optimal performance, thus extending the deterministic fixed delay case. Armed with this insight, we devise DEZ, a model-based algorithm that optimizes over the class of Markov policies. DEZ leverages Monte-Carlo tree search similar to its non-delayed variant EfficientZero to accurately infer future states from the action queue. Thus, it handles delayed execution while preserving the sample efficiency of EfficientZero. Through a series of experiments on the Atari suite, we demonstrate that although the previous baseline outperforms the naive method in scenarios with constant delay, it underperforms in the face of stochastic delays. In contrast, our approach significantly outperforms the baselines, for both constant and stochastic delays. The code is available at http://github.com/davidva1/Delayed-EZ .
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# ジェネレーティブAIによるアダプティブユーザエクスペリエンスのアンロック

Unlocking Adaptive User Experience with Generative AI ( http://arxiv.org/abs/2404.05442v1 )

ライセンス: Link先を確認
Yutan Huang, Tanjila Kanij, Anuradha Madugalla, Shruti Mahajan, Chetan Arora, John Grundy, (参考訳) 多様なユーザニーズに対応するユーザ中心のアプリケーションを開発するには、厳格なユーザ調査が必要です。 時間と労力と費用がかかります。 近年,Large Language Models (LLMs) に基づく生成AI技術の台頭により,これらの強力なツールが適応型インターフェースの開発に利用できる可能性が示唆された。 本稿では,ChatGPTを用いて特定のドメインに対するユーザペルソナと適応インタフェース候補を開発するための新しいアプローチを提案する。 我々はChatGPTと従来の手作業の両方を用いてユーザペルソナと適応インタフェースを開発し、これらの結果と比較する。 調査対象者37名と調査対象者4名のデータを,非営利団体と共同で収集した。 ChatGPT生成したコンテンツと手動コンテンツの比較は、適応インタフェース設計プロセスにおけるLCMの使用を奨励する有望な結果を示している。

Developing user-centred applications that address diverse user needs requires rigorous user research. This is time, effort and cost-consuming. With the recent rise of generative AI techniques based on Large Language Models (LLMs), there is a possibility that these powerful tools can be used to develop adaptive interfaces. This paper presents a novel approach to develop user personas and adaptive interface candidates for a specific domain using ChatGPT. We develop user personas and adaptive interfaces using both ChatGPT and a traditional manual process and compare these outcomes. To obtain data for the personas we collected data from 37 survey participants and 4 interviews in collaboration with a not-for-profit organisation. The comparison of ChatGPT generated content and manual content indicates promising results that encourage using LLMs in the adaptive interfaces design process.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 量子アニーラーの鎖の強度: すべてをセットするシンプルなヒューリスティック

Quantum Annealers Chain Strengths: A Simple Heuristic to Set Them All ( http://arxiv.org/abs/2404.05443v1 )

ライセンス: Link先を確認
Valentin Gilbert, Stéphane Louise, (参考訳) D-Waveシステムのような量子アニール(QA)は、組合せ最適化問題の解法において、より効率的かつ競争的になる。 しかし、チップトポロジを直接マップしない問題の解決は、この種の量子コンピュータでは依然として困難である。 相互接続された物理量子ビットの集合としての論理量子ビットの生成は、問題サイズの増大と最適化のための新しいパラメータの追加を犠牲にして、チップのスパーシリティによって課される制限を克服する。 本稿では,論理量子ビットの構造から得られる利点と欠点と,Isingモデルの最小スペクトルギャップに対するカプラ強度の再スケーリングの影響について考察する。 強磁性結合を維持するために、密結合された論理量子ビットはより低い鎖強度を必要とすることを示す。 また、同じインスタンスの異なる小さな埋め込みを考慮した最適鎖強度の変動も解析する。 この実験により, 各インスタンスにチェーン強度を最適化できることが示唆された。 我々は、前処理ステップで非常に少ないショット数を用いてチェーン強度を最適化するヒューリスティックを設計する。 このヒューリスティックな手法は、D-Waveシステムのチェーン強度の初期化に使用されるデフォルトの手法よりも優れており、最大カット問題におけるテストインスタンスに対して、最高の解の質を最大17.2%向上させる。

Quantum annealers (QA), such as D-Wave systems, become increasingly efficient and competitive at solving combinatorial optimization problems. However, solving problems that do not directly map the chip topology remains challenging for this type of quantum computer. The creation of logical qubits as sets of interconnected physical qubits overcomes limitations imposed by the sparsity of the chip at the expense of increasing the problem size and adding new parameters to optimize. This paper explores the advantages and drawbacks provided by the structure of the logical qubits and the impact of the rescaling of coupler strength on the minimum spectral gap of Ising models. We show that densely connected logical qubits require a lower chain strength to maintain the ferromagnetic coupling. We also analyze the optimal chain strength variations considering different minor embeddings of the same instance. This experimental study suggests that the chain strength can be optimized for each instance. We design a heuristic that optimizes the chain strength using a very low number of shots during the pre-processing step. This heuristic outperforms the default method used to initialize the chain strength on D-Wave systems, increasing the quality of the best solution by up to 17.2% for tested instances on the max-cut problem.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 最大近似推定を用いた凸正規化器の教師なし訓練

Unsupervised Training of Convex Regularizers using Maximum Likelihood Estimation ( http://arxiv.org/abs/2404.05445v1 )

ライセンス: Link先を確認
Hong Ye Tan, Ziruo Cai, Marcelo Pereyra, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Schönlieb, (参考訳) 教師なし学習(英語: Unsupervised learning)とは、逆画像問題などの真理データが利用できない状況における訓練手法である。 本稿では,2つのマルコフ連鎖推定法に基づいて,固定ノイズデータセットを用いて凸型ニューラルネットワーク正規化器を学習するための教師なしベイズ訓練手法を提案する。 従来の教師付き逆正則化手法と比較して、クリーンな画像と、無制限でノイズの多いコピーの両方へのアクセスが可能であり、自然画像のガウシアンデコンボリューションとポアソンデノーミングタスクに密接なパフォーマンスを示す。

Unsupervised learning is a training approach in the situation where ground truth data is unavailable, such as inverse imaging problems. We present an unsupervised Bayesian training approach to learning convex neural network regularizers using a fixed noisy dataset, based on a dual Markov chain estimation method. Compared to classical supervised adversarial regularization methods, where there is access to both clean images as well as unlimited to noisy copies, we demonstrate close performance on natural image Gaussian deconvolution and Poisson denoising tasks.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# XL$^2$Bench: 長距離依存による極長コンテキスト理解のためのベンチマーク

XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies ( http://arxiv.org/abs/2404.05446v1 )

ライセンス: Link先を確認
Xuanfan Ni, Hengyi Cai, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Piji Li, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。 最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 一方,LLMの長期的文脈理解研究を促進するために,テキスト長が長い高品質なベンチマークの構築や,包括的な評価を行うためのタスクの要求が極めて重要である。 しかし、以前のベンチマークでは、従来のタスクの入力を拡大することで、従来のLLMのコンテキストウィンドウサイズと互換性のある長いテキスト長を含む、長いテキスト理解の独特な特徴を示すために、明らかに長文理解に影響を及ぼすデータセットが作成されている。 本稿では,長距離依存による極端に長い文脈理解のためのベンチマーク,XL$^2$Bench,辞書読解,論文読解,法律読解の3つのシナリオ,複雑さを増大させる4つのタスク,メモリ検索,詳細な理解,網羅的理解,オープンエンドジェネレーションの4つを紹介し,27のサブタスクを英語と中国語でカバーする。 平均長は100K+(英語)と200K+(中国語)である。 XL$^2$Bench上の6つのLLMを評価したところ,その性能は人体よりも著しく遅れていることがわかった。 さらに、元のデータセットと強化データセットの両方で観測された性能低下は、データの汚染軽減へのアプローチの有効性を裏付けるものである。

Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks but are constrained by their small context window sizes. Various efforts have been proposed to expand the context window to accommodate even up to 200K input tokens. Meanwhile, building high-quality benchmarks with much longer text lengths and more demanding tasks to provide comprehensive evaluations is of immense practical interest to facilitate long context understanding research of LLMs. However, prior benchmarks create datasets that ostensibly cater to long-text comprehension by expanding the input of traditional tasks, which falls short to exhibit the unique characteristics of long-text understanding, including long dependency tasks and longer text length compatible with modern LLMs' context window size. In this paper, we introduce a benchmark for extremely long context understanding with long-range dependencies, XL$^2$Bench, which includes three scenarios: Fiction Reading, Paper Reading, and Law Reading, and four tasks of increasing complexity: Memory Retrieval, Detailed Understanding, Overall Understanding, and Open-ended Generation, covering 27 subtasks in English and Chinese. It has an average length of 100K+ words (English) and 200K+ characters (Chinese). Evaluating six leading LLMs on XL$^2$Bench, we find that their performance significantly lags behind human levels. Moreover, the observed decline in performance across both the original and enhanced datasets underscores the efficacy of our approach to mitigating data contamination.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 考古学的展望のためのPRISMA製品の焼成

Pansharpening of PRISMA products for archaeological prospection ( http://arxiv.org/abs/2404.05447v1 )

ライセンス: Link先を確認
Gregory Sech, Giulio Poggi, Marina Ljubenovic, Marco Fiorucci, Arianna Traviglia, (参考訳) 衛星プラットフォームから記録されたハイパースペクトルデータは、低空間解像度のため、しばしば地球考古学的な観測に不適である。 考古学的特徴を特定するための空中センサーによるハイパースペクトルデータの確立されたポテンシャルは、高い空間分解能を達成するためにハイパースペクトルデータを強化することへの関心を高めた。 この改良は地下の地質学的特徴に関連付けられた痕跡の検出に不可欠であり、衛星ハイパースペクトルの取得を考古学的な研究により適させることができる。 本研究は, パンシャーペン型PRISMA衛星製品の地球考古学探査における利用性を評価するものである。 3つのパンシャーピング法(GSA, MTF-GLP, HySure)を定量的・質的に比較し, アクイレイア(イタリア)の考古学的景観について検討した。 その結果, パンシャルペン法の適用により, 特定の条件下での高スペクトル衛星画像が, 小型・大型の地下考古学的特徴の同定に極めて適していることが示唆された。

Hyperspectral data recorded from satellite platforms are often ill-suited for geo-archaeological prospection due to low spatial resolution. The established potential of hyperspectral data from airborne sensors in identifying archaeological features has, on the other side, generated increased interest in enhancing hyperspectral data to achieve higher spatial resolution. This improvement is crucial for detecting traces linked to sub-surface geo-archaeological features and can make satellite hyperspectral acquisitions more suitable for archaeological research. This research assesses the usability of pansharpened PRISMA satellite products in geo-archaeological prospections. Three pan-sharpening methods (GSA, MTF-GLP and HySure) are compared quantitatively and qualitatively and tested over the archaeological landscape of Aquileia (Italy). The results suggest that the application of pansharpening techniques makes hyperspectral satellite imagery highly suitable, under certain conditions, to the identification of sub-surface archaeological features of small and large size.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 変分量子アルゴリズムにおけるトラベリングセールスパーソン問題の効率的な符号化

Efficient Encodings of the Travelling Salesperson Problem for Variational Quantum Algorithms ( http://arxiv.org/abs/2404.05448v1 )

ライセンス: Link先を確認
Manuel Schnaus, Lilly Palackal, Benedikt Poggel, Xiomara Runge, Hans Ehm, Jeanette Miriam Lorenz, Christian B. Mendl, (参考訳) ルーティング問題は、サプライチェーン計画において大規模に発生する産業アプリケーションにおける一般的な最適化問題である。 NPハード問題を解くための古典的な制限のため、量子コンピューティングは速度や解の質を改善することを望んでいる。 変分量子アルゴリズムでそれらを解くために、ルーティング問題を符号化するいくつかの提案がなされている。 しかし、エンドユーザーにとって、エンコーディングがニーズに応じて最適なソリューションを提供するという優先順位を決定することは困難である。 本研究では,トラベリングセールスパーソン問題に対する様々なエンコーディングについて検討する。 本稿では,量子近似最適化アルゴリズムと変分量子固有解器を用いた場合のスケーリングと性能を比較し,どの符号化を選択するかを明確にする。 小さいケースでは、置換符号化が実現可能性の問題に悩まされないため、良い結果が得られるという証拠が見つかる。

Routing problems are a common optimization problem in industrial applications, which occur on a large scale in supply chain planning. Due to classical limitations for solving NP-hard problems, quantum computing hopes to improve upon speed or solution quality. Several suggestions have been made for encodings of routing problems to solve them with variational quantum algorithms. However, for an end user it is hard to decide a priori which encoding will give the best solutions according to their needs. In this work, we investigate different encodings for the Travelling Salesperson Problem. We compare their scaling and performance when using the Quantum Approximate Optimization Algorithm and the Variational Quantum Eigensolver and provide a clear guide for users when to choose which encoding. For small instances, we find evidence that the permutation encoding can yield good results since it does not suffer from feasibility issues.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# RoT: 検索ツリーのリフレクションによる大規模言語モデルの強化

RoT: Enhancing Large Language Models with Reflection on Search Trees ( http://arxiv.org/abs/2404.05449v1 )

ライセンス: Link先を確認
Wenyang Hui, Yan Wang, Kewei Tu, Chengyue Jiang, (参考訳) 大規模言語モデル(LLM)は、木探索に基づくプロンプト手法と統合された場合、推論と計画において印象的な能力を示す。 しかし,これらの手法は過去の検索体験を無視するので,検索プロセスではしばしば同じ誤りを犯す。 この問題を解決するために,木探索によるプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)を導入する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本ガイドラインは, 木探索による課題解決の指針であり, 過去の探索プロセスにおいて, 弱いLLMが同様のミスを犯すのを防ぐ。 さらに我々は,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択手法を提案する。 広範囲にわたる実験の結果,RoT は様々な木探索手法(BFS や MCTS など)を用いた推論や計画作業において LLM の性能を著しく向上させることがわかった。 Chain-of-Thought(CoT)のような非ツリー検索ベースのプロンプト手法は、RoTが検索エクスペリエンスから収集したタスク固有の知識を提供することができるため、RoTガイドラインの恩恵を受けることができる。

Large language models (LLMs) have demonstrated impressive capability in reasoning and planning when integrated with tree-search-based prompting methods. However, since these methods ignore the previous search experiences, they often make the same mistakes in the search process. To address this issue, we introduce Reflection on search Trees (RoT), an LLM reflection framework designed to improve the performance of tree-search-based prompting methods. It uses a strong LLM to summarize guidelines from previous tree search experiences to enhance the ability of a weak LLM. The guidelines are instructions about solving this task through tree search which can prevent the weak LLMs from making similar mistakes in the past search process. In addition, we proposed a novel state selection method, which identifies the critical information from historical search processes to help RoT generate more specific and meaningful guidelines. In our extensive experiments, we find that RoT significantly improves the performance of LLMs in reasoning or planning tasks with various tree-search-based prompting methods (e.g., BFS and MCTS). Non-tree-search-based prompting methods such as Chain-of-Thought (CoT) can also benefit from RoT guidelines since RoT can provide task-specific knowledge collected from the search experience.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# Isabelle を用いた高次論理教育

Teaching Higher-Order Logic Using Isabelle ( http://arxiv.org/abs/2404.05458v1 )

ライセンス: Link先を確認
Simon Tobias Lund, Jørgen Villadsen, (参考訳) 本稿では,Isabelle/Pure を基盤として,Isabelle/Pure をベースとした高階論理の定式化を行い,可能な限り小型かつ可読性を実現した。 したがって、より複雑なIsabelle/HOLを重く自動化することなく、高階論理と証明アシスタントについて学ぼうとする人にとって、これは良い紹介となるはずです。 本研究の展開とアプローチを紹介するため,本論文では,高階論理の公理と規則を解説し,授業環境における教科教育の経験について論じる。

We present a formalization of higher-order logic in the Isabelle proof assistant, building directly on the foundational framework Isabelle/Pure and developed to be as small and readable as possible. It should therefore serve as a good introduction for someone looking into learning about higher-order logic and proof assistants, without having to study the much more complex Isabelle/HOL with heavier automation. To showcase our development and approach we explain a sample proof, describe the axioms and rules of our higher-order logic, and discuss our experience with teaching the subject in a classroom setting.
翻訳日:2024-04-09 14:34:53 公開日:2024-04-08
# 非一次量子セルオートマタを用いた密度分類

Density Classification with Non-Unitary Quantum Cellular Automata ( http://arxiv.org/abs/2404.05461v1 )

ライセンス: Link先を確認
Elisabeth Wagner, Federico Dell'Anna, Ramil Nigmatullin, Gavin K. Brennen, (参考訳) グローバル密度情報を局所密度にマッピングする計算である密度分類(DC)タスクを1次元の非単位量子セルオートマトン(QCA)を用いて検討した。 2つのアプローチが考えられる: 1つは数密度を保存するもので、もう1つは多数決を行うものである。 直流の場合、2つのQCAを導入し、システムサイズと2次スケーリングで固定点解に到達する。 QCAの1つは、DCの文脈で研究されている既知の古典的確率的セルオートマトンに基づいている。 第2のDC用QCAは、追加の量子的特徴を示すように設計された新しい量子モデルであり、二体相互作用に限られる。 どちらも連続時間リンドブラッドダイナミクスによって生成される。 第3のQCAは、離散時間3体相互作用によって定義されるハイブリッドルールであり、システムサイズと線形にスケールする時間内に多数決問題を解くことが示されている。

The density classification (DC) task, a computation which maps global density information to local density, is studied using one-dimensional non-unitary quantum cellular automata (QCAs). Two approaches are considered: one that preserves the number density and one that performs majority voting. For the DC, two QCAs are introduced that reach the fixed point solution in a time scaling quadratically with the system size. One of the QCAs is based on a known classical probabilistic cellular automaton which has been studied in the context of DC. The second QCA for DC is a new quantum model that is designed to demonstrate additional quantum features and is restricted to only two-body interactions. Both can be generated by continuous-time Lindblad dynamics. A third QCA is a hybrid rule defined by discrete-time three-body interactions that is shown to solve the majority voting problem within a time that scales linearly with the system size.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# HAMMR: 汎用VQAのための階層型マルチモーダルReactエージェント

HAMMR: HierArchical MultiModal React agents for generic VQA ( http://arxiv.org/abs/2404.05465v1 )

ライセンス: Link先を確認
Lluis Castrejon, Thomas Mensink, Howard Zhou, Vittorio Ferrari, Andre Araujo, Jasper Uijlings, (参考訳) 大規模言語モデル(LLMs)と外部専用ツール(LLMs+tools)を組み合わせることは、視覚質問応答(VQA)のようなマルチモーダルタスクを解決するための最近のパラダイムである。 このアプローチは個々のベンチマークに対して最適化され評価された時にうまく機能することが実証されたが、現実には、次世代の現実世界のAIシステムが幅広いマルチモーダル問題に対処することが不可欠である。 したがって、統一的な視点からVQA問題を提起し、カウント、空間的推論、OCRに基づく推論、視覚的ポインティング、外部知識などを含む様々なVQAタスクのスイート上で単一のシステムを評価する。 そこで本研究では,LLM+tools アプローチを汎用的に適用することで,全てのツールの組み合わせが不十分な結果をもたらすことを実証する。 これはHAMMR: HierArchical MultiModal Reactの導入を動機付けています。 マルチモーダルなReActベースのシステムから始まり、HAMMRエージェントが他の特殊なエージェントを呼び出せるようにすることで、階層的にします。 これにより LLM+tools アプローチの合成性が向上し, 汎用VQA の精度向上に寄与することが示唆された。 具体的には、我々の一般的なVQAスイートでは、HAMMRは単純LLM+ツールのアプローチを19.5%上回っている。 さらに、HAMMRは、このタスクにおける最先端の結果を達成し、一般的なスタンドアロンのPaLI-X VQAモデルを5.0%上回った。

Combining Large Language Models (LLMs) with external specialized tools (LLMs+tools) is a recent paradigm to solve multimodal tasks such as Visual Question Answering (VQA). While this approach was demonstrated to work well when optimized and evaluated for each individual benchmark, in practice it is crucial for the next generation of real-world AI systems to handle a broad range of multimodal problems. Therefore we pose the VQA problem from a unified perspective and evaluate a single system on a varied suite of VQA tasks including counting, spatial reasoning, OCR-based reasoning, visual pointing, external knowledge, and more. In this setting, we demonstrate that naively applying the LLM+tools approach using the combined set of all tools leads to poor results. This motivates us to introduce HAMMR: HierArchical MultiModal React. We start from a multimodal ReAct-based system and make it hierarchical by enabling our HAMMR agents to call upon other specialized agents. This enhances the compositionality of the LLM+tools approach, which we show to be critical for obtaining high accuracy on generic VQA. Concretely, on our generic VQA suite, HAMMR outperforms the naive LLM+tools approach by 19.5%. Additionally, HAMMR achieves state-of-the-art results on this task, outperforming the generic standalone PaLI-X VQA model by 5.0%.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# マルチスケールビデオとマルチエンコーダによる唇読解の強化

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder ( http://arxiv.org/abs/2404.05466v1 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Xucheng Wan, Huan Zhou, Lei Xie, (参考訳) 自動唇読解(ALR)は、ビデオで捉えた話者の無声唇の動きから音声コンテンツを自動転写することを目的としている。 現在の主流のリップリーダーアプローチでは、単一スケールの入力ビデオをモデル化するために単一のビジュアルエンコーダしか使用していない。 本稿では,マルチスケールビデオデータとマルチエンコーダを組み込むことにより,リリーディングの強化を提案する。 具体的には、まず、話者の顔の大きさに基づく新しいマルチスケール唇抽出アルゴリズムと、異なるスケールで唇の特徴を抽出する強化されたResNet3D視覚フロントエンド(VFE)を提案する。 マルチエンコーダでは、メインストリームの Transformer と Conformer に加えて、最近提案された Branchformer と EBranchformer をビジュアルエンコーダとして組み込む。 実験では、異なるビデオデータスケールとエンコーダがALRシステムの性能に与える影響について検討し、認識器出力投票誤り低減(ROVER)を用いて全ALRシステムで書き起こされたテキストを融合させる。 最後に,提案手法はICME 2024 ChatCLR Challenge Task 2で2位となり,文字誤り率(CER)が21.52%低下した。

Automatic lip-reading (ALR) aims to automatically transcribe spoken content from a speaker's silent lip motion captured in video. Current mainstream lip-reading approaches only use a single visual encoder to model input videos of a single scale. In this paper, we propose to enhance lipreading by incorporating multi-scale video data and multi-encoder. Specifically, we first propose a novel multi-scale lip extraction algorithm based on the size of the speaker's face and an enhanced ResNet3D visual front-end (VFE) to extract lip features at different scales. For the multi-encoder, in addition to the mainstream Transformer and Conformer, we also incorporate the recently proposed Branchformer and EBranchformer as visual encoders. In the experiments, we explore the influence of different video data scales and encoders on ALR system performance and fuse the texts transcribed by all ALR systems using recognizer output voting error reduction (ROVER). Finally, our proposed approach placed second in the ICME 2024 ChatCLR Challenge Task 2, with a 21.52% reduction in character error rate (CER) compared to the official baseline on the evaluation set.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 線形イジングペナルティ関数を用いた顧客データ科学のための量子最適化

Quantum optimization with linear Ising penalty functions for customer data science ( http://arxiv.org/abs/2404.05467v1 )

ライセンス: Link先を確認
Puya Mirkarimi, Ishaan Shukla, David C. Hoyle, Ross Williams, Nicholas Chancellor, (参考訳) 量子アニーリング(QA)や量子近似最適化アルゴリズム(QAOA)といった量子アルゴリズムによって、業界で広く使われている制約付き組合せ最適化問題を解くことができる。 これらの量子アルゴリズムでは、制約は典型的には2次ペナルティ関数で実装される。 このペナルティ法は大きなエネルギースケールを導入し、相互作用グラフをより密にすることができる。 これらの効果は、特にスパースなハードウェアグラフやその他の物理的制限を持つ短期的なデバイスにおいて、量子最適化の性能を悪化させる可能性がある。 本研究では,Isingモデルの局所場に適用される線形Isingペナルティ関数を,より効率的な物理資源利用のための制約の実装方法として検討する。 顧客データサイエンス問題に対する量子最適化の文脈におけるペナルティ手法の挙動について検討する。 我々の理論解析とQAとQAOAの数値シミュレーションは、このペナルティ法が二次法よりも量子最適化における優れた性能をもたらすことを示唆している。 しかし、線形イジングペナルティ法は、常に所望の制約を正しく実装できないため、すべての問題に適していない。 線形法がすべての制約を実装するのに成功しない場合、二次法と線形法の両方を包含するスキームが有効であることを示す。

Constrained combinatorial optimization problems, which are ubiquitous in industry, can be solved by quantum algorithms such as quantum annealing (QA) and the quantum approximate optimization algorithm (QAOA). In these quantum algorithms, constraints are typically implemented with quadratic penalty functions. This penalty method can introduce large energy scales and make interaction graphs much more dense. These effects can result in worse performance of quantum optimization, particularly on near-term devices that have sparse hardware graphs and other physical limitations. In this work, we consider linear Ising penalty functions, which are applied with local fields in the Ising model, as an alternative method for implementing constraints that makes more efficient use of physical resources. We study the behaviour of the penalty method in the context of quantum optimization for customer data science problems. Our theoretical analysis and numerical simulations of QA and the QAOA indicate that this penalty method can lead to better performance in quantum optimization than the quadratic method. However, the linear Ising penalty method is not suitable for all problems as it cannot always exactly implement the desired constraint. In cases where the linear method is not successful in implementing all constraints, we propose that schemes involving both quadratic and linear Ising penalties can be effective.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# Mind-to- Image: Projecting Visual Mental Imagination of the Brain from fMRI

Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI ( http://arxiv.org/abs/2404.05468v1 )

ライセンス: Link先を確認
Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord, (参考訳) 視覚刺激によって収集されたfMRIデータから被験者が観察した画像の再構成は、広範囲なfMRIデータセットが利用可能となり、画像生成のための生成モデルの進歩により、過去10年間に大きな進歩を遂げてきた。 しかし、視覚再建の応用はいまだに限られている。 視覚的想像力の再構築は、障害を持つ個人を支援することから、法廷での証人口座の検証まで、潜在的に革命的な応用によって大きな課題を呈する。 この分野での主なハードルは、視覚画像のためのデータ収集プロトコルの欠如と、対象とするデータセットの欠如である。 伝統的に、fMRI-to-imageは、視覚刺激にさらされた被験者から収集されたデータに依存しており、視覚刺激と視覚刺激の脳活動の違いに基づいて視覚画像を生成する問題を引き起こす。 提案したデータ収集プロトコルとともに、視覚画像に関するかなりのデータセット(約6hのスキャン)を初めてコンパイルした。 次に、fMRI-to-imageモデルの修正版をトレーニングし、メモリと純粋なイマジネーションの2つのモードからイメージを再構築する可能性を示す。 これは、視覚画像の直接再構成を可能にする技術を構築するための重要なステップである。

The reconstruction of images observed by subjects from fMRI data collected during visual stimuli has made significant strides in the past decade, thanks to the availability of extensive fMRI datasets and advancements in generative models for image generation. However, the application of visual reconstruction has remained limited. Reconstructing visual imagination presents a greater challenge, with potentially revolutionary applications ranging from aiding individuals with disabilities to verifying witness accounts in court. The primary hurdles in this field are the absence of data collection protocols for visual imagery and the lack of datasets on the subject. Traditionally, fMRI-to-image relies on data collected from subjects exposed to visual stimuli, which poses issues for generating visual imagery based on the difference of brain activity between visual stimulation and visual imagery. For the first time, we have compiled a substantial dataset (around 6h of scans) on visual imagery along with a proposed data collection protocol. We then train a modified version of an fMRI-to-image model and demonstrate the feasibility of reconstructing images from two modes of imagination: from memory and from pure imagination. This marks an important step towards creating a technology that allow direct reconstruction of visual imagery.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 相互作用するボソンのクエンチダイナミクス--一般化されたコヒーレント状態と多モードグラウバー状態

Quench dynamics of interacting bosons: generalized coherent states versus multi-mode Glauber states ( http://arxiv.org/abs/2404.05471v1 )

ライセンス: Link先を確認
Yulong Qiao, Frank Grossmann, (参考訳) 多モードグラウバーコヒーレント状態 (MMGS) や、一般コヒーレント状態 (GCS) の特別な場合である準モメンタムを持つブロッホ状態 (Bloch state) は、ボゾン多体系の凝縮相を記述するためにしばしば用いられる。 MMGSとGCSの2点相関器の差は熱力学的限界で消える。 MMGSにおけるGCSの確立された拡張を用いて、2つの異なる時間進化状態の(自己相関関数の間のフーリエ型関係を導出する。 この関係は、MMGSのU(1)対称性が欠如していることから、2つのケースの(自己)相関と、したがって2つのケースの動的自由エネルギー密度が熱力学的極限においてもまだ異なることを示している。 相互作用するボソンの深い格子モデルの解析結果から, 増大する複雑性の動的自由エネルギー密度において, 複数の鋭い構造が示される。 これらは位相空間におけるフシミ函数の進化を用いて説明される。

Multi-mode Glauber coherent states (MMGS) as well as Bloch states with zero quasi-momentum, which are a special case of generalized coherent states (GCS), are frequently used to describe condensed phases of bosonic many-body systems. The difference of two-point correlators of MMGS and GCS vanishes in the thermodynamic limit. Using the established expansion of GCS in terms of MMGS, we derive a Fourier-type relation between the (auto-)correlation functions of the two different time-evolved states. This relation reveals that the (auto-)correlation and thus the dynamical free energy density for the two cases are still different, even in the thermodynamic limit, due to the lack of the U(1) symmetry of the MMGS. Analytic results for the deep lattice model of interacting bosons for increasing filling factors show multiple sharp structures in the dynamical free energy-density of increasing complexity. These are explained using the evolution of Husimi functions in phase space.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 摂動と最も急激なエントロピー上昇が絡み合いの時間進化に及ぼす影響のモデル化

Modeling the effects of perturbations and steepest entropy ascent on the time evolution of entanglement ( http://arxiv.org/abs/2404.05473v1 )

ライセンス: Link先を確認
Cesar Damian, Robert Holladay, Adriana Saldana, Michael von Spakovsky, (参考訳) この研究は、急激なエントロピーを持つ量子熱力学(SEAQT)の運動方程式、リンドブラッド方程式、および絡み合いの損失の様々な尺度を用いて、摂動ベル対角状態の進化を解析する。 まず、ベル対角状態がSEAQT運動方程式に対する安定平衡状態ではない定常状態であることを示し、近くの状態の進化を研究する摂動法の開発の必要性を強調した短い導出を示す。 これは、ベル対角線状態のいくつかだけが定常であるリンドブラッド運動方程式とは対照的である。 次に2つの摂動法を示す。 第1は双極子系を摂動する一般的な方法であり、第2は系エネルギーと系エントロピー定数を保持するために制約された一元演算の集合に基づく方法である。 密度演算子の集合を各手法でランダムに生成し、その結果のシステムの絡み合いの時間変化特性を解析する。 その結果, 拘束摂動は非局所性の損失を正確に予測し, 測定されたコンカレンスとよく一致していることがわかった。

This work presents an analysis of the evolution of perturbed Bell diagonal states using the equation of motion of steepest-entropy-ascent quantum thermodynamics (SEAQT), the Lindblad equation, and various measures of loss of entanglement. First, a brief derivation is presented showing that Bell diagonal states are stationary states that are not stable equilibrium states relative to the SEAQT equation of motion, highlighting the need for the development of perturbation methods to study the evolutions of nearby states. This contrasts with the Lindblad equation of motion for which only some of the Bell diagonal states are stationary. Next, two perturbation methods are presented. The first is a general method for perturbing bipartite systems and the second is a method based on a set of unitary operations that are constrained to hold the system energy and system entropy constant. Sets of density operators are randomly generated with each method and the resulting time-varying characteristics of the system's entanglement are analyzed. The findings reveal that the constrained perturbation accurately predicts the loss of non-locality and aligns well with the measured concurrence.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 量子光によって制御される高調波放射における光子束

Photon bunching in high-harmonic emission controlled by quantum light ( http://arxiv.org/abs/2404.05474v1 )

ライセンス: Link先を確認
Samuel Lemieux, Sohail A. Jalil, David Purschke, Neda Boroumand, David Villeneuve, Andrei Naumov, Thomas Brabec, Giulio Vampa, (参考訳) アト秒分光法は、電子と光子を通して物質をプローブするいくつかの技術を含んでいる。 アト秒法の一つのフロンティアは、物質系、光子場などにおける量子力学的相関から生じる複雑な現象を明らかにすることである。 最近の理論は、量子光学特性が強い電界電離や量子光学場の電子の加速といった高磁場フォトニクスにどのように影響するか、そして相互作用中に場のモード間の絡み合いが生じるのかを理解するための基礎となる。 ここでは、強い場の非線形性を通して量子光学状態のいくつかの特性を伝達する新しい実験的アプローチを示す。 励起真空場を持つ半導体からの高調波放射を摂動することで、超ポアソニアン統計による高調波のサイドバンドの放射を生じさせ、放射された光子が束ねられていることを示す。 量子光学状態による強磁場力学の摂動は、極端紫外線や軟X線などの短波長でこれらの状態の生成をコヒーレントに制御する方法である。 量子相関は古典的な限界を超えてアト秒分光とイメージングを進めるのに役立ちます。

Attosecond spectroscopy comprises several techniques to probe matter through electrons and photons. One frontier of attosecond methods is to reveal complex phenomena arising from quantum-mechanical correlations in the matter system, in the photon fields and among them. Recent theories have laid the groundwork for understanding how quantum-optical properties affect high-field photonics, such as strong-field ionization and acceleration of electrons in quantum-optical fields, and how entanglement between the field modes arises during the interaction. Here we demonstrate a new experimental approach that transduces some properties of a quantum-optical state through a strong-field nonlinearity. We perturb high-harmonic emission from a semiconductor with a bright squeezed vacuum field resulting in the emission of sidebands of the high-harmonics with super-Poissonian statistics, indicating that the emitted photons are bunched. Our results suggest that perturbing strong-field dynamics with quantum-optical states is a viable way to coherently control the generation of these states at short wavelengths, such as extreme ultraviolet or soft X-rays. Quantum correlations will be instrumental to advance attosecond spectroscopy and imaging beyond the classical limits.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 線形イジングペナルティを用いた改良量子最適化の実験的検討

Experimental demonstration of improved quantum optimization with linear Ising penalties ( http://arxiv.org/abs/2404.05476v1 )

ライセンス: Link先を確認
Puya Mirkarimi, David C. Hoyle, Ross Williams, Nicholas Chancellor, (参考訳) 量子最適化における制約の符号化に対する標準的なアプローチは、二次ペナルティ法である。 二次ペナルティは、量子オプティマイザの性能に有害な追加の結合とエネルギースケールを導入している。 D-Waveアドバンテージ上で行われた量子アニール実験では、線形イジング項のみを含む代替ペナルティ法を検討し、それを顧客データサイエンス問題に適用する。 本研究は,より効率的な物理資源の利用により,2次ペナルティ法に比べて線形イジングペナルティ法は量子最適化の性能を向上させるべきであるという仮説を支持した。 線形イジングペナルティ法は、すべてのケースにおいて所望の制約を正確に実装することが保証されていないが、私たちが考慮しているほとんどの問題インスタンスに対して実施可能である。 多くの制約がある場合、すべての罰則を線形にすることは不可能であり、線形の罰則と二次の罰則を組み合わせ、線形の法則が不適な制約を満たす戦略を考察する。 この戦略は、動的範囲の制限に最も寄与する罰則が取り除かれた場合に最も効果的である。

The standard approach to encoding constraints in quantum optimization is the quadratic penalty method. Quadratic penalties introduce additional couplings and energy scales, which can be detrimental to the performance of a quantum optimizer. In quantum annealing experiments performed on a D-Wave Advantage, we explore an alternative penalty method that only involves linear Ising terms and apply it to a customer data science problem. Our findings support our hypothesis that the linear Ising penalty method should improve the performance of quantum optimization compared to using the quadratic penalty method due to its more efficient use of physical resources. Although the linear Ising penalty method is not guaranteed to exactly implement the desired constraint in all cases, it is able to do so for the majority of problem instances we consider. For problems with many constraints, where making all penalties linear is unlikely to be feasible, we investigate strategies for combining linear Ising penalties with quadratic penalties to satisfy constraints for which the linear method is not well-suited. We find that this strategy is most effective when the penalties that contribute most to limiting the dynamic range are removed.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# WaveCatBoostによる地域大気質データの確率予測

WaveCatBoost for Probabilistic Forecasting of Regional Air Quality Data ( http://arxiv.org/abs/2404.05482v1 )

ライセンス: Link先を確認
Jintu Borah, Tanujit Chakraborty, Md. Shahrul Md. Nadzir, Mylene G. Cayetano, Shubhankar Majumdar, (参考訳) 正確で信頼性の高い大気質予測は、公衆衛生、持続可能な開発、汚染対策、都市計画の強化に不可欠である。 本稿では,最大重なり合う離散ウェーブレット変換(MODWT)とCatBoostモデルを組み合わせることで,大気汚染物質のリアルタイム濃度を予測できる新しいWaveCatBoostアーキテクチャを提案する。 このハイブリッドアプローチは、時系列を高周波および低周波成分に効率よく変換し、ノイズから信号を抽出し、予測精度とロバスト性を向上させる。 CPCB(Central Air Pollution Control Board)センサネットワークとLAQS(Low-cost Air Quality Sensor System)の2つの異なる地域データセットの評価により,提案手法が最先端の統計的・ディープラーニングアーキテクチャと比較して,リアルタイム予測において優れた性能を示した。 さらに、確率的帯域に予測を与えるために、共形予測戦略を用いる。

Accurate and reliable air quality forecasting is essential for protecting public health, sustainable development, pollution control, and enhanced urban planning. This letter presents a novel WaveCatBoost architecture designed to forecast the real-time concentrations of air pollutants by combining the maximal overlapping discrete wavelet transform (MODWT) with the CatBoost model. This hybrid approach efficiently transforms time series into high-frequency and low-frequency components, thereby extracting signal from noise and improving prediction accuracy and robustness. Evaluation of two distinct regional datasets, from the Central Air Pollution Control Board (CPCB) sensor network and a low-cost air quality sensor system (LAQS), underscores the superior performance of our proposed methodology in real-time forecasting compared to the state-of-the-art statistical and deep learning architectures. Moreover, we employ a conformal prediction strategy to provide probabilistic bands with our forecasts.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 効率的な学習のためのタングルアンタングリングサイクル

Tangling-Untangling Cycle for Efficient Learning ( http://arxiv.org/abs/2404.05484v1 )

ライセンス: Link先を確認
Xin Li, (参考訳) 従来の多様体学習の知恵は、イソマップや局所線形埋め込み(LLE)のような非線形次元減少技術に基づいている。 我々は次元の祝福を生かしてこのパラダイムに挑戦する。 我々の直観は単純で、ホイットニー埋め込み定理によって保証されるように、高次元空間において低次元多様体をその広さのために解けるのは容易である。 この研究で得られた新たな洞察は、高次元空間の文脈変数としてクラスラベルを導入することである(教師なし学習は教師なし学習になる)。 我々は、多様体のアンタングリングが、持ち上げ空間において線型分離可能な分類器につながることを厳密に示している。 必然的なオーバーフィッティングを修正するために、一般化にとって重要な多様体のアンタングリング (unangling) あるいはエイリアスリング (aliasing) の双対過程を考える。 コンテキストを結合要素として用いることで、タングリング・タングリング・サイクル (TUC) として知られる一対の多様体のハングリングおよびタングリング作用素を構築する。 アンタングリング作用素は、文脈を隠れ変数として誘導することにより、低次元空間における文脈非依存表現(CIR)を高次元空間における文脈依存表現(CDR)にマッピングする。 接作用素は、不変性と一般化のための単純な積分変換により CDR を CIR に写像する。 また、カルト積とフラクタル幾何に基づくTUCの階層的拡張も提示する。 概念的単純さにもかかわらず、TUCは、PNG(Polychronization Neural Group)とSWC(Sleep-wake cycle)の時間同期行動に基づく生物学的に妥当でエネルギー効率のよい実装を認めている。 TUCに基づく理論は、海馬-大脳皮質系による様々な認知機能の計算モデルに適用される。

The conventional wisdom of manifold learning is based on nonlinear dimensionality reduction techniques such as IsoMAP and locally linear embedding (LLE). We challenge this paradigm by exploiting the blessing of dimensionality. Our intuition is simple: it is easier to untangle a low-dimensional manifold in a higher-dimensional space due to its vastness, as guaranteed by Whitney embedding theorem. A new insight brought by this work is to introduce class labels as the context variables in the lifted higher-dimensional space (so supervised learning becomes unsupervised learning). We rigorously show that manifold untangling leads to linearly separable classifiers in the lifted space. To correct the inevitable overfitting, we consider the dual process of manifold untangling -- tangling or aliasing -- which is important for generalization. Using context as the bonding element, we construct a pair of manifold untangling and tangling operators, known as tangling-untangling cycle (TUC). Untangling operator maps context-independent representations (CIR) in low-dimensional space to context-dependent representations (CDR) in high-dimensional space by inducing context as hidden variables. The tangling operator maps CDR back to CIR by a simple integral transformation for invariance and generalization. We also present the hierarchical extensions of TUC based on the Cartesian product and the fractal geometry. Despite the conceptual simplicity, TUC admits a biologically plausible and energy-efficient implementation based on the time-locking behavior of polychronization neural groups (PNG) and sleep-wake cycle (SWC). The TUC-based theory applies to the computational modeling of various cognitive functions by hippocampal-neocortical systems.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# GitHub開発者と活動に対する制裁の影響

The Impact of Sanctions on GitHub Developers and Activities ( http://arxiv.org/abs/2404.05489v1 )

ライセンス: Link先を確認
Youmei Fan, Ani Hovhannisyan, Hideaki Hata, Christoph Treude, Raula Gaikovina Kula, (参考訳) GitHubプラットフォームは、真のグローバルソフトウェアの作成を加速させ、世界中のさまざまな地理的領域の開発者からのコントリビューションを可能にした。 ソフトウェアがグローバルな政治や社会規制に結びつくにつれ、同様に政府の制裁の対象にもなっていく。 2019年、GitHubは特定の場所にいるユーザの特定のサービスへのアクセスを制限したが、2021年に一部のコミュニティ(イランのコミュニティなど)に制限をロールバックした。 我々は2008年から2022年にかけて,約156万のユーザプロファイルと4100万のアクティビティポイントを収集し,開発者の反応を把握し,大規模な実証的研究を行った。 以上の結果から,対象とする開発者の多くが制裁を回避できたことが示唆された。 さらに、制裁が解除されると、これらの開発者はプラットフォームへのコントリビューションを取り下げるのではなく、GitHubに戻すことを選択した。 この調査は、GitHubのようなプラットフォームが、オープンソースソフトウェアへのグローバルなコントリビューションを維持する上で重要な役割を果たしていることを示している。

The GitHub platform has fueled the creation of truly global software, enabling contributions from developers across various geographical regions of the world. As software becomes more entwined with global politics and social regulations, it becomes similarly subject to government sanctions. In 2019, GitHub restricted access to certain services for users in specific locations but rolled back these restrictions for some communities (e.g., the Iranian community) in 2021. We conducted a large-scale empirical study, collecting approximately 156 thousand user profiles and their 41 million activity points from 2008 to 2022, to understand the response of developers. Our results indicate that many of these targeted developers were able to navigate through the sanctions. Furthermore, once these sanctions were lifted, these developers opted to return to GitHub instead of withdrawing their contributions to the platform. The study indicates that platforms like GitHub play key roles in sustaining global contributions to Open Source Software.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 骨格前駆者との対人相互作用増強

Two-Person Interaction Augmentation with Skeleton Priors ( http://arxiv.org/abs/2404.05490v1 )

ライセンス: Link先を確認
Baiyi Li, Edmond S. L. Ho, Hubert P. H. Shum, He Wang, (参考訳) リッチコンタクトとの密接な継続的なインタラクションは、人間の活動(ハグ、ダンスなど)の重要な側面であり、アクティビティ認識、モーション予測、キャラクターアニメーションなど多くの領域に関心を持っている。 しかし,このような骨格運動の獲得は困難である。 直接モーションキャプチャーは高価で遅いが、トポロジカルおよび幾何学的制約を伴う複雑な接触パターンを保持する必要があるため、モーション編集/生成も簡単ではない。 そこで本研究では,両体間の重要な幾何学的・トポロジ的関係を保ちながら,身体の大きさや比率の異なる接触リッチな相互作用を生成できる,2体インタラクション運動増強のための新しい深層学習法を提案する。 我々のシステムは比較的少量のデータから効果的に学習でき、骨格サイズが大幅に異なるように一般化できる。 徹底的な評価と比較により、高品質な動きを生成でき、強力な一般化性を持ち、従来の最適化手法や代替ディープラーニングソリューションよりも優れていることを示す。

Close and continuous interaction with rich contacts is a crucial aspect of human activities (e.g. hugging, dancing) and of interest in many domains like activity recognition, motion prediction, character animation, etc. However, acquiring such skeletal motion is challenging. While direct motion capture is expensive and slow, motion editing/generation is also non-trivial, as complex contact patterns with topological and geometric constraints have to be retained. To this end, we propose a new deep learning method for two-body skeletal interaction motion augmentation, which can generate variations of contact-rich interactions with varying body sizes and proportions while retaining the key geometric/topological relations between two bodies. Our system can learn effectively from a relatively small amount of data and generalize to drastically different skeleton sizes. Through exhaustive evaluation and comparison, we show it can generate high-quality motions, has strong generalizability and outperforms traditional optimization-based methods and alternative deep learning solutions.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# ディクショニングワークショップ2023

Decisioning Workshop 2023 ( http://arxiv.org/abs/2404.05495v1 )

ライセンス: Link先を確認
Mario Lezoche, Sanabria Freddy Muñoz, Collazos Cesar, Torres Diego, Agredo Vanessa, Ruiz Pablo, Hurtado Julio, (参考訳) 知識社会では、知識という用語は組織の中核的な資源と見なされなければならない。 ですから、進歩と革新の媒体である以上、知識は最も重要なリソースの1つであり、決定するために必要なものなのです。 企業からの組織再編、特にアウトソーシングは、知識の損失を増大させ、知識の保持がそれらにとって不可欠なニーズとなる。 知識の共有度が低ければ,「コミュニケーションのブレークダウン」が参加者の言論を特徴付けるため,協調的な意思決定を行うのは難しいように思われる。 せいぜい、ステークホルダーは彼らの知識に応じて合意を見出さなければなりません。 知識を共有することは、その保持を保証し、この合意の構築を触媒する。 協調的な意思決定というビジョンは、意思決定プロセスの最初の部分である知性と設計の質を高めるだけでなく、選択の受け入れを高めることを目的としています。 インテリジェンスとデザインは複数の個人によって行われ、一緒に構築される。 決定された選択は共有される。 これにより、意思決定が構築されたモデルとみなすことができ、私たちにとって協調的な意思決定は、意思決定のパフォーマンスと受容性を改善するために社会技術メディアを使用することと見なされる。 共有意思決定は、多くの人間の活動の中核的な活動である。 例えば、持続可能な意思決定は、政府や機関だけでなく、より広い社会の業務である。 持続可能性の急激なニーズを認識し、持続可能な開発を実現するためには、意思決定戦略とみなす必要があると論じることができる。 協調的な意思決定の実現における知識の場所は、知識の共有が協調的な意思決定を改善するために、遠くから見なされなければならない:「静的な視点」は構造化され、「協調的な知識」を構成する必要がある。 「知識」は個人の意思決定において重要な役割を担い、協調的な意思決定には知識を共有する必要があると考える。 必要なのは、グループワークの性質をよりよく理解することだ。 知識を共有する必要があるが、どのように知識を共有するのか?

In a knowledge society, the term knowledge must be considered a core resource for organizations. So, beyond being a medium to progress and to innovate, knowledge is one of our most important resources: something necessary to decide.Organizations that are embracing knowledge retention activities are gaining a competitive advantage. Organizational rearrangements from companies, notably outsourcing, increase a possible loss of knowledge, making knowledge retention an essential need for them. When Knowledge is less shared, collaborative decision-making seems harder to obtain insofar as a ``communication breakdown'' characterizes participants' discourse. At best, stakeholders have to finda consensus according to their knowledge. Sharing knowledge ensures its retention and catalyzes the construction of this consensus. Our vision of collaborative decision-making aims not only at increasing the quality of the first parts of the decision-making process: intelligence and design, but also at increasing the acceptance of the choice. Intelligence and design will be done by more than one individual and constructed together; the decision is more easily accepted. The decided choice will then be shared. Thereby where decision-making could be seen as a constructed model, collaborative decision-making, for us,is seen as the use of socio-technical media to improve decision-making performance and acceptability. The shared decision making is a core activity in a lot of human activities. For example, the sustainable decision-making is the job of not only governments and institutions but also broader society. Recognizing the urgent need for sustainability, we can argue that to realize sustainable development, it must be considered as a decision-making strategy. The location of knowledge in the realization of collaborative decision-making has to be regarded insofar as knowledge sharing leads to improve collaborative decision-making: a ``static view'' has to be structured and constitutes the ``collaborative knowledge.'' Knowledge has an important role in individual decision-making, and we consider that for collaborative decision-making, knowledge has to be shared. What is required is a better understanding of the nature of group work''. Knowledge has to be shared, but how do we share knowledge?
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# コンピュータ可読コンテンツ生成のための大規模言語モデルの構築

Constraining Large Language Model for Generating Computer-Parsable Content ( http://arxiv.org/abs/2404.05499v1 )

ライセンス: Link先を確認
Jiaye Wang, (参考訳) 本研究では,特定の規則に忠実な構造化コンテンツを生成する際に,微調整なしでLLM(Large Language Models)をガイドする方法を提案する。 文脈自由文法(CFG)を用いてコルーチンに基づくコンテンツ生成制約を利用することにより、LLMはデコード中に指示され、形式言語に準拠する出力を生成する。 これにより、ターゲットデータ構造、型、命令を生成する際の安定性と一貫性が向上し、アプリケーション開発の複雑さが軽減される。 GPT-2 と Gemma の誤差率は、それぞれ 36 と 282 のトークンよりも長い DSL に対して 95% 以上である。 本稿では、コルーチンベースのDSL生成フレームワークであるYieldLangを紹介し、JSONやMermaidフローチャート生成など、さまざまなタスクでLLMで評価する。 LLMはJSONを効果的に生成するために、サンプルの16.5%しか必要としない。 これにより、コンピュータプログラムにおけるLLM生成コンテンツのユーザビリティが向上する。

We propose a method to guide Large Language Models (LLMs) in generating structured content adhering to specific conventions without fine-tuning. By utilizing coroutine-based content generation constraints through a pre-agreed context-free grammar (CFG), LLMs are directed during decoding to produce formal language compliant outputs. This enhances stability and consistency in generating target data structures, types, or instructions, reducing application development complexities. Experimentally, error rates of GPT-2 and Gemma exceed 95% for DSLs longer than 36 and 282 tokens, respectively. We introduce YieldLang, a coroutine-based DSL generation framework, and evaluate it with LLMs on various tasks including JSON and Mermaid flowchart generation. Compared to benchmarks, our approach improves accuracy by 1.09 to 11.6 times, with LLMs requiring only about 16.5% of the samples to generate JSON effectively. This enhances usability of LLM-generated content for computer programs.
翻訳日:2024-04-09 14:25:08 公開日:2024-04-08
# 眼科におけるデータサイエンス

Data Science In Olfaction ( http://arxiv.org/abs/2404.05501v1 )

ライセンス: Link先を確認
Vivek Agarwal, Joshua Harvey, Dmitry Rinberg, Vasant Dhar, (参考訳) ニューラルセンシング技術の進歩により、嗅覚過程を詳細に観察できるようになった。 本稿では, 嗅覚の特性を鼻から脳への嗅覚システムでどのように認識し, 分析するかを関連づけた, データサイエンスとAIの観点から, 嗅覚を概念化する。 色覚に区別を加えることで、嗅覚は刺激の複雑さ、感覚装置の高次元性、そして地上の真実を構成するものなど、ユニークな測定課題をもたらすと論じる。 これらの課題に直面して、嗅覚-受容体相互作用の中枢性について議論する。 このような理論は、幅広い産業的応用を見つけ、嗅覚の理解を高め、長期的には、それが他の感覚や言語とどのように関係しているかを示唆する。 このデータの最初の使用例として,マウス嗅球にカルシウム画像で記録された嗅覚に対するニューラル応答の機械学習による分類を行った。

Advances in neural sensing technology are making it possible to observe the olfactory process in great detail. In this paper, we conceptualize smell from a Data Science and AI perspective, that relates the properties of odorants to how they are sensed and analyzed in the olfactory system from the nose to the brain. Drawing distinctions to color vision, we argue that smell presents unique measurement challenges, including the complexity of stimuli, the high dimensionality of the sensory apparatus, as well as what constitutes ground truth. In the face of these challenges, we argue for the centrality of odorant-receptor interactions in developing a theory of olfaction. Such a theory is likely to find widespread industrial applications, and enhance our understanding of smell, and in the longer-term, how it relates to other senses and language. As an initial use case of the data, we present results using machine learning-based classification of neural responses to odors as they are recorded in the mouse olfactory bulb with calcium imaging.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# リアルリダポイントクラウド生成のためのターミング変換器

Taming Transformers for Realistic Lidar Point Cloud Generation ( http://arxiv.org/abs/2404.05505v1 )

ライセンス: Link先を確認
Hamed Haghighi, Amir Samadi, Mehrdad Dianati, Valentina Donzella, Kurt Debattista, (参考訳) 拡散モデル(DM)は、サンプリング中の安定したトレーニングと反復的な改善の恩恵を受け、Lidarポイントクラウド生成タスクにおいて、ステートオフ・ザ・アート(SOTA)を達成している。 しかし、DMは固有なノイズ発生過程のため、現実的にライダーレイドロップノイズをモデル化することができないことが多い。 レイドロップノイズの発生を増大させながら反復サンプリングの強度を維持するために,自動回帰変換器を用いて画像空間ではなく潜時空間のレンジ画像を反復的にサンプリングする生成モデルLidarGRITを導入する。 さらに、LidarGRITはVQ-VAEを利用してレンジ画像とレイドロップマスクを別々にデコードする。 以上の結果から,LidarGRITは,KITTI-360およびKITTIオドメトリーデータセット上のSOTAモデルと比較して,優れた性能を示すことが示された。 コードは、https://github.com/hamedhaghighi/LidarGRIT.comで公開されている。

Diffusion Models (DMs) have achieved State-Of-The-Art (SOTA) results in the Lidar point cloud generation task, benefiting from their stable training and iterative refinement during sampling. However, DMs often fail to realistically model Lidar raydrop noise due to their inherent denoising process. To retain the strength of iterative sampling while enhancing the generation of raydrop noise, we introduce LidarGRIT, a generative model that uses auto-regressive transformers to iteratively sample the range images in the latent space rather than image space. Furthermore, LidarGRIT utilises VQ-VAE to separately decode range images and raydrop masks. Our results show that LidarGRIT achieves superior performance compared to SOTA models on KITTI-360 and KITTI odometry datasets. Code available at:https://github.com/hamedhaghighi/LidarGRIT.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 集中型車両システムの自動開発のための大規模言語モデルとモデル駆動工学の相乗効果

Synergy of Large Language Model and Model Driven Engineering for Automated Development of Centralized Vehicular Systems ( http://arxiv.org/abs/2404.05508v1 )

ライセンス: Link先を確認
Nenad Petrovic, Fengjunjie Pan, Krzysztof Lebioda, Vahid Zolfaghari, Sven Kirchner, Nils Purschke, Muhammad Aqib Khan, Viktor Vorobev, Alois Knoll, (参考訳) 本稿では,自動車産業におけるソフトウェア開発プロセスの自動化を目的とした,モデル駆動工学(MDE)とLarge Language Models(LLM)の相乗効果を利用したツールのプロトタイプを提案する。 このアプローチでは,LLMを用いてEcoreモデルインスタンス表現に変換され,その後Object Constraint Language(OCL)ルールを用いて整合性をチェックする。 整合性チェックが成功した後、モデルインスタンスはコード生成のために別のLCMに入力として供給される。 CARLAシミュレータを用いて、緊急ブレーキのシナリオにおいて、生成されたコードをシミュレーション環境で評価する。

We present a prototype of a tool leveraging the synergy of model driven engineering (MDE) and Large Language Models (LLM) for the purpose of software development process automation in the automotive industry. In this approach, the user-provided input is free form textual requirements, which are first translated to Ecore model instance representation using an LLM, which is afterwards checked for consistency using Object Constraint Language (OCL) rules. After successful consistency check, the model instance is fed as input to another LLM for the purpose of code generation. The generated code is evaluated in a simulated environment using CARLA simulator connected to an example centralized vehicle architecture, in an emergency brake scenario.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 考古学的対象のセマンティックセグメンテーションに及ぼすLiDAR可視化の影響

Impact of LiDAR visualisations on semantic segmentation of archaeological objects ( http://arxiv.org/abs/2404.05512v1 )

ライセンス: Link先を確認
Raveerat Jaturapitpornchai, Giulio Poggi, Gregory Sech, Ziga Kokalj, Marco Fiorucci, Arianna Traviglia, (参考訳) LiDARに基づく考古学研究における深層学習手法は、しばしばデジタル標高モデルから派生した可視化技術を活用して、画像に存在する考古学的対象の特徴を高める。 本稿では、総合的なテストフレームワークを通じて、可視化がディープラーニングのパフォーマンスに与える影響について検討する。 この研究は、2つの研究領域にわたる7つの多様な視覚化を評価するために8つのセマンティックセグメンテーションモデルを使用しており、5つの考古学的クラスを含んでいる。 実験結果から,適切な視覚化の選択がパフォーマンスに最大8%の影響を及ぼすことが明らかとなった。 しかし、全ての考古学的なクラスを区分する上で、他のクラスよりも優れている1つの視覚化をピンポイントで示すことは、難しい。 観測された性能の変化は、異なるモデル構成に対して最大25%まで到達し、考古学的オブジェクトのセグメンテーションに成功するためのモデル構成とLiDAR視覚化を慎重に選択することの重要性を浮き彫りにしている。

Deep learning methods in LiDAR-based archaeological research often leverage visualisation techniques derived from Digital Elevation Models to enhance characteristics of archaeological objects present in the images. This paper investigates the impact of visualisations on deep learning performance through a comprehensive testing framework. The study involves the use of eight semantic segmentation models to evaluate seven diverse visualisations across two study areas, encompassing five archaeological classes. Experimental results reveal that the choice of appropriate visualisations can influence performance by up to 8%. Yet, pinpointing one visualisation that outperforms the others in segmenting all archaeological classes proves challenging. The observed performance variation, reaching up to 25% across different model configurations, underscores the importance of thoughtfully selecting model configurations and LiDAR visualisations for successfully segmenting archaeological objects.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 衛星計画のための量子最適化手法

Quantum Optimization Methods for Satellite Mission Planning ( http://arxiv.org/abs/2404.05516v1 )

ライセンス: Link先を確認
Antón Makarov, Carlos Pérez-Herradón, Giacomo Franceschetto, Márcio M. Taddei, Eneko Osaba, Paloma del Barrio, Esther Villar-Rodriguez, Izaskun Oregi, (参考訳) 地球観測衛星の衛星ミッション計画は、衛星の軌道通過中に達成される画像要求の最適なサブセットを選択することで構成される組合せ最適化問題である。 軌道上の衛星の増大は、効率的に運用する必要性を浮き彫りにしており、短時間で多くの問題を解く必要がある。 しかし、現在の古典的アルゴリズムは、大域的な最適化を見つけられなかったり、実行するのに時間がかかりすぎたりすることが多い。 ここでは、量子コンピューティングの観点からこの問題にアプローチし、将来ソリューションの品質や実行速度を大幅に向上させる有望な代替手段を提供する。 そこで本研究では,様々な複雑な制約を持つ計画問題について検討し,それらを量子コンピュータにエンコードする方法について議論する。 さらに,現実的で多様なデータセット上での量子アニールと量子近似最適化アルゴリズムの性能を実験的に評価した。 この結果から,グラフ接続性や制約構造などの重要な側面を同定し,その有効性を検証した。 我々は、今日の量子アルゴリズムとハードウェアの限界を探求し、現在解決可能な問題の限界を提供し、複雑さが増大するにつれてソリューションがいかに劣化するかを示す。 この研究は、この分野におけるさらなる研究のベースラインとして機能し、現在の量子最適化能力に対する現実的な期待を確立することを目的としている。

Satellite mission planning for Earth observation satellites is a combinatorial optimization problem that consists of selecting the optimal subset of imaging requests, subject to constraints, to be fulfilled during an orbit pass of a satellite. The ever-growing amount of satellites in orbit underscores the need to operate them efficiently, which requires solving many instances of the problem in short periods of time. However, current classical algorithms often fail to find the global optimum or take too long to execute. Here, we approach the problem from a quantum computing point of view, which offers a promising alternative that could lead to significant improvements in solution quality or execution speed in the future. To this end, we study a planning problem with a variety of intricate constraints and discuss methods to encode them for quantum computers. Additionally, we experimentally assess the performance of quantum annealing and the quantum approximate optimization algorithm on a realistic and diverse dataset. Our results identify key aspects like graph connectivity and constraint structure that influence the performance of the methods. We explore the limits of today's quantum algorithms and hardware, providing bounds on the problems that can be currently solved successfully and showing how the solution degrades as the complexity grows. This work aims to serve as a baseline for further research in the field and establish realistic expectations on current quantum optimization capabilities.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# DepthMOT:Depth Cuesが強力なマルチオブジェクトトラッカーに

DepthMOT: Depth Cues Lead to a Strong Multi-Object Tracker ( http://arxiv.org/abs/2404.05518v1 )

ライセンス: Link先を確認
Jiapeng Wu, Yichen Liu, (参考訳) 各オブジェクトを正確に区別することは、MOTアルゴリズムの基本的な目標である。 しかし、この目標を達成するのはまだ難しい。 (i)密集した物体が混在する場面では、物体境界箱の重なり合いが密接な物体間で混同される。 しかし、人間は自然に2Dビデオを観察する際にシーン内の要素の深さを知覚する。 このことから、被写体の境界箱がカメラ面に近接しているとしても、被写体の深度次元で区別することが可能となり、被写体の3次元認識が確立される。 (II) カメラの動きが急速に不規則なビデオの場合, 物体位置の急激な変化はIDスイッチを引き起こす可能性がある。 しかし、カメラのポーズが分かっていれば、線形運動モデルにおける誤差を補うことができる。 本稿では,次のことを達成した「textit{DepthMOT}」を提案する。 (i)シーン深度マップ \textit{end-to-end} を検出して推定する。 二 カメラポーズ推定により不規則なカメラの動きを補正すること。 大規模な実験は、VisDrone-MOTとUAVDTデータセットにおけるDepthMOTの優れた性能を示す。 コードは \url{https://github.com/JackWoo0831/DepthMOT} で入手できる。

Accurately distinguishing each object is a fundamental goal of Multi-object tracking (MOT) algorithms. However, achieving this goal still remains challenging, primarily due to: (i) For crowded scenes with occluded objects, the high overlap of object bounding boxes leads to confusion among closely located objects. Nevertheless, humans naturally perceive the depth of elements in a scene when observing 2D videos. Inspired by this, even though the bounding boxes of objects are close on the camera plane, we can differentiate them in the depth dimension, thereby establishing a 3D perception of the objects. (ii) For videos with rapidly irregular camera motion, abrupt changes in object positions can result in ID switches. However, if the camera pose are known, we can compensate for the errors in linear motion models. In this paper, we propose \textit{DepthMOT}, which achieves: (i) detecting and estimating scene depth map \textit{end-to-end}, (ii) compensating the irregular camera motion by camera pose estimation. Extensive experiments demonstrate the superior performance of DepthMOT in VisDrone-MOT and UAVDT datasets. The code will be available at \url{https://github.com/JackWoo0831/DepthMOT}.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# テキスト・ビデオ拡散モデルのゼロショット編集におけるクロスアテンションの有効性の検討

Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models ( http://arxiv.org/abs/2404.05519v1 )

ライセンス: Link先を確認
Saman Motamed, Wouter Van Gansbeke, Luc Van Gool, (参考訳) 近年,コンテンツ作成のための画像拡散モデルやビデオ拡散モデルが進歩し,コンテンツ生成をカスタマイズする手法が多数提案されている。 特に,テキスト・ツー・イメージ拡散モデル(T2I)の相互配置層を操作することで,シーン内の物体の形状や位置を制御できることが示唆された。 しかし、物体の動きや時間的一貫性を正確に捉えることは困難であるため、映像領域に画像編集技術を移すことは極めて困難である。 本研究では,ゼロショット映像編集におけるテキスト・トゥ・ビデオ(T2V)拡散モデルにおけるクロスアテンションの役割について考察する。 ワンショットモデルでは動きやカメラの動きを制御できるが、T2Vモデルでは物体の形状、位置、動きに対するゼロショット制御が実証されている。 現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。

With recent advances in image and video diffusion models for content creation, a plethora of techniques have been proposed for customizing their generated content. In particular, manipulating the cross-attention layers of Text-to-Image (T2I) diffusion models has shown great promise in controlling the shape and location of objects in the scene. Transferring image-editing techniques to the video domain, however, is extremely challenging as object motion and temporal consistency are difficult to capture accurately. In this work, we take a first look at the role of cross-attention in Text-to-Video (T2V) diffusion models for zero-shot video editing. While one-shot models have shown potential in controlling motion and camera movement, we demonstrate zero-shot control over object shape, position and movement in T2V models. We show that despite the limitations of current T2V models, cross-attention guidance can be a promising approach for editing videos.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# LLMプログラム修復におけるFact Selection問題

The Fact Selection Problem in LLM-Based Program Repair ( http://arxiv.org/abs/2404.05520v1 )

ライセンス: Link先を確認
Nikhil Parasaram, Huijie Yan, Boyu Yang, Zineb Flahy, Abriele Qudsi, Damian Ziaber, Earl Barr, Sergey Mechtaev, (参考訳) 最近の研究によると、スタックトレースやGitHubの問題といったバグ関連の事実をインクルードすることで、大規模言語モデル(LLM)のバグ修正機能を強化している。 バグを正しく修正する可能性を最大化するためのプロンプトに、何つの事実を含めるべきなのか? この質問に答えるために、我々は大規模な調査を行い、BugsInPyベンチマーク内のオープンソースのPythonプロジェクトから314のバグを修正するために、7つのさまざまな事実の組み合わせを含む19K以上のプロンプトを使用しました。 以上の結果から,コードコンテキストのような単純な構文情報から,エンジェル値などのLLMの文脈で探索されていない意味情報まで,それぞれの事実が有用であることが判明した。 具体的には、各事実は未解決のまま、あるいは未解決で低い成功率でしか修正されないバグを修正するのに役立ちます。 重要なことに、プログラム修復プロンプトの有効性は、使用済み事実の数よりも非単調であることが判明した。 これらの知見は、与えられたタスクインスタンス上でのLCMのパフォーマンスを最大化するプロンプトに含めるための事象の最適セットを決定するという、事実選択の問題を定義した。 バグ修正には,すべての事実に適合するものが存在しないことが分かりました。 そこで我々は,特定のバグに特異的な事実を抽出し,プロンプトに含める基本統計モデルManipleを開発した。 このモデルは、最も一般的な事実セットのパフォーマンスを大幅に上回る。 事実選択問題の重要性を明らかにするために,我々は,現在最先端のゼロショット,非会話型LPMによるバグ修復手法に対して,Manipleをベンチマークした。 157のバグからなるテストデータセットで、Manipleは88のバグを修復します。

Recent research has shown that incorporating bug-related facts, such as stack traces and GitHub issues, into prompts enhances the bug-fixing capabilities of large language models (LLMs). Considering the ever-increasing context window of these models, a critical question arises: what and how many facts should be included in prompts to maximise the chance of correctly fixing bugs? To answer this question, we conducted a large-scale study, employing over 19K prompts featuring various combinations of seven diverse facts to rectify 314 bugs from open-source Python projects within the BugsInPy benchmark. Our findings revealed that each fact, ranging from simple syntactic details like code context to semantic information previously unexplored in the context of LLMs such as angelic values, is beneficial. Specifically, each fact aids in fixing some bugs that would remain unresolved or only be fixed with a low success rate without it. Importantly, we discovered that the effectiveness of program repair prompts is non-monotonic over the number of used facts; using too many facts leads to subpar outcomes. These insights led us to define the fact selection problem: determining the optimal set of facts for inclusion in a prompt to maximise LLM's performance on a given task instance. We found that there is no one-size-fits-all set of facts for bug repair. Therefore, we developed a basic statistical model, named Maniple, which selects facts specific to a given bug to include in the prompt. This model significantly surpasses the performance of the best generic fact set. To underscore the significance of the fact selection problem, we benchmarked Maniple against the state-of-the-art zero-shot, non-conversational LLM-based bug repair methods. On our testing dataset of 157 bugs, Maniple repairs 88 bugs, 17% above the best configuration.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 連続測定による機械学習モデルを用いたハミルトン学習

Hamiltonian Learning using Machine Learning Models Trained with Continuous Measurements ( http://arxiv.org/abs/2404.05526v1 )

ライセンス: Link先を確認
Kris Tucker, Amit Kiran Rege, Conor Smith, Claire Monteleoni, Tameem Albash, (参考訳) 我々は最近の機械学習モデルを用いて、量子ビットの連続弱測定を入力としてハミルトンパラメータを推定する作業を構築した。 本モデルでは,(1)弱測定トレーニングレコードを既知のハミルトンパラメータでラベル付けできる教師なし学習と,(2)ラベルを使用できない教師なし学習の2つの設定について検討する。 1つは、量子状態の明示的な表現を必要としないという利点があり、これによりより多くの量子ビットに対して非常に好都合にスケールすることができる。 2つ目は、物理モデルのパラメータを測定レコードにマッピングする物理モデルの実装である。これは、物理モデルの積分器と繰り返しニューラルネットワークを用いて、物理モデルが捉えない小さな効果を考慮に入れた、毎回モデルのない補正を提供する。 我々は2つの量子ビットのシステムの構築を検証し、教師なしコンテキストと教師なしコンテキストの両方において、複数の物理パラメータの正確な予測を実証する。 また, 予測できない単一粒子緩和の存在下で, 正確なパラメータ推定を達成し, 仮定された物理モデルにおける誤りに対する堅牢性を示す。

We build upon recent work on using Machine Learning models to estimate Hamiltonian parameters using continuous weak measurement of qubits as input. We consider two settings for the training of our model: (1) supervised learning where the weak measurement training record can be labeled with known Hamiltonian parameters, and (2) unsupervised learning where no labels are available. The first has the advantage of not requiring an explicit representation of the quantum state, thus potentially scaling very favorably to larger number of qubits. The second requires the implementation of a physical model to map the Hamiltonian parameters to a measurement record, which we implement using an integrator of the physical model with a recurrent neural network to provide a model-free correction at every time step to account for small effects not captured by the physical model. We test our construction on a system of two qubits and demonstrate accurate prediction of multiple physical parameters in both the supervised and unsupervised context. We demonstrate that the model benefits from larger training sets establishing that it is in fact "learning," and we show robustness to errors in the assumed physical model by achieving accurate parameter estimation in the presence of unanticipated single particle relaxation.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 量子振動子の単一励起エネルギー固有状態に対する絡み合い境界

Entanglement bounds for single-excitation energy eigenstates of quantum oscillator systems ( http://arxiv.org/abs/2404.05527v1 )

ライセンス: Link先を確認
Houssam Abdul-Rahman, Robert Sims, Günter Stolz, (参考訳) 乱れ調和振動子の非ガウスエネルギー固有状態の絡み合いを推定する解析方法を提案する。 発振器系の固有状態の明示的な式を呼び出し、それらの$\epsilon$-R\'enyi 絡み合いエントロピー$\epsilon\in(0,1)$の有界性を確立する。 我々の主な成果は、調和振動子系の1つの励起に対応する固有状態の絡み合いに対する対数的に補正された領域法である。

We provide an analytic method for estimating the entanglement of the non-gaussian energy eigenstates of disordered harmonic oscillator systems. We invoke the explicit formulas of the eigenstates of the oscillator systems to establish bounds for their $\epsilon$-R\'enyi entanglement entropy $\epsilon\in(0,1)$. Our main result is a logarithmically corrected area law for the entanglement of eigenstates, corresponding to one excitation, of the disordered harmonic oscillator systems.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# ベスト・オブ・フェノム: 選好データを注入してRLHFを攻撃

Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data ( http://arxiv.org/abs/2404.05530v1 )

ライセンス: Link先を確認
Tim Baumgärtner, Yang Gao, Dana Alon, Donald Metzler, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデル(LM)を人間の価値観や嗜好と整合させる一般的な手法である。 RLHFはトレーニングデータとして多数の選好ペアを必要としており、Supervised Fine-TuningとReward Modelトレーニングの両方でよく使用される。 本研究では,これらのデータセットとRLHFトレーニングプロセスに有害な選好ペアを注入することにより,悪意あるアクターがLM世代をどの程度操作できるかを検討する。 そこで我々は,有毒な選好ペアを構築し,広く使用されている2つの選好データセットを汚染することにより,その性能をテストする戦略を提案する。 その結果,少量の有毒データ(原データセットの1~5%)を注入することにより,LMを効果的に操作し,対象の感情(肯定的あるいは否定的)で対象の実体を生成できることがわかった。 実験の結果は、嗜好中毒の予防戦略にも光を当てた。

Reinforcement Learning from Human Feedback (RLHF) is a popular method for aligning Language Models (LM) with human values and preferences. RLHF requires a large number of preference pairs as training data, which are often used in both the Supervised Fine-Tuning and Reward Model training, and therefore publicly available datasets are commonly used. In this work, we study to what extent a malicious actor can manipulate the LMs generations by poisoning the preferences, i.e., injecting poisonous preference pairs into these datasets and the RLHF training process. We propose strategies to build poisonous preference pairs and test their performance by poisoning two widely used preference datasets. Our results show that preference poisoning is highly effective: by injecting a small amount of poisonous data (1-5% of the original dataset), we can effectively manipulate the LM to generate a target entity in a target sentiment (positive or negative). The findings from our experiments also shed light on strategies to defend against the preference poisoning attack.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# アルゴリズムによる監視特許の公的な例外

Ordre public exceptions for algorithmic surveillance patents ( http://arxiv.org/abs/2404.05534v1 )

ライセンス: Link先を確認
Alina Wernick, (参考訳) この章では、アルゴリズムによる監視における特許保護の役割と、人権侵害を可能にする可能性から、特許可能性から公共の例外が適用されるべきかどうかを論じる。 たいていの場合、そのような技術の活用による影響を評価するのに特許制度が不十分であるため、アルゴリズムによる監視特許を特許性から除外することは望ましくないと結論付けている。 さらに、そのような特許の開示は、公的監視のための監視のブラックボックスを開くことで、社会的観点から肯定的な外部性を持っている。

This chapter explores the role of patent protection in algorithmic surveillance and whether ordre public exceptions from patentability should apply to such patents, due to their potential to enable human rights violations. It concludes that in most cases, it is undesirable to exclude algorithmic surveillance patents from patentability, as the patent system is ill-equipped to evaluate the impacts of the exploitation of such technologies. Furthermore, the disclosure of such patents has positive externalities from the societal perspective by opening the black box of surveillance for public scrutiny.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# グラフ変換による任意量子クラスター状態の分散

Distributing Arbitrary Quantum Cluster States by Graph Transformation ( http://arxiv.org/abs/2404.05537v1 )

ライセンス: Link先を確認
Tingxiang Ji, Jianqing Liu, Zheshen Zhang, (参考訳) 量子クラスター状態は、複数の量子粒子の非局所状態の特別なクラスであり、量子コンピューティングや量子秘密共有のようないくつかの非古典的で有望な応用を支えている。 近年、現在の量子アプリケーションを大規模に拡張する可能性から、物理的に離れたノード間で量子クラスター状態を確立することが人気が高まっている。 このトピックに関する既存の研究は、2段階のアプローチに依存している: まず、ターゲットノードに低次元の基本的な絡み合いを分散し、次にそれらを高次元の量子クラスター状態に融合する。 しかしながら、既存のほとんどの研究は、最終量子クラスター状態の構造を無視しながら、ターゲットノードを絡めるためのコスト(例えば、消費する初等的絡み合いの数)を最小化することのみに焦点を当てている。 これは容易にシステムの絡み合いが弱くなり、部分的な測定やノイズの下でクラスター状態が危うくなる。 本稿では,強い絡み合い構造を持つ任意の量子クラスター状態を確立することを目的としている。 この方法は、最低コストのターゲット状態の代替状態を探索し、確立することである。 その後、圧縮シングルキュービットクリフォード演算により、そのような代替状態からターゲット状態へ変換する。 提案アルゴリズムの性能を検証するため,最大8キュービットまでのクラスタ状態構造を含むオープンデータセットに基づく総合シミュレーションを行った。 その結果、高速アルゴリズムの収束、任意のクラスタ状態の分散における成功確率の増加、ERPコストの53.57%の削減が、最先端のベースラインと比較された。

Quantum cluster state is a special class of nonlocal state among multiple quantum particles, underpinning several nonclassical and promising applications such as quantum computing and quantum secret sharing. Recently, establishing quantum cluster states among physically distant nodes has gained increasing popularity owing to its potential in expanding current quantum applications in scale. Existing research on this topic relies on a two-step approach: first distributing low-dimension elementary entanglement to target nodes, and then fusing them into a high-dimension quantum cluster state. However, most existing studies focus solely on minimizing costs (e.g., the number of elementary entanglements consumed) to entangle target nodes, while neglecting the structure of the final quantum cluster state. This can easily result in weak system entanglement, jeopardizing the cluster state under partial measurement or noises. In this paper, we aim to establish any arbitrary quantum cluster states of strong entanglement structures at a much lower cost than the state of the art. The method is to search for and establish an alternative state to the target state that is of lowest cost in creation. Subsequently, we transform such an alternative state back to the target state via compressed single-qubit Clifford operations. To verify the performance of our developed algorithm, we conduct comprehensive simulations based on an open dataset containing all cluster state structures up to 8 qubits. The results demonstrate fast algorithm convergence, an increased success probability in distributing any cluster states, and 53.57% saving in ERP cost compared with the state-of-the-art baseline.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# インコンテキスト学習によるセルフリーマルチユーザMIMO等化

Cell-Free Multi-User MIMO Equalization via In-Context Learning ( http://arxiv.org/abs/2404.05538v1 )

ライセンス: Link先を確認
Matteo Zecchin, Kai Zu, Osvaldo Simeone, (参考訳) トランスフォーマーのような大規模な事前訓練されたシーケンスモデルは、インコンテキスト学習(ICL)が可能な少数ショット学習者として優れている。 ICLでは、モデルがその操作を限られた文脈情報に基づいて新しいタスクに適応するように訓練される。 これまで、シングルユーザマルチインプットおよびマルチアウトプット(MIMO)システムにおいて、チャネル等化のためのICLの使用について検討してきた。 本研究では, セルフリーMIMOシステムにおいて, フロントホール容量に制限のあるマルチユーザ等化の問題に対して, ICLを適用できることを実証する。 このシナリオでは、タスクはチャネル統計、信号対雑音比、変調スキームによって定義される。 コンテキストは、ユーザのパイロットシーケンス、対応する量子化された受信信号、および現在の受信データ信号を含む。 大規模フェード情報や変調情報も含む様々な設計戦略が提案され評価されている。 ICLに基づく等化実験により, 線形最小二乗誤差等化器と比較して平均二乗誤差が低い推定値が得られた。

Large pre-trained sequence models, such as transformers, excel as few-shot learners capable of in-context learning (ICL). In ICL, a model is trained to adapt its operation to a new task based on limited contextual information, typically in the form of a few training examples for the given task. Previous work has explored the use of ICL for channel equalization in single-user multi-input and multiple-output (MIMO) systems. In this work, we demonstrate that ICL can be also used to tackle the problem of multi-user equalization in cell-free MIMO systems with limited fronthaul capacity. In this scenario, a task is defined by channel statistics, signal-to-noise ratio, and modulation schemes. The context encompasses the users' pilot sequences, the corresponding quantized received signals, and the current received data signal. Different prompt design strategies are proposed and evaluated that encompass also large-scale fading and modulation information. Experiments demonstrate that ICL-based equalization provides estimates with lower mean squared error as compared to the linear minimum mean squared error equalizer, especially in the presence of limited fronthaul capacity and pilot contamination.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# OPSD : 攻撃的なペルシアのソーシャルメディアデータセットとそのベースライン評価

OPSD: an Offensive Persian Social media Dataset and its baseline evaluations ( http://arxiv.org/abs/2404.05540v1 )

ライセンス: Link先を確認
Mehran Safayani, Amir Sartipi, Amir Hossein Ahmadi, Parniyan Jalali, Amir Hossein Mansouri, Mohammad Bisheh-Niasar, Zahra Pourbahman, (参考訳) ソーシャルメディア上でのヘイトスピーチや攻撃的なコメントの拡散は、ユーザー活動によってますます広まりつつある。 このようなコメントは個人の心理的幸福と社会的行動に有害な影響を及ぼす可能性がある。 この領域には英語のデータセットが多数存在するが、ペルシア語に匹敵するリソースはほとんどない。 このギャップに対処するために,本論文では2つの攻撃的データセットを紹介する。 第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットは、教師なし学習目的のためにWebクローリングを通じて得られたラベルなしデータの大規模なコレクションで構成されている。 前者のデータセットの品質を確保するため、3段階ラベリングプロセスを行い、カッパ測度を計算してアノテータ間合意を評価した。 さらに、現代の最先端アプローチを用いてデータセットのベースラインを確立するために、マスク付き言語モデリング技術と機械学習アルゴリズムを用いて、最先端の言語モデルを用いてデータセット上で実験を行った。 得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。

The proliferation of hate speech and offensive comments on social media has become increasingly prevalent due to user activities. Such comments can have detrimental effects on individuals' psychological well-being and social behavior. While numerous datasets in the English language exist in this domain, few equivalent resources are available for Persian language. To address this gap, this paper introduces two offensive datasets. The first dataset comprises annotations provided by domain experts, while the second consists of a large collection of unlabeled data obtained through web crawling for unsupervised learning purposes. To ensure the quality of the former dataset, a meticulous three-stage labeling process was conducted, and kappa measures were computed to assess inter-annotator agreement. Furthermore, experiments were performed on the dataset using state-of-the-art language models, both with and without employing masked language modeling techniques, as well as machine learning algorithms, in order to establish the baselines for the dataset using contemporary cutting-edge approaches. The obtained F1-scores for the three-class and two-class versions of the dataset were 76.9% and 89.9% for XLM-RoBERTa, respectively.
翻訳日:2024-04-09 14:15:19 公開日:2024-04-08
# 大規模言語モデルのインターベンショナル推論能力の評価

Evaluating Interventional Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2404.05545v1 )

ライセンス: Link先を確認
Tejas Kasetty, Divyat Mahajan, Gintare Karolina Dziugaite, Alexandre Drouin, Dhanya Sridhar, (参考訳) 多くの意思決定タスクは、システムの異なる部分への介入の下で因果効果を推定する必要がある。 実践者が意思決定を自動化するために大きな言語モデル(LLM)を使うことを考えると、因果推論能力の研究が重要になる。 最近の研究の行は、LLMがコモンセンス因果事実を検索する能力を評価するが、これらの評価は、LLMが介入にどう影響するかを十分に評価していない。 本稿では、介入が因果推論に果たす役割に感銘を受け、LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析する。 我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。 これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。 GPT-4モデルは介入効果を予測する上で有望な精度を示すが,これらの要因に敏感である。

Numerous decision-making tasks require estimating causal effects under interventions on different parts of a system. As practitioners consider using large language models (LLMs) to automate decisions, studying their causal reasoning capabilities becomes crucial. A recent line of work evaluates LLMs ability to retrieve commonsense causal facts, but these evaluations do not sufficiently assess how LLMs reason about interventions. Motivated by the role that interventions play in causal inference, in this paper, we conduct empirical analyses to evaluate whether LLMs can accurately update their knowledge of a data-generating process in response to an intervention. We create benchmarks that span diverse causal graphs (e.g., confounding, mediation) and variable types, and enable a study of intervention-based reasoning. These benchmarks allow us to isolate the ability of LLMs to accurately predict changes resulting from their ability to memorize facts or find other shortcuts. Our analysis on four LLMs highlights that while GPT- 4 models show promising accuracy at predicting the intervention effects, they remain sensitive to distracting factors in the prompts.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 原子-光子結合状態の動的励起制御と多重モード放出

Dynamical excitation control and multimode emission of an atom-photon bound state ( http://arxiv.org/abs/2404.05547v1 )

ライセンス: Link先を確認
Claudia Castillo-Moreno, Kazi Rafsanjani Amin, Ingrid Strandberg, Mikael Kervinen, Amr Osman, Simone Gasparinetti, (参考訳) 原子-光子結合状態は、分散工学的な導波路のバンドエッジへの量子エミッターの結合から生じる。 調整可能な範囲の相互作用のおかげで、彼らは量子シミュレータのビルディングブロックを約束している。 本稿では、周波数可変量子エミッタ(トランスモン型超伝導回路)からマイクロ波メタマテリアルのバンドエッジへの結合から生じる原子-光子結合状態のダイナミクスについて検討する。 バンドエッジから放出されるエミッタの周波数を正確に時間的に制御し, 境界状態の形成における断熱挙動から非断熱挙動への遷移と, メタマテリアルの伝播モードへの融解について検討した。 さらに,エミッタの周波数の急激な変化に起因して,境界状態からのマルチモード放出を実験的に観測した。 本研究は, 原子-光子結合状態の動的調製に関する知見を提供し, 量子光学および量子シミュレーションに含意して, 光学的内容のキャラクタリゼーション法を提供する。

Atom-photon bound states arise from the coupling of quantum emitters to the band edge of dispersion-engineered waveguides. Thanks to their tunable-range interactions, they are promising building blocks for quantum simulators. Here, we study the dynamics of an atom-photon bound state emerging from coupling a frequency-tunable quantum emitter - a transmon-type superconducting circuit - to the band edge of a microwave metamaterial. Employing precise temporal control over the frequency detuning of the emitter from the band edge, we examine the transition from adiabatic to non-adiabatic behavior in the formation of the bound state and its melting into the propagating modes of the metamaterial. Moreover, we experimentally observe multi-mode emission from the bound state, triggered by a fast change of the emitter's frequency. Our study offers insight into the dynamic preparation of atom-photon bound states and provides a method to characterize their photonic content, with implications in quantum optics and quantum simulation.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 車両ルーティングにおける量子および古典的分解法の改善

Improving Quantum and Classical Decomposition Methods for Vehicle Routing ( http://arxiv.org/abs/2404.05551v1 )

ライセンス: Link先を確認
Laura S. Herzog, Friedrich Wagner, Christian Ufrecht, Lilly Palackal, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 量子コンピューティングは、例えば量子近似最適化アルゴリズム(QAOA)を通じて、組合せ最適化問題に対処する有望な技術である。 しかし、そのポテンシャルは、玩具の問題を産業に関係のあるサイズに拡大することにある。 本研究では,グラフ縮小法と回路切断法という2つの分解法を巧みに組み合わせることで,この問題に対処する。 グラフ縮小はQAOA回路に符号化する前に問題のサイズを減らし、回路切断は中規模量子コンピュータ上で実行するために量子回路を断片に分解する。 我々の縮小法は、QAOA回路が特に回路切断に適しているという問題を適応的に低減する。 さらに,同じデバイス上で連続的に回路フラグメントを動作させることができる2つの切断技術を統合する。 本稿では,本手法の実用性を示すために,従来型走行セールスパーソン問題(TSP)への適用を成功させることにより,本手法の有効性を実証する。 7つの都市を持つTSPでは、2つの7ビットQAOA回路を連続的に動作させることで最適解が得られる。 分解方法がなければ、5倍のキュービットが必要になります。 この結果から,現在の量子技術における組合せ最適化問題に対するアルゴリズムの性能に関する知見が得られた。

Quantum computing is a promising technology to address combinatorial optimization problems, for example via the quantum approximate optimization algorithm (QAOA). Its potential, however, hinges on scaling toy problems to sizes relevant for industry. In this study, we address this challenge by an elaborate combination of two decomposition methods, namely graph shrinking and circuit cutting. Graph shrinking reduces the problem size before encoding into QAOA circuits, while circuit cutting decomposes quantum circuits into fragments for execution on medium-scale quantum computers. Our shrinking method adaptively reduces the problem such that the resulting QAOA circuits are particularly well-suited for circuit cutting. Moreover, we integrate two cutting techniques which allows us to run the resulting circuit fragments sequentially on the same device. We demonstrate the utility of our method by successfully applying it to the archetypical traveling salesperson problem (TSP) which often occurs as a sub-problem in practically relevant vehicle routing applications. For a TSP with seven cities, we are able to retrieve an optimum solution by consecutively running two 7-qubit QAOA circuits. Without decomposition methods, we would require five times as many qubits. Our results offer insights into the performance of algorithms for combinatorial optimization problems within the constraints of current quantum technology.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# Alljoined -- EEGから画像へのデコードのためのデータセット

Alljoined -- A dataset for EEG-to-Image decoding ( http://arxiv.org/abs/2404.05553v1 )

ライセンス: Link先を確認
Jonathan Xu, Bruno Aristimunha, Max Emanuel Feucht, Emma Qian, Charles Liu, Tazik Shahjahan, Martyna Spyra, Steven Zifan Zhang, Nicholas Short, Jioh Kim, Paula Perdomo, Ricky Renfeng Mao, Yashvir Sabharwal, Michael Ahedor Moaz Shoura, Adrian Nestor, (参考訳) 我々は、脳波から画像へのデコーディングに特化したデータセットであるAlljoinedを提示する。 視覚刺激に対する神経反応の広範かつ偏りのないサンプリングが、画像再構成に不可欠であることを認識し、それぞれ1万枚の自然画像を見ている8人の被験者からデータを収集した。 現在、64チャンネルの脳波ヘッドセットで記録された46,080の脳反応を収集しています。 このデータセットは、応答に基づく刺激タイミング、ブロックとセッションの繰り返し、さまざまな画像クラスを、信号の品質向上の目標と組み合わせている。 透明性のためには、データ品質スコアも提供します。 データセットとすべてのコードはhttps://linktr.ee/alljoined1.comで公開しています。

We present Alljoined, a dataset built specifically for EEG-to-Image decoding. Recognizing that an extensive and unbiased sampling of neural responses to visual stimuli is crucial for image reconstruction efforts, we collected data from 8 participants looking at 10,000 natural images each. We have currently gathered 46,080 epochs of brain responses recorded with a 64-channel EEG headset. The dataset combines response-based stimulus timing, repetition between blocks and sessions, and diverse image classes with the goal of improving signal quality. For transparency, we also provide data quality scores. We publicly release the dataset and all code at https://linktr.ee/alljoined1.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 適応的手法による連続学習の収束性について

On the Convergence of Continual Learning with Adaptive Methods ( http://arxiv.org/abs/2404.05555v1 )

ライセンス: Link先を確認
Seungyub Han, Yeongmo Kim, Taehyun Cho, Jungwoo Lee, (参考訳) 連続学習の目的の1つは、複数のタスクを逐次学習する際の破滅的な忘れを防止することであり、既存のソリューションは可塑性安定性ジレンマの概念化によって駆動されている。 しかし, 逐次課題毎の連続学習の収束度は, これまでのところあまり研究されていない。 本稿では、確率勾配降下によるメモリベース連続学習の収束解析と、現在のタスクのトレーニングが過去のタスクの累積劣化を引き起こすという実証的証拠を提供する。 本研究では,従来のタスクと現在のタスクの両方のステップサイズを勾配で調整する,非凸連続学習(NCCL)の適応的手法を提案する。 提案手法は,本論文で定義した破滅的忘れ込み項を各反復で抑制する場合に,SGD法と同じ収束率を達成することができる。 さらに,提案アルゴリズムは,複数の画像分類タスクに対して,既存の手法よりも継続学習の性能を向上することを示した。

One of the objectives of continual learning is to prevent catastrophic forgetting in learning multiple tasks sequentially, and the existing solutions have been driven by the conceptualization of the plasticity-stability dilemma. However, the convergence of continual learning for each sequential task is less studied so far. In this paper, we provide a convergence analysis of memory-based continual learning with stochastic gradient descent and empirical evidence that training current tasks causes the cumulative degradation of previous tasks. We propose an adaptive method for nonconvex continual learning (NCCL), which adjusts step sizes of both previous and current tasks with the gradients. The proposed method can achieve the same convergence rate as the SGD method when the catastrophic forgetting term which we define in the paper is suppressed at each iteration. Further, we demonstrate that the proposed algorithm improves the performance of continual learning over existing methods for several image classification tasks.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# TIM:オーディオ・ビジュアル・アクション認識のためのタイムインターバルマシン

TIM: A Time Interval Machine for Audio-Visual Action Recognition ( http://arxiv.org/abs/2404.05559v1 )

ライセンス: Link先を確認
Jacob Chalk, Jaesung Huh, Evangelos Kazakos, Andrew Zisserman, Dima Damen, (参考訳) 様々なアクションは、長いビデオでリッチなオーディオ視覚信号を生み出す。 近年の研究では、音声とビデオの2つのモードが、事象の時間的範囲と異なるラベルを示すことが示されている。 音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。 本稿では,TIM(Time Interval Machine)を提案する。このTIM(Time Interval Machine)は,ビデオ入力を長時間入力するトランスフォーマーエンコーダに対して,モダリティ固有の時間間隔をクエリとして処理する。 エンコーダは、進行中の動作を認識するために、指定された間隔と、両方のモードにおける周囲のコンテキストに出席する。 我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセット上でTIMをテストし、認識のための最先端(SOTA)を報告した。 EPIC-KITCHENSでは,従来のSOTAを2.9%のTop-1動作認識精度で,LLMとかなり大きな事前訓練を施した。 さらに,TIMは,高密度なマルチスケール間隔クエリを用いて動作検出に適応し,EPIC-KITCHENS-100上でのSOTAよりも高い性能を示し,知覚テストでは高い性能を示した。 この2つのモダリティを統合し、そのパフォーマンスを達成するための時間間隔をモデル化する上で重要な役割を担っている。 コードとモデル:https://github.com/JacobChalk/TIM

Diverse actions give rise to rich audio-visual signals in long videos. Recent works showcase that the two modalities of audio and video exhibit different temporal extents of events and distinct labels. We address the interplay between the two modalities in long videos by explicitly modelling the temporal extents of audio and visual events. We propose the Time Interval Machine (TIM) where a modality-specific time interval poses as a query to a transformer encoder that ingests a long video input. The encoder then attends to the specified interval, as well as the surrounding context in both modalities, in order to recognise the ongoing action. We test TIM on three long audio-visual video datasets: EPIC-KITCHENS, Perception Test, and AVE, reporting state-of-the-art (SOTA) for recognition. On EPIC-KITCHENS, we beat previous SOTA that utilises LLMs and significantly larger pre-training by 2.9% top-1 action recognition accuracy. Additionally, we show that TIM can be adapted for action detection, using dense multi-scale interval queries, outperforming SOTA on EPIC-KITCHENS-100 for most metrics, and showing strong performance on the Perception Test. Our ablations show the critical role of integrating the two modalities and modelling their time intervals in achieving this performance. Code and models at: https://github.com/JacobChalk/TIM
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 半教師付き境界対応言語モデル事前学習による中国語シーケンスラベリング

Chinese Sequence Labeling with Semi-Supervised Boundary-Aware Language Model Pre-training ( http://arxiv.org/abs/2404.05560v1 )

ライセンス: Link先を確認
Longhui Zhang, Dingkun Long, Meishan Zhang, Yanzhao Zhang, Pengjun Xie, Min Zhang, (参考訳) 中国語のシークエンスラベリングタスクは、正確な単語境界の区切りに大きく依存している。 現在のプレトレーニング言語モデル(PLM)は、これらのタスクにおいて大きな成果を上げているが、境界情報をモデリングプロセスに明示的に組み込むことは滅多にない。 例外としてBABERTは、教師なしの統計境界情報を中国のBERTの事前学習目的に組み込んでいる。 このアプローチに基づいて、BABERTの学習を強化するために教師付き境界情報を入力し、半教師付き境界対応PLMを開発する。 PLMが境界をエンコードする能力を評価するために, シンプルかつ効果的に機能する新しい「境界情報メトリクス」を導入する。 このメトリクスは、タスク固有の微調整なしで異なるPLMの比較を可能にする。 中国のシークエンスラベリングデータセットの実験結果から、改良されたBABERTは、これらのタスクだけでなく、より広範囲の中国語の自然言語理解タスクにおいて、バニラバージョンよりも優れていることが示された。 さらに,提案手法は PLM の境界認識を簡便かつ高精度に評価する手段を提供する。

Chinese sequence labeling tasks are heavily reliant on accurate word boundary demarcation. Although current pre-trained language models (PLMs) have achieved substantial gains on these tasks, they rarely explicitly incorporate boundary information into the modeling process. An exception to this is BABERT, which incorporates unsupervised statistical boundary information into Chinese BERT's pre-training objectives. Building upon this approach, we input supervised high-quality boundary information to enhance BABERT's learning, developing a semi-supervised boundary-aware PLM. To assess PLMs' ability to encode boundaries, we introduce a novel ``Boundary Information Metric'' that is both simple and effective. This metric allows comparison of different PLMs without task-specific fine-tuning. Experimental results on Chinese sequence labeling datasets demonstrate that the improved BABERT variant outperforms the vanilla version, not only on these tasks but also more broadly across a range of Chinese natural language understanding tasks. Additionally, our proposed metric offers a convenient and accurate means of evaluating PLMs' boundary awareness.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# スパース推論とセンストレーニング--混在言語モデルの学習を再考する

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models ( http://arxiv.org/abs/2404.05567v1 )

ライセンス: Link先を確認
Bowen Pan, Yikang Shen, Haokun Liu, Mayank Mishra, Gaoyuan Zhang, Aude Oliva, Colin Raffel, Rameswar Panda, (参考訳) Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく高密度モデルと比較して計算コストを2-4$\times$に削減し、計算バウンドシナリオにおいてより効率的にすることができる。 しかし、MoEモデルは高密度モデルに匹敵するパフォーマンスを達成するために、一般的に2-4$\times$のパラメータを必要とするため、GPUメモリの要求が大きくなり、自動回帰生成のようなI/OバウンドシナリオではMoEモデルは効率が低下する。 本研究では,MoEモデル(DS-MoE)の高密度化とスパース推論フレームワークを提案する。このフレームワークは,トレーニング中にすべての専門家に対して高密度化を施し,推論中にスパース計算を行うことで,強力な計算とパラメータ効率を実現する。 LLMのトレーニング実験により、我々のDS-MoEモデルは標準スパースMoEよりもパラメータ効率が高く、計算コストが低く(モデルのパラメータの30~40%を活性化する)、総パラメータサイズと性能の点で密度の高いモデルに匹敵することを示した。 vLLMを用いた性能テストでは、我々のDS-MoE-6Bモデルは、Mistral-7Bのような類似の高密度モデルよりも1.86\times$で、DeepSeekMoE-16BやQwen1.5-MoE-A2.7Bのような類似のMoEよりも1.50\times$から1.71\times$で高速である。

Mixture-of-Experts (MoE) language models can reduce computational costs by 2-4$\times$ compared to dense models without sacrificing performance, making them more efficient in computation-bounded scenarios. However, MoE models generally require 2-4$\times$ times more parameters to achieve comparable performance to a dense model, which incurs larger GPU memory requirements and makes MoE models less efficient in I/O-bounded scenarios like autoregressive generation. In this work, we propose a hybrid dense training and sparse inference framework for MoE models (DS-MoE) which achieves strong computation and parameter efficiency by employing dense computation across all experts during training and sparse computation during inference. Our experiments on training LLMs demonstrate that our DS-MoE models are more parameter-efficient than standard sparse MoEs and are on par with dense models in terms of total parameter size and performance while being computationally cheaper (activating 30-40% of the model's parameters). Performance tests using vLLM show that our DS-MoE-6B model runs up to $1.86\times$ faster than similar dense models like Mistral-7B, and between $1.50\times$ and $1.71\times$ faster than comparable MoEs, such as DeepSeekMoE-16B and Qwen1.5-MoE-A2.7B.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 360°REA: マルチエージェントシステムのための360°アセスメントによる再利用可能な経験蓄積に向けて

360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System ( http://arxiv.org/abs/2404.05569v1 )

ライセンス: Link先を確認
Shen Gao, Hao Li, Zhengliang Shi, Chengrui Huang, Quan Tu, Zhiliang Tian, Minlie Huang, Shuo Shang, (参考訳) 大規模言語モデルエージェントは、様々な複雑なタスクにおいて顕著な進歩を見せている。 最近の研究は、エージェントチームの最適化や、複雑なタスクを反復的に解決するために自己回帰を採用することに重点を置いている。 これらの薬剤はいずれも同一のLDMに基づいているため、自己評価を行うか、性能の低い薬剤を除去するだけでは、エージェントの能力が著しく向上するわけではない。 評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。 本稿では,企業の組織的実践にインスパイアされた階層型マルチエージェントフレームワークである360{\deg} REAを用いた再利用可能な体験蓄積を提案する。 このフレームワークは、細粒度評価を伴う多視点性能評価のための、新しい360{\deg}パフォーマンスアセスメント手法を採用している。 複雑なタスクに対処するエージェントの能力を高めるために,エージェントが粒度の細かい評価によって経験を蓄積するための二重レベル体験プールを導入する。 複雑なタスクデータセットに関する大規模な実験は、360{\deg}REAの有効性を示す。

Large language model agents have demonstrated remarkable advancements across various complex tasks. Recent works focus on optimizing the agent team or employing self-reflection to iteratively solve complex tasks. Since these agents are all based on the same LLM, only conducting self-evaluation or removing underperforming agents does not substantively enhance the capability of the agents. We argue that a comprehensive evaluation and accumulating experience from evaluation feedback is an effective approach to improving system performance. In this paper, we propose Reusable Experience Accumulation with 360{\deg} Assessment (360{\deg}REA), a hierarchical multi-agent framework inspired by corporate organizational practices. The framework employs a novel 360{\deg} performance assessment method for multi-perspective performance evaluation with fine-grained assessment. To enhance the capability of agents in addressing complex tasks, we introduce dual-level experience pool for agents to accumulate experience through fine-grained assessment. Extensive experiments on complex task datasets demonstrate the effectiveness of 360{\deg}REA.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 量子光学系におけるトポロジカル光子励起

Topological photon pumping in quantum optical systems ( http://arxiv.org/abs/2404.05570v1 )

ライセンス: Link先を確認
Mathias B. M. Svendsen, Marcel Cech, Max Schemmer, Beatriz Olmos, (参考訳) 長距離相互作用を持つ一次元系におけるトポロジカルポンピングの概念を確立し、量子光学系における光子の輸送に適用する。 理論的検討では、すべての交換相互作用を持つライス・ミールモデルの拡張版を導入する。 その性質を解析することにより、トポロジカルポンピングの一般的な条件を特定し、1次元エミッタ鎖上の光子のトポロジカルに保護され、分散しない輸送を示す。 具体例として、Rydberg原子格子、低電子状態に励起される原子の高密度格子、導波路に結合した原子の3つの一般的な量子光学プラットフォームについて実験的なパラメータを用いて検討する。 双極子-双極子相互作用の長距離特性にもかかわらず、トポロジカルポンピングは1サイクルあたりの忠実度が99.9%に達する光子の輸送を促進する。 さらに,光子ポンプ法は結合速度の局所的障害に対して位相的に保護されていることが判明した。

We establish the concept of topological pumping in one-dimensional systems with long-range interactions and apply it to the transport of a photon in quantum optical systems. In our theoretical investigation, we introduce an extended version of the Rice-Mele model with all-to-all exchange interactions. By analyzing its properties, we identify the general conditions for topological pumping and demonstrate the topologically protected and dispersionless transport of a photon on a one-dimensional emitter chain. As concrete examples, we investigate three different popular quantum optics platforms, namely Rydberg atom lattices, dense lattices of atoms excited to low-lying electronic states, and atoms coupled to waveguides, using experimentally relevant parameters. We observe that despite the long-ranged character of the dipole-dipole interactions, topological pumping facilitates the transport of a photon with a fidelity per cycle which can reach 99.9%. Moreover, we find that the photon pumping process remains topologically protected against local disorder in the coupling rates.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# GFlowNetにおける動的バックトラッキング:逆依存性調整機構による決定ステップの強化

Dynamic Backtracking in GFlowNet: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms ( http://arxiv.org/abs/2404.05576v1 )

ライセンス: Link先を確認
Shuai Guo, Jielei Chu, Lei Zhu, Tianrui Li, (参考訳) 生成フローネットワーク (Generative Flow Networks, GFlowNets) はマルコフフローを前提とした確率論的モデルであり, 生体分子, 化学材料などの構成物質を生成する確率論的ポリシーを学ぶために, 特定のアモーティゼーションアルゴリズムを用いている。 高性能な生化学分子の生成において、GFlowNetsは強大な進歩を実証し、科学物質の発見を加速し、従来の物質発見に固有の時間的、労働集約的でコストのかかる欠点を効果的に回避する。 しかし、以前の研究は探索的な経験の蓄積に苦しむことが多く、拡張的なサンプリング空間内では向かない傾向にある。 LS-GFNのようなこの問題に対処しようとする試みは、局所的な欲求検索に限定され、より広範なグローバルな調整が欠如している。 本稿では,報酬に基づく動的バックトラック機構により,意思決定ステップの適応性を高める新しいGFlowNetバリアントである動的バックトラックGFN(DB-GFN)を提案する。 DB-GFNは、現在の状態の報酬値に従ってネットワーク構築プロセス中にバックトラックを許可し、不利な決定を訂正し、探索プロセス中に代替経路を探索する。 DB-GFNは、生化学分子および遺伝物質配列の生成タスクに応用され、サンプルの品質、探索サンプル量、トレーニング収束速度の観点から、既存のGFlowNetモデルや従来の強化学習手法を超越している。 さらに、DB-GFNの直交的な性質は、GFNネットワークの将来改善のための強力なツールとしての可能性を示し、より効率的な検索性能を達成するために他の戦略と統合することを約束している。

Generative Flow Networks (GFlowNets) are probabilistic models predicated on Markov flows, employing specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, and more. Demonstrating formidable prowess in generating high-performance biochemical molecules, GFlowNets accelerate the discovery of scientific substances, effectively circumventing the time-consuming, labor-intensive, and costly shortcomings intrinsic to conventional material discovery. However, previous work often struggles to accumulate exploratory experience and is prone to becoming disoriented within expansive sampling spaces. Attempts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel GFlowNet variant, the Dynamic Backtracking GFN (DB-GFN), which enhances the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN permits backtracking during the network construction process according to the current state's reward value, thus correcting disadvantageous decisions and exploring alternative pathways during the exploration process. Applied to generative tasks of biochemical molecules and genetic material sequences, DB-GFN surpasses existing GFlowNet models and traditional reinforcement learning methods in terms of sample quality, exploration sample quantity, and training convergence speed. Furthermore, the orthogonal nature of DB-GFN suggests its potential as a powerful tool for future improvements in GFN networks, with the promise of integrating with other strategies to achieve more efficient search performance.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# ソーシャルMAE:多人数動作表現学習のためのソーシャルマスク付きオートエンコーダ

Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning ( http://arxiv.org/abs/2404.05578v1 )

ライセンス: Link先を確認
Mahsa Ehsanpour, Ian Reid, Hamid Rezatofighi, (参考訳) マルチパーソンシーンの完全な理解のためには、検出や追跡といった基本的なタスクを超えることが不可欠である。 個人間の相互作用や社会的活動を理解するといった高度なタスクも重要である。 複数人を含むシーンを完全に理解できるモデルへの進歩は、このようなハイレベルなタスクに十分なアノテートデータがないために妨げられます。 この課題に対処するために、ソーシャルMAE(Social-MAE)を導入し、マルチパーソナライズされた人体動作データのための、シンプルで効果的なトランスフォーマーベースのマスク付きオートエンコーダフレームワークを提案する。 このフレームワークは、マスク付きモデリングを使用して、エンコーダを事前訓練し、マスク付きヒトの関節軌道を再構築し、人間の混雑したシーンにおける動きの一般化とデータの効率的な表現を学習することができる。 ソーシャルMAEは、MAEエンコーダとしてのトランスフォーマと、周波数領域における多人数関節の軌道で動作するMAEデコーダとしての軽量トランスフォーマとを備える。 再構成作業後、MAEデコーダをタスク固有のデコーダに置き換え、様々な高レベルのソーシャルタスクに対して、モデルが微調整されたエンド・ツー・エンドとなる。 提案モデルと事前学習アプローチを組み合わせることで,多人数のポーズ予測,ソーシャルグループ化,社会的行動理解など,さまざまな高度な社会的課題に対する最先端の成果が得られる。 これらの改善は、人間の2Dと3Dのボディーポーズを含む4つの一般的なマルチパーソンデータセットで実証されている。

For a complete comprehension of multi-person scenes, it is essential to go beyond basic tasks like detection and tracking. Higher-level tasks, such as understanding the interactions and social activities among individuals, are also crucial. Progress towards models that can fully understand scenes involving multiple people is hindered by a lack of sufficient annotated data for such high-level tasks. To address this challenge, we introduce Social-MAE, a simple yet effective transformer-based masked autoencoder framework for multi-person human motion data. The framework uses masked modeling to pre-train the encoder to reconstruct masked human joint trajectories, enabling it to learn generalizable and data efficient representations of motion in human crowded scenes. Social-MAE comprises a transformer as the MAE encoder and a lighter-weight transformer as the MAE decoder which operates on multi-person joints' trajectory in the frequency domain. After the reconstruction task, the MAE decoder is replaced with a task-specific decoder and the model is fine-tuned end-to-end for a variety of high-level social tasks. Our proposed model combined with our pre-training approach achieves the state-of-the-art results on various high-level social tasks, including multi-person pose forecasting, social grouping, and social action understanding. These improvements are demonstrated across four popular multi-person datasets encompassing both human 2D and 3D body pose.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# Robust Data Pruning - 意図しないバイアスの発見と克服

Robust Data Pruning: Uncovering and Overcoming Implicit Bias ( http://arxiv.org/abs/2404.05579v1 )

ライセンス: Link先を確認
Artem Vysogorets, Kartik Ahuja, Julia Kempe, (参考訳) 例外的なデータハングリーモデルの時代においては、ディープラーニングの膨大なコストを軽減するために、トレーニングデータの慎重な選択が不可欠である。 データプルーニングは、データセットから冗長あるいは非形式的なサンプルを取り除くことでソリューションを提供する。 しかし、訓練されたモデルの分類バイアスへの影響についてはほとんど分かっていない。 我々は、この効果を初めて体系的に研究し、既存のデータプルーニングアルゴリズムが高度に偏りのある分類器を生成することを明らかにした。 同時に、適切なクラス比のランダムデータプルーニングは、最悪のクラス性能を改善する可能性があると論じる。 本稿では,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証する「フェアネス・アウェア」アプローチを提案する。 既存のアルゴリズムとは対照的に,提案手法は,データセットからより経験を積むにつれて,許容可能な平均性能の低下において頑健性の向上を継続する。 本稿では,ガウシアンの混在による分類リスクの理論的解析を行い,アルゴリズムのさらなる動機付けと知見の支持について述べる。

In the era of exceptionally data-hungry models, careful selection of the training data is essential to mitigate the extensive costs of deep learning. Data pruning offers a solution by removing redundant or uninformative samples from the dataset, which yields faster convergence and improved neural scaling laws. However, little is known about its impact on classification bias of the trained models. We conduct the first systematic study of this effect and reveal that existing data pruning algorithms can produce highly biased classifiers. At the same time, we argue that random data pruning with appropriate class ratios has potential to improve the worst-class performance. We propose a "fairness-aware" approach to pruning and empirically demonstrate its performance on standard computer vision benchmarks. In sharp contrast to existing algorithms, our proposed method continues improving robustness at a tolerable drop of average performance as we prune more from the datasets. We present theoretical analysis of the classification risk in a mixture of Gaussians to further motivate our algorithm and support our findings.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# 責任あるビジュアル編集

Responsible Visual Editing ( http://arxiv.org/abs/2404.05580v1 )

ライセンス: Link先を確認
Minheng Ni, Yeli Shen, Lei Zhang, Wangmeng Zuo, (参考訳) 近年の視覚合成の進歩により、ヘイト、差別、プライバシー侵害などの有害な影響のある画像に遭遇するリスクが高まっている。 有害な画像を責任あるものに変換する研究は、まだ検討されていない。 本稿では、画像内の特定の概念を修正し、変更を最小限に抑えつつ、より責任を負うよう、視覚的な編集を行う新しいタスクを定式化する。 しかし、編集が必要な概念はしばしば抽象的であり、修正すべきものを見つけ出し、修正する計画を立てることは困難である。 これらの課題に対処するために,(1)修正すべきものに焦点を当てる知覚的認知プロセス,(2)修正の方法を整理する行動的認知プロセスという2段階の認知プロセスを通じて,大規模なマルチモーダルモデルを活用する認知編集者(CoEditor)を提案する。 有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。 実験により、CoEditorは複雑なシーンにおける抽象概念を効果的に理解し、視覚的編集に責任のあるベースラインモデルの性能を大幅に上回ることを示した。 AltBearデータセットは、実際の画像に見られる有害なコンテンツとよく一致し、一貫した実験評価を提供し、将来の研究のための安全なベンチマークを提供する。 さらに、CoEditorは一般的な編集でも素晴らしい結果を示している。 コードとデータセットはhttps://github.com/kodenii/Responsible-Visual-Editing.comで公開しています。

With recent advancements in visual synthesis, there is a growing risk of encountering images with detrimental effects, such as hate, discrimination, or privacy violations. The research on transforming harmful images into responsible ones remains unexplored. In this paper, we formulate a new task, responsible visual editing, which entails modifying specific concepts within an image to render it more responsible while minimizing changes. However, the concept that needs to be edited is often abstract, making it challenging to locate what needs to be modified and plan how to modify it. To tackle these challenges, we propose a Cognitive Editor (CoEditor) that harnesses the large multimodal model through a two-stage cognitive process: (1) a perceptual cognitive process to focus on what needs to be modified and (2) a behavioral cognitive process to strategize how to modify. To mitigate the negative implications of harmful images on research, we create a transparent and public dataset, AltBear, which expresses harmful information using teddy bears instead of humans. Experiments demonstrate that CoEditor can effectively comprehend abstract concepts within complex scenes and significantly surpass the performance of baseline models for responsible visual editing. We find that the AltBear dataset corresponds well to the harmful content found in real images, offering a consistent experimental evaluation, thereby providing a safer benchmark for future research. Moreover, CoEditor also shows great results in general editing. We release our code and dataset at https://github.com/kodenii/Responsible-Visual-Editing.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-08
# ファウンデーションモデルのための顔特徴ガイド適応によるより一般的なビデオベースディープフェイク検出に向けて

Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model ( http://arxiv.org/abs/2404.05583v1 )

ライセンス: Link先を確認
Yue-Hua Han, Tai-Ming Huang, Shu-Tzu Lo, Po-Han Huang, Kai-Lung Hua, Jun-Cheng Chen, (参考訳) ディープラーニングの台頭により、生成モデルは高度に現実的な合成画像の作成を可能にし、その潜在的な誤用による課題を提示している。 ディープフェイク検出の研究は、反応が急速に進んでいるが、多くの検出手法は、新しい合成技術によって生成された未知のディープフェイクと競合している。 この一般化課題に対処するため、我々は、ファンデーションモデルの内部に符号化されたリッチな情報、特に下流タスクに強力なゼロショット機能を示すCLIPの画像エンコーダを用いて、内部に符号化されたリッチな情報を適応させることにより、新しいディープフェイク検出手法を提案する。 近年のパラメータ効率のよい微調整の進歩に触発されて,ビデオクリップから空間的および時間的手がかりを抽出する新しいサイドネットワークベースのデコーダを提案し,より堅牢で汎用的なディープフェイク検出のための重要な顔部品の特徴を含むように空間的特徴を誘導するFCG(Facial Component Guidance)を推進した。 大規模なクロスデータセット評価を通じて,本手法は未確認のDeepfakeサンプルを同定し,限られたトレーニングサンプルや操作タイプであっても顕著な性能向上を実現している。 本モデルでは,最先端の手法と比較して,AUROCの平均性能向上率は0.9%であり,特にDFDCデータセットの4.4%向上に大きく貢献する。

With the rise of deep learning, generative models have enabled the creation of highly realistic synthetic images, presenting challenges due to their potential misuse. While research in Deepfake detection has grown rapidly in response, many detection methods struggle with unseen Deepfakes generated by new synthesis techniques. To address this generalisation challenge, we propose a novel Deepfake detection approach by adapting rich information encoded inside the Foundation Models with rich information encoded inside, specifically using the image encoder from CLIP which has demonstrated strong zero-shot capability for downstream tasks. Inspired by the recent advances of parameter efficient fine-tuning, we propose a novel side-network-based decoder to extract spatial and temporal cues from the given video clip, with the promotion of the Facial Component Guidance (FCG) to guidencourage the spatial feature to include features of key facial parts for more robust and general Deepfake detection. Through extensive cross-dataset evaluations, our approach exhibits superior effectiveness in identifying unseen Deepfake samples, achieving notable performance improvementsuccess even with limited training samples and manipulation types. Our model secures an average performance enhancement of 0.9% AUROC in cross-dataset assessments comparing with state-of-the-art methods, especiallytablishing a significant lead of achieving 4.4% improvement on the challenging DFDC dataset.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 白血球画像の軽量・ロバスト・説明可能な分類のための神経細胞オートマタ

Neural Cellular Automata for Lightweight, Robust and Explainable Classification of White Blood Cell Images ( http://arxiv.org/abs/2404.05584v1 )

ライセンス: Link先を確認
Michael Deutges, Ario Sadafi, Nassir Navab, Carsten Marr, (参考訳) 血液悪性腫瘍の診断は末梢血腫の白血球の正確な同定に依存する。 深層学習技術は、実験室の細胞の自動識別によって、このプロセスをスケールし、最適化するための実行可能なソリューションとして浮上している。 しかし、これらの手法は、限定的な一般化可能性、ドメインシフトに対する感受性、説明可能性の欠如など、いくつかの課題に直面している。 ここでは、白血球分類のための神経細胞オートマトン(NCA)に基づく新しいアプローチを提案する。 白血球画像の3つのデータセットを用いて本手法を検証し,従来の方法と比較して競争性能が向上したことを示す。 NCAに基づく手法はパラメータの面で著しく小さく,ドメインシフトに対する堅牢性を示す。 さらに、アーキテクチャは本質的に説明可能であり、各分類の意思決定プロセスに関する洞察を提供し、専門家がモデルの予測を理解し、検証するのに役立つ。 以上の結果から,NAAは画像分類だけでなく,従来の手法の課題にも対処できる可能性が示唆された。

Diagnosis of hematological malignancies depends on accurate identification of white blood cells in peripheral blood smears. Deep learning techniques are emerging as a viable solution to scale and optimize this process by automatic identification of cells in laboratories. However, these techniques face several challenges such as limited generalizability, sensitivity to domain shifts and lack of explainability. Here, we are introducing a novel approach based on neural cellular automata (NCA) for white blood cell classification. We test our approach on three datasets of white blood cell images and show that we achieve competitive performance compared to conventional methods. Our NCA-based method is significantly smaller in terms of parameters and exhibits robustness to domain shifts. Furthermore, the architecture is inherently explainable, providing insights into the decision process for each classification, helping experts understand and validate model predictions. Results demonstrate that NCA not only can be used for image classification, but also address key challenges of conventional methods, indicating a high potential for applicability in clinical practice.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# シュレーディンガー方程式と真空ゆらぎによる光子吸収原子の例

Examples of Atoms Absorbing Photon via Schrödinger Equation and Vacuum Fluctuations ( http://arxiv.org/abs/2404.05585v1 )

ライセンス: Link先を確認
Yongjun Zhang, (参考訳) 原子による光子の吸収は、基本的な量子力学的側面、特に吸収結果に固有の予測不可能さを考慮に入れたランダム性の出現を含む。 真空揺らぎがこのランダム性の起源であることを示す。 この図示的な例は、2つの対称配置された原子による1つの光子の吸収である。 ランダム性を導入するメカニズムがない場合、シュリンガー方程式は2つの原子の絡み合った状態が現れるまでプロセスの時間進化を制御している。 この絡み合った状態は、第1原子が光子によって励起され、第2原子が基底状態に残され、第1原子が基底状態に留まり、第2原子が光子によって励起される2つの成分からなる。 これらの成分は、外部の影響がない場合に、破壊不可能な対称性によって特徴づけられる重ね合わせ状態を形成する。 そのため、吸収過程は不完全なままである。 真空のゆらぎが生じると、ブラウン運動に似たこれらの成分の重みのゆらぎを誘発する。 時間の経過とともに、1つの成分は減少し、2つの原子間の絡み合いを断ち、光子吸収過程を終わらせる。 残りの成分は最終的にどの原子が光子吸収を完了するかを決定する。 異なる数の原子を含む同様の研究を行うことができる。 真空揺らぎはランダム性をもたらすだけでなく、この文脈でボルン則を生じさせる可能性がある。 さらに、真空揺らぎと密接に結びついているカシミール効果は、このメカニズムを検証するための有望な実験的道を示す。

The absorption of photons by atoms encompasses fundamental quantum mechanical aspects, particularly the emergence of randomness to account for the inherent unpredictability in absorption outcomes. We demonstrate that vacuum fluctuations can be the origin of this randomness. An illustrative example of this is the absorption of a single photon by two symmetrically arranged atoms. In the absence of a mechanism to introduce randomness, the Schr\"odinger equation alone governs the time evolution of the process until an entangled state of the two atoms emerges. This entangled state consists of two components: one in which the first atom is excited by the photon while the second remains in the ground state, and another in which the first atom remains in the ground state while the second is excited by the photon. These components form a superposition state characterized by an unbreakable symmetry in the absence of external influences. Consequently, the absorption process remains incomplete. When vacuum fluctuations come into play, they can induce fluctuations in the weights of these components, akin to Brownian motion. Over time, one component diminishes, thereby breaking the entanglement between the two atoms and allowing the photon absorption process to conclude. The remaining component ultimately determines which atom completes the photon absorption. Similar studies involving different numbers of atoms can be conducted. Vacuum fluctuations not only introduce randomness but also have the potential to give rise to the Born rule in this context. Furthermore, the Casimir effect, which is closely tied to vacuum fluctuations, presents a promising experimental avenue for validating this mechanism.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 単一質問応答による生成言語モデルによるソフトウェア関連情報抽出の強化

Enhancing Software Related Information Extraction with Generative Language Models through Single-Choice Question Answering ( http://arxiv.org/abs/2404.05587v1 )

ライセンス: Link先を確認
Wolfgang Otto, Sharmila Upadhyaya, Stefan Dietze, (参考訳) 本稿では,言語モデル(ジェネレーティブ言語モデル,GLM)を用いて,学術テキストにおける関係抽出を改善することを目的としたSOMD(Shared Task on Software Mentions Disambiguation)への参加について述べる。 この方法論は、ソフトウェア関連エンティティと、配布情報などの記述属性を抽出するために、GLMのコンテキスト内学習機能の使用を優先している。 提案手法では,抽出したソフトウェアエンティティ間の関係を識別するために,RAG(Retrieval-Augmented Generation)技術とNER(Named Entity Recognition)のためのGLMとAttributive NERを使用し,学術文献におけるソフトウェア引用の分析のための構造化ソリューションを提供する。 本稿では,提案手法の詳細な説明を行い,単一選択QAパラダイムにおけるGLMの使用がIE方法論を大幅に向上させることを示す。 SOMD共有タスクへの参加は、正確なソフトウェア引用プラクティスの重要性を強調し、ソフトウェア言及間の関係の曖昧さと抽出という課題を克服するシステムの能力を示す。 これにより、この分野での今後の研究開発の基盤となるものとなる。

This paper describes our participation in the Shared Task on Software Mentions Disambiguation (SOMD), with a focus on improving relation extraction in scholarly texts through Generative Language Models (GLMs) using single-choice question-answering. The methodology prioritises the use of in-context learning capabilities of GLMs to extract software-related entities and their descriptive attributes, such as distributive information. Our approach uses Retrieval-Augmented Generation (RAG) techniques and GLMs for Named Entity Recognition (NER) and Attributive NER to identify relationships between extracted software entities, providing a structured solution for analysing software citations in academic literature. The paper provides a detailed description of our approach, demonstrating how using GLMs in a single-choice QA paradigm can greatly enhance IE methodologies. Our participation in the SOMD shared task highlights the importance of precise software citation practices and showcases our system's ability to overcome the challenges of disambiguating and extracting relationships between software mentions. This sets the groundwork for future research and development in this field.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# MedExpQA: 医療質問応答のための大規模言語モデルの多言語ベンチマーク

MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering ( http://arxiv.org/abs/2404.05590v1 )

ライセンス: Link先を確認
Iñigo Alonso, Maite Oronoz, Rodrigo Agerri, (参考訳) 大規模言語モデル(LLM)は、医療専門家が対話的な意思決定支援を支援するために人工知能技術の開発を促進する可能性を秘めている。 しかし、驚くべきことに、医療応用に必要な品質基準は達成されるには程遠い。 現在、LLMは時代遅れの知識と、幻覚的コンテンツを生成する傾向に悩まされている。 さらに、医療知識を評価するためのベンチマークでは、基準金の説明が欠落しているため、LCMの予測の推論を評価できない。 最後に、私たちが知っている限りでは、完全に無視されたトピックである英語以外の言語に対するLLMのベンチマークを考えると、この状況は特に悲惨です。 これらの問題点に対処するため,本論文では,医学的質問応答におけるLSMを評価するための,医学的試験に基づく最初の多言語ベンチマークであるMedExpQAを提案する。 我々の知る限り、MedExpQAは、LLMのパフォーマンスと比較するために、様々な金ベースの上限を確立するために、医師によって書かれた金の説明を初めて参照する。 ゴールドレファレンス説明とレトリーバル拡張生成(RAG)アプローチの両方を用いた総合多言語実験により、LLMの性能は、特に英語以外の言語において、まだ大きな改善の余地があることが示されている。 さらに,最新のRAG手法を用いても,医療質問応答に対する下流評価に有意な影響を及ぼす可能性のある,手軽に利用可能な医療知識の獲得と統合の難しさも示している。 これまでのところ、ベンチマークは4つの言語で利用可能ですが、この作業によって他の言語にもさらなる開発が促進されることを願っています。

Large Language Models (LLMs) have the potential of facilitating the development of Artificial Intelligence technology to assist medical experts for interactive decision support, which has been demonstrated by their competitive performances in Medical QA. However, while impressive, the required quality bar for medical applications remains far from being achieved. Currently, LLMs remain challenged by outdated knowledge and by their tendency to generate hallucinated content. Furthermore, most benchmarks to assess medical knowledge lack reference gold explanations which means that it is not possible to evaluate the reasoning of LLMs predictions. Finally, the situation is particularly grim if we consider benchmarking LLMs for languages other than English which remains, as far as we know, a totally neglected topic. In order to address these shortcomings, in this paper we present MedExpQA, the first multilingual benchmark based on medical exams to evaluate LLMs in Medical Question Answering. To the best of our knowledge, MedExpQA includes for the first time reference gold explanations written by medical doctors which can be leveraged to establish various gold-based upper-bounds for comparison with LLMs performance. Comprehensive multilingual experimentation using both the gold reference explanations and Retrieval Augmented Generation (RAG) approaches show that performance of LLMs still has large room for improvement, especially for languages other than English. Furthermore, and despite using state-of-the-art RAG methods, our results also demonstrate the difficulty of obtaining and integrating readily available medical knowledge that may positively impact results on downstream evaluations for Medical Question Answering. So far the benchmark is available in four languages, but we hope that this work may encourage further development to other languages.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# UniFL: 統一フィードバック学習による安定拡散の改善

UniFL: Improve Stable Diffusion via Unified Feedback Learning ( http://arxiv.org/abs/2404.05595v1 )

ライセンス: Link先を確認
Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li, (参考訳) 拡散モデルは画像生成の分野に革命をもたらし、高品質なモデルや様々な下流アプリケーションの普及につながった。 しかし、これらの顕著な進歩にもかかわらず、現在の競合ソリューションは、視力の劣る品質、美的魅力の欠如、非効率な推論など、包括的な解決策を目にせず、いくつかの制限に悩まされている。 これらの課題に対処するために,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークUniFLを提案する。 UniFL は、SD1.5 や SDXL といった様々な拡散モデルに適用できる普遍的で効果的で一般化可能な解である。 視覚的品質を高める知覚フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習である。 詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。 たとえば、UniFLは、生成品質の点でImageRewardを17%上回り、LCMとSDXL Turboを57%上回り、4段階推論では20%上回る。 さらに、Lora、ControlNet、AnimateDiffといった下流タスクにおけるアプローチの有効性を検証する。

Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# gRPCベースのマイクロサービス通信のためのフックインプライバシ技術

Hook-in Privacy Techniques for gRPC-based Microservice Communication ( http://arxiv.org/abs/2404.05598v1 )

ライセンス: Link先を確認
Louis Loechel, Siar-Remzi Akbayin, Elias Grünewald, Jannis Kiesel, Inga Strelnikova, Thomas Janke, Frank Pallas, (参考訳) gRPCは現代の分散システムアーキテクチャの中心にあります。 HTTP/2とProtocol Buffersをベースとして、疎結合なマイクロサービス間の高性能で標準化された、多言語通信を提供し、実際にRESTやGraphQLベースのサービスAPIよりもますます好まれている。 広く採用されているにもかかわらず、gRPCにはトランスポート暗号化と基本的なトークンベースの認証以上の高度なプライバシ技術がない。 しかし、このような高度な技術は規制要件を満たすためにますます重要になっている。 例えば、リクエストに応答する前に(個人)データを匿名化または最小化したり、アクセスの目的に基づいてデータを前処理したりするといったことは、特定のユースケースにおいて非常に重要です。 そこで本稿では,このような高度なプライバシ技術をgRPCフレームワークに統合する新たな手法を提案する。 具体的には、gRPCインターセプタを利用した設定可能、拡張可能、およびgRPCネイティブな方法で、データ最小化や目的制限といったプライバシー技術を実装する作業プロトタイプとともに、一般的なアプローチを示す。 また、このコントリビューションを、フードデリバリーユースケースの現実的な例に統合する方法も紹介します。 これらの実装に加えて、予備的な性能評価は、合理的なオーバーヘッドを伴う実用的な適用性を示している。 さらに私たちは,高度なプライバシ技術を現実のgRPCベースのマイクロサービスアーキテクチャに統合する上で,実行可能なソリューションを提案しています。

gRPC is at the heart of modern distributed system architectures. Based on HTTP/2 and Protocol Buffers, it provides highly performant, standardized, and polyglot communication across loosely coupled microservices and is increasingly preferred over REST- or GraphQL-based service APIs in practice. Despite its widespread adoption, gRPC lacks any advanced privacy techniques beyond transport encryption and basic token-based authentication. Such advanced techniques are, however, increasingly important for fulfilling regulatory requirements. For instance, anonymizing or otherwise minimizing (personal) data before responding to requests, or pre-processing data based on the purpose of the access may be crucial in certain usecases. In this paper, we therefore propose a novel approach for integrating such advanced privacy techniques into the gRPC framework in a practically viable way. Specifically, we present a general approach along with a working prototype that implements privacy techniques, such as data minimization and purpose limitation, in a configurable, extensible, and gRPC-native way utilizing a gRPC interceptor. We also showcase how to integrate this contribution into a realistic example of a food delivery use case. Alongside these implementations, a preliminary performance evaluation shows practical applicability with reasonable overheads. Altogether, we present a viable solution for integrating advanced privacy techniques into real-world gRPC-based microservice architectures, thereby facilitating regulatory compliance ``by design''.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# メタモデリングに基づくハードウェア生成言語へのアプローチ

The Argument for Meta-Modeling-Based Approaches to Hardware Generation Languages ( http://arxiv.org/abs/2404.05599v1 )

ライセンス: Link先を確認
Johannes Schreiner, Daniel Gerl, Robert Kunzelmann, Paritosh Kumar Sinha, Wolfgang Ecker, (参考訳) 集積回路(IC)開発の急速な発展は、複雑さを管理し生産性を高めるために、コード生成のような革新的な方法論を必要とする。 ジェネレータ開発に適切な方法論を用いて能力を最大化し、特に、ジェネレータの実現性は、この研究の重要な部分である。 モデル駆動アーキテクチャ(MDA)の原則に基づくメタモデリングベースのアプローチは、ジェネレータ開発のための有望な方法論である。 本稿の目的は,このようなMDAベースのアプローチが,実装に最小限の労力で極めて強力なジェネレータを提供することができる理由を実証し,SpinalHDLやChiselといった先進的なハードウェア生成言語に対して,このアプローチが優れた代替手段であることを実証することである。 そこで本研究では,メタモデリングに基づくアプローチの独特な利点を強調し,その利点を要約したメタモデリングアプローチを,これらのハードウェア生成言語に対して詳細に比較する。

The rapid evolution of Integrated Circuit (IC) development necessitates innovative methodologies such as code generation to manage complexity and increase productivity. Using the right methodology for generator development to maximize the capability and, most notably, the feasibility of generators is a crucial part of this work. Meta-Modeling-based approaches drawing on the principles of Model Driven Architecture (MDA) are a promising methodology for generator development. The goal of this paper is to show why such an MDA-based approach can provide extremely powerful generators with minimal implementation effort and to demonstrate that this approach is a superior alternative to the most advanced hardware generation languages such as SpinalHDL and Chisel. For this purpose, this paper provides an in-depth comparison of the Meta-Modeling approach against these hardware generation languages, highlighting the unique advantages of a Meta-Modeling-based approach and summarizes the benefits.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# SpeechAlign: 人間の嗜好に適応した音声生成

SpeechAlign: Aligning Speech Generation to Human Preferences ( http://arxiv.org/abs/2404.05600v1 )

ライセンス: Link先を確認
Dong Zhang, Zhaowei Li, Shimin Li, Xin Zhang, Pengyu Wang, Yaqian Zhou, Xipeng Qiu, (参考訳) 言語モデルは現実的な音声を生成するために著しく進歩し、ニューラルコーデック言語モデルは際立っている。 しかし、音声出力を人間の好みに合わせるための人間のフィードバックの統合は、しばしば無視される。 本稿では,まずコーデック言語モデルの分布ギャップを解析し,学習と推論の相違が性能に悪影響を及ぼすことを示す。 次に、人間のフィードバックからの学習を活用して、分配ギャップを埋める方法について検討する。 本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。 SpeechAlignは、黄金のコーデックトークンと合成トークンとを対比した好みのコーデックデータセットの構築と、コーデック言語モデルを改善するための好みの最適化を含む。 この改善のサイクルは、弱いモデルを強いモデルに着実に変換するために反復的に実行される。 主観的評価と客観的評価の両方を通して、SpeechAlignは分配ギャップを埋め、言語モデルの継続的な自己改善を促進することができることを示す。 さらに、SpeechAlignは堅牢な一般化機能を示し、より小さなモデルで機能する。 コードとモデルはhttps://github.com/0nutation/SpeechGPTで入手できる。

Speech language models have significantly advanced in generating realistic speech, with neural codec language models standing out. However, the integration of human feedback to align speech outputs to human preferences is often neglected. This paper addresses this gap by first analyzing the distribution gap in codec language models, highlighting how it leads to discrepancies between the training and inference phases, which negatively affects performance. Then we explore leveraging learning from human feedback to bridge the distribution gap. We introduce SpeechAlign, an iterative self-improvement strategy that aligns speech language models to human preferences. SpeechAlign involves constructing a preference codec dataset contrasting golden codec tokens against synthetic tokens, followed by preference optimization to improve the codec language model. This cycle of improvement is carried out iteratively to steadily convert weak models to strong ones. Through both subjective and objective evaluations, we show that SpeechAlign can bridge the distribution gap and facilitating continuous self-improvement of the speech language model. Moreover, SpeechAlign exhibits robust generalization capabilities and works for smaller models. Code and models will be available at https://github.com/0nutation/SpeechGPT.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# クラウド環境における高効率かつ効果的なサイバーインシデント検出・応答のためのAI対応システム

AI-Enabled System for Efficient and Effective Cyber Incident Detection and Response in Cloud Environments ( http://arxiv.org/abs/2404.05602v1 )

ライセンス: Link先を確認
Mohammed A. M. Farzaan, Mohamed Chahine Ghanem, Ayman El-Hajjar, (参考訳) クラウド環境における高度なサイバー脅威の増大は、戦略のパラダイムシフトを必要とする。 サイバー脅威に対する自動的かつ正確な対応の必要性を認識した本研究では,AIとMLの適用について検討し,クラウド環境に対するAIを活用したサイバーインシデント応答システムを提案する。 このシステムは、ネットワークトラフィックの分類、Web侵入検出、事故後のマルウェア分析(Fraskアプリケーションとして構築)を含むもので、Google CloudやMicrosoft Azureのようなプラットフォーム間でシームレスな統合を実現する。 本研究の結果はランダムフォレストモデルの有効性を強調し,ネットワークトラフィック分類器では90%,Malware Analysis Dual Modelでは96%の精度を達成した。 私たちの研究は、AIによるサイバーセキュリティの強みを強調しています。 Random Forestモデルは、サイバー脅威の分類に優れ、効率的で堅牢なソリューションを提供する。 ディープラーニングモデルは精度を大幅に向上し、そのリソース要求はクラウドベースのTPUとGPUを使用して管理できる。 クラウド環境自体は、これらのAI/MLシステムをホストするための完璧なプラットフォームを提供し、コンテナ技術は効率性とスケーラビリティの両方を保証する。 これらの結果は、クラウドにおける堅牢でスケーラブルなサイバーインシデント対応ソリューションを保証する上で、AI主導のシステムが貢献していることを示している。

The escalating sophistication and volume of cyber threats in cloud environments necessitate a paradigm shift in strategies. Recognising the need for an automated and precise response to cyber threats, this research explores the application of AI and ML and proposes an AI-powered cyber incident response system for cloud environments. This system, encompassing Network Traffic Classification, Web Intrusion Detection, and post-incident Malware Analysis (built as a Flask application), achieves seamless integration across platforms like Google Cloud and Microsoft Azure. The findings from this research highlight the effectiveness of the Random Forest model, achieving an accuracy of 90% for the Network Traffic Classifier and 96% for the Malware Analysis Dual Model application. Our research highlights the strengths of AI-powered cyber security. The Random Forest model excels at classifying cyber threats, offering an efficient and robust solution. Deep learning models significantly improve accuracy, and their resource demands can be managed using cloud-based TPUs and GPUs. Cloud environments themselves provide a perfect platform for hosting these AI/ML systems, while container technology ensures both efficiency and scalability. These findings demonstrate the contribution of the AI-led system in guaranteeing a robust and scalable cyber incident response solution in the cloud.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 技術的報告: グラフスペクトルトークン -- スペクトル情報によるグラフトランスフォーマーの強化

Technical Report: The Graph Spectral Token -- Enhancing Graph Transformers with Spectral Information ( http://arxiv.org/abs/2404.05604v1 )

ライセンス: Link先を確認
Zihan Pengmei, Zimu Li, (参考訳) グラフトランスフォーマーは、情報交換の過剰シャッシングのような制限に対処するために、メッセージパッシンググラフニューラルネットワーク(MP-GNN)の強力な代替手段として登場した。 しかし、グラフ帰納バイアスをトランスフォーマーアーキテクチャに組み込むことは、依然として大きな課題である。 本稿では,グラフのグローバルな構造を捉えたグラフスペクトル情報をトランスフォーマーアーキテクチャへ直接エンコードする新しい手法であるグラフスペクトルトークンを提案する。 補助的[CLS]トークンをパラメータ化し,グラフノードを表す他のトークンを残しておくことで,スペクトル情報を学習プロセスにシームレスに統合する。 既存のグラフ変換器であるGraphTransとSubFormerを拡張して,提案手法の有効性をベンチマークする。 GraphTrans-Specと呼ばれる改善されたGraphTransは、大きなグラフベンチマークデータセットで10%以上の改善を実現し、MP-GNNに匹敵する効率を維持している。 SubFormer-Specは、さまざまなデータセットで強力なパフォーマンスを示している。

Graph Transformers have emerged as a powerful alternative to Message-Passing Graph Neural Networks (MP-GNNs) to address limitations such as over-squashing of information exchange. However, incorporating graph inductive bias into transformer architectures remains a significant challenge. In this report, we propose the Graph Spectral Token, a novel approach to directly encode graph spectral information, which captures the global structure of the graph, into the transformer architecture. By parameterizing the auxiliary [CLS] token and leaving other tokens representing graph nodes, our method seamlessly integrates spectral information into the learning process. We benchmark the effectiveness of our approach by enhancing two existing graph transformers, GraphTrans and SubFormer. The improved GraphTrans, dubbed GraphTrans-Spec, achieves over 10% improvements on large graph benchmark datasets while maintaining efficiency comparable to MP-GNNs. SubFormer-Spec demonstrates strong performance across various datasets.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# デバイスエッジコ推論システムにおけるグラフニューラルネットワークの設計と展開の自動化

Graph Neural Networks Automated Design and Deployment on Device-Edge Co-Inference Systems ( http://arxiv.org/abs/2404.05605v1 )

ライセンス: Link先を確認
Ao Zhou, Jianlei Yang, Tong Qiao, Yingjie Qi, Zhi Yang, Weisheng Zhao, Chunming Hu, (参考訳) デバイスエッジコ推論のパラダイムの鍵となるのは、モデルをそれぞれ、デバイスとエッジをまたいだ計算フレンドリな部分と計算集約的な部分に分割することだ。 しかし、グラフニューラルネットワーク(GNN)では、異種デバイス上でのGNN操作の様々な計算通信オーバーヘッドにより、構造を変更せずに分割するだけでは、共参照パラダイムの完全なポテンシャルを達成できないことが判明した。 本稿では,GNNのアーキテクチャ検索とデザイナエッジ階層上の各操作のマッピングを革新的に共同設計する,最初の自動フレームワークであるGCoDEを紹介する。 GCoDEはデバイス通信プロセスを明示的な操作に抽象化し、共同最適化のための統一された空間におけるアーキテクチャとオペレーションマッピングの探索を融合する。 また、GCoDEの制約に基づく探索プロセスで活用される性能認識アプローチにより、多種多様な異種システムにおけるアーキテクチャ効率を効果的に評価することができる。 我々は,GCoDEで共同推論エンジンとランタイムディスパッチを実装し,デプロイメント効率を向上させる。 実験の結果、GCoDEは、様々なアプリケーションやシステム構成にまたがる既存のアプローチと比較して、最大4,4.9\times$スピードアップと9,8.2\%のエネルギー削減を達成できることがわかった。

The key to device-edge co-inference paradigm is to partition models into computation-friendly and computation-intensive parts across the device and the edge, respectively. However, for Graph Neural Networks (GNNs), we find that simply partitioning without altering their structures can hardly achieve the full potential of the co-inference paradigm due to various computational-communication overheads of GNN operations over heterogeneous devices. We present GCoDE, the first automatic framework for GNN that innovatively Co-designs the architecture search and the mapping of each operation on Device-Edge hierarchies. GCoDE abstracts the device communication process into an explicit operation and fuses the search of architecture and the operations mapping in a unified space for joint-optimization. Also, the performance-awareness approach, utilized in the constraint-based search process of GCoDE, enables effective evaluation of architecture efficiency in diverse heterogeneous systems. We implement the co-inference engine and runtime dispatcher in GCoDE to enhance the deployment efficiency. Experimental results show that GCoDE can achieve up to $44.9\times$ speedup and $98.2\%$ energy reduction compared to existing approaches across various applications and system configurations.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# マルチビュー再構成のためのボリュームレンダリングによる一様顔メッシュの学習

Learning Topology Uniformed Face Mesh by Volume Rendering for Multi-view Reconstruction ( http://arxiv.org/abs/2404.05606v1 )

ライセンス: Link先を確認
Yating Wang, Ran Yi, Ke Fan, Jinkun Hao, Jiangbo Lu, Lizhuang Ma, (参考訳) 一貫性のあるトポロジにおける顔メッシュは、3DMM制約付き顔再構成や表現再ターゲティングなど、多くの顔関連アプリケーションの基盤となっている。 従来の方法では、形状を再構成するマルチビューステレオ(MVS)と、トポロジーを整列する非剛性登録の2つのステップでトポロジーに統一された顔メッシュを取得できるが、ノイズや非ランベルト面の扱いに苦慮している。 近年, ニューラルボリュームレンダリング技術は急速に発展し, 3次元再構成や新しいビュー合成において大きな優位性を示している。 我々のゴールは、一貫したトポロジを持つ顔メッシュのマルチビュー再構成に、ニューラルボリュームレンダリングの優位性を活用することである。 トポロジを保存しながらメッシュ形状を直接最適化し,多視点画像から複雑な顔の外観をモデル化するための暗黙の特徴を学習するメッシュボリュームレンダリング手法を提案する。 重要なイノベーションは、ボリュームレンダリングに必要なラディアンスフィールドをシミュレートするために、スパースメッシュ機能を周辺空間に分散させることであり、画像からメッシュ幾何学、暗黙の外観特徴への勾配のバックプロパゲーションを容易にする。 提案する機能展開モジュールは変形不変性を示し,メッシュ編集後にシームレスにフォトリアリスティックレンダリングを実現する。 マルチビュー顔画像データセットの実験を行い、再現性を評価し、アニメーション顔メッシュのフォトリアリスティックレンダリングに応用する。

Face meshes in consistent topology serve as the foundation for many face-related applications, such as 3DMM constrained face reconstruction and expression retargeting. Traditional methods commonly acquire topology uniformed face meshes by two separate steps: multi-view stereo (MVS) to reconstruct shapes followed by non-rigid registration to align topology, but struggles with handling noise and non-lambertian surfaces. Recently neural volume rendering techniques have been rapidly evolved and shown great advantages in 3D reconstruction or novel view synthesis. Our goal is to leverage the superiority of neural volume rendering into multi-view reconstruction of face mesh with consistent topology. We propose a mesh volume rendering method that enables directly optimizing mesh geometry while preserving topology, and learning implicit features to model complex facial appearance from multi-view images. The key innovation lies in spreading sparse mesh features into the surrounding space to simulate radiance field required for volume rendering, which facilitates backpropagation of gradients from images to mesh geometry and implicit appearance features. Our proposed feature spreading module exhibits deformation invariance, enabling photorealistic rendering seamlessly after mesh editing. We conduct experiments on multi-view face image dataset to evaluate the reconstruction and implement an application for photorealistic rendering of animated face mesh.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 安定拡散のための無訓練プラグアンドプレイ透かしフレームワーク

A Training-Free Plug-and-Play Watermark Framework for Stable Diffusion ( http://arxiv.org/abs/2404.05607v1 )

ライセンス: Link先を確認
Guokai Zhang, Lanjun Wang, Yuting Su, An-An Liu, (参考訳) 今日では、SD(Stable Diffusion)モデルのファミリーは、その高品質な出力とスケーラビリティで有名になっている。 これにより、悪意のあるユーザーが有害なコンテンツを作成・拡散できるため、ソーシャルメディアに対するセキュリティ上の懸念も高まっている。 既存のアプローチには、トレーサビリティと責任帰属のために生成されたイメージに透かしを埋め込むためのトレーニングコンポーネントやSD全体が含まれる。 しかし、AIGC(AI- generated Content)の時代、SDの迅速な反復は、ウォーターマークモデルによる再トレーニングをコストがかかる。 そこで本研究では,SDのためのトレーニング不要なプラグイン・アンド・プレイ・透かしフレームワークを提案する。 SDのコンポーネントを変更することなく、潜在空間に様々な透かしを埋め込み、デノナイジングプロセスに適応する。 実験結果から,本手法は画像品質と透かしの視認性を効果的に調和させることがわかった。 さらに、様々な攻撃で頑強に機能する。 また,透かしモデルを再学習することなく,SDの複数バージョンに一般化可能であることも確認した。

Nowadays, the family of Stable Diffusion (SD) models has gained prominence for its high quality outputs and scalability. This has also raised security concerns on social media, as malicious users can create and disseminate harmful content. Existing approaches involve training components or entire SDs to embed a watermark in generated images for traceability and responsibility attribution. However, in the era of AI-generated content (AIGC), the rapid iteration of SDs renders retraining with watermark models costly. To address this, we propose a training-free plug-and-play watermark framework for SDs. Without modifying any components of SDs, we embed diverse watermarks in the latent space, adapting to the denoising process. Our experimental findings reveal that our method effectively harmonizes image quality and watermark invisibility. Furthermore, it performs robustly under various attacks. We also have validated that our method is generalized to multiple versions of SDs, even without retraining the watermark model.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 地域在住高齢者の多機能劣化モデルのための深層表現学習

Deep Representation Learning for Multi-functional Degradation Modeling of Community-dwelling Aging Population ( http://arxiv.org/abs/2404.05613v1 )

ライセンス: Link先を確認
Suiyao Chen, Xinyi Liu, Yulei Li, Jing Wu, Handong Yao, (参考訳) 高齢化が進むにつれて、特にベビーブーム世代は、多機能障害を経験する高齢者の著しい増加を目の当たりにしている。 これらの障害は、様々な慢性疾患、怪我、障害から発生し、身体的側面と認知的側面の両方を包含する多次元的な性質から複雑な課題を呈する。 従来の手法では、単変量回帰に基づく手法を用いて、単一劣化条件をモデル化し予測し、人口の均一性を仮定するが、これは老化に伴う劣化の複雑さと多様性に対処するには不十分である。 本研究では,高齢者の多次元的(身体的・認知的)および異種性を考慮した多機能劣化モデルを提案する。 深層学習を応用して,高齢者の健康史から健康劣化のスコアを予測し,老化関連劣化の多様な影響と原因について,効率的な推定と説明可能な知見を提供する。 実際のケーススタディでは、高齢化の複雑なダイナミクスを正確にモデル化し、高齢化における医療上の課題に対処するために、有効性を示し、重要な貢献をしている。

As the aging population grows, particularly for the baby boomer generation, the United States is witnessing a significant increase in the elderly population experiencing multifunctional disabilities. These disabilities, stemming from a variety of chronic diseases, injuries, and impairments, present a complex challenge due to their multidimensional nature, encompassing both physical and cognitive aspects. Traditional methods often use univariate regression-based methods to model and predict single degradation conditions and assume population homogeneity, which is inadequate to address the complexity and diversity of aging-related degradation. This study introduces a novel framework for multi-functional degradation modeling that captures the multidimensional (e.g., physical and cognitive) and heterogeneous nature of elderly disabilities. Utilizing deep learning, our approach predicts health degradation scores and uncovers latent heterogeneity from elderly health histories, offering both efficient estimation and explainable insights into the diverse effects and causes of aging-related degradation. A real-case study demonstrates the effectiveness and marks a pivotal contribution to accurately modeling the intricate dynamics of elderly degradation, and addresses the healthcare challenges in the aging population.
翻訳日:2024-04-09 13:55:49 公開日:2024-04-08
# 簡易強度測定による構造光パターンの量子トモグラフィー

Quantum tomography of structured light patterns from simple intensity measurements ( http://arxiv.org/abs/2404.05616v1 )

ライセンス: Link先を確認
M. Gil de Oliveira, A. L. S. Santos Junior, P. M. R. Lima, A. C. Barbosa, B. Pinheiro da Silva, S. Padua, A. Z. Khoury, (参考訳) 構造光子に符号化された空間量子ドットのトモグラフィーについて検討する。 カメラを用いた直接位置測定では、固定順序モードの空間において、情報的に完全な正の演算子値測定(POVM)が提供されないが、このPOVMを非現実的な変換で補完する。 拡張されたPOVMは情報的に完全であり、強い光子数と低い光子数の両方で単純な強度測定から空間量子状態の完全な評価を可能にする。 強い光に対して、線形反転の標準的な技術が用いられる。 低光子数体制では,ベイズ平均推定を採用し,光子数の増加に伴ってトモグラフィ再構成の質がどのように振る舞うかを考察する。 どちらの場合も畳み込みニューラルネットワークを用いてトモグラフィを行い、それと引き換えに柔軟性が向上し、一部のケースでは若干品質が低下する。 これらの手法は、構造化光による古典的および量子的通信に有用である。

We study the tomography of spatial qudits encoded on structured light photons. While direct position measurements with cameras do not provide an informationally complete Positive Operator Valued Measure (POVM) in the space of fixed order modes, we complement this POVM with an astigmatic transformation. The enlarged POVM is informationally complete, allowing full characterization of the spatial quantum state from simple intensity measurements in both the intense and in the low photocount regimes. For intense light, the standard technique of linear inversion is used. For the low photocount regime, we employ Bayesian mean inference, and study how the quality of the tomographic reconstruction behaves as we increase the photocounts. In both cases, we also perform the tomography using a convolutional neural network, which displays an increased flexibility in exchange for a slightly lower quality reconstruction in some of the cases. These methods will be useful for classical and quantum communication with structured light.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# 対数トフォリ数とゲート深さを用いた1量子回転アルゴリズム

Single-qubit rotation algorithm with logarithmic Toffoli count and gate depth ( http://arxiv.org/abs/2404.05618v1 )

ライセンス: Link先を確認
Christoffer Hindlycke, Jan-Åke Larsson, (参考訳) Clifford+Toffoli ゲートセットを用いた単一キュービットに対して、回転 $R_{\theta^\ast}$, $\epsilon$-close を所望の回転 $R_\theta$ に適用するための直接(再帰的でない)アルゴリズムを提案する。 我々のアルゴリズムは固定回転を繰り返すのではなく、直ちに$R_{\theta^\ast}$を適用する。 厳密に1/2$以上の確率で成功し、2より厳密には期待されるトフォリ数対数、期待されるゲート深さは$\tfrac{1}{\epsilon}$で対数である。

We propose a direct (non-recursive) algorithm for applying a rotation $R_{\theta^\ast}$, $\epsilon$-close to a desired rotation $R_\theta$, to a single qubit using the Clifford+Toffoli gate set. Our algorithm does not rely on repeatedly applying a fixed rotation, but immediately applies $R_{\theta^\ast}$. It succeeds with probability strictly greater than $1/2$, has an expected number of iterations strictly less than 2, expected Toffoli count logarithmic in $\tfrac{1}{\epsilon}$, and expected gate depth also logarithmic in $\tfrac{1}{\epsilon}$.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# タイムロンドー結晶の実験観察:時相秩序における時間的障害

Experimental observation of a time rondeau crystal: Temporal Disorder in Spatiotemporal Order ( http://arxiv.org/abs/2404.05620v1 )

ライセンス: Link先を確認
Leo Joon Il Moon, Paul Manuel Schindler, Yizhe Sun, Emanuel Druga, Johannes Knolle, Roderich Moessner, Hongzheng Zhao, Marin Bukov, Ashok Ajoy, (参考訳) 物質の相の理解は対称性の破れに依存しており、例えば結晶構造が空間の連続的な翻訳対称性を破る水氷である。 近年, 熱平衡のない系では, 時間変換対称性の破れが観察されている。 時間結晶性の関連概念は関心の高まりを招き、高制御可能な量子シミュレータが従来の静的系における順序の分類を超えて、豊かで調整可能な時間順序を生成できるかどうかという疑問を提起している。 ここでは、非周期的だが構造化されたドライブによって安定化された異なる部分時間順序について検討し、ロンドー順序(rondeau order)と呼ぶ。 我々は、$^{13}$C原子スピンダイヤモンド量子シミュレータを用いて、長時間のストロボスケールの秩序を示すシステムにおいて、-調整可能な-短時間の障害の初めての実験的な観察を報告した。 これは新しいスピン制御アーキテクチャに基づいており、構造のないランダムから準周期、周期的なドライブに至るまでの一連のドライブを実装できる。 高スループットの読み出し方式を利用して、105パルスのスピン偏極を継続的に観測し、ロンドーオーダーを探索し、制御可能な寿命は4秒を超える。 ロンドー秩序の短時間時間的障害における自由を利用して、観測対象の応答に応じて情報をエンコードする能力を示す。 我々の研究は、観測された非平衡時間秩序の風景を広げ、駆動量子物質を利用した新しい応用の道を開く。

Our understanding of phases of matter relies on symmetry breaking, one example being water ice whose crystalline structure breaks the continuous translation symmetry of space. Recently, breaking of time translation symmetry was observed in systems not in thermal equilibrium. The associated notion of time crystallinity has led to a surge of interest, raising the question about the extent to which highly controllable quantum simulators can generate rich and tunable temporal orders, beyond the conventional classification of order in static systems. Here, we investigate different kinds of partial temporal orders, stabilized by non-periodic yet structured drives, which we call rondeau order. Using a $^{13}$C-nuclear-spin diamond quantum simulator, we report the first experimental observation of a -- tunable degree of -- short-time disorder in a system exhibiting long-time stroboscopic order. This is based on a novel spin control architecture that allows us to implement a family of drives ranging from structureless via structured random to quasiperiodic and periodic drives. Leveraging a high throughput read-out scheme, we continuously observe the spin polarization over 105 pulses to probe rondeau order, with controllable lifetimes exceeding 4 seconds. Using the freedom in the short-time temporal disorder of rondeau order, we show the capacity to encode information in the response of observables. Our work broadens the landscape of observed nonequilibrium temporal order, paving the way for new applications harnessing driven quantum matter.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# MultiFLOW:タスク非依存のビジョンランゲージ・プルーニングへのシフト

MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning ( http://arxiv.org/abs/2404.05621v1 )

ライセンス: Link先を確認
Matteo Farina, Massimiliano Mancini, Elia Cunegatti, Gaowen Liu, Giovanni Iacca, Elisa Ricci, (参考訳) トランスファーラーニングには優れているが、VLM(Vision-Language Model)は多数のパラメーターのために計算コストが高い。 この問題に対処するためには、モデルプルーニングによるパラメータの削除が実行可能なソリューションである。 しかしながら、VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。 本研究では,タスク非依存型ビジョンランゲージ・プルーニング(TA-VLP)という新たな方向性を探求する。 事前訓練されたVLMが与えられた場合、ゴールは、未知の下流タスクに転送可能なユニークな刈り取られたタスクを見つけることである。 この挑戦的な設定では、既に事前訓練されたモデルにエンコードされている転送可能な表現は、保存すべき重要な側面である。 そこで我々は, TA-VLPのための第1, グラデーションフリー・プルーニングフレームワークであるmultimodal Flow Pruning (MULTIFLOW)を提案する。 一 パラメータの重要性は、その大きさ及び情報の流れにおいて、接続するニューロンの塩分濃度を組み込むことにより表される。 (II)プレトレーニング後のVLMパラメータの創発的(マルチモーダル)分布によりプルーニングを駆動する。 TA-VLPの文脈で8つの最先端プルーニングアルゴリズムをベンチマークし、2つのVLM、3つの視覚言語タスク、3つのプルーニング比を実験した。 実験の結果,MultiFLOWはTA-VLPに対処する上で,近年の高度で複合的な競合相手よりも優れていた。 コードはhttps://github.com/FarinaMatteo/multiflow.comで公開されている。

While excellent in transfer learning, Vision-Language models (VLMs) come with high computational costs due to their large number of parameters. To address this issue, removing parameters via model pruning is a viable solution. However, existing techniques for VLMs are task-specific, and thus require pruning the network from scratch for each new task of interest. In this work, we explore a new direction: Task-Agnostic Vision-Language Pruning (TA-VLP). Given a pretrained VLM, the goal is to find a unique pruned counterpart transferable to multiple unknown downstream tasks. In this challenging setting, the transferable representations already encoded in the pretrained model are a key aspect to preserve. Thus, we propose Multimodal Flow Pruning (MULTIFLOW), a first, gradient-free, pruning framework for TA-VLP where: (i) the importance of a parameter is expressed in terms of its magnitude and its information flow, by incorporating the saliency of the neurons it connects; and (ii) pruning is driven by the emergent (multimodal) distribution of the VLM parameters after pretraining. We benchmark eight state-of-the-art pruning algorithms in the context of TA-VLP, experimenting with two VLMs, three vision-language tasks, and three pruning ratios. Our experimental results show that MULTIFLOW outperforms recent sophisticated, combinatorial competitors in the vast majority of the cases, paving the way towards addressing TA-VLP. The code is publicly available at https://github.com/FarinaMatteo/multiflow.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# エンティティ解決システムを評価する方法: 発明者名の曖昧さを解消するEntity-Centric Framework

How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation ( http://arxiv.org/abs/2404.05622v1 )

ライセンス: Link先を確認
Olivier Binette, Youngsoo Baek, Siddharth Engineer, Christina Jones, Abel Dasylva, Jerome P. Reiter, (参考訳) エンティティの解像度(レコードのリンク、マイクロクラスタリング)システムを評価するのは非常に難しい。 干し草の山の中の針を探すため、従来の評価手法では、高度なアプリケーション固有のサンプリングスキームを使用して、膨大な数の非マッチの中から一致するレコードを見つける。 本稿では,複雑なサンプリング方式を必要とせずに,代表的で再利用可能なベンチマークデータセットの作成を容易にする方法を提案する。 これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。 具体的には、要約統計の監視、クラスタやペアの精度やリコールといった重要なパフォーマンス指標の推定、エラーの根本原因の分析など、統合されたフレームワークと統合されたエンティティ中心のデータラベリング手法を提案する。 本研究では,発明者の名称の曖昧さとシミュレーション研究を通じて,その枠組みを検証した。 ソフトウェア:https://github.com/OlivierBinette/er-evaluation/

Entity resolution (record linkage, microclustering) systems are notoriously difficult to evaluate. Looking for a needle in a haystack, traditional evaluation methods use sophisticated, application-specific sampling schemes to find matching pairs of records among an immense number of non-matches. We propose an alternative that facilitates the creation of representative, reusable benchmark data sets without necessitating complex sampling schemes. These benchmark data sets can then be used for model training and a variety of evaluation tasks. Specifically, we propose an entity-centric data labeling methodology that integrates with a unified framework for monitoring summary statistics, estimating key performance metrics such as cluster and pairwise precision and recall, and analyzing root causes for errors. We validate the framework in an application to inventor name disambiguation and through simulation studies. Software: https://github.com/OlivierBinette/er-evaluation/
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# キーワードアノテーションを使わずにカテゴリレベルのオブジェクトポッド推定器を学習する

Learning a Category-level Object Pose Estimator without Pose Annotations ( http://arxiv.org/abs/2404.05626v1 )

ライセンス: Link先を確認
Fengrui Tian, Yaoyao Liu, Adam Kortylewski, Yueqi Duan, Shaoyi Du, Alan Yuille, Angtian Wang, (参考訳) 3Dオブジェクトのポーズ推定は難しい作業です。 これまでの作品では、アノテートされたポーズを持つ何千ものオブジェクトイメージが3Dポーズ対応を学習するのに必要だった。 本稿では,ポーズアノテーションを使わずにカテゴリレベルの3Dオブジェクトのポーズ推定を学習することを提案する。 手動のアノテート画像の代わりに拡散モデル(例えば、Zero-1-to-3)を活用して、制御されたポーズ差の下で一連の画像を生成し、それらの画像を用いてオブジェクトのポーズ推定子を学ぶことを提案する。 オリジナルの拡散モデルを直接使用すると、ノイズの多いポーズやアーティファクトを持つイメージが生成される。 この問題に対処するために、まず、特別に設計された対照的なポーズ学習から学習した画像エンコーダを用いて、不合理な詳細をフィルタリングし、画像特徴マップを抽出する。 さらに, モデルが生成した画像集合からオブジェクトのポーズを学習し, 標準的ポーズのアライメントを知らずに学習できる新しい学習戦略を提案する。 実験結果から,本手法は単一ショット設定(ポーズ定義として)からカテゴリレベルのオブジェクトポーズ推定が可能であり,少数ショットのカテゴリレベルのオブジェクトポーズ推定ベンチマークでは,他の最先端メソッドよりも大幅に優れていた。

3D object pose estimation is a challenging task. Previous works always require thousands of object images with annotated poses for learning the 3D pose correspondence, which is laborious and time-consuming for labeling. In this paper, we propose to learn a category-level 3D object pose estimator without pose annotations. Instead of using manually annotated images, we leverage diffusion models (e.g., Zero-1-to-3) to generate a set of images under controlled pose differences and propose to learn our object pose estimator with those images. Directly using the original diffusion model leads to images with noisy poses and artifacts. To tackle this issue, firstly, we exploit an image encoder, which is learned from a specially designed contrastive pose learning, to filter the unreasonable details and extract image feature maps. Additionally, we propose a novel learning strategy that allows the model to learn object poses from those generated image sets without knowing the alignment of their canonical poses. Experimental results show that our method has the capability of category-level object pose estimation from a single shot setting (as pose definition), while significantly outperforming other state-of-the-art methods on the few-shot category-level object pose estimation benchmarks.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# ダイヤモンド中のNV中心のアンサンブルにおけるパルス光検出磁気共鳴のオシロスコープ法

An oscilloscope based method for pulsed Optically Detected Magnetic Resonance in an ensemble of NV centers in diamond ( http://arxiv.org/abs/2404.05629v1 )

ライセンス: Link先を確認
Anuvab Nandi, Samiran Chakraborti, Himadri Himani, Sumit Mukherjee, Sayan Chakraborty, Chiranjib Mitra, (参考訳) 本研究では,高速オシロスコープによるパルスODMRデータの取得を実証した。 システム上のデータ平均化とオシロスコープのメモリを用いて高速に高SNRデータを得る方法を示す。 実験漂流問題と除去戦略について論じる。 データ取得と処理の2つの異なる方法について論じ、異なるパルスプロトコルへの適用性について検討した。 ラビ振動、ラムゼー干渉、T1測定、スピンエコーが示されている。

In this work, we have demonstrated the acquisition of pulsed ODMR data with the help of a high speed oscilloscope. We show how the on-system data averaging and the memory of the oscilloscope can be utilized to obtain high SNR data at high speeds. The problem of experimental drift and the strategy for eliminating the same is discussed. Two distinct methods of data acquisition and processing are discussed, and their applicability to different pulsed protocols is investigated. Rabi Oscillations, Ramsey Interferometry, T1 measurement, and spin echo are demonstrated.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# トランスフォーマーによる犯罪対策 : 支払データにおけるアドレス解析手法の実証分析

Fighting crime with Transformers: Empirical analysis of address parsing methods in payment data ( http://arxiv.org/abs/2404.05632v1 )

ライセンス: Link先を確認
Haitham Hammami, Louis Baligand, Bojan Petrovski, (参考訳) 金融業界では、様々な規制要件の文脈において、支払いに関わる当事者の位置を特定することが大きな課題である。 この目的のために、アドレス解析は、無料のテキストメッセージ属性から道路、郵便コード、国などのフィールドを抽出する。 支払い処理プラットフォームは、SWIFTやISO 20022のようなより構造化されたフォーマットで標準を更新しているが、大量のメッセージにはアドレス解析が不可欠である。 変換器と生成大言語モデル(LLM)の出現に伴い、大量の日次データを処理するという制約を考えると、最先端のソリューションの性能について検討する。 また,実世界の騒々しいトランザクションデータを扱うことのできるロバストモデルのトレーニングの必要性を示す。 以上の結果から,早期ストラップを用いた微調整トランスフォーマーモデルの方が,他の手法よりも優れていたことが示唆された。 それでも、生成LDMは強力なゼロショット性能を示し、さらなる調査を保証している。

In the financial industry, identifying the location of parties involved in payments is a major challenge in the context of various regulatory requirements. For this purpose address parsing entails extracting fields such as street, postal code, or country from free text message attributes. While payment processing platforms are updating their standards with more structured formats such as SWIFT with ISO 20022, address parsing remains essential for a considerable volume of messages. With the emergence of Transformers and Generative Large Language Models (LLM), we explore the performance of state-of-the-art solutions given the constraint of processing a vast amount of daily data. This paper also aims to show the need for training robust models capable of dealing with real-world noisy transactional data. Our results suggest that a well fine-tuned Transformer model using early-stopping significantly outperforms other approaches. Nevertheless, generative LLMs demonstrate strong zero-shot performance and warrant further investigations.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# 量子データを正確に読み書きできますか?

Can we accurately read or write quantum data? ( http://arxiv.org/abs/2404.05633v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) 量子力学の応用はデータの読み書きの精度に依存する。 これは正確な量子状態の測定と準備を必要とする。 正確な測定と準備は、全ハミルトニアンが下から(我々の宇宙にあると考えられる)有界であれば不可能であることを示す。 この結果は、量子制御、量子コンピューティング、その他の量子技術の限界の再評価を、量子準備と測定の正確性に依存し、そしておそらくハミルトンが下から有界であるという仮定の再評価を招いている。

Applications of quantum mechanics rely on the accuracy of reading and writing data. This requires accurate measurements and preparations of the quantum states. I show that accurate measurements and preparations are impossible if the total Hamiltonian is bounded from below (as thought to be in our universe). This result invites a reevaluation of the limitations of quantum control, quantum computing, and other quantum technologies dependent on the accuracy of quantum preparations and measurements, and maybe of the assumption that the Hamiltonian is bounded from below.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# 量子化が対向ロバスト性に及ぼす影響の検討

Investigating the Impact of Quantization on Adversarial Robustness ( http://arxiv.org/abs/2404.05639v1 )

ライセンス: Link先を確認
Qun Li, Yuan Meng, Chen Tang, Jiacheng Jiang, Zhi Wang, (参考訳) 量子化は、ディープモデルのビット幅を減らし、実行時のパフォーマンスとストレージ効率を改善するための有望な技術であり、デプロイメントの基本的なステップとなる。 現実のシナリオでは、量子化されたモデルはしばしば敵の攻撃に直面する。 しかし、近年の研究では、量子化がモデルロバスト性に与える影響についてはあまり注目されていない。 さらに驚くべきことに、このトピックに関する既存の研究には矛盾する結論さえ出ており、それが我々の詳細な調査を引き起こした。 本稿では,ポストトレーニング量子化と量子アウェアトレーニングの設定の下で,ロバストな最適化を組み込むことのできる量子化パイプラインコンポーネントの影響を,初めて分析する。 詳細な分析を通して、この矛盾は異なる研究で異なるパイプラインを用いることによって生じ、特にロバストな最適化が実行され、量子化の段階が生じるかどうかについて明らかになった。 我々の研究結果は、よりセキュアで堅牢な量子化されたネットワークの展開に関する洞察に寄与し、高いセキュリティ要件と限られたリソースのシナリオを参照して実践者を支援する。

Quantization is a promising technique for reducing the bit-width of deep models to improve their runtime performance and storage efficiency, and thus becomes a fundamental step for deployment. In real-world scenarios, quantized models are often faced with adversarial attacks which cause the model to make incorrect inferences by introducing slight perturbations. However, recent studies have paid less attention to the impact of quantization on the model robustness. More surprisingly, existing studies on this topic even present inconsistent conclusions, which prompted our in-depth investigation. In this paper, we conduct a first-time analysis of the impact of the quantization pipeline components that can incorporate robust optimization under the settings of Post-Training Quantization and Quantization-Aware Training. Through our detailed analysis, we discovered that this inconsistency arises from the use of different pipelines in different studies, specifically regarding whether robust optimization is performed and at which quantization stage it occurs. Our research findings contribute insights into deploying more secure and robust quantized networks, assisting practitioners in reference for scenarios with high-security requirements and limited resources.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# 3D-COCO:画像検出用MS-COCOデータセットと3D再構成モジュールの拡張

3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules ( http://arxiv.org/abs/2404.05641v1 )

ライセンス: Link先を確認
Maxence Bideaux, Alice Phe, Mohamed Chaouch, Bertrand Luvison, Quoc-Cuong Pham, (参考訳) 3Dモデルと2D-3Dアライメントアノテーションを提供するMS-COCOデータセットの拡張である3D-COCOを紹介する。 3D-COCOは、テキスト、2D画像、および3DCADモデルクエリで構成可能な3D再構成や画像検出などのコンピュータビジョンタスクを実現するように設計されている。 既存のMS-COCOデータセットは、ShapeNetとObjaverseで収集された28Kの3Dモデルで完結する。 IoUをベースとした手法により,各MS-COCOアノテーションと最適な3Dモデルとをマッチングし,2D-3Dアライメントを実現する。 3D-COCOのオープンソース性は、新しい3D関連トピック研究の道を開くためのプレミアである。 データセットとそのソースコードはhttps://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/で公開されている。

We introduce 3D-COCO, an extension of the original MS-COCO dataset providing 3D models and 2D-3D alignment annotations. 3D-COCO was designed to achieve computer vision tasks such as 3D reconstruction or image detection configurable with textual, 2D image, and 3D CAD model queries. We complete the existing MS-COCO dataset with 28K 3D models collected on ShapeNet and Objaverse. By using an IoU-based method, we match each MS-COCO annotation with the best 3D models to provide a 2D-3D alignment. The open-source nature of 3D-COCO is a premiere that should pave the way for new research on 3D-related topics. The dataset and its source codes is available at https://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# スコアベース拡散モデルのための抵抗記憶に基づくニューラル微分方程式解法

Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model ( http://arxiv.org/abs/2404.05648v1 )

ライセンス: Link先を確認
Jichang Yang, Hegan Chen, Jia Chen, Songqi Wang, Shaocong Wang, Yifei Yu, Xi Chen, Bo Wang, Xinyuan Zhang, Binbin Cui, Yi Li, Ning Lin, Meng Xu, Yi Li, Xiaoxin Xu, Xiaojuan Qi, Zhongrui Wang, Xumeng Zhang, Dashan Shang, Han Wang, Qi Liu, Kwang-Ting Cheng, Ming Liu, (参考訳) 人間の脳は小説を読むときに複雑なシーンをイメージします。 この想像を再現することは、AIGC(AI-Generated Content)の最終的な目標の1つです。 しかし、スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。 この欠損は、脳とデジタルコンピュータの違いに根ざしている。 デジタルコンピュータは物理的にストレージと処理ユニットを分離しており、反復計算中に頻繁にデータ転送が行われ、大きな時間とエネルギーのオーバーヘッドが発生する。 この問題は、神経微分方程式で定式化できる固有連続およびアナログ生成ダイナミクスを離散およびデジタル演算に変換することによってさらに強化される。 脳にインスパイアされた我々は、新しい抵抗性メモリを用いて、スコアベース拡散のための時間連続・アナログ型インメモリ微分方程式解法を提案する。 抵抗性メモリシナプス内の記憶と計算の統合はフォン・ノイマンのボトルネックを克服し、生成速度とエネルギー効率の恩恵を受ける。 閉ループフィードバックインテグレータは、時間連続的でアナログ的でコンパクトで、無限深度ニューラルネットワークを物理的に実装する。 さらに、ソフトウェア・ハードウェアの共同設計はアナログノイズに対して本質的に堅牢である。 我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。 ソフトウェアベースラインに等価な生成品質を実証し,64.8因子と156.5因子により,条件付きおよび条件付きの両方で生成速度を著しく向上させた。 さらに、エネルギー消費を5.2と4.1の要因で削減した。 我々のアプローチは、生成AIアプリケーションのためのエッジコンピューティングにおけるハードウェアソリューションの新たな地平を示唆している。

Human brains image complicated scenes when reading a novel. Replicating this imagination is one of the ultimate goals of AI-Generated Content (AIGC). However, current AIGC methods, such as score-based diffusion, are still deficient in terms of rapidity and efficiency. This deficiency is rooted in the difference between the brain and digital computers. Digital computers have physically separated storage and processing units, resulting in frequent data transfers during iterative calculations, incurring large time and energy overheads. This issue is further intensified by the conversion of inherently continuous and analog generation dynamics, which can be formulated by neural differential equations, into discrete and digital operations. Inspired by the brain, we propose a time-continuous and analog in-memory neural differential equation solver for score-based diffusion, employing emerging resistive memory. The integration of storage and computation within resistive memory synapses surmount the von Neumann bottleneck, benefiting the generative speed and energy efficiency. The closed-loop feedback integrator is time-continuous, analog, and compact, physically implementing an infinite-depth neural network. Moreover, the software-hardware co-design is intrinsically robust to analog noise. We experimentally validate our solution with 180 nm resistive memory in-memory computing macros. Demonstrating equivalent generative quality to the software baseline, our system achieved remarkable enhancements in generative speed for both unconditional and conditional generation tasks, by factors of 64.8 and 156.5, respectively. Moreover, it accomplished reductions in energy consumption by factors of 5.2 and 4.1. Our approach heralds a new horizon for hardware solutions in edge computing for generative AI applications.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# ハイブリッドフレームワークを用いた原子力ライセンスイベントレポートからの因果性抽出

Causality Extraction from Nuclear Licensee Event Reports Using a Hybrid Framework ( http://arxiv.org/abs/2404.05656v1 )

ライセンス: Link先を確認
Sohag Rahman, Sai Zhang, Min Xian, Shoukun Sun, Fei Xu, Zhegang Ma, (参考訳) 産業規模の原子力プラント運用経験は、信頼性とリスクモデルにおいてパラメータ推定を行う上で重要な生データ源である。 多くの運用経験情報は、障害イベントに関連するもので、物語のような構造化されていないデータを含むレポートとして格納される。 イベントレポートは、多くの因果関係を含む、障害の開始と伝播の方法を理解するために不可欠である。 深層学習を用いた因果関係抽出は、自然言語処理(NLP)分野における重要なフロンティアであり、大量の記述情報に含まれる複雑な物語や接続の解釈を可能にするため重要である。 本稿では,核ライセンスイベントレポートからの因果検出と抽出のためのハイブリッドフレームワークを提案する。 主な貢献は,(1)原因分析のための20,129のテキストサンプルを用いたLERコーパスのコンパイル,(2)原因効果ペアのラベル付けのための対話ツールの開発,(3)因果関係検出のためのディープラーニングに基づくアプローチの構築,(4)知識に基づく原因効果抽出手法の開発である。

Industry-wide nuclear power plant operating experience is a critical source of raw data for performing parameter estimations in reliability and risk models. Much operating experience information pertains to failure events and is stored as reports containing unstructured data, such as narratives. Event reports are essential for understanding how failures are initiated and propagated, including the numerous causal relations involved. Causal relation extraction using deep learning represents a significant frontier in the field of natural language processing (NLP), and is crucial since it enables the interpretation of intricate narratives and connections contained within vast amounts of written information. This paper proposed a hybrid framework for causality detection and extraction from nuclear licensee event reports. The main contributions include: (1) we compiled an LER corpus with 20,129 text samples for causality analysis, (2) developed an interactive tool for labeling cause effect pairs, (3) built a deep-learning-based approach for causal relation detection, and (4) developed a knowledge based cause-effect extraction approach.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# MLPは優れたトランスフォーマー学習者になれる

MLP Can Be A Good Transformer Learner ( http://arxiv.org/abs/2404.05657v1 )

ライセンス: Link先を確認
Sihao Lin, Pumeng Lyu, Dongrui Liu, Tao Tang, Xiaodan Liang, Andy Song, Xiaojun Chang, (参考訳) 自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。 以前のトークンプルーニング作業は、計算冗長性の観点からメソッドを動機付けるが、それでも完全なネットワークをロードし、同じメモリコストを必要とする。 本稿では、エントロピーを考慮した非重要注意層を選択的に除去することで、視覚変換器を単純化し、計算負荷を削減する新しい戦略を提案する。 ボトムブロック内のアテンション層について、後続のMLP層、すなわち2つのフィードフォワード層が同じエントロピー量を引き出すことができることを確認した。 一方,MLPは,上位ブロックのMLPに比べて特徴エントロピーが小さいため,露出が低くなる。 そこで本研究では,非形式的注意層を同一の写像に縮退させて,特定の変圧器ブロックにのみMLPを生成することにより,その後の注目層と統合することを提案する。 ImageNet-1kの実験結果から,提案手法はDeiT-Bの40%の注意層を除去し,スループットとメモリバウンドを改善し,性能を損なわないことを示した。 コードはhttps://github.com/sihaoevery/lambda_vit.comから入手できる。

Self-attention mechanism is the key of the Transformer but often criticized for its computation demands. Previous token pruning works motivate their methods from the view of computation redundancy but still need to load the full network and require same memory costs. This paper introduces a novel strategy that simplifies vision transformers and reduces computational load through the selective removal of non-essential attention layers, guided by entropy considerations. We identify that regarding the attention layer in bottom blocks, their subsequent MLP layers, i.e. two feed-forward layers, can elicit the same entropy quantity. Meanwhile, the accompanied MLPs are under-exploited since they exhibit smaller feature entropy compared to those MLPs in the top blocks. Therefore, we propose to integrate the uninformative attention layers into their subsequent counterparts by degenerating them into identical mapping, yielding only MLP in certain transformer blocks. Experimental results on ImageNet-1k show that the proposed method can remove 40% attention layer of DeiT-B, improving throughput and memory bound without performance compromise. Code is available at https://github.com/sihaoevery/lambda_vit.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# VietMed:医療領域におけるベトナム語の自動音声認識のためのデータセットとベンチマーク

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain ( http://arxiv.org/abs/2404.05659v1 )

ライセンス: Link先を確認
Khai Le-Duc, (参考訳) プライバシーの制限により、医療領域で利用可能な音声認識データセットが不足しています。 本研究では,医療領域におけるベトナム語音声認識データセットであるVietMedについて紹介する。 私たちの知る限りでは、VietMedは、合計持続時間、話者数、疾患、記録条件、話者の役割、ユニークな医療用語、アクセントの7つの面で、世界最大である。 VietMedは、ベトナムの公的な音声データセットとしては最大規模である。 さらに,全国のICD-10病群とすべてのアクセントを対象とする医学的ASRデータセットを初めて提示する。 さらに、ベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルと、医療用ASRのための最初の大規模微調整モデルをリリースする。 XLSR-53-Vietは、教師なし事前トレーニングの医療データがない場合でも、テストセットにおいて51.8%から29.6%のWER(相対的な40%以上の低下)で最先端のXLSR-53を上回り、医療領域に非常によく一般化する。 すべてのコード、データ、モデルは、https://github.com/leduckhai/MultiMed.comで公開されている。

Due to privacy restrictions, there's a shortage of publicly available speech recognition datasets in the medical domain. In this work, we present VietMed - a Vietnamese speech recognition dataset in the medical domain comprising 16h of labeled medical speech, 1000h of unlabeled medical speech and 1200h of unlabeled general-domain speech. To our best knowledge, VietMed is by far the world's largest public medical speech recognition dataset in 7 aspects: total duration, number of speakers, diseases, recording conditions, speaker roles, unique medical terms and accents. VietMed is also by far the largest public Vietnamese speech dataset in terms of total duration. Additionally, we are the first to present a medical ASR dataset covering all ICD-10 disease groups and all accents within a country. Moreover, we release the first public large-scale pre-trained models for Vietnamese ASR, w2v2-Viet and XLSR-53-Viet, along with the first public large-scale fine-tuned models for medical ASR. Even without any medical data in unsupervised pre-training, our best pre-trained model XLSR-53-Viet generalizes very well to the medical domain by outperforming state-of-the-art XLSR-53, from 51.8% to 29.6% WER on test set (a relative reduction of more than 40%). All code, data and models are made publicly available here: https://github.com/leduckhai/MultiMed.
翻訳日:2024-04-09 13:45:54 公開日:2024-04-08
# イマジネーションによる色自動制御

Automatic Controllable Colorization via Imagination ( http://arxiv.org/abs/2404.05661v1 )

ライセンス: Link先を確認
Xiaoyan Cong, Yue Wu, Qifeng Chen, Chenyang Lei, (参考訳) 本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。 グレースケール画像内のコンテンツを理解することで、トレーニング済みの画像生成モデルを使用して、同じコンテンツを含む複数の画像を生成する。 これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。 合成画像は、元のグレースケール画像と不完全あるいは異なる可能性があるため、最適な参照合成を選択するための参照リファインメントモジュールを提案する。 従来のエンド・ツー・エンドの自動着色アルゴリズムとは違って,本フレームワークでは,着色サンプルを明示的にモデル化するため,着色結果の反復的,局所的な修正が可能となった。 編集性および柔軟性において、既存の自動色付けアルゴリズムよりもフレームワークが優れていることを示す大規模な実験を行った。 プロジェクトページ: https://xy-cong.github.io/imagine-colorization

We propose a framework for automatic colorization that allows for iterative editing and modifications. The core of our framework lies in an imagination module: by understanding the content within a grayscale image, we utilize a pre-trained image generation model to generate multiple images that contain the same content. These images serve as references for coloring, mimicking the process of human experts. As the synthesized images can be imperfect or different from the original grayscale image, we propose a Reference Refinement Module to select the optimal reference composition. Unlike most previous end-to-end automatic colorization algorithms, our framework allows for iterative and localized modifications of the colorization results because we explicitly model the coloring samples. Extensive experiments demonstrate the superiority of our framework over existing automatic colorization algorithms in editability and flexibility. Project page: https://xy-cong.github.io/imagine-colorization.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# BinaryDM:拡散モデルの正確なバイナリ化を目指して

BinaryDM: Towards Accurate Binarization of Diffusion Model ( http://arxiv.org/abs/2404.05662v1 )

ライセンス: Link先を確認
Xingyu Zheng, Haotong Qin, Xudong Ma, Mingyuan Zhang, Haojie Hao, Jiakai Wang, Zixiang Zhao, Jinyang Guo, Xianglong Liu, (参考訳) 拡散モデル(DM)の進歩と計算要求の大幅な増大により、量子化はコンパクトで効率的な低ビットDMを得るための実用的な解決策として現れる。 しかし、非常に離散的な表現は精度の低下を招き、拡散モデルの超低ビット幅への量子化を妨げる。 本稿では,拡散モデルの重みを1ビットの限界まで押し上げるための,新しい高精度量子化対応トレーニング手法であるBinaryDMを提案する。 まず,二項化DMが生成した表現を復元するためのLearable Multi-basis Binarizer (LMB)を提案する。 次に、低ランク表現ミミキング(LRM)を適用し、DMの双対化を考慮した最適化を強化し、微粒なアライメントによる最適化方向のあいまいさを軽減する。 さらに、収束困難を避けるため、DMの訓練にプログレッシブ初期化戦略を適用した。 超低ビット幅におけるDMのSOTA量子化法と比較して,BinaryDMは高い精度と効率向上を達成することを示した。 拡散モデルの最初の二項化法として、BinaryDMは16.0倍のFLOPと27.1倍のストレージを1ビットの重みと4ビットのアクティベーションで達成し、リソース制限されたシナリオにDMをデプロイする大きな利点と可能性を示している。

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. In this paper, we propose BinaryDM, a novel accurate quantization-aware training approach to push the weights of diffusion models towards the limit of 1-bit. Firstly, we present a Learnable Multi-basis Binarizer (LMB) to recover the representations generated by the binarized DM, which improves the information in details of representations crucial to the DM. Secondly, a Low-rank Representation Mimicking (LRM) is applied to enhance the binarization-aware optimization of the DM, alleviating the optimization direction ambiguity caused by fine-grained alignment. Moreover, a progressive initialization strategy is applied to training DMs to avoid convergence difficulties. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. As the first binarization method for diffusion models, BinaryDM achieves impressive 16.0 times FLOPs and 27.1 times storage savings with 1-bit weight and 4-bit activation, showcasing its substantial advantages and potential for deploying DMs on resource-limited scenarios.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# YaART: もう1つのARTレンダリング技術

YaART: Yet Another ART Rendering Technology ( http://arxiv.org/abs/2404.05666v1 )

ライセンス: Link先を確認
Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov, (参考訳) 生成モデルの急速に進歩する分野では、効率的かつ高忠実なテキスト・画像拡散システムの開発が重要なフロンティアである。 本研究では,RLHF(Reinforcement Learning from Human Feedback)を用いて,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介する。 特に,YaARTの開発において,テキスト・ツー・イメージ拡散モデルにおいて,これまで体系的に研究されなかった側面について,モデルの選択とデータセットサイズのトレーニングに焦点をあてた。 特に、これらの選択がトレーニングプロセスの効率と生成画像の品質の両方にどのように影響するかを包括的に分析する。 さらに、高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを示し、拡散モデルトレーニングのより効率的なシナリオを確立する。 品質の観点からは、YaARTは既存の最先端モデルよりもユーザに一貫して好まれている。

In the rapidly progressing field of generative models, the development of efficient and high-fidelity text-to-image diffusion systems represents a significant frontier. This study introduces YaART, a novel production-grade text-to-image cascaded diffusion model aligned to human preferences using Reinforcement Learning from Human Feedback (RLHF). During the development of YaART, we especially focus on the choices of the model and training dataset sizes, the aspects that were not systematically investigated for text-to-image cascaded diffusion models before. In particular, we comprehensively analyze how these choices affect both the efficiency of the training process and the quality of the generated images, which are highly important in practice. Furthermore, we demonstrate that models trained on smaller datasets of higher-quality images can successfully compete with those trained on larger datasets, establishing a more efficient scenario of diffusion models training. From the quality perspective, YaART is consistently preferred by users over many existing state-of-the-art models.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# AlignZeg: ゼロショットセマンティックセマンティックセマンティックセグメンテーションにおける客観的ミス修正

AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2404.05667v1 )

ライセンス: Link先を確認
Jiannan Ge, Lingxi Xie, Hongtao Xie, Pandeng Li, Xiaopeng Zhang, Yongdong Zhang, Qi Tian, (参考訳) ゼロショット視覚認識の性能を損なう深刻な問題として、学習目的が未確認のクラスではなく、目に見えるクラスの認識精度の向上を優先し、後者が追求する真の目標である、客観的な誤認識がある。 この問題はゼロショット画像のセグメンテーションにおいて、より強力な(ピクセルレベルの)監督によって、見えないクラスと見えないクラスの間に大きなギャップが生じるため、より重要になる。 そこで本研究では,ゼロショットセグメンテーションの目標に合うように,提案手法の抽出,分類,修正を含むセグメンテーションパイプラインを包括的に改良したAlignZegというアーキテクチャを提案する。 1) 相互に解決された提案抽出 AlignZegは、マスククエリと視覚的特徴の相互相互作用を利用して、詳細なクラスに依存しないマスク提案抽出を容易にする。 (2)一般化による提案分類 AlignZegは合成データを導入し、より一般化可能な機能空間を割り当てるために複数の背景プロトタイプを組み込んでいる。 (3)予測バイアス補正 推論の段階では、AlignZegはクラスインジケータを使用して、潜在的に目に見えないクラスの提案を見つけ、続いて予測後処理を使用して予測バイアスを補正する。 実験により、AlignZegは、平均3.8%のhIoUの増加によるゼロショットセマンティックセグメンテーションを著しく向上させることが示された。

A serious issue that harms the performance of zero-shot visual recognition is named objective misalignment, i.e., the learning objective prioritizes improving the recognition accuracy of seen classes rather than unseen classes, while the latter is the true target to pursue. This issue becomes more significant in zero-shot image segmentation because the stronger (i.e., pixel-level) supervision brings a larger gap between seen and unseen classes. To mitigate it, we propose a novel architecture named AlignZeg, which embodies a comprehensive improvement of the segmentation pipeline, including proposal extraction, classification, and correction, to better fit the goal of zero-shot segmentation. (1) Mutually-Refined Proposal Extraction. AlignZeg harnesses a mutual interaction between mask queries and visual features, facilitating detailed class-agnostic mask proposal extraction. (2) Generalization-Enhanced Proposal Classification. AlignZeg introduces synthetic data and incorporates multiple background prototypes to allocate a more generalizable feature space. (3) Predictive Bias Correction. During the inference stage, AlignZeg uses a class indicator to find potential unseen class proposals followed by a prediction postprocess to correct the prediction bias. Experiments demonstrate that AlignZeg markedly enhances zero-shot semantic segmentation, as shown by an average 3.8% increase in hIoU, primarily attributed to a 7.1% improvement in identifying unseen classes, and we further validate that the improvement comes from alleviating the objective misalignment issue.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 衛星量子鍵分布アーキテクチャの現・近未来ミッションへの適用評価

Assessment of practical satellite quantum key distribution architectures for current and near-future missions ( http://arxiv.org/abs/2404.05668v1 )

ライセンス: Link先を確認
Davide Orsucci, Philipp Kleinpaß, Jaspar Meister, Innocenzo De Marco, Stefanie Häusler, Thomas Strang, Nino Walenta, Florian Moll, (参考訳) 量子鍵分散(QKD)は、計算硬度パラダイムを超えた暗号鍵の生成を可能にし、長期のセキュリティを必要とするセキュアなデータ伝送に適している。 しかし、ファイバーベースのQKDの通信距離は、信号減衰の指数的スケーリングにより数百kmに制限されている。 衛星QKD(SatQKD)は、代わりに自由空間光リンクを利用して長距離接続を確立し、グローバルスケールのQKDを可能にする。 本稿では,SatQKDアーキテクチャの集合を構成する設計選択の多様体について概説する。 QKDプロトコルとその物理実装の選択だけでなく、衛星軌道、光リンク方向、信頼ノードリレーの使用の有無なども含まれる。 可能なSatQKDアーキテクチャは、キー生成スループット、レイテンシ、最大到達可能な通信距離の観点から評価されるが、システムレベルのセキュリティと実装の複雑さも評価される。 SatQKDシステムの実現という技術的課題を考えると、近未来の衛星ミッションにとって、QKDサービスの提供を可能にする最も単純なアーキテクチャに従うことが最重要である。 そこで我々は、低地球軌道衛星を、弱いレーザーパルスによる離散可変QKDダウンリンクの準備および測定のための信頼ノードとして使用する際の望ましい選択肢とみなす。 BB84のデコイ状態バージョンは、セキュリティ証明の成熟度、キー生成率の高さ、システム複雑性の低さにより、最も有望なQKDプロトコルであることが判明した。 これらの発見は、現在および計画中のSatQKDミッションによって確認され、これらのアーキテクチャの選択が採用されている。

Quantum key distribution (QKD) allows the generation of cryptographic keys beyond the computational hardness paradigm and is befitting for secure data transmission requiring long-term security. The communication distance of fibre-based QKD, however, is limited to a few hundred kilometers due to the exponential scaling of signal attenuation. Satellite QKD (SatQKD) can instead leverage free-space optical links to establish long-range connections and enable global-scale QKD. In this work we review the manifold of design choices that concur to form the set of possible SatQKD architectures. These include the choice of the QKD protocol and its physical implementation, but also the satellite orbit, the optical link direction, and whether or not to use trusted-node relays. The possible SatQKD architectures are then evaluated in terms of key generation throughput, latency and maximum reachable communication distance, but also the system-level security and implementation complexity. Given the technical challenges of realising SatQKD systems it is paramount, for near-future satellite missions, to adhere to the simplest possible architecture that still allows to deliver the QKD service. We thus identify as advisable options the use of low-Earth orbit satellites as trusted nodes for prepare-and-measure discrete-variable QKD downlinks with weak laser pulses. The decoy-state version of BB84 is found to be the most promising QKD protocols due to the maturity of the security proofs, the high key generation rate and low system complexity. These findings are confirmed by the multitude of current and planned SatQKD missions that are adopting these architectural choices.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# NAF-DPM:文書強化のための非線形活性化自由拡散確率モデル

NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement ( http://arxiv.org/abs/2404.05669v1 )

ライセンス: Link先を確認
Giordano Cicchetti, Danilo Comminiello, (参考訳) 現実世界の文書は様々な種類の劣化に悩まされ、光学文字認識(OCR)システムの精度が低下することがある。 したがって、文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。 本稿では,分散確率モデル(DPM)に基づく新たな生成フレームワークであるNAF-DPMを提案する。 DPMは高品質な生成画像で認識されているが、大きな推論時間でも知られている。 この問題を緩和するために、DPMに効率的な非線形アクティベーションフリー(NAF)ネットワークを提供し、サンプルとして通常の微分方程式の高速解法として使用し、数イテレーションで収束することができる。 テキスト文字の保存性を向上するために,畳み込みリカレントニューラルネットワークに基づく新たな識別可能なモジュールを導入し,トレーニング中のOCRシステムの動作をシミュレートする。 様々なデータセットで行った実験は、我々のアプローチの優位性を示し、ピクセルレベルおよび知覚的類似度指標の点から最先端のパフォーマンスを達成する。 さらに,本フレームワークにより拡張された実世界の文書画像の書き起こしにおいて,OCRシステムによる文字誤りの顕著な低減が示された。 コードと事前訓練されたモデルはhttps://github.com/ispamm/NAF-DPMで入手できる。

Real-world documents may suffer various forms of degradation, often resulting in lower accuracy in optical character recognition (OCR) systems. Therefore, a crucial preprocessing step is essential to eliminate noise while preserving text and key features of documents. In this paper, we propose NAF-DPM, a novel generative framework based on a diffusion probabilistic model (DPM) designed to restore the original quality of degraded documents. While DPMs are recognized for their high-quality generated images, they are also known for their large inference time. To mitigate this problem we provide the DPM with an efficient nonlinear activation-free (NAF) network and we employ as a sampler a fast solver of ordinary differential equations, which can converge in a few iterations. To better preserve text characters, we introduce an additional differentiable module based on convolutional recurrent neural networks, simulating the behavior of an OCR system during training. Experiments conducted on various datasets showcase the superiority of our approach, achieving state-of-the-art performance in terms of pixel-level and perceptual similarity metrics. Furthermore, the results demonstrate a notable character error reduction made by OCR systems when transcribing real-world document images enhanced by our framework. Code and pre-trained models are available at https://github.com/ispamm/NAF-DPM.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# CoReS: 推論とセグメンテーションの踊りを編成する

CoReS: Orchestrating the Dance of Reasoning and Segmentation ( http://arxiv.org/abs/2404.05673v1 )

ライセンス: Link先を確認
Xiaoyi Bao, Siyang Sun, Shuailei Ma, Kecheng Zheng, Yuxin Guo, Guosheng Zhao, Yun Zheng, Xingang Wang, (参考訳) 複雑なクエリの微妙な理解を要求される推論セグメンテーションタスクは、オブジェクト領域を正確に特定するものであり、注目を集めている。 しかし、MLLM(Multi-modal Large Language Models)は複雑な推論コンテキストで記述されたオブジェクトを正確にローカライズすることが難しいことが多い。 分割を推論する行為は、人間の視覚探索の認知段階を反映すべきであり、各ステップは最終対象に対する思考の進歩的な洗練である。 そこで我々は,Reasoning and Segmenting (CoReS) の連鎖を導入し,このトップダウンの視覚階層がビジュアル検索プロセスを強化していることを確認した。 具体的には、セグメント化プロセスを支援するために、マルチモーダル、チェーンライクな出力を生成する二重鎖構造を提案する。 さらに、MLLMの出力をこの階層にステアリングするために、インコンテキスト入力をガイダンスとして組み込む。 ReasonSegデータセットでは、最先端の手法を7.1\%以上上回るCoReSの優れた性能を示す。 コードはhttps://github.com/baoxiaoyi/CoReS.comでリリースされる。

The reasoning segmentation task, which demands a nuanced comprehension of intricate queries to accurately pinpoint object regions, is attracting increasing attention. However, Multi-modal Large Language Models (MLLM) often find it difficult to accurately localize the objects described in complex reasoning contexts. We believe that the act of reasoning segmentation should mirror the cognitive stages of human visual search, where each step is a progressive refinement of thought toward the final object. Thus we introduce the Chains of Reasoning and Segmenting (CoReS) and find this top-down visual hierarchy indeed enhances the visual search process. Specifically, we propose a dual-chain structure that generates multi-modal, chain-like outputs to aid the segmentation process. Furthermore, to steer the MLLM's outputs into this intended hierarchy, we incorporate in-context inputs as guidance. Extensive experiments demonstrate the superior performance of our CoReS, which surpasses the state-of-the-art method by 7.1\% on the ReasonSeg dataset. The code will be released at https://github.com/baoxiaoyi/CoReS.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# MoMA: 高速なパーソナライズ画像生成のためのマルチモーダルLCMアダプタ

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation ( http://arxiv.org/abs/2404.05674v1 )

ライセンス: Link先を確認
Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang, (参考訳) 本稿では,自由なゼロショット機能を有するオープン語彙,トレーニング不要なパーソナライズされたイメージモデルであるMoMAを提案する。 基礎的なテキスト・ツー・イメージモデルが急速に進化するにつれて、堅牢な画像・画像翻訳の需要が増大する。 このニーズに応えるため、MoMAは主題駆動のパーソナライズされた画像生成を専門としている。 オープンソースのMultimodal Large Language Model (MLLM)を利用して、MoMAを訓練し、特徴抽出器とジェネレータの両方として二重の役割を果たすようにします。 このアプローチは、参照画像とテキストプロンプト情報を効果的に相乗化して、価値ある画像特徴を生成し、画像拡散モデルを容易にする。 さらに, 画像拡散モデルに画像特徴を効率よく伝達し, 生成画像における対象物体の類似性を改善する自己注意ショートカット手法を提案する。 注目すべきは、チューニング不要なプラグイン・アンド・プレイモジュールとして、我々のモデルは単一の参照画像しか必要とせず、高精細な忠実さ、アイデンティティ保存の強化、忠実さの迅速な生成において既存の手法よりも優れていることである。 私たちの仕事はオープンソースで、これらの進歩に普遍的なアクセスを提供しています。

In this paper, we present MoMA: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust image-to-image translation grows. Addressing this need, MoMA specializes in subject-driven personalized image generation. Utilizing an open-source, Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as both a feature extractor and a generator. This approach effectively synergizes reference image and text prompt information to produce valuable image features, facilitating an image diffusion model. To better leverage the generated features, we further introduce a novel self-attention shortcut method that efficiently transfers image features to an image diffusion model, improving the resemblance of the target object in generated images. Remarkably, as a tuning-free plug-and-play module, our model requires only a single reference image and outperforms existing methods in generating images with high detail fidelity, enhanced identity-preservation and prompt faithfulness. Our work is open-source, thereby providing universal access to these advancements.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 確率的ヒューマン・ポース・モデリングのためのSO(3)多様体の積空間上の正規化流れ

Normalizing Flows on the Product Space of SO(3) Manifolds for Probabilistic Human Pose Modeling ( http://arxiv.org/abs/2404.05675v1 )

ライセンス: Link先を確認
Olaf Dünkel, Tim Salzmann, Florian Pfaff, (参考訳) 正規化フローはユークリッド空間における密度推定に有効であることが証明されているが、ロボット工学や人間のポーズモデリングといった様々な領域において重要な回転表現への応用はいまだ研究されていない。 人間のポーズの確率論的モデルは、人間の関節の回転の性質を厳格に考慮するアプローチの恩恵を受けることができる。 そこで本研究では,SO(3)多様体の高次元積空間で動作する正規化フローモデルであるHuProSO3を導入する。 HuProSO3の最先端アプローチに対する優位性は、3つの異なるアプリケーションにおいて優れたモデリング精度と、その正確な可能性を評価する能力によって実証される。 この研究は、SO(3)多様体上の密度を学習する技術的な課題に対処するだけでなく、相関した3次元回転の確率的回帰が重要である領域にも広範な意味を持つ。

Normalizing flows have proven their efficacy for density estimation in Euclidean space, but their application to rotational representations, crucial in various domains such as robotics or human pose modeling, remains underexplored. Probabilistic models of the human pose can benefit from approaches that rigorously consider the rotational nature of human joints. For this purpose, we introduce HuProSO3, a normalizing flow model that operates on a high-dimensional product space of SO(3) manifolds, modeling the joint distribution for human joints with three degrees of freedom. HuProSO3's advantage over state-of-the-art approaches is demonstrated through its superior modeling accuracy in three different applications and its capability to evaluate the exact likelihood. This work not only addresses the technical challenge of learning densities on SO(3) manifolds, but it also has broader implications for domains where the probabilistic regression of correlated 3D rotations is of importance.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 射影量子計測の概観

Overview of projective quantum measurements ( http://arxiv.org/abs/2404.05679v1 )

ライセンス: Link先を確認
Diego Barberena, Aaron J. Friedman, (参考訳) 本稿では,理論と実験の関連性を明らかにすることを目的とした,標準的な「射影」量子測定の概要について述べる。 我々は、物理自由度と測定装置の双方を含む拡張ヒルベルト空間上での測定のユニタリな「スティンスプリング」表現を利用する。 このユニタリ表現について説明する。 i)は量子力学の公理によって保証される。 (ii) クラウスとフォン・ノイマンの表現、および 三)測定過程におけるシステム及び装置の物理的時間進化に対応する。 Stinespring表現はまた、測定に関する重要な概念的な洞察を提供し、理論と実験の接続を助け、特に中間回路の測定と結果依存の操作を含むプロトコルを記述するのに有用であり、全ての量子演算が相対論的局所性と互換性があることを証明している。

We provide an overview of standard "projective" quantum measurements with the goal of elucidating connections between theory and experiment. We make use of a unitary "Stinespring" representation of measurements on a dilated Hilbert space that includes both the physical degrees of freedom and those of the measurement apparatus. We explain how this unitary representation (i) is guaranteed by the axioms of quantum mechanics, (ii) relates to both the Kraus and von Neumann representations, and (iii) corresponds to the physical time evolution of the system and apparatus during the measurement process. The Stinespring representation also offers significant conceptual insight into measurements, helps connects theory and experiment, is particularly useful in describing protocols involving midcircuit measurements and outcome-dependent operations, and establishes that all quantum operations are compatible with relativistic locality, among other insights.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 球面面表現による安定3次元フルヘッド合成

SphereHead: Stable 3D Full-head Synthesis with Spherical Tri-plane Representation ( http://arxiv.org/abs/2404.05680v1 )

ライセンス: Link先を確認
Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han, (参考訳) 近年のGAN(Generative Adversarial Networks)の進歩は,ヒトの顔合成の発達に寄与しているが,すべての角度から視認できる完全な3D頭部を包括的に合成するという課題は今も続いている。 PanoHeadは、正面と後方の両方のビューをイメージした大規模なデータセットをフルヘッド合成に使用する可能性を証明しているが、多くの場合、バックビューのアーティファクトを発生させる。 詳細な分析の結果,主に2倍の理由が判明した。 まず、ネットワークアーキテクチャの観点から、利用した三平面/三格子表現空間の各平面は、両面から特徴を混乱させる傾向があり、「輝く」アーティファクト(例えば、眼鏡が後ろに現れる)が生じる。 第2に、データ監視の観点から、既存の3D GANにおける差別化訓練は、レンダリング画像自体の品質に重点を置いており、レンダリングされた視点では、その妥当性をあまり気にしていないことがわかった。 これにより、差別者を騙すのが簡単であるため、前向きでない視点で「顔」を生成できる。 球面座標系における新しい三面面表現であるSphereHeadを提案し,人間の頭部の幾何学的特徴に適合し,生成した人工物の多くを効率的に緩和する。 さらに、カメラパラメータと画像の対応性を強調するために、識別器の視像整合性損失を導入する。 これらの取り組みを組み合わせることで、視覚的に優れた成果が得られ、成果物は著しく少ない。 私たちのコードとデータセットはhttps://lhyfst.github.io/spherehead.comで公開されています。

While recent advances in 3D-aware Generative Adversarial Networks (GANs) have aided the development of near-frontal view human face synthesis, the challenge of comprehensively synthesizing a full 3D head viewable from all angles still persists. Although PanoHead proves the possibilities of using a large-scale dataset with images of both frontal and back views for full-head synthesis, it often causes artifacts for back views. Based on our in-depth analysis, we found the reasons are mainly twofold. First, from network architecture perspective, we found each plane in the utilized tri-plane/tri-grid representation space tends to confuse the features from both sides, causing "mirroring" artifacts (e.g., the glasses appear in the back). Second, from data supervision aspect, we found that existing discriminator training in 3D GANs mainly focuses on the quality of the rendered image itself, and does not care much about its plausibility with the perspective from which it was rendered. This makes it possible to generate "face" in non-frontal views, due to its easiness to fool the discriminator. In response, we propose SphereHead, a novel tri-plane representation in the spherical coordinate system that fits the human head's geometric characteristics and efficiently mitigates many of the generated artifacts. We further introduce a view-image consistency loss for the discriminator to emphasize the correspondence of the camera parameters and the images. The combination of these efforts results in visually superior outcomes with significantly fewer artifacts. Our code and dataset are publicly available at https://lhyfst.github.io/spherehead.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# かごめ格子上のドープ量子スピン液体の大域的相図

Global phase diagram of doped quantum spin liquid on the Kagome lattice ( http://arxiv.org/abs/2404.05685v1 )

ライセンス: Link先を確認
Zheng-Tao Xu, Zheng-Cheng Gu, Shuo Yang, (参考訳) ドープ量子スピン液体(QSL)は、P・W・アンダーソンの共鳴原子価結合(RVB)のシナリオによって提案された高温超伝導(SC)の可能性を含む、魅力的な量子相を生じさせると考えられてきた。 カゴメ格子$t$-$J$モデルは、半充填時にスピン液体の挙動を示すことが知られており、ドープQSLの性質を研究するのに理想的なシステムである。 本研究では,フェルミオン射影整合状態(PESS)法を用いて,カゴメ格子の基底状態特性を$t/J = 3.0$で調べる。 その結果、電荷密度波(CDW)状態から臨界ドーピングレベル$\delta_c \approx 0.27$の均一状態への相転移が明らかになった。 CDW相中では、エネルギー的に好まれるドープ穴で形成されたウィグナー結晶(WC)の異なる種類を観察する。 均一相に入ると、非フェルミ液体(NFL)状態がドーピング範囲$0.27 < \delta < 0.32$で現われる。 さらにホールドーピングを行うことで、狭いドーピング領域$0.32 < \delta < 1/3$内の対密度波(PDW)状態が現れる。 また,本研究の実験的意義についても論じる。

It has long been believed that doped quantum spin liquids (QSLs) can give rise to fascinating quantum phases, including the possibility of high-temperature superconductivity (SC) as proposed by P. W. Anderson's resonating valence bond (RVB) scenario. The Kagome lattice $t$-$J$ model is known to exhibit spin liquid behavior at half-filling, making it an ideal system for studying the properties of doped QSL. In this study, we employ the fermionic projected entangled simplex state (PESS) method to investigate the ground state properties of the Kagome lattice $t$-$J$ model with $t/J = 3.0$. Our results reveal a phase transition from charge density wave (CDW) states to uniform states around a critical doping level $\delta_c \approx 0.27$. Within the CDW phase, we observe different types of Wigner crystal (WC) formulated by doped holes that are energetically favored. As we enter the uniform phase, a non-Fermi liquid (NFL) state emerges within the doping range $0.27 < \delta < 0.32$, characterized by an exponential decay of all correlation functions. With further hole doping, we discover the appearance of a pair density wave (PDW) state within a narrow doping region $0.32 < \delta < 1/3$. We also discuss the potential experimental implications of our findings.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# チェビシェフ擬似サイト行列積のクラスター摂動理論への応用

Chebyshev pseudosite matrix product state approach for cluster perturbation theory ( http://arxiv.org/abs/2404.05686v1 )

ライセンス: Link先を確認
Pei-Yuan Zhao, Ke Ding, Shuo Yang, (参考訳) 本稿では,2次元電子フォノン(e$-ph)結合系におけるスペクトル関数のシミュレーションに不可欠なクラスタ摂動理論(CPT)の解法として,ChepsMPS(Chebyshev pseudosite matrix product state approach)を導入する。 ChePSMPSは、より大きなクラスターをサポートすることによって従来の正確な対角化解法と区別し、有限サイズ効果を著しく緩和する。 フェルミオンサイン問題から解放されたChePSMPSは、$e$-ph効果を探索し、ドープモット絶縁体で高分解能スペクトル関数を生成する能力を高める。 この手法を用いて、1次元および2次元のハバード・ホルシュタインモデルの両方のスペクトルをシミュレートし、他の手法よりもその優位性を強調する。 以上の結果から,ChePSMPSはグリーン関数解法として強力かつ信頼性が高いことが示唆された。 埋め込み法とともに、ChePSMPSは強い相関を持つ$e$-ph結合系をシミュレートするための重要なツールとして現れる。

We introduce the Chebyshev pseudosite matrix product state approach (ChePSMPS) as a solver for cluster perturbation theory (CPT), crucial for simulating spectral functions in two-dimensional electron-phonon ($e$-ph) coupling systems. ChePSMPS distinguishes itself from conventional exact diagonalization solvers by supporting larger clusters, thereby significantly mitigating finite-size effects. Free from the fermion sign problem, ChePSMPS enhances its ability to explore $e$-ph effects and generate high-resolution spectral functions in doped Mott insulators. We use this method to simulate the spectra for both one- and two-dimensional Hubbard-Holstein models, highlighting its superiority over other methods. Our findings validate ChePSMPS as a powerful and reliable Green's function solver. In conjunction with embedding methods, ChePSMPS emerges as an essential tool for simulating strongly correlated $e$-ph coupling systems.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 検索型オープン語彙オブジェクト検出

Retrieval-Augmented Open-Vocabulary Object Detection ( http://arxiv.org/abs/2404.05687v1 )

ライセンス: Link先を確認
Jooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim, (参考訳) Open-vocabulary Object Detection (OVD) はVision-Language Models (VLM) を用いて、事前訓練されたカテゴリを超えて新しいオブジェクトを検出するために研究されている。 以前のアプローチでは、検知器の知識を拡大する一般化能力を改善し、eg、ソック、iPod、アリゲータといった「クラス」名前の「陽性」擬似ラベルを使用した。 従来の手法を2つの側面で拡張するために,検索機能の拡張と視覚的特徴(RALF)を提案する。 本手法は, 関連する「負」クラスを検索し, 損失関数を増大させる。 また、視覚的特徴は、例えば足に装着する「言語概念」、ハンドヘルド・ミュージック・プレイヤー、鋭い歯で強化される。 具体的には、ralFはRetrieval Augmented Losses (RAL)とRetrieval-Augmented Visual Features (RAF)の2つのモジュールで構成される。 RALは、負の語彙と意味的類似性を反映した2つの損失を構成する。 さらに、RAFは、大きな言語モデル(LLM)から言語化された概念で視覚的特徴を強化する。 実験では,COCOおよびLVISベンチマークデータセットに対するALFの有効性を実証した。 我々は、COCOデータセットの新しいカテゴリの3.4ボックスAP$_{50}^{\text{N}}$とLVISデータセットの3.6マスクAP$_{\text{r}}$ゲインの改善を達成する。 コードはhttps://github.com/mlvlab/RALF で公開されている。

Open-vocabulary object detection (OVD) has been studied with Vision-Language Models (VLMs) to detect novel objects beyond the pre-trained categories. Previous approaches improve the generalization ability to expand the knowledge of the detector, using 'positive' pseudo-labels with additional 'class' names, e.g., sock, iPod, and alligator. To extend the previous methods in two aspects, we propose Retrieval-Augmented Losses and visual Features (RALF). Our method retrieves related 'negative' classes and augments loss functions. Also, visual features are augmented with 'verbalized concepts' of classes, e.g., worn on the feet, handheld music player, and sharp teeth. Specifically, RALF consists of two modules: Retrieval Augmented Losses (RAL) and Retrieval-Augmented visual Features (RAF). RAL constitutes two losses reflecting the semantic similarity with negative vocabularies. In addition, RAF augments visual features with the verbalized concepts from a large language model (LLM). Our experiments demonstrate the effectiveness of RALF on COCO and LVIS benchmark datasets. We achieve improvement up to 3.4 box AP$_{50}^{\text{N}}$ on novel categories of the COCO dataset and 3.6 mask AP$_{\text{r}}$ gains on the LVIS dataset. Code is available at https://github.com/mlvlab/RALF .
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# 臨床・バイオメディカルテキスト理解のためのドイツ語モデルに関する総合的研究

Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding ( http://arxiv.org/abs/2404.05694v1 )

ライセンス: Link先を確認
Ahmad Idrissi-Yaghir, Amin Dada, Henning Schäfer, Kamyar Arzideh, Giulia Baldini, Jan Trienes, Max Hasin, Jeanette Bewersdorff, Cynthia S. Schmidt, Marie Bauer, Kaleb E. Smith, Jiang Bian, Yonghui Wu, Jörg Schlötterer, Torsten Zesch, Peter A. Horn, Christin Seifert, Felix Nensa, Jens Kleesiek, Christoph M. Friedrich, (参考訳) 自然言語処理(NLP)の最近の進歩は、BERTやRoBERTaといった事前訓練された言語モデルの出現に大きく寄与する。 これらのモデルは一般的なデータセットで顕著なパフォーマンスを示すが、ユニークなドメイン固有の用語、ドメイン固有の略語、および様々なドキュメント構造が一般的である医学のような特殊なドメインでは苦労することがある。 本稿では、これらのモデルをドメイン固有の要求に適応するための戦略を、主にドメイン固有のデータに対する継続的な事前学習を通じて検討する。 我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。 得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。 以上の結果から,臨床および翻訳による事前訓練により強化されたモデルは,医学的文脈における一般的なドメインモデルより優れていることが示唆された。 本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりできることを実証した。 さらに,臨床データによる事前トレーニングや翻訳テキストの活用は,NLPタスクにおける領域適応の信頼性の高い方法であることが証明されている。

Recent advances in natural language processing (NLP) can be largely attributed to the advent of pre-trained language models such as BERT and RoBERTa. While these models demonstrate remarkable performance on general datasets, they can struggle in specialized domains such as medicine, where unique domain-specific terminologies, domain-specific abbreviations, and varying document structures are common. This paper explores strategies for adapting these models to domain-specific requirements, primarily through continuous pre-training on domain-specific data. We pre-trained several German medical language models on 2.4B tokens derived from translated public English medical data and 3B tokens of German clinical data. The resulting models were evaluated on various German downstream tasks, including named entity recognition (NER), multi-label classification, and extractive question answering. Our results suggest that models augmented by clinical and translation-based pre-training typically outperform general domain models in medical contexts. We conclude that continuous pre-training has demonstrated the ability to match or even exceed the performance of clinical models trained from scratch. Furthermore, pre-training on clinical data or leveraging translated texts have proven to be reliable methods for domain adaptation in medical NLP tasks.
翻訳日:2024-04-09 13:36:07 公開日:2024-04-08
# David and Goliath: ディープエッジにおけるQNNの攻撃と防御に関する実証的評価

David and Goliath: An Empirical Evaluation of Attacks and Defenses for QNNs at the Deep Edge ( http://arxiv.org/abs/2404.05688v1 )

ライセンス: Link先を確認
Miguel Costa, Sandro Pinto, (参考訳) MLはクラウドからエッジにシフトしています。 エッジコンピューティングは、プライベートデータを露出する表面を低減し、リアルタイムアプリケーションで信頼性の高いスループットを保証する。 エッジにデプロイされるデバイスのうち、リソースに制約のあるMCU、例えばArm Cortex-Mは、より一般的で、桁違いに安価で、アプリケーションプロセッサやGPUよりも電力消費が少ない。 したがって、ディープエッジでのインテリジェンスの実現はサイテジストであり、研究者はこれらの制約されたデバイスにANNをデプロイするための新しいアプローチを公開することに重点を置いている。 量子化(quantization)は、ニューラルネットワークをMCUにデプロイする上で有効な確立されたテクニックだが、敵の例に直面したQNNの堅牢性を理解することは、依然としてオープンな疑問である。 このギャップを埋めるために、我々は(完全精度)ANNから(拘束された)QNNへの攻撃と防御の有効性を実証的に評価した。 評価には、TinyMLアプリケーションをターゲットにした3つのQNN、10回の攻撃、6回の防御が含まれている。 本研究では,本研究から興味深い知見が得られた。 第一に、量子化は決定境界までの点距離を増大させ、いくつかの攻撃によって見積もられた勾配を爆発または消滅させる。 第二に、量子化は雑音の大きさによってノイズ減衰器や増幅器として機能し、勾配のずれを引き起こす。 対向防御については,入力前処理防衛は小さな摂動に対して印象的な結果を示すが,摂動が増加するにつれて低下する。 同時に、列車ベースの防御は、定量化後に保持される決定境界への平均点距離を増大させる。 しかし、QNNに対する対向的なサンプル転送性に対処するために、電車による防御は量子化シフトと勾配の誤調整現象を円滑にする必要があると論じる。 成果の独立した検証を可能にするため、すべての成果物はオープンソースである。

ML is shifting from the cloud to the edge. Edge computing reduces the surface exposing private data and enables reliable throughput guarantees in real-time applications. Of the panoply of devices deployed at the edge, resource-constrained MCUs, e.g., Arm Cortex-M, are more prevalent, orders of magnitude cheaper, and less power-hungry than application processors or GPUs. Thus, enabling intelligence at the deep edge is the zeitgeist, with researchers focusing on unveiling novel approaches to deploy ANNs on these constrained devices. Quantization is a well-established technique that has proved effective in enabling the deployment of neural networks on MCUs; however, it is still an open question to understand the robustness of QNNs in the face of adversarial examples. To fill this gap, we empirically evaluate the effectiveness of attacks and defenses from (full-precision) ANNs on (constrained) QNNs. Our evaluation includes three QNNs targeting TinyML applications, ten attacks, and six defenses. With this study, we draw a set of interesting findings. First, quantization increases the point distance to the decision boundary and leads the gradient estimated by some attacks to explode or vanish. Second, quantization can act as a noise attenuator or amplifier, depending on the noise magnitude, and causes gradient misalignment. Regarding adversarial defenses, we conclude that input pre-processing defenses show impressive results on small perturbations; however, they fall short as the perturbation increases. At the same time, train-based defenses increase the average point distance to the decision boundary, which holds after quantization. However, we argue that train-based defenses still need to smooth the quantization-shift and gradient misalignment phenomenons to counteract adversarial example transferability to QNNs. All artifacts are open-sourced to enable independent validation of results.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 自然発生データからスキル獲得を規定する象徴的法則の自動発見

Automated discovery of symbolic laws governing skill acquisition from naturally occurring data ( http://arxiv.org/abs/2404.05689v1 )

ライセンス: Link先を確認
Sannyuya Liu, Qing Li, Xiaoxuan Shen, Jianwen Sun, Zongkai Yang, (参考訳) スキル獲得は認知心理学における重要な領域であり、複数の心理学的プロセスを含んでいる。 実験パラダイムの下で発見された法則は議論の余地があり、一般化性に欠ける。 本稿では,大規模学習ログデータからスキル学習の法則を明らかにすることを目的とする。 2段階のアルゴリズムは、観測不能な認知状態と探索におけるアルゴリズム的爆発の問題に対処するために開発された。 当初は,学習者の認知状態を判断し,特徴的重要性を評価するために,深層学習モデルが用いられる。 その後、記号回帰アルゴリズムを用いてニューラルネットワークモデルを代数方程式に解析する。 シミュレーションデータによる実験結果から,提案アルゴリズムは一定範囲の雑音の範囲内で様々な事前設定された法則を精度良く復元できることを示す。 提案手法のLumosityトレーニングデータへの適用は、従来のモデルや最新のモデルと比較して、フィットネスの面で優れた性能を示す。 以上の結果から,新たな2種類の技術習得法が発見されているのに対し,いくつかの発見は再確認されている。

Skill acquisition is a key area of research in cognitive psychology as it encompasses multiple psychological processes. The laws discovered under experimental paradigms are controversial and lack generalizability. This paper aims to unearth the laws of skill learning from large-scale training log data. A two-stage algorithm was developed to tackle the issues of unobservable cognitive states and algorithmic explosion in searching. Initially a deep learning model is employed to determine the learner's cognitive state and assess the feature importance. Subsequently, symbolic regression algorithms are utilized to parse the neural network model into algebraic equations. The experimental results of simulated data demonstrate that the proposed algorithm can accurately restore various preset laws within a certain range of noise, in continues feedback setting. Application of proposed method to Lumosity training data demonstrates superior performance compared to traditional and latest models in terms of fitness. The results indicate the discovery of two new forms of skill acquisition laws, while some previous findings have been reaffirmed.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 正確性を超えた数学的推論の評価

Evaluating Mathematical Reasoning Beyond Accuracy ( http://arxiv.org/abs/2404.05692v1 )

ライセンス: Link先を確認
Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu, (参考訳) 数学タスクにおけるLLM(Large Language Models)のリーダーボードは継続的に更新されている。 しかし、ほとんどの評価は最終結果のみに焦点を合わせ、中間段階の品質を無視する。 この監視は、論理的誤りや推論プロセスの不必要なステップなど、根本的な問題を隠蔽する可能性がある。 最終回答精度を超えて推論を測定するために,推論ステップの品質を評価する新しい手法であるReasonEvalを紹介した。 ReasonEvalは、推論の品質を特徴付けるために$\textit{validity}$と$\textit{redundancy}$を使用し、それを自動的に評価するためにLLMを伴います。 強力な数学的知識を有し、高品質なラベル付きデータで訓練されたベースモデルによって、ReasonEvalは、人間のラベル付きデータセット上で最先端のパフォーマンスを実現し、摂動によって生成された様々なタイプのエラーを正確に検出することができる。 数学を専門とするLLMの評価に適用すると、最終回答精度の上昇は、数学問題に挑戦する推論ステップの全体的な品質向上を必ずしも保証していないことが分かる。 さらに、データ選択においてReasonEvalが重要な役割を果たすことを観察する。 我々は、最高のパフォーマンスモデル、メタ評価スクリプト、およびすべての評価結果をhttps://github.com/GAIR-NLP/ReasonEval.comでリリースします。

The leaderboard of Large Language Models (LLMs) in mathematical tasks has been continuously updated. However, the majority of evaluations focus solely on the final results, neglecting the quality of the intermediate steps. This oversight can mask underlying problems, such as logical errors or unnecessary steps in the reasoning process. To measure reasoning beyond final-answer accuracy, we introduce ReasonEval, a new methodology for evaluating the quality of reasoning steps. ReasonEval employs $\textit{validity}$ and $\textit{redundancy}$ to characterize the reasoning quality, as well as accompanying LLMs to assess them automatically. Instantiated by base models that possess strong mathematical knowledge and trained with high-quality labeled data, ReasonEval achieves state-of-the-art performance on human-labeled datasets and can accurately detect different types of errors generated by perturbation. When applied to evaluate LLMs specialized in math, we find that an increase in final-answer accuracy does not necessarily guarantee an improvement in the overall quality of the reasoning steps for challenging mathematical problems. Additionally, we observe that ReasonEval can play a significant role in data selection. We release the best-performing model, meta-evaluation script, and all evaluation results at https://github.com/GAIR-NLP/ReasonEval.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 衛星画像のセマンティックセグメンテーションにおけるカット・アンド・ペーストデータ拡張の有効性の評価

Evaluating the Efficacy of Cut-and-Paste Data Augmentation in Semantic Segmentation for Satellite Imagery ( http://arxiv.org/abs/2404.05693v1 )

ライセンス: Link先を確認
Ionut M. Motoi, Leonardo Saraceni, Daniele Nardi, Thomas A. Ciarfuglia, (参考訳) 衛星画像は、環境モニタリングや都市計画といったタスクに欠かせない。 通常、各ピクセルを分類するために、セマンティックセグメンテーションまたは土地利用土地被覆(LULC)分類に依存する。 Deep Neural Networks (DNN) によってもたらされた進歩にもかかわらず、それらのセグメンテーションタスクのパフォーマンスは、ラベル付きデータの可用性の制限、クラス不均衡、衛星画像の固有の変動性と複雑さといった課題によって妨げられている。 これらの問題を緩和するため,衛星画像のセマンティックセグメンテーションにおけるカット・アンド・ペースト拡張手法の有効性について検討した。 私たちは、通常ラベル付きインスタンスを必要とするこの拡張を、セマンティックセグメンテーションのケースに適用します。 セマンティックセグメンテーションラベルの接続されたコンポーネントを利用することで、トレーニング中にランダムにペーストされたインスタンスを抽出する。 評価のためにDynamicEarthNetデータセットとU-Netモデルを用いて、この拡張により、テストセットのmIoUスコアが37.9から44.1に大幅に向上することを発見した。 この発見は、衛星画像におけるセマンティックセグメンテーションモデルの一般化能力を改善するために、カット・アンド・ペーストの拡張の可能性を強調している。

Satellite imagery is crucial for tasks like environmental monitoring and urban planning. Typically, it relies on semantic segmentation or Land Use Land Cover (LULC) classification to categorize each pixel. Despite the advancements brought about by Deep Neural Networks (DNNs), their performance in segmentation tasks is hindered by challenges such as limited availability of labeled data, class imbalance and the inherent variability and complexity of satellite images. In order to mitigate those issues, our study explores the effectiveness of a Cut-and-Paste augmentation technique for semantic segmentation in satellite images. We adapt this augmentation, which usually requires labeled instances, to the case of semantic segmentation. By leveraging the connected components in the semantic segmentation labels, we extract instances that are then randomly pasted during training. Using the DynamicEarthNet dataset and a U-Net model for evaluation, we found that this augmentation significantly enhances the mIoU score on the test set from 37.9 to 44.1. This finding highlights the potential of the Cut-and-Paste augmentation to improve the generalization capabilities of semantic segmentation models in satellite imagery.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# Humanoid-Gym:Zero-Shot Sim2Real Transferによるヒューマノイドロボットの強化学習

Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ( http://arxiv.org/abs/2404.05695v1 )

ライセンス: Link先を確認
Xinyang Gu, Yen-Jen Wang, Jianyu Chen, (参考訳) Humanoid-GymはNvidia Isaac GymをベースとしたRLフレームワークで、ヒューマノイドロボットのロコモーションスキルをトレーニングし、シミュレーションから実環境へのゼロショット転送を強調している。 また、Humanoid-GymはIsaac Gym氏によるsim-to-simフレームワークをMujocoに統合し、トレーニングされたポリシーをさまざまな物理シミュレーションで検証し、ポリシーの堅牢性と一般化を保証する。 このフレームワークは、ZeroEraのXBot-S(高さ1.2メートルのヒューマノイドロボット)とXBot-L(高さ1.65メートルのヒューマノイドロボット)によって、ゼロショットシミュレートで現実の環境で検証される。 プロジェクトのWebサイトとソースコードは、https://sites.google.com/view/ Humanoid-gym/.comで見ることができる。

Humanoid-Gym is an easy-to-use reinforcement learning (RL) framework based on Nvidia Isaac Gym, designed to train locomotion skills for humanoid robots, emphasizing zero-shot transfer from simulation to the real-world environment. Humanoid-Gym also integrates a sim-to-sim framework from Isaac Gym to Mujoco that allows users to verify the trained policies in different physical simulations to ensure the robustness and generalization of the policies. This framework is verified by RobotEra's XBot-S (1.2-meter tall humanoid robot) and XBot-L (1.65-meter tall humanoid robot) in a real-world environment with zero-shot sim-to-real transfer. The project website and source code can be found at: https://sites.google.com/view/humanoid-gym/.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 連続空間における単一原子波パケットのその場イメージング

In-situ Imaging of a Single-Atom Wave Packet in Continuous Space ( http://arxiv.org/abs/2404.05699v1 )

ライセンス: Link先を確認
Joris Verstraten, Kunlun Dai, Maxime Dixmerias, Bruno Peaudecerf, Tim de Jongh, Tarik Yefsah, (参考訳) 物質の波動の性質は、量子力学の最も顕著な側面の1つである。 その誕生以来、多数の実験が大量の粒子の干渉、回折、散乱を実証してきた。 最近では、制御と分解能の増大による実験により、個々の原子の波動関数を撮像できるようになった。 ここでは, 平面上に膨張する単原子波パケットのその場空間分布を, 量子ガス顕微鏡を用いて解析する。 本研究では,広帯域の波動関数を深い光学格子の部位に制御的に投影し,その後,単原子イメージングを行う。 ここで確立された、量子ガス顕微鏡による拡張波パケットのイメージングのためのプロトコルは、連続空間における多体系の相互作用の波動関数に容易に適用でき、空間相関関数を含むそれらの微視的特性に直接アクセスすることができる。

The wave nature of matter remains one of the most striking aspects of quantum mechanics. Since its inception, a wealth of experiments has demonstrated the interference, diffraction or scattering of massive particles. More recently, experiments with ever increasing control and resolution have allowed imaging the wavefunction of individual atoms. Here, we use quantum gas microscopy to image the in-situ spatial distribution of deterministically prepared single-atom wave packets as they expand in a plane. We achieve this by controllably projecting the expanding wavefunction onto the sites of a deep optical lattice and subsequently performing single-atom imaging. The protocol established here for imaging extended wave packets via quantum gas microscopy is readily applicable to the wavefunction of interacting many-body systems in continuous space, promising a direct access to their microscopic properties, including spatial correlation functions up to high order and large distances.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# ケーススタディ:特徴データと画像データセットに対するニューラルネットワークマルウェア検出検証

Case Study: Neural Network Malware Detection Verification for Feature and Image Datasets ( http://arxiv.org/abs/2404.05703v1 )

ライセンス: Link先を確認
Preston K. Robinette, Diego Manzanas Lopez, Serena Serbinowska, Kevin Leach, Taylor T. Johnson, (参考訳) マルウェア(英: Malware、または有害な意図で設計されたソフトウェア)は、個人と機関の両方に劇的な影響を与える、絶え間なく進化する脅威である。 ニューラルネットワークのマルウェア分類システムは、これらの脅威に対処するための重要なツールであるが、敵の機械学習攻撃に対して脆弱である。 これらの攻撃はパーターブ入力データを不正に分類し、保護システムをバイパスする。 既存の防御は、しばしばトレーニングプロセスの強化に依存しており、それによってモデルの頑丈さをこれらの摂動に高め、検証によって定量化される。 トレーニングの改善が必要である一方で、トレーニングの改善を評価するのに使用される検証プロセスに重点を置くことを提案する。 そこで本研究では,対戦相手に対する具体的な保護を確保する上で有効な,新たな検証領域を評価するとともに,マルウェア対策システムの堅牢性と有効性を評価するための信頼性の高い手段を提供する。 そこで我々は,ニューラルネットワーク検証(NNV)とニューラルネットワーク列挙(Neural Network Enumeration)ツールを用いて,マルウェア分類と2種類の一般的なマルウェアデータセット(機能データセットと画像データセット)を記述し,マルウェア分類の検証と改善に必要な課題と今後の考察を概説する。 この新たなドメインをケーススタディとして評価することで、その可視性を高め、さらなる研究と精査を促進し、最終的には悪意のある攻撃に対するデジタルシステムのレジリエンスを高めたいと思っています。

Malware, or software designed with harmful intent, is an ever-evolving threat that can have drastic effects on both individuals and institutions. Neural network malware classification systems are key tools for combating these threats but are vulnerable to adversarial machine learning attacks. These attacks perturb input data to cause misclassification, bypassing protective systems. Existing defenses often rely on enhancing the training process, thereby increasing the model's robustness to these perturbations, which is quantified using verification. While training improvements are necessary, we propose focusing on the verification process used to evaluate improvements to training. As such, we present a case study that evaluates a novel verification domain that will help to ensure tangible safeguards against adversaries and provide a more reliable means of evaluating the robustness and effectiveness of anti-malware systems. To do so, we describe malware classification and two types of common malware datasets (feature and image datasets), demonstrate the certified robustness accuracy of malware classifiers using the Neural Network Verification (NNV) and Neural Network Enumeration (nnenum) tools, and outline the challenges and future considerations necessary for the improvement and refinement of the verification of malware classification. By evaluating this novel domain as a case study, we hope to increase its visibility, encourage further research and scrutiny, and ultimately enhance the resilience of digital systems against malicious attacks.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# テンプレート特徴場を用いた画像から3次元GANを学習する

Learning 3D-Aware GANs from Unposed Images with Template Feature Field ( http://arxiv.org/abs/2404.05705v1 )

ライセンス: Link先を確認
Xinya Chen, Hanlei Guo, Yanrui Bin, Shangzhan Zhang, Yuanbo Yang, Yue Wang, Yujun Shen, Yiyi Liao, (参考訳) トレーニング画像の正確なカメラポーズの収集は、GAN(3D-Aware Generative Adversarial Network)の学習に役立つことが示されているが、実際は非常に高価である。 本研究は,学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を行うために,未提示画像から3D認識型GANを学習することを目的とする。 具体的には, 従来手法のような生成放射場に加えて, 放射場から密度を共有しながら, 2次元のセマンティック特徴から場を学習するよう, ジェネレータに依頼する。 このようなフレームワークにより、生成モデルによって発見されたデータセット平均を利用して標準的な3D特徴テンプレートを取得し、さらに実データ上でのポーズパラメータを効率的に推定することができる。 様々な挑戦的データセットに対する実験結果は、定性的および定量的視点の両方から、最先端の代替手段に対する我々のアプローチの優位性を示している。

Collecting accurate camera poses of training images has been shown to well serve the learning of 3D-aware generative adversarial networks (GANs) yet can be quite expensive in practice. This work targets learning 3D-aware GANs from unposed images, for which we propose to perform on-the-fly pose estimation of training images with a learned template feature field (TeFF). Concretely, in addition to a generative radiance field as in previous approaches, we ask the generator to also learn a field from 2D semantic features while sharing the density from the radiance field. Such a framework allows us to acquire a canonical 3D feature template leveraging the dataset mean discovered by the generative model, and further efficiently estimate the pose parameters on real data. Experimental results on various challenging datasets demonstrate the superiority of our approach over state-of-the-art alternatives from both the qualitative and the quantitative perspectives.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 量子磁気力学のための磁気浮上型超伝導楕円体、シリンダー、立方体モデリング

Modelling magnetically-levitated superconducting ellipsoids, cylinders and cuboids for quantum magnetomechanics ( http://arxiv.org/abs/2404.05710v1 )

ライセンス: Link先を確認
Natanael Bort-Soldevila, Jaume Cunill-Subiranas, Nuria Del-Valle, Witlef Wieczorek, Gerard Higgins, Michael Trupke, Carles Navau, (参考訳) 反ヘルムホルツトラップに閉じ込められた磁気浮上超電導ローターの特性を理論的に研究し、磁気力学実験に応用する。 翻訳モードと校正モードの両方について検討する。 自由度モードは、浮動小球がアクセスできない追加の自由度を与える。 異なる形状のローター(楕円形、円筒形、立方体)を比較した。 ローターの安定配向はローターのアスペクト比に依存することがわかった。

We theoretically investigate the properties of magnetically-levitated superconducting rotors confined in anti-Helmholtz traps, for application in magnetomechanical experiments. We study both the translational modes and a librational mode. The librational mode gives an additional degree of freedom that levitated spheres do not have access to. We compare rotors of different shapes: ellipsoids, cylinders and cuboids. We find that the stable orientations of the rotors depend on the rotors' aspect ratios.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# もし1つのコピーしか持たないとしたらどうだろう。低深度量子回路は決定問題に有利ではない。

What if you have only one copy? Low-depth quantum circuits have no advantage in decision problems! ( http://arxiv.org/abs/2404.05714v1 )

ライセンス: Link先を確認
Nengkun Yu, (参考訳) 未知の量子状態の特徴を理解するための従来のアプローチは、その状態において多くの同一の独立コピーを持つ。 しかし, 単一状態のサンプルであっても, 特定の特性に対する洞察の収集が可能であることを示す。 おそらく驚くべきことに、我々の発見の信頼性レベルは、量子ビットの数に比例して増加する。 我々の結論は、ノイズの影響のあるものを含む回路の複雑さの低い量子状態に適用できる。 さらに、これは確率分布の単独のサンプルから学ぶことまで拡張される。 以上の結果から,量子状態の分別化が困難であることを示す。 さらに、低深度量子回路を含む決定問題において、量子的優位性は明らかにしない。 我々の結果は、NISQデバイスを検証するのに利用できる。

The conventional approach to understanding the characteristics of an unknown quantum state involves having numerous identical independent copies of the system in that state. However, we demonstrate that gleaning insights into specific properties is feasible even with a single-state sample. Perhaps surprisingly, the confidence level of our findings increases proportionally with the number of qubits. Our conclusions apply to quantum states with low circuit complexity, including noise-affected ones. Additionally, this extends to learning from a solitary sample of probability distributions. Our results establish a strong lower bound for discriminating quantum states with low complexity. Furthermore, we reveal no quantum advantage in decision problems involving low-depth quantum circuits. Our results can be used to verify NISQ devices.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# Ferret-UI:マルチモーダルLLMによるモバイルUI理解

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs ( http://arxiv.org/abs/2404.05719v1 )

ライセンス: Link先を確認
Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan, (参考訳) マルチモーダル大言語モデル(MLLM)の最近の進歩は注目に値するが、これらの汎用MLLMはユーザインタフェース(UI)スクリーンを効果的に理解・操作する能力に欠けることが多い。 本稿では,モバイルUI画面の理解を深め,参照,接地,推論機能を備えた新しいMLLMであるFerret-UIを提案する。 UI画面は、通常、より長いアスペクト比を示し、自然画像よりも興味の対象(アイコン、テキストなど)が小さいことを考えると、フェレットの上に「あらゆる解像度」を組み込んで詳細を拡大し、拡張された視覚的特徴を活用する。 具体的には、元のアスペクト比(ポートレートスクリーンの水平分割とランドスケープスクリーンの垂直分割)に基づいて、各画面を2つのサブイメージに分割する。 両方のサブイメージはLDMに送られる前に別々にエンコードされる。 アイコン認識,テキスト検索,ウィジェットリスティングなど,さまざまな基本UIタスクのトレーニングサンプルを慎重に収集する。 これらのサンプルは、正確な参照とグラウンド化を容易にするために、リージョンアノテーションによる命令フォロー用にフォーマットされている。 モデルの推論能力を高めるために、詳細な説明、知覚/相互作用の会話、関数推論を含む高度なタスクのためのデータセットをさらにコンパイルする。 キュレートされたデータセットのトレーニングの後、Feret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。 モデル評価では、上記の課題をすべて包含する総合的なベンチマークを確立する。 Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。

Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities. Given that UI screens typically exhibit a more elongated aspect ratio and contain smaller objects of interest (e.g., icons, texts) than natural images, we incorporate "any resolution" on top of Ferret to magnify details and leverage enhanced visual features. Specifically, each screen is divided into 2 sub-images based on the original aspect ratio (i.e., horizontal division for portrait screens and vertical division for landscape screens). Both sub-images are encoded separately before being sent to LLMs. We meticulously gather training samples from an extensive range of elementary UI tasks, such as icon recognition, find text, and widget listing. These samples are formatted for instruction-following with region annotations to facilitate precise referring and grounding. To augment the model's reasoning ability, we further compile a dataset for advanced tasks, including detailed description, perception/interaction conversations, and function inference. After training on the curated datasets, Ferret-UI exhibits outstanding comprehension of UI screens and the capability to execute open-ended instructions. For model evaluation, we establish a comprehensive benchmark encompassing all the aforementioned tasks. Ferret-UI excels not only beyond most open-source UI MLLMs, but also surpasses GPT-4V on all the elementary UI tasks.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# CANデータを用いたトラックのオーバーテイク予測

Predicting Overtakes in Trucks Using CAN Data ( http://arxiv.org/abs/2404.05723v1 )

ライセンス: Link先を確認
Talha Hanif Butt, Prayag Tiwari, Fernando Alonso-Fernandez, (参考訳) トラックにおける安全な乗っ取りは事故の防止、渋滞の低減、効率的な交通流の確保に不可欠である。 そこで本研究では,CANデータからトラックの積載量を検出する。 タスクには3つの分類器、Artificial Neural Networks (ANN)、Random Forest、Support Vector Machines (SVM)が使用される。 CANの特徴を抽出するために1秒の重なり合うスライディングウインドウを用いて,オーバーテイクイベントの最大10秒前まで解析を行った。 オーバーテイク・クラスの予測スコアは、オーバーテイク・トリガーに近づくにつれて増加する傾向にあり、非オーバーテイク・クラスは安定した状態にあるか、分類器によって振動する傾向にある。 したがって、トリガーに近づくと最良の精度が得られ、早期のオーバーテイク予測が困難になる。 分類器はオーバーテイクの分類に精度が高い(リコール/TPR > 93%)が、非オーバーテイクの分類には精度が最適である(TNRは通常80-90%、SVMの変種では60%以下)。 さらに、出力スコアを平均化することにより、2つの分類器(Random Forest と linear SVM)を組み合わせる。 核融合は, オーバーテイク精度の低下(TPR)を犠牲にして, ノーオーバーテイク分類(TNR > 92%)を改善することが観察された。 しかし、後者はオーバーテイクトリガー付近で91%以上保持される。 したがって、融合はTPRとTNRのバランスを保ち、個々の分類器よりも一貫した性能を提供する。

Safe overtakes in trucks are crucial to prevent accidents, reduce congestion, and ensure efficient traffic flow, making early prediction essential for timely and informed driving decisions. Accordingly, we investigate the detection of truck overtakes from CAN data. Three classifiers, Artificial Neural Networks (ANN), Random Forest, and Support Vector Machines (SVM), are employed for the task. Our analysis covers up to 10 seconds before the overtaking event, using an overlapping sliding window of 1 second to extract CAN features. We observe that the prediction scores of the overtake class tend to increase as we approach the overtake trigger, while the no-overtake class remain stable or oscillates depending on the classifier. Thus, the best accuracy is achieved when approaching the trigger, making early overtaking prediction challenging. The classifiers show good accuracy in classifying overtakes (Recall/TPR > 93%), but accuracy is suboptimal in classifying no-overtakes (TNR typically 80-90% and below 60% for one SVM variant). We further combine two classifiers (Random Forest and linear SVM) by averaging their output scores. The fusion is observed to improve no-overtake classification (TNR > 92%) at the expense of reducing overtake accuracy (TPR). However, the latter is kept above 91% near the overtake trigger. Therefore, the fusion balances TPR and TNR, providing more consistent performance than individual classifiers.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# MA-LMM:長期ビデオ理解のためのメモリ拡張大型マルチモーダルモデル

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding ( http://arxiv.org/abs/2404.05726v1 )

ライセンス: Link先を確認
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim, (参考訳) 大型言語モデル(LLM)の成功により、ビジョンモデルとLLMの統合により、ビジョン言語基盤モデルの構築が注目されている。 しかし、既存のLLMベースの大規模マルチモーダルモデル(例えば、Video-LLaMA、VideoChat)は、短いビデオ理解のために限られたフレームしか持たない。 本研究では,長期的映像理解のための効率的かつ効果的なモデルの設計に主眼を置いている。 既存の作業と同じようなフレームを同時に処理するのではなく、オンラインで動画を処理し、過去の映像情報をメモリバンクに保存することを提案する。 これにより、LLMのコンテキスト長制約やGPUメモリ制限を超過することなく、長期解析のために過去の映像コンテンツを参照することが可能となる。 私たちのメモリバンクは、市販のマルチモーダルLCMにシームレスに統合できます。 我々は,映像理解,ビデオ質問応答,ビデオキャプションなど,様々な映像理解タスクに関する広範な実験を行い,そのモデルにより,複数のデータセットにわたる最先端のパフォーマンスを実現することができる。 コードはhttps://boheumd.github.io/MA-LMM/で公開されている。

With the success of large language models (LLMs), integrating the vision model into LLMs to build vision-language foundation models has gained much more interest recently. However, existing LLM-based large multimodal models (e.g., Video-LLaMA, VideoChat) can only take in a limited number of frames for short video understanding. In this study, we mainly focus on designing an efficient and effective model for long-term video understanding. Instead of trying to process more frames simultaneously like most existing work, we propose to process videos in an online manner and store past video information in a memory bank. This allows our model to reference historical video content for long-term analysis without exceeding LLMs' context length constraints or GPU memory limits. Our memory bank can be seamlessly integrated into current multimodal LLMs in an off-the-shelf manner. We conduct extensive experiments on various video understanding tasks, such as long-video understanding, video question answering, and video captioning, and our model can achieve state-of-the-art performances across multiple datasets. Code available at https://boheumd.github.io/MA-LMM/.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# $μ$-transferの大規模探索

A Large-Scale Exploration of $μ$-Transfer ( http://arxiv.org/abs/2404.05728v1 )

ライセンス: Link先を確認
Lucas Lingle, (参考訳) 大規模ニューラルネットワークモデルは、自然言語処理とコンピュータビジョンの主流となっているが、その初期化と学習率は、紙から紙、モデルサイズから次のモデルまで様々に、大きくヒューリスティックな方法で設定されている。 この$\mu$-Parameterization($\mu$P)は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリングルールを与え、さまざまなケースで小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にすると伝えられている。 明らかな約束にもかかわらず、$\mu$Pのスケーリングルールはまだ広く採用されていない。 本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。 2M から 10B のパラメータを持つモデルから、$\mu$-Transfer が重要なケースの大多数を意図したように機能することを示した。

Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? From models with 2M to 10B parameters, we show that $\mu$-Transfer works as intended for the majority of important cases, but also identify some surprising cases where it may not.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# ビジュアルタスクベクトルを見つける

Finding Visual Task Vectors ( http://arxiv.org/abs/2404.05729v1 )

ライセンス: Link先を確認
Alberto Hojel, Yutong Bai, Trevor Darrell, Amir Globerson, Amir Bar, (参考訳) ビジュアルプロンプティング(Visual Prompting)は、モデルに、追加のトレーニングなしで、コンテキスト内の例を通して視覚的なタスクを実行するように教えるテクニックである。 本研究では,最近のVisual PromptingモデルであるMAE-VQGANのアクティベーションを分析し,タスク固有情報をエンコードするタスクベクトル,アクティベーションを求める。 この知見をもとに,タスクベクトルを識別し,入力出力の例を提示することなく,ネットワークを異なるタスクに導くことが可能であることを実証した。 タスクベクトルを見つけるために、タスク毎の平均中間アクティベーションを計算し、REINFORCEアルゴリズムを用いてタスクベクトルのサブセットを探索する。 結果のタスクベクトルは、入力出力の例を必要とせずに、元のモデルよりも優れたタスクを実行するようモデルに導かれる。

Visual Prompting is a technique for teaching models to perform a visual task via in-context examples, without any additional training. In this work, we analyze the activations of MAE-VQGAN, a recent Visual Prompting model, and find task vectors, activations that encode task-specific information. Equipped with this insight, we demonstrate that it is possible to identify the task vectors and use them to guide the network towards performing different tasks without providing any input-output examples. To find task vectors, we compute the average intermediate activations per task and use the REINFORCE algorithm to search for the subset of task vectors. The resulting task vectors guide the model towards performing a task better than the original model without the need for input-output examples.
翻訳日:2024-04-09 13:26:22 公開日:2024-04-08
# 大規模言語モデルを用いた説明可能な交通流予測

Explainable Traffic Flow Prediction with Large Language Models ( http://arxiv.org/abs/2404.02937v2 )

ライセンス: Link先を確認
Xusen Guo, Qiming Zhang, Mingxing Peng, Meixin Zhu, Hao, Yang, (参考訳) 交通流予測は都市計画、交通管理、インフラ整備に不可欠である。 しかし,予測モデルにおける精度と解釈可能性の両立は,交通データの複雑化と深層学習手法の本質的不透明さのため,依然として困難である。 本稿では,大規模言語モデル(LLM)を活用して解釈可能な交通流予測を生成する新しい手法である交通流予測LLM(TF-LLM)を提案する。 TF-LLMは、マルチモーダルトラフィックデータを自然言語記述に転送することにより、複雑な時空間パターンと、気象条件、関心点(PoI)、日付、休日などの外部要因をキャプチャする。 言語に基づく命令を用いてLLMフレームワークを微調整し、時空間トラフィックフローデータと整合する。 カリフォルニア州の総合マルチモーダルトラフィックフローデータセット(CATraffic)は、最先端のディープラーニングベースラインに対するTF-LLMの評価を可能にする。 その結果、TF-LLMの競合精度を直感的で解釈可能な予測で示している。 本稿では,都市予測タスクにおけるTF-LLMの可能性を示すとともに,将来予測のための空間的時間的および入力的依存関係について考察する。 本稿では, 交通予測モデルの構築に寄与し, 交通におけるLLM応用の今後の探索の基盤となる。

Traffic flow prediction is crucial for urban planning, transportation management, and infrastructure development. However, achieving both accuracy and interpretability in prediction models remains challenging due to the complexity of traffic data and the inherent opacity of deep learning methodologies. In this paper, we propose a novel approach, Traffic Flow Prediction LLM (TF-LLM), which leverages large language models (LLMs) to generate interpretable traffic flow predictions. By transferring multi-modal traffic data into natural language descriptions, TF-LLM captures complex spatial-temporal patterns and external factors such as weather conditions, Points of Interest (PoIs), date, and holidays. We fine-tune the LLM framework using language-based instructions to align with spatial-temporal traffic flow data. Our comprehensive multi-modal traffic flow dataset (CATraffic) in California enables the evaluation of TF-LLM against state-of-the-art deep learning baselines. Results demonstrate TF-LLM's competitive accuracy while providing intuitive and interpretable predictions. We discuss the spatial-temporal and input dependencies for explainable future flow forecasting, showcasing TF-LLM's potential for diverse city prediction tasks. This paper contributes to advancing explainable traffic prediction models and lays a foundation for future exploration of LLM applications in transportation.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# GeoT: GPUの効率的なセグメント削減によるグラフニューラルネットワークのためのテンソル百科事典

GeoT: Tensor Centric Library for Graph Neural Network via Efficient Segment Reduction on GPU ( http://arxiv.org/abs/2404.03019v2 )

ライセンス: Link先を確認
Zhongming Yu, Genghan Zhang, Hanxian Huang, Xin Chen, Jishen Zhao, (参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフやポイントクラウド,メッシュなどの幾何学的データ構造の処理を大幅に強化するなど,イノベーションの急激な進展を招いている。 ドメインが進化を続けるにつれて、GNNの効率性を高めるために、一連のフレームワークとライブラリが開発されている。 グラフ中心ライブラリは過去にも成功を収めてきたが、効率的なテンソルコンパイラの出現はテンソル中心ライブラリの緊急な必要性を強調している。 しかし、GNNのセグメンテーションリダクションを実装する際に発生する固有の課題や制限のために、GNNの効率的なテンソル中心フレームワークは依然として不足している。 提案するGeoTは,GNN専用に設計された最先端のテンソル中心ライブラリである。 GeoTは、新しい設計原則を導入するだけでなく、利用可能なデザイン空間を拡大する革新的な並列アルゴリズムをデビューさせた。 重要なのは、GeoTは計算グラフ内で簡単に融合できるように設計されており、現代のテンソル中心の機械学習フレームワークやコンパイラとの互換性を保証する。 新しいパフォーマンスベンチマークを設定したGeoTは、平均演算子のスピードアップ1.80倍、エンドツーエンドのスピードアップ1.68倍を示すことで、かなり進歩した。

In recent years, Graph Neural Networks (GNNs) have ignited a surge of innovation, significantly enhancing the processing of geometric data structures such as graphs, point clouds, and meshes. As the domain continues to evolve, a series of frameworks and libraries are being developed to push GNN efficiency to new heights. While graph-centric libraries have achieved success in the past, the advent of efficient tensor compilers has highlighted the urgent need for tensor-centric libraries. Yet, efficient tensor-centric frameworks for GNNs remain scarce due to unique challenges and limitations encountered when implementing segment reduction in GNN contexts. We introduce GeoT, a cutting-edge tensor-centric library designed specifically for GNNs via efficient segment reduction. GeoT debuts innovative parallel algorithms that not only introduce new design principles but also expand the available design space. Importantly, GeoT is engineered for straightforward fusion within a computation graph, ensuring compatibility with contemporary tensor-centric machine learning frameworks and compilers. Setting a new performance benchmark, GeoT marks a considerable advancement by showcasing an average operator speedup of 1.80x and an end-to-end speedup of 1.68x.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# OmniGS:全方位画像を用いた高速放射場再構成のための全方位ガウススプラッティング

OmniGS: Omnidirectional Gaussian Splatting for Fast Radiance Field Reconstruction using Omnidirectional Images ( http://arxiv.org/abs/2404.03202v2 )

ライセンス: Link先を確認
Longwei Li, Huajian Huang, Sai-Kit Yeung, Hui Cheng, (参考訳) 3Dガウシアン・スプレイティングを頼りにした光現実的再構築は、ロボティクスに有望な可能性を示している。 しかし,現在の3次元ガウス散乱システムは,歪みのない視点像を用いた放射場再構成しかサポートしていない。 本稿では,全方位全方位撮影システムであるOmniGSについて,高速放射野再構成のための全方位画像の活用について述べる。 具体的には,3次元ガウス散乱における球面カメラモデル導関数の理論解析を行う。 導出物によれば、3Dガウスを正方形スクリーン空間に直接配置し、全方位画像レンダリングを行うGPU加速全方位ラスタライザを新たに実装する。 その結果、立方体写像の補正や接面近似を必要とせずに、放射界の微分可能最適化を実現した。 エゴセントリックおよびローミングのシナリオで実施された大規模な実験により,本手法は全方位画像を用いて最先端の復元品質と高速なレンダリングを実現することを示した。 研究コミュニティの利益を得るために、論文が公開されたら、コードは公開されます。

Photorealistic reconstruction relying on 3D Gaussian Splatting has shown promising potential in robotics. However, the current 3D Gaussian Splatting system only supports radiance field reconstruction using undistorted perspective images. In this paper, we present OmniGS, a novel omnidirectional Gaussian splatting system, to take advantage of omnidirectional images for fast radiance field reconstruction. Specifically, we conduct a theoretical analysis of spherical camera model derivatives in 3D Gaussian Splatting. According to the derivatives, we then implement a new GPU-accelerated omnidirectional rasterizer that directly splats 3D Gaussians onto the equirectangular screen space for omnidirectional image rendering. As a result, we realize differentiable optimization of the radiance field without the requirement of cube-map rectification or tangent-plane approximation. Extensive experiments conducted in egocentric and roaming scenarios demonstrate that our method achieves state-of-the-art reconstruction quality and high rendering speed using omnidirectional images. To benefit the research community, the code will be made publicly available once the paper is published.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# ReFT:言語モデルのための表現ファインタニング

ReFT: Representation Finetuning for Language Models ( http://arxiv.org/abs/2404.03592v2 )

ライセンス: Link先を確認
Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts, (参考訳) パラメータ効率のよい微調整法(PEFT)は、少数の重みを更新することで大きなモデルを適応させようとする。 しかし、それ以前の解釈可能性の研究は、表現がリッチな意味情報をエンコードしていることを示し、表現の編集がより強力な代替手段である可能性を示唆している。 ここでは、$\textbf{Representation Finetuning (ReFT)$メソッドのファミリーを開発することで、この仮説を追求する。 ReFTメソッドはフリーズベースモデル上で動作し、隠れた表現に対するタスク固有の介入を学ぶ。 本稿では,低ランク線形部分空間 ReFT (LoReFT) を強く定義する。 LoReFTは既存のPEFTの代替品であり、従来の最先端PEFTよりも10x-50倍高いパラメータ効率の介入を学ぶ。 本稿では,8つのコモンセンス推論タスク,4つの算術推論タスク,Alpaca-Eval v1.0,GLUEについて紹介する。 これらすべての評価において、LoReFTは効率と性能の最良のバランスを提供し、ほぼ常に最先端のPEFTよりも優れています。 ReFTトレーニングライブラリをhttps://github.com/stanfordnlp/pyreft.comで公開しています。

Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of $\textbf{Representation Finetuning (ReFT)}$ methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# SAAS:大規模言語モデルにおける数学的推論強化のための問題解決能力向上戦略

SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models ( http://arxiv.org/abs/2404.03887v2 )

ライセンス: Link先を確認
Hyeonwoo Kim, Gyoungjin Gim, Yungi Kim, Jihoo Kim, Byungju Kim, Wonseok Lee, Chanjun Park, (参考訳) 本研究では,Large Language Models (LLM) の数学的推論と問題解決能力の向上を目的とした,新しい学習手法を提案する。 我々は,CoT(Chain-of-Thought)とPoT(Program-of-Thought)の学習を統合することに集中し,数学的推論能力の学習の優先順位付けが問題解決能力の増幅に役立つと仮定した。 したがって、CoTによる初期学習は、問題の解決に不可欠である。 そこで本研究では,CoT学習からPoT学習へ戦略的に移行する,SAAS(Solving Ability Amplification Strategy)という逐次学習手法を提案する。 いくつかのベンチマークによる広範な性能比較を含む実証研究により,SAASがSOTA(State-of-the-art)の性能を達成することを示す。 その結果, LLMにおける数学的推論の分野において, 逐次学習手法の有効性が著しく向上していることが示唆された。

This study presents a novel learning approach designed to enhance both mathematical reasoning and problem-solving abilities of Large Language Models (LLMs). We focus on integrating the Chain-of-Thought (CoT) and the Program-of-Thought (PoT) learning, hypothesizing that prioritizing the learning of mathematical reasoning ability is helpful for the amplification of problem-solving ability. Thus, the initial learning with CoT is essential for solving challenging mathematical problems. To this end, we propose a sequential learning approach, named SAAS (Solving Ability Amplification Strategy), which strategically transitions from CoT learning to PoT learning. Our empirical study, involving an extensive performance comparison using several benchmarks, demonstrates that our SAAS achieves state-of-the-art (SOTA) performance. The results underscore the effectiveness of our sequential learning approach, marking a significant advancement in the field of mathematical reasoning in LLMs.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# 極紫外レーザー場による高調波発生におけるアト秒ラビ振動

Attosecond Rabi Oscillations in High Harmonic Generation Resonantly Driven by Extreme Ultraviolet Laser Fields ( http://arxiv.org/abs/2404.04053v2 )

ライセンス: Link先を確認
Alba de las Heras, Carlos Hernández-García, Javier Serrano, Aleksandar Prodanov, Dimitar Popmintchev, Tenio Popmintchev, Luis Plaja, (参考訳) 強い極紫外(EUV)磁場によって駆動される高次高調波発生は、量子光学とアト秒科学を融合させ、高分解能撮像と分光のためのコヒーレントEUVと軟X線光の生成に魅力的な経路をもたらす。 我々はHe原子と強紫外パルスの相互作用における超高速共鳴ダイナミクスを理論的に検討した。 高駆動強度では、高調波スペクトルで観測可能なシグネチャを印加した記録速度のラビ発振を同定する。 すべての有界状態に対するクーロンポテンシャル障壁を抑制する場強度において、いくつかのラビサイクルにおけるアト秒2レベルダイナミクスの生存を実証する。 その結果、この強いEUVレーザー-原子相互作用は、2レベル境界遷移の共鳴結合が一般的となる新しい強磁場シナリオを明らかにし、従来の強磁場赤外線系における境界連続遷移の優位性とは対照的である。 これらの知見は、短波長の強磁場を持つ極端アト秒非線形光学に対して興味深い視点を定めている。

High-order harmonic generation driven by intense extreme ultraviolet (EUV) fields merges quantum optics and attosecond science, giving rise to an appealing route for the generation of coherent EUV and soft X-ray light for high-resolution imaging and spectroscopies. We theoretically investigate ultrafast resonant dynamics during the interaction of He atoms with strong extreme ultraviolet pulses. At high driving intensities, we identify record fast attosecond Rabi oscillations imprinting observable signatures in the high harmonic spectrum. At field strengths suppressing the Coulomb potential barrier for all the bounded states, we demonstrate the survival of the attosecond two-level dynamics for several Rabi cycles. Consequently, this intense EUV laser-atom interaction reveals a new strong-field scenario where the resonant coupling of two-level bound-bound transitions prevails, contrasting with the dominance of bound-continuum transitions in the conventional strong-field infrared regimes. These findings set an interesting perspective for extreme attosecond nonlinear optics with intense short-wavelength fields.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# サブ線形複雑性によるクロックオフセット回復は、量子鍵分布のための低レベルハードウェア上での同期を可能にする

Clock offset recovery with sublinear complexity enables synchronization on low-level hardware for quantum key distribution ( http://arxiv.org/abs/2404.04081v2 )

ライセンス: Link先を確認
Jan Krause, Nino Walenta, Jonas Hilt, Ronald Freund, (参考訳) 量子鍵分布(QKD)のためのFPGAやマイクロコントローラなどの低レベルハードウェアの実装のために設計されたクロックオフセットリカバリ手法であるiQSyncを紹介する。 iQSyncは最小限のメモリを必要とし、単純な命令セット(例えば浮動小数点演算など)しか必要とせず、通常は単純なループの数千回以上のイテレーションを含む、サブ線形時間で評価できる。 さらに、iQSyncは、大きなオフセットであっても数秒以内の正確なクロックオフセットリカバリを可能にし、使用済みのQKDプロトコルにかかわらず、高いチャネル損失と低信号-雑音比のシナリオに適している。 提案手法をQKDプラットフォームに実装し,70dB以上のチャネル減衰に対する解析的成功確率と適合性を実証した。

We introduce iQSync, a clock offset recovery method designed for implementation on low-level hardware, such as FPGAs or microcontrollers, for quantum key distribution (QKD). iQSync requires minimal memory, only a simple instruction set (e.g. no floating-point operations), and can be evaluated with sublinear time complexity, typically involving no more than a few thousand iterations of a simple loop. Furthermore, iQSync allows for a precise clock offset recovery within few seconds, even for large offsets, and is well suited for scenarios with high channel loss and low signal-to-noise ratio, irrespective of the prepare-and-measure QKD protocol used. We implemented the method on our QKD platform, demonstrating its performance and conformity with analytically derived success probabilities for channel attenuations exceeding 70 dB.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08
# 中国語Tiny LLM:中国語中心の大規模言語モデルの事前学習

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model ( http://arxiv.org/abs/2404.04167v2 )

ライセンス: Link先を確認
Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang, (参考訳) 本研究では,LLM開発における中国語の優先化に向けた重要なシフトを示す2B大規模言語モデル(LLM)であるCT-LLMを紹介する。 CT-LLMは、スクラッチからはじめて、800億の中国トークン、300億の英語トークン、1000億のコードトークンを含む1200億のトークンの広範なコーパスを利用して、主に中国語のテキストデータを組み込むことによって、従来の手法から分離した。 この戦略構成は、アライメント技術によってさらに強化された、中国語の理解と処理において、モデルが卓越した能力を促進する。 CHC-Benchでの顕著な性能を示すために、CT-LLMは中国語のタスクに優れており、SFTによる英語での適応性を示している。 本研究は,LLMを英語コーパスに基づいて学習し,それを他の言語に適応させることによって,LLM学習方法論の地平を広げるという,一般的なパラダイムに挑戦する。 得られた大量事前学習型中国語コーパス(MAP-CC)、高度多分野の中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順をオープンソース化することにより、学術と産業の両方におけるさらなる探索と革新を促進し、より包括的で多目的な言語モデルの実現を目指す。

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-08