このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240525となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 銀行とファイナンスのための探索的データ分析 - 洞察とパターンの展開
Exploratory Data Analysis for Banking and Finance: Unveiling Insights and Patterns ( http://arxiv.org/abs/2407.11976v1 ) ライセンス: Link先を確認 | Ankur Agarwal, Shashi Prabha, Raghav Yadav, | (参考訳) 本稿では,銀行・金融分野における探索データ分析(EDA)の適用について検討し,クレジットカードの利用状況と顧客満足度に着目した。
記述統計,データ可視化,相関解析などのEDA技術を用いて,ステップバイステップの分析を行う。
本研究は、商店カテゴリーにおける取引パターン、信用限度、利用状況を調査し、消費者行動に関する洞察を提供する。
また、年齢、性別、利用パターンの収入などの人口統計要因も考慮している。
さらに、レポートは顧客の混乱、チャーン率、人口統計、トランザクション履歴、満足度などの要因を分析している。
これらの洞察は、銀行のプロフェッショナルがデータ駆動による意思決定を行い、マーケティング戦略を改善し、顧客の維持を強化し、最終的に収益性に寄与するのに役立つ。
This paper explores the application of Exploratory Data Analytics (EDA) in the banking and finance domain, focusing on credit card usage and customer churning. It presents a step-by-step analysis using EDA techniques such as descriptive statistics, data visualization, and correlation analysis. The study examines transaction patterns, credit limits, and usage across merchant categories, providing insights into consumer behavior. It also considers demographic factors like age, gender, and income on usage patterns. Additionally, the report addresses customer churning, analyzing churn rates and factors such as demographics, transaction history, and satisfaction levels. These insights help banking professionals make data-driven decisions, improve marketing strategies, and enhance customer retention, ultimately contributing to profitability. | 翻訳日:2024-07-22 11:50:18 公開日:2024-05-25 |
# 人工知能モデル評価における高精度生物学的能力の優先順位付け
Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models ( http://arxiv.org/abs/2407.13059v1 ) ライセンス: Link先を確認 | Jaspreet Pannu, Doni Bloomfield, Alex Zhu, Robert MacKnight, Gabe Gomes, Anita Cicero, Thomas V. Inglesby, | (参考訳) AIの能力が急速に向上した結果、過去1年間で、国家政府と多国籍機関は、AIモデルに関連する安全、セキュリティ、倫理問題に対処する取り組みを発表した。
これらの取り組みの中で最優先事項の1つは、AIモデルの誤用を軽減することである。
何十年もの間、多くの生物学者は、事故や誤用から高頻度の病気の発生に至る科学的研究のリスクを減らそうとしてきた。
科学者たちは、生命科学の研究が利益とリスク(二重利用)の両方をもたらす可能性について慎重に検討してきた。
ここでは、生命科学における二重利用能力の科学者や政策専門家による過去の経験と研究が、生物学的能力を持つAIモデルのリスク評価にどのように影響を与えるかを説明する。
AIモデルの評価は、高頻度リスク(パンデミックのような大規模な害を引き起こす可能性のあるもの)に対処することを優先すべきであり、これらのリスクは、潜在的なバイオセーフティやバイオセキュリティ対策を可能にするために、モデル展開前に評価されるべきである、と我々は主張する。
二重用途の生物学的リスクを特定し緩和する科学者の経験は、生物学的AIモデルを評価するための新しいアプローチに役立ちます。
目標とするAI安全性評価方法を確立し、これらのツールを事故や誤用から保護し、潜在的なメリットを妨げることを避けるためには、どのAI能力が最大のバイオセキュリティとバイオセーフティの懸念を投稿しているかを特定する必要がある。
As a result of rapidly accelerating AI capabilities, over the past year, national governments and multinational bodies have announced efforts to address safety, security and ethics issues related to AI models. One high priority among these efforts is the mitigation of misuse of AI models. Many biologists have for decades sought to reduce the risks of scientific research that could lead, through accident or misuse, to high-consequence disease outbreaks. Scientists have carefully considered what types of life sciences research have the potential for both benefit and risk (dual-use), especially as scientific advances have accelerated our ability to engineer organisms and create novel variants of pathogens. Here we describe how previous experience and study by scientists and policy professionals of dual-use capabilities in the life sciences can inform risk evaluations of AI models with biological capabilities. We argue that AI model evaluations should prioritize addressing high-consequence risks (those that could cause large-scale harm to the public, such as pandemics), and that these risks should be evaluated prior to model deployment so as to allow potential biosafety and/or biosecurity measures. Scientists' experience with identifying and mitigating dual-use biological risks can help inform new approaches to evaluating biological AI models. Identifying which AI capabilities post the greatest biosecurity and biosafety concerns is necessary in order to establish targeted AI safety evaluation methods, secure these tools against accident and misuse, and avoid impeding immense potential benefits. | 翻訳日:2024-07-22 08:18:00 公開日:2024-05-25 |
# InstructPatentGPT:人間のフィードバックによる指示に従うために特許言語モデルを訓練する
InstructPatentGPT: Training patent language models to follow instructions with human feedback ( http://arxiv.org/abs/2406.16897v1 ) ライセンス: Link先を確認 | Jieh-Sheng Lee, | (参考訳) 本研究では,人間のフィードバックによる強化学習システムとして,特許の訴追が概念化されている。
システムの目的は、言語モデルが付与される可能性の高い特許クレームを生成する可能性を高めることである。
言語モデルの制御性を示すために、システムは与えられた特許と異なる報酬を持つプレグラントアプリケーションから学習する。
グラインド」と「プレグラント」のステータスは、人間のフィードバックを暗黙的にラベル付けしていると認識されている。
さらに,特許の起草に特化して,クレームの長さの調整から,クレーム範囲を狭めるための制限項を含めることからモデルを学習する能力を示す実験を行った。
概念実証として、実験はクレームのみに焦点を当て、トレーニングデータは人工知能に特化した特許データセットに由来する。
特許手続における人的フィードバックは限定的であり, 生成した特許文書の品質には改善が必要であるが, 人的フィードバックからの3段階強化学習の結果, 生成言語モデルが人的フィードバックを反映し, 特許手続における意図を反映できることが実証された。
言語モデルのユーザビリティを高めるために,本研究では,単一のコンシューマグレードGPU上での実行を可能にする,現代的な技術を活用している。
実証された概念実証は、ハードウェア要件を減らし、将来有益であることが証明される。
In this research, patent prosecution is conceptualized as a system of reinforcement learning from human feedback. The objective of the system is to increase the likelihood for a language model to generate patent claims that have a higher chance of being granted. To showcase the controllability of the language model, the system learns from granted patents and pre-grant applications with different rewards. The status of "granted" and "pre-grant" are perceived as labeled human feedback implicitly. In addition, specific to patent drafting, the experiments in this research demonstrate the model's capability to learn from adjusting claim length and inclusion of limiting terms for narrowing claim scope. As proof of concept, the experiments focus on claim ones only and the training data originates from a patent dataset tailored specifically for artificial intelligence. Although the available human feedback in patent prosecution are limited and the quality of generated patent text requires improvement, the experiments following the 3-stage reinforcement learning from human feedback have demonstrated that generative language models are capable of reflecting the human feedback or intent in patent prosecution. To enhance the usability of language models, the implementation in this research utilizes modern techniques that enable execution on a single consumer-grade GPU. The demonstrated proof of concept, which reduces hardware requirements, will prove valuable in the future as more human feedback in patent prosecution become available for broader use, either within patent offices or in the public domain. | 翻訳日:2024-07-01 06:41:31 公開日:2024-05-25 |
# AIを使ってログブックから洞察を解き放つ
Towards Unlocking Insights from Logbooks Using AI ( http://arxiv.org/abs/2406.12881v1 ) ライセンス: Link先を確認 | Antonin Sulc, Alex Bien, Annika Eichler, Daniel Ratner, Florian Rehm, Frank Mayet, Gregor Hartmann, Hayden Hoschouer, Henrik Tuennermann, Jan Kaiser, Jason St. John, Jennefer Maldonado, Kyle Hazelwood, Raimund Kammering, Thorsten Hellert, Tim Wilksen, Verena Kain, Wan-Lin Hu, | (参考訳) 電子ログブックには、関連する粒子加速器施設に関する活動や出来事に関する貴重な情報が含まれている。
しかし、ログブックのエントリの非常に技術的な性質は、そのユーザビリティと自動化を妨げる可能性がある。
自然言語処理(NLP)が進むにつれて、ログブックがもたらす様々な課題に対処する機会を提供する。
本研究は、DESY, BESSY, Fermilab, BNL, SLAC, LBNL, CERNといった機関における粒子加速器ログブックのユーザビリティを高めるために、RAG(Retrieval Augmented Generation)モデルを共同でテストする。
RAGモデルは、ログブックのコントリビューション上に構築されたコーパスを使用し、潜在的なマルチモーダルソースに関する議論を含む、施設データセット上の検索を活用することで、これらのログブックからの洞察を解放することを目的としている。
我々の目標は、彼らの情報コンテンツを利用して日々の使用を効率化し、根本原因分析のためのマクロ分析を可能にし、問題解決の自動化を促進することで、ログブックのFAIR-ness(ファイダビリティ、アクセシビリティ、相互運用性、再利用性)を向上させることです。
Electronic logbooks contain valuable information about activities and events concerning their associated particle accelerator facilities. However, the highly technical nature of logbook entries can hinder their usability and automation. As natural language processing (NLP) continues advancing, it offers opportunities to address various challenges that logbooks present. This work explores jointly testing a tailored Retrieval Augmented Generation (RAG) model for enhancing the usability of particle accelerator logbooks at institutes like DESY, BESSY, Fermilab, BNL, SLAC, LBNL, and CERN. The RAG model uses a corpus built on logbook contributions and aims to unlock insights from these logbooks by leveraging retrieval over facility datasets, including discussion about potential multimodal sources. Our goals are to increase the FAIR-ness (findability, accessibility, interoperability, and reusability) of logbooks by exploiting their information content to streamline everyday use, enable macro-analysis for root cause analysis, and facilitate problem-solving automation. | 翻訳日:2024-06-23 13:24:48 公開日:2024-05-25 |
# 量子ドットセルオートマタアレイを用いた量子CNOTと量子メモリの実装
Implementing a Quantum CNOT and Quantum Memory Using a Quantum-Dot Cellular Automata Array ( http://arxiv.org/abs/1312.5665v2 ) ライセンス: Link先を確認 | Seyed Arash Sheikholeslam, Konrad Walus, | (参考訳) 本研究では,量子ドットセルオートマタ(QCA)を普遍量子コンピューティングに用いる手法を開発した。
この方法は概念的にはNMRシステムにおける再フォーカスに基づいている。
CNOTのようなマルチキュービット操作と同様に、QCAセルの配列が、細胞を能動的かつ受動的に分割して、能動的細胞が量子状態を保持しながら変換を受けるようにすることで、孤立した単一キュービットにどのように使用できるかを示す。
同じ技術がマルチキュービット量子メモリの開発に使われている。
不完全な制御パラメータの効果を議論し、典型的な量子演算の合計時間を与える。
このアプローチを用いて、異なる量子ゲートを制御フィールドと電位を介してQCAセルに印加したパルスシーケンスを用いて実装するが、レイアウトは同じである。
In this work, we develop a method to use Quantum- Dot Cellular Automata (QCA) for universal quantum computing. This method is based conceptually on refocusing in NMR systems. We show how an array of QCA cells can be used for isolated single qubit, as well as multi-qubit operations, such as the CNOT, by dividing the cells into active and passive sets such that the active cells undergo the transform while passive cells hold their quantum states. The same technique is used for developing a multi-qubit quantum memory. The effect of imperfect control parameters is discussed and the total time for a typical quantum operation is given. Using this approach, different quantum gates are implemented using pulse sequences applied to the QCA cells via control fields and potentials, while the layout remains the same. | 翻訳日:2024-06-09 16:28:54 公開日:2024-05-25 |
# 拡張ゲーティングレンジはアクティベーション機能を改善する
Expanded Gating Ranges Improve Activation Functions ( http://arxiv.org/abs/2405.20768v1 ) ライセンス: Link先を確認 | Allen Hao Huang, | (参考訳) アクティベーション関数は、すべてのディープラーニングアーキテクチャの中核的なコンポーネントである。
現在最も人気のあるアクティベーション関数は、GELUやSiLUのような滑らかなReLU変種である。
これらは、ゲーティング関数の範囲が 0 と 1 の間の自己ゲート活性化関数である。
本稿では,アークタンをゲーティング機構として用いることの実現可能性について検討する。
アークタンをゲーティング関数として用いる自己ゲート活性化関数は、単調に増大する第1誘導体を有する。
このアクティベーション機能を競争力のあるものにするためには、各MLPブロックにトレーニング可能なパラメータを導入して、ゲーティング関数の範囲を0と1を超えて拡張する必要がある。
また,この手法により,既存のセルフゲートアクティベーション機能も向上することがわかった。
我々は、拡張ArcTan線形ユニット(xATLU)、拡張GELU(xGELU)、拡張SiLU(xSiLU)の実証評価を行い、トランスアーキテクチャ内の既存の活性化関数よりも優れていることを示す。
さらに、拡張ゲーティング範囲は、一階Gated Linear Units (GLU)の改善に有望な結果を示している。
Activation functions are core components of all deep learning architectures. Currently, the most popular activation functions are smooth ReLU variants like GELU and SiLU. These are self-gated activation functions where the range of the gating function is between zero and one. In this paper, we explore the viability of using arctan as a gating mechanism. A self-gated activation function that uses arctan as its gating function has a monotonically increasing first derivative. To make this activation function competitive, it is necessary to introduce a trainable parameter for every MLP block to expand the range of the gating function beyond zero and one. We find that this technique also improves existing self-gated activation functions. We conduct an empirical evaluation of Expanded ArcTan Linear Unit (xATLU), Expanded GELU (xGELU), and Expanded SiLU (xSiLU) and show that they outperform existing activation functions within a transformer architecture. Additionally, expanded gating ranges show promising results in improving first-order Gated Linear Units (GLU). | 翻訳日:2024-06-09 16:28:54 公開日:2024-05-25 |
# 拡散モデルに対するブラックボックスメンバーシップ推論攻撃に向けて
Towards Black-Box Membership Inference Attack for Diffusion Models ( http://arxiv.org/abs/2405.20771v1 ) ライセンス: Link先を確認 | Jingwei Li, Jing Dong, Tianxing He, Jingzhao Zhang, | (参考訳) 拡散モデルのトレーニングにアートワークが使用されたかどうかを特定することは、AI生成アートの普及と関連する著作権問題を考えると、重要な研究トピックである。
この研究は、メンバーシップ推論攻撃(MIA)の観点からこの問題にアプローチする。
まず,既存のMIA手法を著作権保護に適用することの限界,すなわち,内部U-netの要求されたアクセスと非メンバーデータセットの選択を識別する。
上記の問題に対処するため、モデルの内部U-netへのアクセスを必要とせずに動作する新しいブラックボックスメンバーシップ推論攻撃手法を提案する。
次に、より包括的な評価を行うために、DALL-E生成データセットを構築する。
提案手法を様々な設定で検証し,実験結果が従来よりも優れていたことを実証した。
Identifying whether an artwork was used to train a diffusion model is an important research topic, given the rising popularity of AI-generated art and the associated copyright concerns. The work approaches this problem from the membership inference attack (MIA) perspective. We first identify the limitations of applying existing MIA methods for copyright protection: the required access of internal U-nets and the choice of non-member datasets for evaluation. To address the above problems, we introduce a novel black-box membership inference attack method that operates without needing access to the model's internal U-net. We then construct a DALL-E generated dataset for a more comprehensive evaluation. We validate our method across various setups, and our experimental results outperform previous works. | 翻訳日:2024-06-09 16:28:54 公開日:2024-05-25 |
# Visual-RolePlay:ロールプレイングイメージチャラクトによる多モード大規模言語モデルに対するユニバーサルジェイルブレイク攻撃
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Characte ( http://arxiv.org/abs/2405.20773v1 ) ライセンス: Link先を確認 | Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu, Muhao Chen, Bo Li, Chaowei Xiao, | (参考訳) MLLM(Multimodal Large Language Models)の出現と普及に伴い、安全性の確保がますます重要になっている。
この目的を達成するためには,攻撃手法を探索することでMLLMの脆弱性を積極的に発見する必要がある。
このように、有害なセマンティックコンテンツが画像内に埋め込まれる構造ベースのジェイルブレイク攻撃は、モデルを誤解させるために提案されている。
しかし、従来の構造に基づくジェイルブレイク手法は主に、有害なコンテンツをタイポグラフィーによって画像に変換するような悪意あるクエリの形式を変換することに焦点を当てており、ジェイルブレイクの有効性と一般化性に欠ける。
これらの制約に対処するため、まずMLLMジェイルブレイク攻撃に「ロールプレイ」の概念を導入し、視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。
特に、VRPはLarge Language Modelsを活用して、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。
良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクな文字画像はMLLMを効果的に誤解させ、負の属性を持つ文字を付加することで悪意のある応答を発生させる。
一般化可能性を示すために,VRP法をさらに普遍的な設定に拡張する。
人気のあるベンチマークに関する大規模な実験によると、VRPは、すべてのモデルで平均14.3%のアタック成功率(ASR)で最強のベースラインであるQuery relevantとFigStepを上回っている。
With the advent and widespread deployment of Multimodal Large Language Models (MLLMs), ensuring their safety has become increasingly critical. To achieve this objective, it requires us to proactively discover the vulnerability of MLLMs by exploring the attack methods. Thus, structure-based jailbreak attacks, where harmful semantic content is embedded within images, have been proposed to mislead the models. However, previous structure-based jailbreak methods mainly focus on transforming the format of malicious queries, such as converting harmful content into images through typography, which lacks sufficient jailbreak effectiveness and generalizability. To address these limitations, we first introduce the concept of "Role-play" into MLLM jailbreak attacks and propose a novel and effective method called Visual Role-play (VRP). Specifically, VRP leverages Large Language Models to generate detailed descriptions of high-risk characters and create corresponding images based on the descriptions. When paired with benign role-play instruction texts, these high-risk character images effectively mislead MLLMs into generating malicious responses by enacting characters with negative attributes. We further extend our VRP method into a universal setup to demonstrate its generalizability. Extensive experiments on popular benchmarks show that VRP outperforms the strongest baseline, Query relevant and FigStep, by an average Attack Success Rate (ASR) margin of 14.3% across all models. | 翻訳日:2024-06-09 16:28:54 公開日:2024-05-25 |
# 何百万人もの人々の道:Wikipediaから人生の軌跡を抽出する
Paths of A Million People: Extracting Life Trajectories from Wikipedia ( http://arxiv.org/abs/2406.00032v1 ) ライセンス: Link先を確認 | Ying Zhang, Xiaofeng Li, Zhaoyang Liu, Haipeng Zhang, | (参考訳) 出生、死、教育、結婚、競争、仕事、スピーチの提供、科学的発見の実施、傑作の完成、戦いの終結、そしてこれらの人々が他人とどのように交流するかといった様々な活動の場所や時期が研究の対象となっている。
しかし、音量、密度、対人相互作用の観点での軌跡データの不足は、関連する研究が包括的でインタラクティブであることを制限する。
我々は、ウィキペディアから数百万の伝記ページを抽出し、軌跡記述の多様性と不均一性から生じる一般化問題に取り組む。
半教師付き学習とコントラスト学習を組み合わせた組立モデルCOSMOSは,F1スコア85.95%を達成している。
このタスクでは,8,852(人,時間,位置)のトリプルからなる手作業によるデータセットWikiLifeTrajectoryも作成する。
さらに,8,272人の歴史家の軌跡を実験的に分析し,抽出結果の有効性を実証した。
トラジェクトリ抽出の研究を円滑に進めるとともに,分析研究によるグランド・ナラティブ構築を支援するため,コード,百万レベルのトラジェクトリ,WikiLifeTrajectoryデータセットを公開している。
Notable people's life trajectories have been a focus of study -- the locations and times of various activities, such as birth, death, education, marriage, competition, work, delivering a speech, making a scientific discovery, finishing a masterpiece, and fighting a battle, and how these people interact with others, carry important messages for the broad research related to human dynamics. However, the scarcity of trajectory data in terms of volume, density, and inter-person interactions, limits relevant studies from being comprehensive and interactive. We mine millions of biography pages from Wikipedia and tackle the generalization problem stemming from the variety and heterogeneity of the trajectory descriptions. Our ensemble model COSMOS, which combines the idea of semi-supervised learning and contrastive learning, achieves an F1 score of 85.95%. For this task, we also create a hand-curated dataset, WikiLifeTrajectory, consisting of 8,852 (person, time, location) triplets as ground truth. Besides, we perform an empirical analysis on the trajectories of 8,272 historians to demonstrate the validity of the extracted results. To facilitate the research on trajectory extractions and help the analytical studies to construct grand narratives, we make our code, the million-level extracted trajectories, and the WikiLifeTrajectory dataset publicly available. | 翻訳日:2024-06-09 16:09:32 公開日:2024-05-25 |
# Promptをベースとした半構造化自然言語状態追跡による検索型会話推薦
Retrieval-Augmented Conversational Recommendation with Prompt-based Semi-Structured Natural Language State Tracking ( http://arxiv.org/abs/2406.00033v1 ) ライセンス: Link先を確認 | Sara Kemper, Justin Cui, Kai Dicarlantonio, Kathy Lin, Danjie Tang, Anton Korikov, Scott Sanner, | (参考訳) 会話レコメンデーション(ConvRec)システムは、ユーザ好みや意図のリッチで多様な自然言語(NL)表現を理解しなければならない。
このような複雑な発話は、特に不完全なメタデータや時代遅れのメタデータのみを使用する場合、関連する項目の検索を難しくする。
幸運なことに、多くのドメインは、標準的なメタデータカテゴリをカバーし、ユーザの興味に合った複雑な意見を提供するリッチなアイテムレビューを特徴としている。
しかし、最近になって大きな言語モデル (LLM) によって、ユーザの好みの発話と複雑な言語の間の共通理解の接続を、ユーザ生成レビューで解き放つことができるようになった。
さらに、LLMは、半構造化対話状態追跡、複雑な意図と嗜好の理解、レコメンデーション、説明、質問応答の創出のための新しいパラダイムを可能にする。
そこで我々は,ConvRec用のレトリーバル拡張型LLM駆動対話状態トラッキングシステムであるRA-Recを紹介し,ビデオ,オープンソースGitHubリポジトリ,インタラクティブなGoogle Colabノートブックを紹介する。
Conversational recommendation (ConvRec) systems must understand rich and diverse natural language (NL) expressions of user preferences and intents, often communicated in an indirect manner (e.g., "I'm watching my weight"). Such complex utterances make retrieving relevant items challenging, especially if only using often incomplete or out-of-date metadata. Fortunately, many domains feature rich item reviews that cover standard metadata categories and offer complex opinions that might match a user's interests (e.g., "classy joint for a date"). However, only recently have large language models (LLMs) let us unlock the commonsense connections between user preference utterances and complex language in user-generated reviews. Further, LLMs enable novel paradigms for semi-structured dialogue state tracking, complex intent and preference understanding, and generating recommendations, explanations, and question answers. We thus introduce a novel technology RA-Rec, a Retrieval-Augmented, LLM-driven dialogue state tracking system for ConvRec, showcased with a video, open source GitHub repository, and interactive Google Colab notebook. | 翻訳日:2024-06-09 16:09:32 公開日:2024-05-25 |
# ビデオテキスト検索のためのCLIP4Clipにおける励起・凝集設計適応に関する実証的研究
An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval ( http://arxiv.org/abs/2406.01604v1 ) ライセンス: Link先を確認 | Xiaolun Jing, Genke Yang, Jian Chu, | (参考訳) CLIPから移行したCLIP4Clipモデルは、フレームレベルの入力からビデオクリップ検索タスクを解決するためのデファクタ標準であり、ビデオテキスト検索ドメインにおけるCLIP4Clipベースのモデルの急増を引き起こしている。
本研究では,フレーム特徴集合における有意な平均プール動作の制限について再考し,識別ビデオ表現生成のための励起・集約設計の適用について検討する。
本稿では,(1)フレーム特徴間の非相互排他的関係を捕捉し,フレームワイド特徴の再分類を実現するための励起モジュールと,(2)フレーム表現集約に使用される排他性を学習するためにアグリゲーションモジュールを適用することを含む,新しい励起・集約設計を提案する。
同様に、シーケンシャルなモジュールとアグリゲーションの設計のカスケードを用いて、シーケンシャルなビデオ表現を生成する。
さらに,マルチモーダルインタラクションのための代表的なフレーム特徴を得るために,タイトな型での励起設計を採用する。
MSR-VTT、ActivityNet、DiDeMoの3つのベンチマークデータセットで評価を行い、MSR-VTT (43.9 R@1)、ActivityNet (44.1 R@1)、DiDeMo (31.0 R@1)を達成した。
CLIP4Clipの結果は+1.2%(+0.5%)、+4.5%(+1.9%)、+9.5%(+2.7%)の相対的(絶対的)改善に優れており、提案した励起および凝集設計の優位性を示している。
私たちの研究がフレーム表現アグリゲーションの代替として機能し、将来の研究を促進することを願っています。
CLIP4Clip model transferred from the CLIP has been the de-factor standard to solve the video clip retrieval task from frame-level input, triggering the surge of CLIP4Clip-based models in the video-text retrieval domain. In this work, we rethink the inherent limitation of widely-used mean pooling operation in the frame features aggregation and investigate the adaptions of excitation and aggregation design for discriminative video representation generation. We present a novel excitationand-aggregation design, including (1) The excitation module is available for capturing non-mutuallyexclusive relationships among frame features and achieving frame-wise features recalibration, and (2) The aggregation module is applied to learn exclusiveness used for frame representations aggregation. Similarly, we employ the cascade of sequential module and aggregation design to generate discriminative video representation in the sequential type. Besides, we adopt the excitation design in the tight type to obtain representative frame features for multi-modal interaction. The proposed modules are evaluated on three benchmark datasets of MSR-VTT, ActivityNet and DiDeMo, achieving MSR-VTT (43.9 R@1), ActivityNet (44.1 R@1) and DiDeMo (31.0 R@1). They outperform the CLIP4Clip results by +1.2% (+0.5%), +4.5% (+1.9%) and +9.5% (+2.7%) relative (absolute) improvements, demonstrating the superiority of our proposed excitation and aggregation designs. We hope our work will serve as an alternative for frame representations aggregation and facilitate future research. | 翻訳日:2024-06-09 15:59:42 公開日:2024-05-25 |
# セグメンテーションフリーストリーミング機械翻訳
Segmentation-Free Streaming Machine Translation ( http://arxiv.org/abs/2309.14823v2 ) ライセンス: Link先を確認 | Javier Iranzo-Sánchez, Jorge Iranzo-Sánchez, Adrià Giménez, Jorge Civera, Alfons Juan, | (参考訳) Streaming Machine Translation (MT) は、非有界な入力テキストストリームをリアルタイムで翻訳するタスクである。
ASR(Automatic Speech Recognition)とMT(MT)システムを組み合わせた従来のカスケード手法は、転写ストリームを文のような単位に分割する中間セグメンテーションステップに依存している。
しかし、ハードセグメンテーションの組み入れはMTシステムに制約を与え、エラーの原因となる。
本稿では,セグメンテーション決定を翻訳が生成されるまで遅らせることで,非セグメンテーションソースストリームの変換を可能にするセグメンテーションフリーフレームワークを提案する。
大規模な実験は、提案されたセグメンテーションフリーフレームワークが、独立したセグメンテーションモデルを使用する競合するアプローチよりも品質とレイテンシのトレードオフが優れていることを示している。
ソフトウェア、データ、モデルは、論文の受理によってリリースされる。
Streaming Machine Translation (MT) is the task of translating an unbounded input text stream in real-time. The traditional cascade approach, which combines an Automatic Speech Recognition (ASR) and an MT system, relies on an intermediate segmentation step which splits the transcription stream into sentence-like units. However, the incorporation of a hard segmentation constrains the MT system and is a source of errors. This paper proposes a Segmentation-Free framework that enables the model to translate an unsegmented source stream by delaying the segmentation decision until the translation has been generated. Extensive experiments show how the proposed Segmentation-Free framework has better quality-latency trade-off than competing approaches that use an independent segmentation model. Software, data and models will be released upon paper acceptance. | 翻訳日:2024-05-30 04:26:52 公開日:2024-05-25 |
# KNN共有値のインフレーションについて
On the Inflation of KNN-Shapley Value ( http://arxiv.org/abs/2405.17489v1 ) ライセンス: Link先を確認 | Ziao Yang, Han Yue, Jian Chen, Hongfu Liu, | (参考訳) 共有価値に基づくデータ評価手法は、協調ゲーム理論から派生したもので、個々のサンプルの有用性を、トレーニングサブセットの全てに寄与することを考慮して定量化する。
広い応用にもかかわらず、これらの手法は価値インフレーションの課題に直面する - 負のシェープリー値を持つサンプルは有害であるが、正の値を持つサンプルも有害である。
この課題は、2つの基本的な疑問を提起する: 有害なサンプルと有害なサンプルを区別するためのしきい値としてのゼロの適合性と、適切なしきい値の決定である。
これらの問題に対処するために、我々はKNN-Shapleyに着目し、小さなトレーニングサブセットの負の効果を軽減し、有害なサンプルと有害なサンプルを区別する閾値としてゼロを校正するCalibrated KNN-Shapley (CKNN-Shapley)を提案する。
広範な実験を通じて、データ評価インフレーションの緩和、有害サンプルの検出、データ品質の評価におけるCKNN-Shapleyの有効性を実証した。
また、従来の分類設定を超えて、誤ラベル付きデータによる学習、ストリームデータによるオンライン学習、ラベルアノテーションのためのアクティブ学習など、多種多様な実践シナリオに適用する。
Shapley value-based data valuation methods, originating from cooperative game theory, quantify the usefulness of each individual sample by considering its contribution to all possible training subsets. Despite their extensive applications, these methods encounter the challenge of value inflation - while samples with negative Shapley values are detrimental, some with positive values can also be harmful. This challenge prompts two fundamental questions: the suitability of zero as a threshold for distinguishing detrimental from beneficial samples and the determination of an appropriate threshold. To address these questions, we focus on KNN-Shapley and propose Calibrated KNN-Shapley (CKNN-Shapley), which calibrates zero as the threshold to distinguish detrimental samples from beneficial ones by mitigating the negative effects of small-sized training subsets. Through extensive experiments, we demonstrate the effectiveness of CKNN-Shapley in alleviating data valuation inflation, detecting detrimental samples, and assessing data quality. We also extend our approach beyond conventional classification settings, applying it to diverse and practical scenarios such as learning with mislabeled data, online learning with stream data, and active learning for label annotation. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# Revisit, Extend, and Enhance Hessian-free Influence Function
Revisit, Extend, and Enhance Hessian-Free Influence Functions ( http://arxiv.org/abs/2405.17490v1 ) ライセンス: Link先を確認 | Ziao Yang, Han Yue, Jian Chen, Hongfu Liu, | (参考訳) 影響関数は、モデル解釈、サブセットトレーニングセットの選択、ノイズラベル検出などにおけるサンプルの影響を評価する重要なツールとして機能する。
1階テイラー拡張を用いることで、高価なモデル再訓練を必要とせずに、影響関数はサンプルの影響を推定できる。
しかし、深いモデルに直接影響関数を適用することは、主に損失関数の非凸の性質とモデルパラメータの大きいサイズが原因である。
この困難さは、計算をヘッセン行列の逆数にコストがかかるだけでなく、場合によっては存在しない。
行列分解を含む様々な手法がヘッセン行列の逆転を高速化し近似するために研究され、深いモデルに適用可能な影響関数を作ることを目的としている。
本稿では,TracIn として知られる具体的な,しかし有効な近似法について再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
この単純な近似法がうまく機能する理由について、より深い知見を提供する。
さらに、フェアネスとロバストネスの考慮を含むモデルユーティリティの測定を超えて、その応用を拡大する。
最後に,TracInをアンサンブル戦略により強化する。
その有効性を検証するため、我々は合成データの実験を行い、ノイズラベルの検出、大規模言語モデルの微調整のためのサンプル選択、敵攻撃に対する防御について広範な評価を行った。
Influence functions serve as crucial tools for assessing sample influence in model interpretation, subset training set selection, noisy label detection, and more. By employing the first-order Taylor extension, influence functions can estimate sample influence without the need for expensive model retraining. However, applying influence functions directly to deep models presents challenges, primarily due to the non-convex nature of the loss function and the large size of model parameters. This difficulty not only makes computing the inverse of the Hessian matrix costly but also renders it non-existent in some cases. Various approaches, including matrix decomposition, have been explored to expedite and approximate the inversion of the Hessian matrix, with the aim of making influence functions applicable to deep models. In this paper, we revisit a specific, albeit naive, yet effective approximation method known as TracIn. This method substitutes the inverse of the Hessian matrix with an identity matrix. We provide deeper insights into why this simple approximation method performs well. Furthermore, we extend its applications beyond measuring model utility to include considerations of fairness and robustness. Finally, we enhance TracIn through an ensemble strategy. To validate its effectiveness, we conduct experiments on synthetic data and extensive evaluations on noisy label detection, sample selection for large language model fine-tuning, and defense against adversarial attacks. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# 統計的仮説テストプログラムのための形式検証ツールStatWhy
StatWhy: Formal Verification Tool for Statistical Hypothesis Testing Programs ( http://arxiv.org/abs/2405.17492v1 ) ライセンス: Link先を確認 | Yusuke Kawamoto, Kentaro Kobayashi, Kohei Suenaga, | (参考訳) 統計学的手法は様々な科学分野において広く誤用され、誤解され、科学的研究の完全性に関する重大な懸念が提起されている。
この問題を緩和する手法を開発するために,統計的プログラムの正当性を正式に特定し,自動検証する手法を提案する。
本手法では,ソースコードをアノテートすることで,統計的手法の要件を確認することをプログラマに促す。
そして、StatWhyと呼ばれるソフトウェアツールが、プログラマが統計的手法の要件を適切に指定したかどうかを自動的にチェックする。
このツールは、統計的仮説テストのためのOCamlプログラムの正当性を検証するために、Why3プラットフォームを用いて実装されている。
様々な仮説テストプログラムにおいて、StatWhyが一般的なエラーを避けるためにどのように使用できるかを実証する。
Statistical methods have been widely misused and misinterpreted in various scientific fields, raising significant concerns about the integrity of scientific research. To develop techniques to mitigate this problem, we propose a new method for formally specifying and automatically verifying the correctness of statistical programs. In this method, programmers are reminded to check the requirements for statistical methods by annotating their source code. Then, a software tool called StatWhy automatically checks whether the programmers have properly specified the requirements for the statistical methods. This tool is implemented using the Why3 platform to verify the correctness of OCaml programs for statistical hypothesis testing. We demonstrate how StatWhy can be used to avoid common errors in a variety of popular hypothesis testing programs. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# オンライン選択によるネガティブトランスファーの克服:障害診断のための遠隔ドメイン適応
Overcoming Negative Transfer by Online Selection: Distant Domain Adaptation for Fault Diagnosis ( http://arxiv.org/abs/2405.17493v1 ) ライセンス: Link先を確認 | Ziyan Wang, Mohamed Ragab, Wenmian Yang, Min Wu, Sinno Jialin Pan, Jie Zhang, Zhenghua Chen, | (参考訳) 非教師なし領域適応(UDA)は異常診断において顕著に成功し、多様な産業用途に多大な利益をもたらした。
ほとんどのUDAメソッドは、ソースとターゲットドメインが特に類似しているクロスワーク状態のシナリオにフォーカスするが、現実世界のアプリケーションは、厳しいドメインシフトに悩まされることが多い。
我々は、ラベル付きソースドメインからラベル付き未ラベルのターゲットドメインへの適応の難しさを表現するために、「距離付きドメイン適応問題」という用語を作成した。
この問題は、ソースドメインからの外部知識がターゲットドメインのパフォーマンスに悪影響を及ぼす、負の転送のリスクを示す。
残念なことに、従来のUDA法は、しばしばこの負の移動を軽減し、最適以下の性能をもたらす。
この課題に対応するために、我々は、新しいオンライン選択適応(OSAA)アプローチを提案する。
OSAAの中心は、オンライン勾配マスキングアプローチを通じて、ターゲットのサンプルによく似たソースサンプルに焦点をあてて、遠隔のサンプルを動的に識別し排除する能力である。
さらに、ソースおよびターゲットドメインをブリッジする際の固有の複雑さを認識し、中間ドメインを構築し、遷移ドメインとして機能し、適応プロセスを容易にする。
最後に,各ドメイン間の潜在的なラベル分布の相違を考慮に入れたドメイン不変表現を学習しながら,ラベル分布の相違に対処するクラス条件逆適応を開発する。
2つの実世界のデータセットに関する詳細な実験とアブレーション研究を通じて、OSAA法が最先端の手法よりも優れていることを検証する。
Unsupervised domain adaptation (UDA) has achieved remarkable success in fault diagnosis, bringing significant benefits to diverse industrial applications. While most UDA methods focus on cross-working condition scenarios where the source and target domains are notably similar, real-world applications often grapple with severe domain shifts. We coin the term `distant domain adaptation problem' to describe the challenge of adapting from a labeled source domain to a significantly disparate unlabeled target domain. This problem exhibits the risk of negative transfer, where extraneous knowledge from the source domain adversely affects the target domain performance. Unfortunately, conventional UDA methods often falter in mitigating this negative transfer, leading to suboptimal performance. In response to this challenge, we propose a novel Online Selective Adversarial Alignment (OSAA) approach. Central to OSAA is its ability to dynamically identify and exclude distant source samples via an online gradient masking approach, focusing primarily on source samples that closely resemble the target samples. Furthermore, recognizing the inherent complexities in bridging the source and target domains, we construct an intermediate domain to act as a transitional domain and ease the adaptation process. Lastly, we develop a class-conditional adversarial adaptation to address the label distribution disparities while learning domain invariant representation to account for potential label distribution disparities between the domains. Through detailed experiments and ablation studies on two real-world datasets, we validate the superior performance of the OSAA method over state-of-the-art methods, underscoring its significant utility in practical scenarios with severe domain shifts. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# 層状中間予測による過渡不確かさ
Transitional Uncertainty with Layered Intermediate Predictions ( http://arxiv.org/abs/2405.17494v1 ) ライセンス: Link先を確認 | Ryan Benkert, Mohit Prabhushankar, Ghassan AlRegib, | (参考訳) 本稿では,単一パス不確実性推定のための特徴工学について論じる。
正確な不確実性推定のために、ニューラルネットワークは不確実性を定量化する特徴空間の差を抽出しなければならない。
これは、ネットワークを横断するデータポイント間の特徴距離を維持する、現在のシングルパスアプローチによって実現される。
初期結果は有望であるが,ネットワーク表現における特徴距離の維持は情報圧縮を頻繁に阻害し,学習目標に反する。
保存された特徴がラベル分布の学習に寄与し、反対に振る舞う場合、出力中の特徴距離を保存することは有益である。
次に、現在のシングルパス推定器の欠点に対処するための簡単なアプローチとして、階層型中間予測(TULIP)を用いた遷移不確実性を提案する。
具体的には、情報層が破壊される前に中間表現から特徴を抽出して特徴保存を行う。
本稿では,その基盤となる保存機構をトランザクショナルな特徴保存と呼ぶ。
TULIPは、標準ベンチマークや、これらの手法が信頼性の低い(不均衡、複雑なアーキテクチャ、医療モダリティ)実践的な環境で、現在のシングルパスメソッドに適合または性能を向上することを示す。
In this paper, we discuss feature engineering for single-pass uncertainty estimation. For accurate uncertainty estimates, neural networks must extract differences in the feature space that quantify uncertainty. This could be achieved by current single-pass approaches that maintain feature distances between data points as they traverse the network. While initial results are promising, maintaining feature distances within the network representations frequently inhibits information compression and opposes the learning objective. We study this effect theoretically and empirically to arrive at a simple conclusion: preserving feature distances in the output is beneficial when the preserved features contribute to learning the label distribution and act in opposition otherwise. We then propose Transitional Uncertainty with Layered Intermediate Predictions (TULIP) as a simple approach to address the shortcomings of current single-pass estimators. Specifically, we implement feature preservation by extracting features from intermediate representations before information is collapsed by subsequent layers. We refer to the underlying preservation mechanism as transitional feature preservation. We show that TULIP matches or outperforms current single-pass methods on standard benchmarks and in practical settings where these methods are less reliable (imbalances, complex architectures, medical modalities). | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# 有効性、セキュリティ、適用性のための垂直的フェデレーション学習:調査
Vertical Federated Learning for Effectiveness, Security, Applicability: A Survey ( http://arxiv.org/abs/2405.17495v1 ) ライセンス: Link先を確認 | Mang Ye, Wei Shen, Eduard Snezhko, Vassili Kovalev, Pong C. Yuen, Bo Du, | (参考訳) Vertical Federated Learning(VFL)は、プライベートデータをリークすることなく、共有サンプルの分割された機能を使用して、さまざまなパーティが協力してモデルを学習する、プライバシ保護の分散学習パラダイムである。
近年の研究では、VFLにおける様々な課題に対処する有望な結果が示されており、ドメイン間コラボレーションにおける実践的応用の可能性を強調している。
しかし、対応する研究は散逸し、組織が欠如している。
VFL研究を進めるために,本調査は最近の進展を体系的に概観する。
まず、VFLの一般的なトレーニングプロトコルの概要とともに、歴史と背景を紹介する。
次に、最近のレビューで分類を再検討し、詳細な制限を分析します。
包括的かつ構造化された議論では、有効性、セキュリティ、適用性という3つの基本的な視点から最近の研究を合成する。
最後に,VFLにおけるいくつかの重要な研究の方向性について論じる。
調査リストのコレクションを提供し、https://github.com/shentt67/VFL_Survey.comで定期的に更新します。
Vertical Federated Learning (VFL) is a privacy-preserving distributed learning paradigm where different parties collaboratively learn models using partitioned features of shared samples, without leaking private data. Recent research has shown promising results addressing various challenges in VFL, highlighting its potential for practical applications in cross-domain collaboration. However, the corresponding research is scattered and lacks organization. To advance VFL research, this survey offers a systematic overview of recent developments. First, we provide a history and background introduction, along with a summary of the general training protocol of VFL. We then revisit the taxonomy in recent reviews and analyze limitations in-depth. For a comprehensive and structured discussion, we synthesize recent research from three fundamental perspectives: effectiveness, security, and applicability. Finally, we discuss several critical future research directions in VFL, which will facilitate the developments in this field. We provide a collection of research lists and periodically update them at https://github.com/shentt67/VFL_Survey. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# 動的クライアント選択と異常検出を用いた車両ネットワークにおけるセキュア階層型フェデレーション学習
Secure Hierarchical Federated Learning in Vehicular Networks Using Dynamic Client Selection and Anomaly Detection ( http://arxiv.org/abs/2405.17497v1 ) ライセンス: Link先を確認 | M. Saeid HaghighiFard, Sinem Coleri, | (参考訳) 階層的フェデレートラーニング(HFL)は、車両ネットワークにおける敵または信頼できない車両の重大な課題に直面しており、誤った更新によってモデルの完全性を損なう可能性がある。
そこで本研究では,動的車両選択とロバストな異常検出機構を統合し,選択選択を最適化し,悪意あるコントリビューションに関連するリスクを軽減することを目的とした,新たなフレームワークを提案する。
本手法では, 過去の精度, コントリビューション頻度, 異常記録を考慮し, 総合的な車両信頼性評価を行う。
フェデレートラーニング(FL)プロセスにおいて、局所的またはモデルパラメータのコサイン類似性を解析することにより、異常検出アルゴリズムを用いて異常な振る舞いを識別する。
これらの異常記録は、各学習ラウンドに最も適した車両を特定するために、精度と寄与頻度のために、過去の性能と登録され、組み合わせられる。
動的クライアント選択と異常検出アルゴリズムは、クラスタヘッド(CH)、クラスタメンバ(CM)、Evolving Packet Core(EPC)など、さまざまなレベルでデプロイされ、急激な更新を検出してフィルタリングする。
シミュレーションに基づく性能評価により,本アルゴリズムは攻撃条件下においても顕著なレジリエンスを示す。
最悪のシナリオでも、攻撃のないシナリオに比べて63ドル\%の収束時間を達成する。
逆に,提案アルゴリズムを用いないシナリオでは,FLプロセスに非収束の可能性が高い。
Hierarchical Federated Learning (HFL) faces the significant challenge of adversarial or unreliable vehicles in vehicular networks, which can compromise the model's integrity through misleading updates. Addressing this, our study introduces a novel framework that integrates dynamic vehicle selection and robust anomaly detection mechanisms, aiming to optimize participant selection and mitigate risks associated with malicious contributions. Our approach involves a comprehensive vehicle reliability assessment, considering historical accuracy, contribution frequency, and anomaly records. An anomaly detection algorithm is utilized to identify anomalous behavior by analyzing the cosine similarity of local or model parameters during the federated learning (FL) process. These anomaly records are then registered and combined with past performance for accuracy and contribution frequency to identify the most suitable vehicles for each learning round. Dynamic client selection and anomaly detection algorithms are deployed at different levels, including cluster heads (CHs), cluster members (CMs), and the Evolving Packet Core (EPC), to detect and filter out spurious updates. Through simulation-based performance evaluation, our proposed algorithm demonstrates remarkable resilience even under intense attack conditions. Even in the worst-case scenarios, it achieves convergence times at $63$\% as effective as those in scenarios without any attacks. Conversely, in scenarios without utilizing our proposed algorithm, there is a high likelihood of non-convergence in the FL process. | 翻訳日:2024-05-30 00:00:30 公開日:2024-05-25 |
# デバイス非依存型量子鍵分布の展望
Prospects for device-independent quantum key distribution ( http://arxiv.org/abs/2111.11769v3 ) ライセンス: Link先を確認 | Ernest Y. -Z. Tan, | (参考訳) デバイス独立量子鍵分布(DIQKD)は、ベルの不等式違反のセキュリティを基盤として、最小限の仮定でセキュアな鍵分布を実現することを目的としている。
これは強力なセキュリティ保証を提供するが、実験的に実装することが難しいコストが伴う。
本論文では, ノイズ前処理, ランダム鍵測定, 有効蒸留など, DIQKDのキーレートと耐雑音性を改善するいくつかの手法のセキュリティ証明について述べる。
また、これらの手法を組み合わせることで、いくつかのプロトコルに対する有限サイズセキュリティ証明を示す。
これらの結果と証明技術は、DIQKDプロトコルのさらなる開発に有用である。
Device-independent quantum key distribution (DIQKD) aims to achieve secure key distribution with only minimal assumptions, by basing its security on the violation of Bell inequalities. While this offers strong security guarantees, it comes at the cost of being challenging to implement experimentally. In this thesis, we present security proofs for several techniques that help to improve the keyrates and noise tolerance of DIQKD, such as noisy preprocessing, random key measurements, and advantage distillation. We also show finite-size security proofs for some protocols based on combining several of these techniques. These results and proof techniques should be useful for further development of DIQKD protocols. | 翻訳日:2024-05-29 13:05:39 公開日:2024-05-25 |
# 後部確率の課題:オンライン広告におけるニューラル予測のための二重適応キャリブレーション
Posterior Probability Matters: Doubly-Adaptive Calibration for Neural Predictions in Online Advertising ( http://arxiv.org/abs/2205.07295v2 ) ライセンス: Link先を確認 | Penghui Wei, Weimin Zhang, Ruijie Hou, Jinquan Liu, Shaoguo Liu, Liang Wang, Bo Zheng, | (参考訳) 広告のランク付けと入札には、ユーザー反応の予測が不可欠だ。
予測モデルが真の確率を反映した正確な確率予測を生み出すことを願っている。
キャリブレーション手法は、後続確率に対するモデル予測を後処理で行うことを目的としている。
特定のフィールド値に対してキャリブレーションをw.r.t.で行うフィールドレベルのキャリブレーションは、よりきめ細やかで実用的なものである。
本稿では,AdaCalibの2倍適応手法を提案する。
後続統計のガイダンスを用いてモデル予測を校正する等調関数系を学習し, フィールド値の校正に後方適応機構が適切であることを保証するために, フィールド適応機構を設計する。
実験では、AdaCalibが校正性能を大幅に改善することを確認した。
オンラインにデプロイされ、以前のアプローチに勝っている。
Predicting user response probabilities is vital for ad ranking and bidding. We hope that predictive models can produce accurate probabilistic predictions that reflect true likelihoods. Calibration techniques aim to post-process model predictions to posterior probabilities. Field-level calibration -- which performs calibration w.r.t. to a specific field value -- is fine-grained and more practical. In this paper we propose a doubly-adaptive approach AdaCalib. It learns an isotonic function family to calibrate model predictions with the guidance of posterior statistics, and field-adaptive mechanisms are designed to ensure that the posterior is appropriate for the field value to be calibrated. Experiments verify that AdaCalib achieves significant improvement on calibration performance. It has been deployed online and beats previous approach. | 翻訳日:2024-05-29 13:05:39 公開日:2024-05-25 |
# FRAPPE: $\underline{\text{F}}$ast $\underline{\text{Ra}}$nk $\underline{\text{App}}$roximation with $\underline{\text{E}}$xplainable Features for Tensors
FRAPPE: $\underline{\text{F}}$ast $\underline{\text{Ra}}$nk $\underline{\text{App}}$roximation with $\underline{\text{E}}$xplainable Features for Tensors ( http://arxiv.org/abs/2206.09316v2 ) ライセンス: Link先を確認 | William Shiao, Evangelos E. Papalexakis, | (参考訳) テンソル分解は多次元データの構造解析に有効であることが証明されている。
しかし、これらのメソッドのほとんどはキーパラメータ、すなわち所望のコンポーネントの数を必要とします。
CANDECOMP/PARAFAC分解(CPD)の場合、成分数に対する理想的な値は標準階数として知られ、分解結果の品質に大きな影響を及ぼす。
既存の手法ではヒューリスティックス法やベイズ法を用いて CPD を計算し、計算コストを極端に高めている。
本研究では, CPD を計算せずにテンソルの正準位を推定する FRAPPE を提案する。
この方法は2つの重要なアイデアの結果である。
まず、CDDの計算よりも、既知のランクの合成データを生成する方がずっと安価である。
第二に、与えられた入力テンソルに一致する合成データを生成することにより、モデルの一般化能力と速度を大幅に向上させることができる。
次に、与えられた入力テンソルにマッチするように設計された合成テンソルの集合上で、特殊な単一用途回帰モデルをトレーニングし、それを使用してテンソルの正準ランクを推定する。
FRAPPEは最高のパフォーマンスのベースラインよりも24倍高速で、合成データセット上でMAPEが10%改善されている。
また、実際のデータセットのベースラインだけでなく、パフォーマンスも向上する。
Tensor decompositions have proven to be effective in analyzing the structure of multidimensional data. However, most of these methods require a key parameter: the number of desired components. In the case of the CANDECOMP/PARAFAC decomposition (CPD), the ideal value for the number of components is known as the canonical rank and greatly affects the quality of the decomposition results. Existing methods use heuristics or Bayesian methods to estimate this value by repeatedly calculating the CPD, making them extremely computationally expensive. In this work, we propose FRAPPE, the first method to estimate the canonical rank of a tensor without having to compute the CPD. This method is the result of two key ideas. First, it is much cheaper to generate synthetic data with known rank compared to computing the CPD. Second, we can greatly improve the generalization ability and speed of our model by generating synthetic data that matches a given input tensor in terms of size and sparsity. We can then train a specialized single-use regression model on a synthetic set of tensors engineered to match a given input tensor and use that to estimate the canonical rank of the tensor - all without computing the expensive CPD. FRAPPE is over 24 times faster than the best-performing baseline and exhibits a 10% improvement in MAPE on a synthetic dataset. It also performs as well as or better than the baselines on real-world datasets. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-25 |
# MAC: 機能学習と再結合のためのメタ学習アプローチ
MAC: A Meta-Learning Approach for Feature Learning and Recombination ( http://arxiv.org/abs/2209.09613v2 ) ライセンス: Link先を確認 | S. Tiwari, M. Gogoi, S. Verma, K. P. Singh, | (参考訳) 最適化ベースのメタ学習は、いくつかのグラデーションアップデートで新しい見えないタスクを学習できるように、初期化を学ぶことを目的としている。
Model Agnostic Meta-Learning (MAML) は2つの最適化ループからなるベンチマークアルゴリズムである。
内ループは新しいタスクの学習に特化しており、外ループはメタ初期化につながる。
しかし、ANILアルゴリズム(ほとんど内部ループなし)は、機能再利用がMAMLにおける迅速な学習の代替であることを示している。
したがって、メタ初期化フェーズにより、MAMLは機能の再利用を前提とし、迅速な学習の必要性を回避できる。
ANILとは対照的に、メタテスト中に新しい機能を学ぶ必要があるかもしれないという仮説を立てる。
非類似分布からの新たな未確認タスクは、既存の機能の再利用と再結合に加えて、迅速な学習を必要とする。
本稿では,ニューラルネットワークの幅-深さの双対性を呼び出すことにより,余分な計算ユニット(ACU)を追加することにより,ネットワークの幅を増大させる。
ACUはメタテストタスクにおける新しいアトミックな特徴の学習を可能にし、関連する拡張幅はフォワードパスにおける情報伝達を容易にする。
新しく学習された機能は、メタ学習のための最後のレイヤにある既存の機能と組み合わせられる。
実験結果から,提案手法は,非類似タスク分布に対する既存のANILアルゴリズムを約13%向上させた(5ショットタスク設定)。
Optimization-based meta-learning aims to learn an initialization so that a new unseen task can be learned within a few gradient updates. Model Agnostic Meta-Learning (MAML) is a benchmark algorithm comprising two optimization loops. The inner loop is dedicated to learning a new task and the outer loop leads to meta-initialization. However, ANIL (almost no inner loop) algorithm shows that feature reuse is an alternative to rapid learning in MAML. Thus, the meta-initialization phase makes MAML primed for feature reuse and obviates the need for rapid learning. Contrary to ANIL, we hypothesize that there may be a need to learn new features during meta-testing. A new unseen task from non-similar distribution would necessitate rapid learning in addition reuse and recombination of existing features. In this paper, we invoke the width-depth duality of neural networks, wherein, we increase the width of the network by adding extra computational units (ACU). The ACUs enable the learning of new atomic features in the meta-testing task, and the associated increased width facilitates information propagation in the forwarding pass. The newly learnt features combine with existing features in the last layer for meta-learning. Experimental results show that our proposed MAC method outperformed existing ANIL algorithm for non-similar task distribution by approximately 13% (5-shot task setting) | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-25 |
# LLMEffiChecker: 大規模言語モデルの理解とテスト効率の低下
LLMEffiChecker: Understanding and Testing Efficiency Degradation of Large Language Models ( http://arxiv.org/abs/2210.03696v2 ) ライセンス: Link先を確認 | Xiaoning Feng, Xiaohong Han, Simin Chen, Wei Yang, | (参考訳) 本稿では,現状のLLMにおける計算効率の堅牢性を理解し,検証するための最初の試みを行う。
20,543個のパブリックアクセス可能なLCMの動作機構と実装を分析して,計算効率を著しく低減するために,逆向きに操作できるLCMの基本特性を観察する。
我々の主要な動機は、事前設定されたしきい値を満たすのに十分なイテレーションを経なければならないように、EOSの生成を十分に遅らせるテストインプットを生成することです。
ホワイトボックス設定とブラックボックス設定の両方で動作可能な \tool を提示する。
ホワイトボックスのシナリオでは、 \toolは、文字レベル、トークンレベル、構造レベルで、最小限で目立たない摂動を探索する勾配誘導技術を開発した。
ブラックボックスのシナリオでは、シャトールはクリティカルトークンを見つけるために因果推論に基づくアプローチを採用し、同様に3段階の知覚できない摂動をそれらに適用する。
ホワイトボックスとブラックボックスの設定の両方がEOSの出現を効果的に遅らせ、これらの入力が自然に到達できない閾値に達するように促した。
Google T5, AllenAI WMT14, Helsinki-NLP Translator, Facebook FairSeq, UNICAMP-DL Translator, MarianMT, Google FLAN-T5, MBZUAI LaMini-GPT, Salesforce CodeGen。
実験の結果,入力文中の1文字またはトークンだけを摂動させることで,平均LLMの応答遅延とエネルギー消費を325\%から3244\%,344\%から3616\%に増加させることができることがわかった。
In this paper, we make the first attempt to understand and test potential computation efficiency robustness in state-of-the-art LLMs. By analyzing the working mechanism and implementation of 20,543 public-accessible LLMs, we observe a fundamental property in LLMs that could be manipulated in an adversarial manner to reduce computation efficiency significantly. Our key motivation is to generate test inputs that could sufficiently delay the generation of EOS such that LLMs would have to go through enough iterations to satisfy the pre-configured threshold. We present \tool, which can work under both white-box setting and black-box setting. In the white-box scenario, \tool develops a gradient-guided technique that searches for a minimal and unnoticeable perturbation at character-level, token-level, and structure-level. In the black-box scenario, \tool employs a causal inference-based approach to find critical tokens and similarly applies three levels of imperceptible perturbation to them. Both the white-box and black-box settings effectively delay the appearance of EOS, compelling these inputs to reach the naturally-unreachable threshold. To demonstrate the effectiveness of \tool, we conduct a systematic evaluation on nine public-available LLMs: Google T5, AllenAI WMT14, Helsinki-NLP translator, Facebook FairSeq, UNICAMP-DL translator, MarianMT, Google FLAN-T5, MBZUAI LaMini-GPT and Salesforce CodeGen. Experimental results show that \tool can increase on average LLMs' response latency and energy consumption by 325\% to 3244\% and 344\% to 3616\%, respectively, by perturbing just one character or token in the input sentence. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-25 |
# 人間-AIコミュニケーションにおける心の相互理論
Mutual Theory of Mind for Human-AI Communication ( http://arxiv.org/abs/2210.03842v2 ) ライセンス: Link先を確認 | Qiaosi Wang, Ashok K. Goel, | (参考訳) 新たな発展は、人間の明示的または暗黙的な行動的および口頭的手がかりから得られた推論に基づいて、AIシステムが社会的な手がかりを知覚し、認識し、反応することを可能にしている。
これらのAIシステムは、人間の心の理論(ToM)能力に匹敵する機能を備えており、現在、デートプラットフォームにおけるマッチメーカーとして機能し、学生の学習をアシスタントとして支援し、作業パートナーとしての生産性を向上している。
従来のヒューマン・コンピュータ・インタラクション(HCI)とは違い、コンピュータはソーシャルアクターではなくツールとして一般的に見なされる。
新たなHAI時代における人間の認識と経験を設計し、理解することは、AIシステムが人間のニーズを満たし、社会的文脈をまたいだリスクを軽減するために、緊急かつ重要な問題となる。
本稿では、人間と人間のコミュニケーションにおけるToMの能力に触発されたMTOM(Mutual Theory of Mind)フレームワークを提案し、人間とAIコミュニケーションの反復的・相互形成性を強調して、この新世代のHAI研究を導く。
我々は,MToMフレームワークのモチベーションと,人間とAIのコミュニケーションを3段階で反復的に形成する3つの重要な構成要素について論じる。
次に,MToMフレームワークに触発された2つの実証的研究について述べる。
最後に,MToMのレンズによる人間とAIのインタラクションの今後の研究機会について論じる。
New developments are enabling AI systems to perceive, recognize, and respond with social cues based on inferences made from humans' explicit or implicit behavioral and verbal cues. These AI systems, equipped with an equivalent of human's Theory of Mind (ToM) capability, are currently serving as matchmakers on dating platforms, assisting student learning as teaching assistants, and enhancing productivity as work partners. They mark a new era in human-AI interaction (HAI) that diverges from traditional human-computer interaction (HCI), where computers are commonly seen as tools instead of social actors. Designing and understanding the human perceptions and experiences in this emerging HAI era becomes an urgent and critical issue for AI systems to fulfill human needs and mitigate risks across social contexts. In this paper, we posit the Mutual Theory of Mind (MToM) framework, inspired by our capability of ToM in human-human communications, to guide this new generation of HAI research by highlighting the iterative and mutual shaping nature of human-AI communication. We discuss the motivation of the MToM framework and its three key components that iteratively shape the human-AI communication in three stages. We then describe two empirical studies inspired by the MToM framework to demonstrate the power of MToM in guiding the design and understanding of human-AI communication. Finally, we discuss future research opportunities in human-AI interaction through the lens of MToM. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-25 |
# 新規てんかん性シーズール検出法とその実証解析
Novel Epileptic Seizure Detection Techniques and their Empirical Analysis ( http://arxiv.org/abs/2302.12012v4 ) ライセンス: Link先を確認 | Rabel Guharoy, Nanda Dulal Jana, Suparna Biswas, Lalit Garg, | (参考訳) 脳波(Electroencephalogram、EEG)は、脳の電気活動を記録する非侵襲的な検査である。
これは、異なる脳の問題を診断するのに役立つ。
脳波信号はてんかん検出のために撮影され、離散ウェーブレット変換(DWT)と機械学習分類器を用いてててんかん検出を行う。
てんかん発作検出では、機械学習分類器と統計的特徴が主に使用されている。
脳波信号に隠された情報は、脳に影響を及ぼす疾患を検出するのに役立つ。
時々、時間と周波数領域の目的において、脳波の最小変化を特定するのが複雑になる。
DWTは、異なる周波数帯域における信号の適切な分解と特徴抽出を与えることができる。
3次元化アルゴリズム、主成分分析(PCA)、独立成分分析(ICA)、線形判別分析(LDA)を用いる。
最後に、融合規則を用いて特徴を選定し、最後に3つの異なる分類器、SVM(Support Vector Machine)、NB(Naive Bayes)、KNN(K-Nearest-Neighbor)を個別に使用した。
提案されたフレームワークはBonnデータセットでテストされる。
シミュレーションの結果、LDAとNBの組み合わせは、LDAとSVMの89.17%、LDAとKNNの80.42%、PCAとNBの89.92%、PCAとSVMの85.58%、PCAとKNNの80.42%、ICAとNBの82.33%、ICAとSVMの90.42%、ICAとKNNの90.42%など、他の分類器の組合せよりも100%精度が高い。
また、LDAとNBの組み合わせは100%、100%、100%、100%、100%、100%の感度、特異性、精度、精度、そしてリコールを示す。
その結果、このモデルの有効性が証明された。
An Electroencephalogram (EEG) is a non-invasive exam that records the brain's electrical activity. This is used to help diagnose conditions such as different brain problems. EEG signals are taken for epilepsy detection, and with Discrete Wavelet Transform (DWT) and machine learning classifier, they perform epilepsy detection. In Epilepsy seizure detection, machine learning classifiers and statistical features are mainly used. The hidden information in the EEG signal helps detect diseases affecting the brain. Sometimes it is complicated to identify the minimum changes in the EEG in the time and frequency domain's purpose. The DWT can give a suitable decomposition of the signals in different frequency bands and feature extraction. We use the tri-dimensionality reduction algorithm, Principal Component Analysis (PCA), Independent Component Analysis (ICA), and Linear Discriminant Analysis (LDA). Finally, features are selected by using a fusion rule and at the last step, three different classifiers, Support Vector Machine (SVM), Naive Bayes (NB), and K-Nearest-Neighbor (KNN) have been used individually for the classification. The proposed framework is tested on the Bonn dataset. The simulation results provide 100% accuracy for the LDA and NB combination outperforming accuracy with other classifiers combinations, including 89.17% for LDA and SVM, 80.42% for LDA and KNN, 89.92% for PCA and NB, 85.58% PCA and SVM, 80.42% PCA and KNN, 82.33% for ICA and NB, 90.42% for ICA and SVM, 90% for ICA and KNN. Also, the LDA and NB combination shows the sensitivity, specificity, accuracy, Precision, and Recall of 100%, 100%, 100%, 100%, and 100%. The results prove the effectiveness of this model. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-25 |
# 証明数に基づくモンテカルロ木探索
Proof Number Based Monte-Carlo Tree Search ( http://arxiv.org/abs/2303.09449v3 ) ライセンス: Link先を確認 | Jakub Kowalski, Elliot Doe, Mark H. M. Winands, Daniel Górski, Dennis J. N. J. Soemers, | (参考訳) 本稿では,モンテカルロ木探索(MCTS)とProof-Number Search(PNS)を組み合わせた新しいゲーム検索アルゴリズムであるPN-MCTSを提案する。
これらの2つのアルゴリズムは、様々な領域における意思決定に成功している。
我々は,MCTS木に集められた証明と反証数によって得られる付加的な知識を,最終移動選択,サブツリーの解法, UCB1選択機構という3つの領域で定義する。
さまざまな時間設定で可能な組み合わせをすべてテストし、いくつかのゲームでバニラUCTと対戦する: Lines of Action(7$\times$7$と8$\times$8$のボードサイズ)、MiniShogi、Knightthrough、Awari。
さらに,新たなアルゴリズムを拡張して,MCTSツリー上にPNSの付加層を追加することで,Awariのようなドローを持つゲームに適切に対処する。
実験の結果、PN-MCTSは全てのテストされたゲーム領域でMCTSを上回り、ライン・オブ・アクションで96.2%の勝利率を達成した。
This paper proposes a new game-search algorithm, PN-MCTS, which combines Monte-Carlo Tree Search (MCTS) and Proof-Number Search (PNS). These two algorithms have been successfully applied for decision making in a range of domains. We define three areas where the additional knowledge provided by the proof and disproof numbers gathered in MCTS trees might be used: final move selection, solving subtrees, and the UCB1 selection mechanism. We test all possible combinations on different time settings, playing against vanilla UCT on several games: Lines of Action ($7$$\times$$7$ and $8$$\times$$8$ board sizes), MiniShogi, Knightthrough, and Awari. Furthermore, we extend this new algorithm to properly address games with draws, like Awari, by adding an additional layer of PNS on top of the MCTS tree. The experiments show that PN-MCTS is able to outperform MCTS in all tested game domains, achieving win rates up to 96.2% for Lines of Action. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-25 |
# 大規模言語モデル指導の経過と課題
Large Language Model Instruction Following: A Survey of Progresses and Challenges ( http://arxiv.org/abs/2303.10475v8 ) ライセンス: Link先を確認 | Renze Lou, Kai Zhang, Wenpeng Yin, | (参考訳) タスクのセマンティクスは、入力出力の例のセットやテキストのインストラクションによって表現できる。
自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。
まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。
そのため、NLPの新しい監督・探索パラダイム、すなわち次の指示に従うことを学ぶことへの関心が高まっている。
その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。
本調査では, 以下の質問に答えることにより, 現在の指導研究の要約と考察を試みている。
(i)タスク命令とは何で、どのような命令型が存在するか。
(ii)指示をどうモデル化するか。
(iii)データセットと評価指標に従って、一般的な指示は何ですか。
(四)指示のパフォーマンスに影響を及ぼし、説明する要因は何か。
(v) 以下の教示に残る課題は何か。
われわれの知る限りでは、次の教示に関する総合的な調査はこれが初めてである。
Task semantics can be expressed by a set of input-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning to follow task instructions, i.e., instruction following. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize and provide insights to the current research on instruction following, particularly, by answering the following questions: (i) What is task instruction, and what instruction types exist? (ii) How to model instructions? (iii) What are popular instruction following datasets and evaluation metrics? (iv) What factors influence and explain the instructions' performance? (v) What challenges remain in instruction following? To our knowledge, this is the first comprehensive survey about instruction following. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-25 |
# VMarker-Pro:仮想マーカーによる確率的3次元メッシュ推定
VMarker-Pro: Probabilistic 3D Human Mesh Estimation from Virtual Markers ( http://arxiv.org/abs/2303.11726v3 ) ライセンス: Link先を確認 | Xiaoxuan Ma, Jiajun Su, Yuan Xu, Wentao Zhu, Chunyu Wang, Yizhou Wang, | (参考訳) 画像の深度あいまいさと複雑なパラメータ空間へのマッピングの複雑さにより、単眼の3Dヒューマンメッシュ推定は課題に直面している。
近年,3次元ポーズを代理表現として用いる手法が提案されている。
逆に、高度なモーションキャプチャシステムは正確ではあるが、マーカーレス野生画像では実用的ではない。
これらの制約に対処するために,大規模なモキャップデータから学習した仮想マーカーとしての革新的な中間表現を導入し,物理マーカーの効果を模倣する。
仮想マーカーに基づいて,野生の画像から仮想マーカーを検出するVMarkerを提案する。
VMarker-Proは,画像に整合した複数の可塑性メッシュを生成する確率的フレームワークである。
このフレームワークは、3D仮想マーカー推定を条件付き denoising プロセスとしてモデル化し、ロバストな3Dメッシュ推定を可能にする。
提案手法は,3つのベンチマークデータセットの既存手法を超越し,SURREALデータセットに大きな改善が加えられた。
さらに、VMarker-Proはデータの分散を正確にモデル化し、排他的シナリオのパフォーマンスを大幅に向上させる。
コードとモデルはhttps://github.com/ShirleyMaxx/VMarker-Proで入手できる。
Monocular 3D human mesh estimation faces challenges due to depth ambiguity and the complexity of mapping images to complex parameter spaces. Recent methods propose to use 3D poses as a proxy representation, which often lose crucial body shape information, leading to mediocre performance. Conversely, advanced motion capture systems, though accurate, are impractical for markerless wild images. Addressing these limitations, we introduce an innovative intermediate representation as virtual markers, which are learned from large-scale mocap data, mimicking the effects of physical markers. Building upon virtual markers, we propose VMarker, which detects virtual markers from wild images, and the intact mesh with realistic shapes can be obtained by simply interpolation from these markers. To address occlusions that obscure 3D virtual marker estimation, we further enhance our method with VMarker-Pro, a probabilistic framework that generates multiple plausible meshes aligned with images. This framework models the 3D virtual marker estimation as a conditional denoising process, enabling robust 3D mesh estimation. Our approaches surpass existing methods on three benchmark datasets, particularly demonstrating significant improvements on the SURREAL dataset, which features diverse body shapes. Additionally, VMarker-Pro excels in accurately modeling data distributions, significantly enhancing performance in occluded scenarios. Code and models are available at https://github.com/ShirleyMaxx/VMarker-Pro. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-25 |
# 限られたデータセット上でのエキスパートの混合を用いたフランス語臨床ノート分類における変圧器の性能向上
Improving Transformer Performance for French Clinical Notes Classification Using Mixture of Experts on a Limited Dataset ( http://arxiv.org/abs/2303.12892v2 ) ライセンス: Link先を確認 | Thanh-Dung Le, Philippe Jouvet, Rita Noumeir, | (参考訳) トランスフォーマーベースのモデルは自然言語処理において顕著な結果を示したが、小規模臨床テキストの分類、特に計算資源の制約など、応用上の課題に直面している。
本研究は,CHU Sainte-Justine病院における小規模臨床テキストの分類のための,Mixture of Expert (MoE) Transformerモデルを提案する。
MoE-Transformerは、限られたデータによる効果的なトレーニングと、社内病院での使用に適した低リソースの計算という2つの課題に対処する。
CamemBERT-bio(英語版)、DrBERT(英語版)、AliBERT(英語版)といった生物医学的な事前訓練モデルの成功にもかかわらず、高い計算要求により多くの臨床環境では実用的ではない。
我々のMoE-Transformerモデルは、同じデータセット上でDistillBERT、CamemBERT、FrauBERT、Transformerモデルを上回るだけでなく、87 %の精度、87 %の精度、85 %のリコール、86 %のF1-スコアといった印象的な結果も達成しています。
MoE-Transformerは、バイオメディカルな事前訓練されたBERTモデルの性能を上回りませんが、少なくとも190倍高速にトレーニングすることができ、限られたデータと計算資源を持つ設定の代替手段を提供することができます。
MoE-Transformerは、一般化ギャップと鋭い最小化の課題に対処し、効率的かつ正確な臨床テキスト分類のいくつかの限界を示すが、このモデルはこの分野において重要な進歩を示している。
病院ベースの計算資源のプライバシーと制約の中で、フランスの小さな臨床物語を分類するのに特に有用である。
Transformer-based models have shown outstanding results in natural language processing but face challenges in applications like classifying small-scale clinical texts, especially with constrained computational resources. This study presents a customized Mixture of Expert (MoE) Transformer models for classifying small-scale French clinical texts at CHU Sainte-Justine Hospital. The MoE-Transformer addresses the dual challenges of effective training with limited data and low-resource computation suitable for in-house hospital use. Despite the success of biomedical pre-trained models such as CamemBERT-bio, DrBERT, and AliBERT, their high computational demands make them impractical for many clinical settings. Our MoE-Transformer model not only outperforms DistillBERT, CamemBERT, FlauBERT, and Transformer models on the same dataset but also achieves impressive results: an accuracy of 87\%, precision of 87\%, recall of 85\%, and F1-score of 86\%. While the MoE-Transformer does not surpass the performance of biomedical pre-trained BERT models, it can be trained at least 190 times faster, offering a viable alternative for settings with limited data and computational resources. Although the MoE-Transformer addresses challenges of generalization gaps and sharp minima, demonstrating some limitations for efficient and accurate clinical text classification, this model still represents a significant advancement in the field. It is particularly valuable for classifying small French clinical narratives within the privacy and constraints of hospital-based computational resources. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-25 |
# 分子分極論のためのハイブリッドTHzアーキテクチャ
Hybrid THz architectures for molecular polaritonics ( http://arxiv.org/abs/2304.03654v3 ) ライセンス: Link先を確認 | Ahmed Jaber, Michael Reitz, Avinash Singh, Ali Maleki, Yongbao Xin, Brian Sullivan, Ksenia Dolgaleva, Robert W. Boyd, Claudiu Genes, Jean-Michel Ménard, | (参考訳) 材料の物理的および化学的性質は共鳴光学モードで修正することができる。
このような最近の実証は主に平面空洞形状に依存し、他のものはプラズモニック共振器に依存している。
しかし、これらの2つのデバイスアーキテクチャの組み合わせは、特に光-物質相互作用の最大化という文脈において、ほとんど未解明のままである。
本稿では,局所化フォトニックモードとテラヘルツ領域の分子振動の集団結合を容易にするために,電磁界閉じ込めのいくつかのスキームについて検討する。
鍵となる側面は、標準的なファブリ・ペロー構成と組み合わせた中表面プラズモニック構造の使用と、スプレーコーティング技術により、密集した電磁モード体積内でのグルコースの薄い層の形成である。
さらに、プラズモン共鳴、フォトニックキャビティモード、低エネルギー分子共鳴を組み合わせた場合、200GHzまで達する真空ラビ分割を実証した。
さらに、プラズモン共振器の零点電界振幅を高めるためにキャビティモードをどのように利用できるかを示す。
本研究は, 有機分子を用いた偏光プラットフォームの設計に関する重要な知見を提供し, ハイブリッド光物質状態のユニークな性質を解明する。
Physical and chemical properties of materials can be modified by a resonant optical mode. Such recent demonstrations have mostly relied on a planar cavity geometry, others have relied on a plasmonic resonator. However, the combination of these two device architectures have remained largely unexplored, especially in the context of maximizing light-matter interactions. Here, we investigate several schemes of electromagnetic field confinement aimed at facilitating the collective coupling of a localized photonic mode to molecular vibrations in the terahertz region. The key aspects are the use of metasurface plasmonic structures combined with standard Fabry-Perot configurations and the deposition of a thin layer of glucose, via a spray coating technique, within a tightly focused electromagnetic mode volume. More importantly, we demonstrate enhanced vacuum Rabi splittings reaching up to 200 GHz when combining plasmonic resonances, photonic cavity modes and low-energy molecular resonances. Furthermore, we demonstrate how a cavity mode can be utilized to enhance the zero-point electric field amplitude of a plasmonic resonator. Our study provides key insight into the design of polaritonic platforms with organic molecules to harvest the unique properties of hybrid light-matter states. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-25 |
# 地理空間データのためのニューラルネットワーク
Neural networks for geospatial data ( http://arxiv.org/abs/2304.09157v3 ) ライセンス: Link先を確認 | Wentao Zhan, Abhirup Datta, | (参考訳) 地理空間データの解析は伝統的にモデルベースであり、平均モデルは共変量上の線形回帰として伝統的に特定され、空間依存を符号化する共変モデルである。
線形性の強い仮定を緩和し、非線型平均関数に対応するために従来の統計モデルに直接ニューラルネットワークを組み込むことを提案し、また、空間的共分散を明示的にモデル化するためのガウス過程の使用、平均および共分散による空間的依存による共変効果の推測、クリギングによる新しい場所での予測など、他のすべての利点を保ったままである。
線形の場合と同じ損失である一般化最小二乗(GLS)による空間共分散を明示的に考慮した,GPモデルにおける非線形平均に対する新しいニューラルネットワーク推定アルゴリズムであるNN-GLSを提案する。
NN-GLSはグラフニューラルネットワーク(GNN)の特殊型として表現されていることを示す。
この接続により、不規則な地理空間データに対する標準的なニューラルネットワーク計算技術の使用が容易になり、新規でスケーラブルなミニバッチ、バックプロパゲーション、クリグスキームが可能になる。
理論的には、NN-GLSは不規則に観測された空間相関データプロセスに一貫性があることが示されている。
また、依存データに対するニューラルネットワークの空間的共分散を正確にモデル化する必要性を定量化する有限サンプル濃度率も提供する。
我々の知る限り、これらは不規則な空間データに対するニューラルネットワークアルゴリズムのための最初の大規模なサンプル結果である。
シミュレーションおよび実データを用いて方法論を実証する。
Analysis of geospatial data has traditionally been model-based, with a mean model, customarily specified as a linear regression on the covariates, and a covariance model, encoding the spatial dependence. We relax the strong assumption of linearity and propose embedding neural networks directly within the traditional geostatistical models to accommodate non-linear mean functions while retaining all other advantages including use of Gaussian Processes to explicitly model the spatial covariance, enabling inference on the covariate effect through the mean and on the spatial dependence through the covariance, and offering predictions at new locations via kriging. We propose NN-GLS, a new neural network estimation algorithm for the non-linear mean in GP models that explicitly accounts for the spatial covariance through generalized least squares (GLS), the same loss used in the linear case. We show that NN-GLS admits a representation as a special type of graph neural network (GNN). This connection facilitates use of standard neural network computational techniques for irregular geospatial data, enabling novel and scalable mini-batching, backpropagation, and kriging schemes. Theoretically, we show that NN-GLS will be consistent for irregularly observed spatially correlated data processes. We also provide a finite sample concentration rate, which quantifies the need to accurately model the spatial covariance in neural networks for dependent data. To our knowledge, these are the first large-sample results for any neural network algorithm for irregular spatial data. We demonstrate the methodology through simulated and real datasets. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-25 |
# 教師なし可視光赤外人物ReIDのための効果的な双方向クロスモーダルクラスタマッチング
Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID ( http://arxiv.org/abs/2305.12673v3 ) ライセンス: Link先を確認 | De Cheng, Lingfeng He, Nannan Wang, Shizhou Zhang, Zhen Wang, Xinbo Gao, | (参考訳) 教師なし可視赤外人物再識別(USL-VI-ReID)は、異なるモダリティから同一人物の歩行者像をアノテーションなしでマッチングすることを目的としている。
既存の研究は主に、未ラベルサンプルのインスタンスレベルの特徴を調整することで、モダリティギャップを軽減することに重点を置いている。
しかし、モダリティクラスタ間の関係はよく調べられていない。
そこで本研究では, クラスタ間マッチングによるモダリティギャップを低減するための, 双方向クラスタマッチングに基づく新たな学習フレームワークを提案する。
具体的には、二部グラフの最大マッチング問題を最適化し、多対多の双方向クロスモーダルクラスタマッチング(MBCCM)アルゴリズムを設計する。
そして、マッチングされたペアワイズクラスタは、モデルトレーニング中に共有された可視光と赤外線の擬似ラベルを利用する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
一方, クロスモーダル一貫性制約 (CC) は, 大きなモダリティの相違を明示的に低減するために提案されている。
SYSU-MM01とRegDBデータセットの大規模な実験は、提案手法の有効性を実証し、最先端の手法を平均8.76%のマージンで上回った。
Unsupervised visible-infrared person re-identification (USL-VI-ReID) aims to match pedestrian images of the same identity from different modalities without annotations. Existing works mainly focus on alleviating the modality gap by aligning instance-level features of the unlabeled samples. However, the relationships between cross-modality clusters are not well explored. To this end, we propose a novel bilateral cluster matching-based learning framework to reduce the modality gap by matching cross-modality clusters. Specifically, we design a Many-to-many Bilateral Cross-Modality Cluster Matching (MBCCM) algorithm through optimizing the maximum matching problem in a bipartite graph. Then, the matched pairwise clusters utilize shared visible and infrared pseudo-labels during the model training. Under such a supervisory signal, a Modality-Specific and Modality-Agnostic (MSMA) contrastive learning framework is proposed to align features jointly at a cluster-level. Meanwhile, the cross-modality Consistency Constraint (CC) is proposed to explicitly reduce the large modality discrepancy. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing state-of-the-art approaches by a large margin of 8.76% mAP on average. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-25 |
# gRNAde:3次元RNA逆設計のための幾何学的深層学習
gRNAde: Geometric Deep Learning for 3D RNA inverse design ( http://arxiv.org/abs/2305.14749v5 ) ライセンス: Link先を確認 | Chaitanya K. Joshi, Arian R. Jamasb, Ramon Viñas, Charles Harris, Simon V. Mathis, Alex Morehead, Rishabh Anand, Pietro Liò, | (参考訳) 計算RNA設計タスクは、しばしば逆問題として表され、配列は3次元幾何学とコンフォメーションの多様性を考慮せずに、単一の望まれる二次構造を採用するために設計される。
本稿では,3次元RNAバックボーンで動作する幾何学的RNA設計パイプラインであるgRNAdeを紹介し,構造と力学を明示的に考慮した配列を設計する。
内部では、gRNAdeは多状態グラフニューラルネットワークであり、塩基のアイデンティティが不明な1つ以上の3Dバックボーン構造に条件付けられた候補RNA配列を生成する。
Das et al [2010]により同定されたPDBの14個のRNA構造の単一状態固定バックボーン再設計ベンチマークにおいて、gRNAdeはRosetta (平均45%) よりも高いネイティブシークエンス回復率(平均56%)を得る。
また,近年のRNAポリメラーゼリボザイム構造を振り返って解析した結果,構造的に柔軟なRNAの多状態設計のための新しいベンチマークや,突然変異性ランドスケープのゼロショットランキングにもgRNAdeの有用性が示された。
ソースコード:https://github.com/chaitjo/geometric-rna-design
Computational RNA design tasks are often posed as inverse problems, where sequences are designed based on adopting a single desired secondary structure without considering 3D geometry and conformational diversity. We introduce gRNAde, a geometric RNA design pipeline operating on 3D RNA backbones to design sequences that explicitly account for structure and dynamics. Under the hood, gRNAde is a multi-state Graph Neural Network that generates candidate RNA sequences conditioned on one or more 3D backbone structures where the identities of the bases are unknown. On a single-state fixed backbone re-design benchmark of 14 RNA structures from the PDB identified by Das et al. [2010], gRNAde obtains higher native sequence recovery rates (56% on average) compared to Rosetta (45% on average), taking under a second to produce designs compared to the reported hours for Rosetta. We further demonstrate the utility of gRNAde on a new benchmark of multi-state design for structurally flexible RNAs, as well as zero-shot ranking of mutational fitness landscapes in a retrospective analysis of a recent RNA polymerase ribozyme structure. Open source code: https://github.com/chaitjo/geometric-rna-design | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# すべてのメトリクスが罪悪感であるとは限らない - 参照の多様化によるNLG評価の改善
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References ( http://arxiv.org/abs/2305.15067v3 ) ライセンス: Link先を確認 | Tianyi Tang, Hongyuan Lu, Yuchen Eleanor Jiang, Haoyang Huang, Dongdong Zhang, Wayne Xin Zhao, Tom Kocmi, Furu Wei, | (参考訳) 自然言語生成(NLG)に関するほとんどの研究は、サンプルに対する限られた参照を持つ評価ベンチマークに依存しており、人間の判断と相関が低い可能性がある。
その根底にある理由は、1つの意味的意味が実際に異なる形式で表現できることであり、単一のまたは少数の参照による評価はモデルの仮説の質を正確に反映しない可能性があることである。
この問題に対処するため,Div-Refという名前の簡易かつ効果的な手法を提案する。
我々は,大言語モデル(LLM)を活用して,単一の参照表現を複数の高品質なものに多様化し,参照文の意味空間を可能な限りカバーする。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示すための総合的な実験を行った。
この考え方は、複数の参照を組み込むことによるメリットを導出できる、最近のLLMベースの評価と互換性がある。
我々は、LLMが生成したとしても、将来の世代ベンチマークにより多くの参照を含めるよう強く推奨する。
研究を容易にするため、すべてのコードとデータをhttps://github.com/RUCAIBox/Div-Refでリリースします。
Most research about natural language generation (NLG) relies on evaluation benchmarks with limited references for a sample, which may result in poor correlations with human judgements. The underlying reason is that one semantic meaning can actually be expressed in different forms, and the evaluation with a single or few references may not accurately reflect the quality of the model's hypotheses. To address this issue, this paper presents a simple and effective method, named Div-Ref, to enhance existing evaluation benchmarks by enriching the number of references. We leverage large language models (LLMs) to diversify the expression of a single reference into multiple high-quality ones to cover the semantic space of the reference sentence as much as possible. We conduct comprehensive experiments to empirically demonstrate that diversifying the expression of reference can significantly enhance the correlation between automatic evaluation and human evaluation. This idea is compatible with recent LLM-based evaluation which can similarly derive advantages from incorporating multiple references. We strongly encourage future generation benchmarks to include more references, even if they are generated by LLMs, which is once for all. We release all the code and data at https://github.com/RUCAIBox/Div-Ref to facilitate research. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# 無作為な摂動を伴う鋭いミニマから逃れる方法
How to escape sharp minima with random perturbations ( http://arxiv.org/abs/2305.15659v3 ) ライセンス: Link先を確認 | Kwangjun Ahn, Ali Jadbabaie, Suvrit Sra, | (参考訳) 現代の機械学習アプリケーションは、フラットなミニマを見つけるために設計された最適化アルゴリズムの驚くべき成功を目撃している。
このデザインの選択に感銘を受けて、私たちは正式な研究を受けました。
(i)平らなミニマの概念を定式化し、
(二)それらを見つける複雑さについて研究する。
具体的には、コスト関数の Hessian のトレースを平坦性の尺度として採用し、それを用いて近似平坦なミニマの概念を正式に定義する。
この概念の下で、近似平坦なミニマムを効率的に見つけるアルゴリズムを解析する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
アルゴリズムの主な構成要素は、ランダムに摂動した反復から計算された勾配を用いて、より平坦な最小値につながる方向を推定することである。
コスト関数がトレーニングデータよりも経験的なリスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提示し、実際にの成功をサポートする。
Modern machine learning applications have witnessed the remarkable success of optimization algorithms that are designed to find flat minima. Motivated by this design choice, we undertake a formal study that (i) formulates the notion of flat minima, and (ii) studies the complexity of finding them. Specifically, we adopt the trace of the Hessian of the cost function as a measure of flatness, and use it to formally define the notion of approximate flat minima. Under this notion, we then analyze algorithms that find approximate flat minima efficiently. For general cost functions, we discuss a gradient-based algorithm that finds an approximate flat local minimum efficiently. The main component of the algorithm is to use gradients computed from randomly perturbed iterates to estimate a direction that leads to flatter minima. For the setting where the cost function is an empirical risk over training data, we present a faster algorithm that is inspired by a recently proposed practical algorithm called sharpness-aware minimization, supporting its success in practice. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# MADiff:拡散モデルを用いたオフラインマルチエージェント学習
MADiff: Offline Multi-agent Learning with Diffusion Models ( http://arxiv.org/abs/2305.17330v4 ) ライセンス: Link先を確認 | Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang, | (参考訳) 拡散モデル(DM)は,オンライン評価において,拡散プランナーが所望の軌道を生成することを学習するオフライン強化学習など,様々なシナリオにおいて大きな成功を収めた。
しかし、単エージェント学習の有効性にもかかわらず、DMがマルチエージェント問題においてどのように機能するかは定かではない。
本稿では,この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
MADiffは注意に基づく拡散モデルで実現され、複数のエージェントの挙動の複雑な調整をモデル化する。
私たちの知る限りでは、MADiffは初めての拡散ベースのマルチエージェント学習フレームワークであり、分散されたポリシーと集中型コントローラの両方として振る舞う。
分散実行中、MADiffは同時にチームメイトモデリングを行い、集中型コントローラはマルチエージェントの軌道予測にも適用できる。
本実験は,MADiffの複雑なマルチエージェントインタラクションをモデル化する上でのMADiffの有効性を強調した,多エージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
私たちのコードはhttps://github.com/zbzhu99/madiff.comから入手可能です。
Diffusion model (DM) recently achieved huge success in various scenarios including offline reinforcement learning, where the diffusion planner learn to generate desired trajectories during online evaluations. However, despite the effectiveness in single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent's trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent learning framework, which behaves as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a wide range of multi-agent learning tasks, which emphasizes the effectiveness of MADiff in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# ベイズ逆問題の解法:ガウスとフローガイドを用いた暗黙的変分推論アプローチ
Learning to solve Bayesian inverse problems: An amortized variational inference approach using Gaussian and Flow guides ( http://arxiv.org/abs/2305.20004v3 ) ライセンス: Link先を確認 | Sharmila Karumuri, Ilias Bilionis, | (参考訳) 逆問題、すなわち実験データから物理モデルのパラメータを推定することは、科学や工学においてユビキタスである。
ベイズ式の定式化は、不備問題を緩和し、てんかんの不確かさを定量化するため、金の標準である。
分析後部は一般には利用できないので、マルコフ連鎖モンテカルロサンプリングや近似変分推論に頼っている。
しかし、新しいデータセットごとに、推論をスクラッチから再実行する必要があります。
この欠点は、ベイジアン定式化の適用性を、リアルタイム設定、例えば、エンジニアリングされたシステムの健康モニタリング、医療診断に制限する。
本研究の目的は,ベイジアン逆写像,すなわちデータから後部への写像を学習することで,リアルタイムな推論を可能にする手法を開発することである。
私たちのアプローチは以下の通りです。
後部分布をデータ関数としてパラメータ化する。
この研究は2つの異なるアプローチを概説している。
第1の方法は、ニューラルネットワークを介して実装された償却フルランクガウスガイドを用いて後部をパラメータ化することである。
第2の方法は、条件付き正規化フローガイドを使用し、ターゲット後部が任意に複雑である場合に条件付き非可逆ニューラルネットワークを用いる。
どちらのアプローチでも、モデルと互換性のあるすべての可能なデータセットに対して、エビデンスを最小限に抑えることを含む、アモータライズされた変分推論により、ネットワークパラメータを学習する。
科学と工学からベンチマーク問題の集合を解くことで、我々のアプローチを実証する。
この結果は,マルコフ連鎖モンテカルロによって得られた基底的真理と,我々のアプローチの後方推定値が一致することを示す。
トレーニングを済ませば、ニューラルネットワークの前方通過のコストに対して、所定の観測のための後部分布を提供する。
Inverse problems, i.e., estimating parameters of physical models from experimental data, are ubiquitous in science and engineering. The Bayesian formulation is the gold standard because it alleviates ill-posedness issues and quantifies epistemic uncertainty. Since analytical posteriors are not typically available, one resorts to Markov chain Monte Carlo sampling or approximate variational inference. However, inference needs to be rerun from scratch for each new set of data. This drawback limits the applicability of the Bayesian formulation to real-time settings, e.g., health monitoring of engineered systems, and medical diagnosis. The objective of this paper is to develop a methodology that enables real-time inference by learning the Bayesian inverse map, i.e., the map from data to posteriors. Our approach is as follows. We parameterize the posterior distribution as a function of data. This work outlines two distinct approaches to do this. The first method involves parameterizing the posterior using an amortized full-rank Gaussian guide, implemented through neural networks. The second method utilizes a Conditional Normalizing Flow guide, employing conditional invertible neural networks for cases where the target posterior is arbitrarily complex. In both approaches, we learn the network parameters by amortized variational inference which involves maximizing the expectation of evidence lower bound over all possible datasets compatible with the model. We demonstrate our approach by solving a set of benchmark problems from science and engineering. Our results show that the posterior estimates of our approach are in agreement with the corresponding ground truth obtained by Markov chain Monte Carlo. Once trained, our approach provides the posterior distribution for a given observation just at the cost of a forward pass of the neural network. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# Smooth Min-Max Monotonic Networks
Smooth Min-Max Monotonic Networks ( http://arxiv.org/abs/2306.01147v3 ) ライセンス: Link先を確認 | Christian Igel, | (参考訳) 単調性制約は統計モデリングにおける強力な正則化器である。
コンピュータ支援による意思決定における公平性をサポートし、データ駆動科学モデルの妥当性を高めることができる。
セミナル min-max (MM) ニューラルネットワークアーキテクチャは、単調性を保証するが、MM非線形性の偏微分がゼロであるため、トレーニング中に望ましくない局所最適状態に陥ることが多い。
本稿では,この問題を緩和するスムーズな最小関数と最大関数を用いて,MMネットワークの簡易な修正を提案する。
結果として生じるスムーズなmin-max(SMM)ネットワークモジュールは、MMアーキテクチャから漸近近似特性を継承する。
エンド・ツー・エンドでトレーニングされた大規模なディープラーニングシステムで使用することができる。
SMMモジュールは概念的には単純で、モノトニックモデリングのための最先端のニューラルネットワークよりも計算力に乏しい。
実験の結果, 神経系や神経系以外のアプローチに比べて, 一般化性能は低下しないことがわかった。
Monotonicity constraints are powerful regularizers in statistical modelling. They can support fairness in computer-aided decision making and increase plausibility in data-driven scientific models. The seminal min-max (MM) neural network architecture ensures monotonicity, but often gets stuck in undesired local optima during training because of partial derivatives of the MM nonlinearities being zero. We propose a simple modification of the MM network using strictly-increasing smooth minimum and maximum functions that alleviates this problem. The resulting smooth min-max (SMM) network module inherits the asymptotic approximation properties from the MM architecture. It can be used within larger deep learning systems trained end-to-end. The SMM module is conceptually simple and computationally less demanding than state-of-the-art neural networks for monotonic modelling. Our experiments show that this does not come with a loss in generalization performance compared to alternative neural and non-neural approaches. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# マルチシドレコメンデーションにおける補間項目とユーザフェアネス
Interpolating Item and User Fairness in Multi-Sided Recommendations ( http://arxiv.org/abs/2306.10050v3 ) ライセンス: Link先を確認 | Qinyi Chen, Jason Cheuk Nam Liang, Negin Golrezaei, Djallel Bouneffouf, | (参考訳) 今日のオンラインプラットフォームは、ユーザのエンゲージメントを高め、収益を推進するためのアルゴリズム的なレコメンデーションに大きく依存しています。
しかしながら、これらレコメンデーションは、プラットフォーム、アイテム(販売者)、ユーザ(顧客)といった複数の利害関係者にそれぞれ独自の目的を持って同時に影響を与える可能性があるため、すべての利害関係者に対応する適切な中核を見つけるのが難しくなる。
この問題に対処するために,制約付き最適化定式化により,複数株主の利害を柔軟にバランスさせる,新たなフェアレコメンデーションフレームワークであるIssue(FAIR)を導入する。
次に、データ不確実性がさらに複雑さを増す動的なオンライン環境で問題(FAIR)を探索し、リアルタイム学習とフェアレコメンデーションを同時に実行する低レベルのアルゴリズム形式を提案する。
理論的分析と実世界のデータに関する数値ケーススタディの両方を用いて,プラットフォーム収益を維持する上でのフレームワークと手法の有効性を実証し,アイテムとユーザ双方にとって望ましい公平性を確保した。
Today's online platforms heavily lean on algorithmic recommendations for bolstering user engagement and driving revenue. However, these recommendations can impact multiple stakeholders simultaneously -- the platform, items (sellers), and users (customers) -- each with their unique objectives, making it difficult to find the right middle ground that accommodates all stakeholders. To address this, we introduce a novel fair recommendation framework, Problem (FAIR), that flexibly balances multi-stakeholder interests via a constrained optimization formulation. We next explore Problem (FAIR) in a dynamic online setting where data uncertainty further adds complexity, and propose a low-regret algorithm FORM that concurrently performs real-time learning and fair recommendations, two tasks that are often at odds. Via both theoretical analysis and a numerical case study on real-world data, we demonstrate the efficacy of our framework and method in maintaining platform revenue while ensuring desired levels of fairness for both items and users. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-25 |
# RedMotion:冗長化による動き予測
RedMotion: Motion Prediction via Redundancy Reduction ( http://arxiv.org/abs/2306.10840v3 ) ライセンス: Link先を確認 | Royden Wagner, Omer Sahin Tas, Marvin Klemp, Carlos Fernandez, Christoph Stiller, | (参考訳) 冗長性低減により環境表現を学習する自動運転車における動き予測のためのトランスフォーマーモデルであるRedMotionを紹介する。
我々の最初の冗長性低減は、内部トランスデコーダによって誘導され、道路グラフとエージェントデータを表すローカルな道路環境トークンの可変サイズのセットを固定サイズのグローバル埋め込みに還元する。
第2の冗長性低減法は自己教師型学習によって得られ,道路環境の拡張ビューから生成された埋め込みに冗長性低減原理を適用した。
実験の結果,PreTraM,Traj-MAE,GraphDINOを半教師付き環境下で比較した。
さらに、RedMotionはWaymo Motion Prediction ChallengeのHPTRやMTR++と比較して、競合的な結果が得られる。
私たちのオープンソース実装は、https://github.com/kit-mrt/future-motion.comで利用可能です。
We introduce RedMotion, a transformer model for motion prediction in self-driving vehicles that learns environment representations via redundancy reduction. Our first type of redundancy reduction is induced by an internal transformer decoder and reduces a variable-sized set of local road environment tokens, representing road graphs and agent data, to a fixed-sized global embedding. The second type of redundancy reduction is obtained by self-supervised learning and applies the redundancy reduction principle to embeddings generated from augmented views of road environments. Our experiments reveal that our representation learning approach outperforms PreTraM, Traj-MAE, and GraphDINO in a semi-supervised setting. Moreover, RedMotion achieves competitive results compared to HPTR or MTR++ in the Waymo Motion Prediction Challenge. Our open-source implementation is available at: https://github.com/kit-mrt/future-motion | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-25 |
# ファインチューニング型マルチモーダルLDMによるゼロショットデモインストラクションの追跡
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions ( http://arxiv.org/abs/2308.04152v4 ) ライセンス: Link先を確認 | Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Hanwang Zhang, Yueting Zhuang, | (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的特徴をLLMが認識できるトークンに変換するために、ビジュアルプロンプトジェネレータ(VPG)を活用している。
これは、VPGが生成した画像のトークンを冷凍LDMに供給して対応するキャプションを生成する、数百万のイメージキャプチャペアでVPGをトレーニングすることで達成される。
しかし、この画像キャプションに基づくトレーニングの目的は、本質的にVPGがキャプション生成に十分な一次視覚内容のみに偏り、しばしば他の視覚的詳細を無視している。
この欠点により、MLLMは、タスクを完了させるために必要なコンテキストを示す複数の、インターリーブされた、そしてマルチモーダルな命令からなる実証的命令を解釈する上で、過小評価される。
この問題に対処するために,実証的命令の解釈に必要な詳細を推論し,完成させる,汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
また,VPG-Cを微調整し,教師付き指示の必要をなくすための総合的識別訓練戦略を提案する。
評価では,実証的指導理解のための総合的なベンチマークであるDEMONを構築した。
VPG-Cは提案した戦略を総合的に訓練し、DEMONの全てのタスクにおいてはるかに強力なゼロショット性能を実現する。
MMEおよびOwlEvalベンチマークのさらなる評価もVPG-Cの優位性を示している。
私たちのベンチマーク、コード、事前トレーニングされたモデルはhttps://github.com/DCDmllm/Cheetah.comで公開されています。
Recent advancements in Multimodal Large Language Models (MLLMs) have been utilizing Visual Prompt Generators (VPGs) to convert visual features into tokens that LLMs can recognize. This is achieved by training the VPGs on millions of image-caption pairs, where the VPG-generated tokens of images are fed into a frozen LLM to generate the corresponding captions. However, this image-captioning based training objective inherently biases the VPG to concentrate solely on the primary visual contents sufficient for caption generation, often neglecting other visual details. This shortcoming results in MLLMs' underperformance in comprehending demonstrative instructions consisting of multiple, interleaved, and multimodal instructions that demonstrate the required context to complete a task. To address this issue, we introduce a generic and lightweight Visual Prompt Generator Complete module (VPG-C), which can infer and complete the missing details essential for comprehending demonstrative instructions. Further, we propose a synthetic discriminative training strategy to fine-tune VPG-C, eliminating the need for supervised demonstrative instructions. As for evaluation, we build DEMON, a comprehensive benchmark for demonstrative instruction understanding. Synthetically trained with the proposed strategy, VPG-C achieves significantly stronger zero-shot performance across all tasks of DEMON. Further evaluation on the MME and OwlEval benchmarks also demonstrate the superiority of VPG-C. Our benchmark, code, and pre-trained models are available at https://github.com/DCDmllm/Cheetah. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-25 |
# 協調型マルチエージェント強化学習のための${\rm E}(3)$-equivariant Actor-Critic法
${\rm E}(3)$-Equivariant Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.11842v3 ) ライセンス: Link先を確認 | Dingyang Chen, Qi Zhang, | (参考訳) 自然界における対称パターンの同定と解析は、物理学における重力則の定式化や化学構造の研究の進歩など、様々な科学分野において重要な発見につながっている。
本稿では,ある協調型マルチエージェント強化学習(MARL)問題に固有のユークリッド対称性を活用することに着目し,多くの応用で広く利用されている。
まず、対称最適値とポリシーの存在を認める対称性の一般概念でマルコフゲームのサブクラスを正式に特徴づけることから始める。
これらの特性により、我々はマルチエージェントアクター批判手法の帰納バイアスとして対称的制約を組み込んだニューラルネットワークアーキテクチャを設計する。
この帰納バイアスは、様々な協調型MARLベンチマークにおける優れた性能と、繰り返し対称パターンを持つ未知のシナリオにおけるゼロショット学習や転送学習のような印象的な一般化能力をもたらす。
コードは、https://github.com/dchen48/E3ACで入手できる。
Identification and analysis of symmetrical patterns in the natural world have led to significant discoveries across various scientific fields, such as the formulation of gravitational laws in physics and advancements in the study of chemical structures. In this paper, we focus on exploiting Euclidean symmetries inherent in certain cooperative multi-agent reinforcement learning (MARL) problems and prevalent in many applications. We begin by formally characterizing a subclass of Markov games with a general notion of symmetries that admits the existence of symmetric optimal values and policies. Motivated by these properties, we design neural network architectures with symmetric constraints embedded as an inductive bias for multi-agent actor-critic methods. This inductive bias results in superior performance in various cooperative MARL benchmarks and impressive generalization capabilities such as zero-shot learning and transfer learning in unseen scenarios with repeated symmetric patterns. The code is available at: https://github.com/dchen48/E3AC. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-25 |
# 回帰の校正説明
Calibrated Explanations for Regression ( http://arxiv.org/abs/2308.16245v3 ) ライセンス: Link先を確認 | Tuwe Löfström, Helena Löfström, Ulf Johansson, Cecilia Sönströd, Rudy Matela, | (参考訳) 人工知能(AI)は現代の意思決定支援システムの不可欠な部分であることが多い。
AIベースの意思決定支援システムで使用される最高のパフォーマンス予測モデルは、透明性を欠いている。
説明可能な人工知能(XAI)は、人間のユーザーにその根拠を説明するAIシステムを構築することを目的としている。
XAIにおける局所的な説明は、特徴的重要性の観点から個々の予測の原因に関する情報を提供することができる。
しかし、既存の局所的説明手法の重大な欠点は、特徴の重要性に関連する不確実性を定量化できないことである。
本稿では,標準回帰と確率回帰のサポート,すなわち目標が任意のしきい値を超える確率をサポートする特徴重要説明法Calibrated Explanationsの拡張を提案する。
回帰の延長は、信頼区間を持つモデルからの予測の校正、特徴重要度の不確実な定量化、事実的および反事実的説明の両立など、校正説明のすべての利点を保っている。
標準回帰のための校正説明は、高速で信頼性があり、安定し、堅牢な説明を提供する。
確率回帰の校正説明は、任意の通常の回帰モデルから確率的説明を作成する全く新しい方法を提供し、しきい値の動的選択を可能にする。
この方法は、容易に理解可能な条件付きルールを持つモデル非依存である。
Pythonの実装はGitHubで無料で利用可能であり、pipとcondaの両方を使ってインストールすることができる。
Artificial Intelligence (AI) is often an integral part of modern decision support systems. The best-performing predictive models used in AI-based decision support systems lack transparency. Explainable Artificial Intelligence (XAI) aims to create AI systems that can explain their rationale to human users. Local explanations in XAI can provide information about the causes of individual predictions in terms of feature importance. However, a critical drawback of existing local explanation methods is their inability to quantify the uncertainty associated with a feature's importance. This paper introduces an extension of a feature importance explanation method, Calibrated Explanations, previously only supporting classification, with support for standard regression and probabilistic regression, i.e., the probability that the target is above an arbitrary threshold. The extension for regression keeps all the benefits of Calibrated Explanations, such as calibration of the prediction from the underlying model with confidence intervals, uncertainty quantification of feature importance, and allows both factual and counterfactual explanations. Calibrated Explanations for standard regression provides fast, reliable, stable, and robust explanations. Calibrated Explanations for probabilistic regression provides an entirely new way of creating probabilistic explanations from any ordinary regression model, allowing dynamic selection of thresholds. The method is model agnostic with easily understood conditional rules. An implementation in Python is freely available on GitHub and for installation using both pip and conda, making the results in this paper easily replicable. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-25 |
# DoG-Instruct: テキスト・グラウンド・インストラクション・ラッピングによるプレミアム・インストラクション・チューニングデータを目指して
DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping ( http://arxiv.org/abs/2309.05447v2 ) ライセンス: Link先を確認 | Yongrui Chen, Haiyun Jiang, Xinting Huang, Shuming Shi, Guilin Qi, | (参考訳) LLMの命令追従能力の改善は、高品質な命令応答対の可用性に大きく依存している。
残念なことに、このペアを回収する現在の方法は、LLMの自己世代における不利な労働コストまたは深刻な幻覚に悩まされている。
これらの課題に対処するために,本稿ではスケーラブルなソリューションを提案する。
文脈のない自己生成のみに頼るのではなく、人間による文書に基づく命令応答ペアを生成するためにLSMを訓練する。
提案手法は,幻覚を減らし,文書表現をLLMでラップするだけでなく,文書形式と標準AI応答とのギャップを埋めることを可能にする。
実験により,本手法は複数のベンチマークにおいて既存手法よりも優れていることが示された。
特に、最も優れたベースラインと比較して、我々の生成したデータセットを用いてトレーニングしたLCMは、トレーニングデータの1/5しか利用していないにもかかわらず、AlpacaEval上での相対的なパフォーマンス改善を10倍に示す。
さらに、包括的な手作業による評価は、私たちが生成したデータの品質を評価する。
トレーニング済みラッパーはhttps://github.com/Bahuia/Dog-Instruct.comで公開されています。
The improvement of LLMs' instruction-following capabilities relies heavily on the availability of high-quality instruction-response pairs. Unfortunately, the current methods used to collect the pairs suffer from either unaffordable labor costs or severe hallucinations in the self-generation of LLM. To tackle these challenges, this paper proposes a scalable solution. It involves training LLMs to generate instruction-response pairs based on human-written documents, rather than relying solely on self-generation without context. Our proposed method not only exploits the advantages of human-written documents in reducing hallucinations but also utilizes an LLM to wrap the expression of documents, which enables us to bridge the gap between various document styles and the standard AI response. Experiments demonstrate that our method outperforms existing typical methods on multiple benchmarks. In particular, compared to the best-performing baseline, the LLM trained using our generated dataset exhibits a 10\% relative improvement in performance on AlpacaEval, despite utilizing only 1/5 of its training data. Furthermore, a comprehensive manual evaluation validates the quality of the data we generated. Our trained wrapper is publicly available at https://github.com/Bahuia/Dog-Instruct. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-25 |
# DiffAug: ドメイン知識のない拡散に基づくデータ拡張による教師なしコントラスト学習の促進
DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation ( http://arxiv.org/abs/2309.07909v2 ) ライセンス: Link先を確認 | Zelin Zang, Hao Luo, Kai Wang, Panpan Zhang, Fan Wang, Stan. Z Li, Yang You, | (参考訳) 教師なしのコントラスト学習は、事前定義された正・負のサンプルを表現学習に活用して、視覚や生物学などの分野で注目されている。
データ拡張は手書きとモデルベースに分類され、コントラスト学習の強化に欠かせない要素として認識されている。
しかし、手書きの手法は、時にデータの意味を歪めながら、ドメイン固有のデータに人間の専門知識を必要とする。
対照的に、生成モデルに基づくアプローチは通常、多くのドメインでモデルのトレーニングを制約するボトルネックとなっている、教師付きまたは大規模な外部データを必要とする。
本稿では,拡散モードに基づく正データ生成を伴う非教師付きコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件付き拡散モデルから構成され、条件付き拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成し、教師なしコントラスト学習のトレーニングに役立てる。
セマンティックエンコーダと拡散モデルの反復的トレーニングの助けを借りて、DiffAugは非中断かつ教師なしの方法で表現能力を向上させる。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
レビュー用のコードは \url{https://github.com/zangzelin/code_diffaug} で公開されている。
Unsupervised Contrastive learning has gained prominence in fields such as vision, and biology, leveraging predefined positive/negative samples for representation learning. Data augmentation, categorized into hand-designed and model-based methods, has been identified as a crucial component for enhancing contrastive learning. However, hand-designed methods require human expertise in domain-specific data while sometimes distorting the meaning of the data. In contrast, generative model-based approaches usually require supervised or large-scale external data, which has become a bottleneck constraining model training in many domains. To address the problems presented above, this paper proposes DiffAug, a novel unsupervised contrastive learning technique with diffusion mode-based positive data generation. DiffAug consists of a semantic encoder and a conditional diffusion model; the conditional diffusion model generates new positive samples conditioned on the semantic encoding to serve the training of unsupervised contrast learning. With the help of iterative training of the semantic encoder and diffusion model, DiffAug improves the representation ability in an uninterrupted and unsupervised manner. Experimental evaluations show that DiffAug outperforms hand-designed and SOTA model-based augmentation methods on DNA sequence, visual, and bio-feature datasets. The code for review is released at \url{https://github.com/zangzelin/code_diffaug}. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# Text2Reward:強化学習のための言語モデルによるリワードシェーピング
Text2Reward: Reward Shaping with Language Models for Reinforcement Learning ( http://arxiv.org/abs/2309.11489v3 ) ライセンス: Link先を確認 | Tianbao Xie, Siheng Zhao, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu, | (参考訳) 報酬関数の設計は強化学習(RL)における長年にわたる課題であり、専門知識やドメインデータを必要とするため、開発に高いコストがかかる。
そこで本稿では,大規模言語モデル(LLM)に基づく高密度報酬関数の生成と生成を自動化するデータフリーフレームワークであるText2Rewardを紹介する。
自然言語で記述されたゴールが与えられたとき、Text2Rewardは環境のコンパクトな表現を基礎とした実行可能プログラムとして、形状の密集した報酬関数を生成する。
逆 RL や最近の LLM を使ってスパース報酬コードや、タイムステップにまたがる一定の関数を持った未形密集報酬コードを記述する作業とは異なり、Text2Reward は、幅広いタスクをカバーし、既存のパッケージを活用し、人間のフィードバックで反復的な改善を可能にする、解釈可能な、自由形式の密集報酬コードを生成する。
ManiSkill2, MetaWorld) と MuJoCo の2つの移動環境において, Text2Reward の評価を行った。
17の操作タスクのうち13では、生成された報酬コードで訓練されたポリシーが、専門家が書いた報酬コードと同じような、あるいはより良いタスクの成功率と収束速度を達成する。
移動課題では, 成功率94%を超える6つの新しい移動動作を学習する。
さらに,本手法を用いてシミュレータで訓練したポリシーを実環境に展開可能であることを示す。
最後に、Text2Rewardは、報酬関数を人間のフィードバックで洗練することでポリシーをさらに改善する。
ビデオ結果はhttps://text-to-reward.github.io/で公開されている。
Designing reward functions is a longstanding challenge in reinforcement learning (RL); it requires specialized knowledge or domain data, leading to high costs for development. To address this, we introduce Text2Reward, a data-free framework that automates the generation and shaping of dense reward functions based on large language models (LLMs). Given a goal described in natural language, Text2Reward generates shaped dense reward functions as an executable program grounded in a compact representation of the environment. Unlike inverse RL and recent work that uses LLMs to write sparse reward codes or unshaped dense rewards with a constant function across timesteps, Text2Reward produces interpretable, free-form dense reward codes that cover a wide range of tasks, utilize existing packages, and allow iterative refinement with human feedback. We evaluate Text2Reward on two robotic manipulation benchmarks (ManiSkill2, MetaWorld) and two locomotion environments of MuJoCo. On 13 of the 17 manipulation tasks, policies trained with generated reward codes achieve similar or better task success rates and convergence speed than expert-written reward codes. For locomotion tasks, our method learns six novel locomotion behaviors with a success rate exceeding 94%. Furthermore, we show that the policies trained in the simulator with our method can be deployed in the real world. Finally, Text2Reward further improves the policies by refining their reward functions with human feedback. Video results are available at https://text-to-reward.github.io/ . | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# アクティブラーニングのための証拠不確実性サンプリング
Evidential uncertainty sampling for active learning ( http://arxiv.org/abs/2309.12494v2 ) ライセンス: Link先を確認 | Arthur Hoarau, Vincent Lemaire, Arnaud Martin, Jean-Christophe Dubois, Yolande Le Gall, | (参考訳) アクティブラーニング、特に不確実性サンプリングにおける最近の研究は、モデル不確実性を再現可能かつ既約不確実性に分解することに焦点を当てている。
本稿では,観測への依存を排除しつつ,計算過程を簡素化することを目的とする。
重要なことに、ラベルに固有の不確実性、すなわちオラクルの不確実性が考慮されている。
探索・探索ジレンマに取り組むKlirの不確実性(英語版)によるサンプリングと、顕在的認識の不確実性(英語版)によるサンプリングという2つの戦略が提案されている。
能動学習実験の結果,提案手法が不確実性サンプリングより優れていることが示された。
Recent studies in active learning, particularly in uncertainty sampling, have focused on the decomposition of model uncertainty into reducible and irreducible uncertainties. In this paper, the aim is to simplify the computational process while eliminating the dependence on observations. Crucially, the inherent uncertainty in the labels is considered, the uncertainty of the oracles. Two strategies are proposed, sampling by Klir uncertainty, which tackles the exploration-exploitation dilemma, and sampling by evidential epistemic uncertainty, which extends the concept of reducible uncertainty within the evidential framework, both using the theory of belief functions. Experimental results in active learning demonstrate that our proposed method can outperform uncertainty sampling. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# 目に見える、まだ心に残る:ビデオ追跡可能な記憶モデルによる未観測物体の推論と計画
Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models ( http://arxiv.org/abs/2309.15278v3 ) ライセンス: Link先を確認 | Yixuan Huang, Jialin Yuan, Chanho Kim, Pupul Pradhan, Bryan Chen, Li Fuxin, Tucker Hermans, | (参考訳) ロボットは以前に観測された記憶を持つ必要があるが、現実的な環境で確実に動作するには、現在物体を隠蔽する必要がある。
オブジェクト指向メモリを多目的操作推論・計画フレームワークに符号化する問題について検討する。
本研究では,変換器のリレーショナルダイナミクスを利用して,部分視点雲と物体発見・追跡エンジンのトラジェクトリ履歴を符号化するDOOMとLOOMを提案する。
我々のアプローチは、隠されたオブジェクトによる推論、新しいオブジェクトの外観、オブジェクトの再出現など、複数の困難なタスクを実行することができる。
大規模なシミュレーションと実世界の実験を通して、我々のアプローチは、異なる物体の数と異なる乱れの回数でうまく機能することがわかった。
さらに、我々のアプローチは暗黙のメモリベースラインよりも優れていることを示す。
Robots need to have a memory of previously observed, but currently occluded objects to work reliably in realistic environments. We investigate the problem of encoding object-oriented memory into a multi-object manipulation reasoning and planning framework. We propose DOOM and LOOM, which leverage transformer relational dynamics to encode the history of trajectories given partial-view point clouds and an object discovery and tracking engine. Our approaches can perform multiple challenging tasks including reasoning with occluded objects, novel objects appearance, and object reappearance. Throughout our extensive simulation and real-world experiments, we find that our approaches perform well in terms of different numbers of objects and different numbers of distractor actions. Furthermore, we show our approaches outperform an implicit memory baseline. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# 敵対的事例は避けるべきである:―敵対的ロバスト性におけるデータ集中の役割―
Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness ( http://arxiv.org/abs/2309.16096v2 ) ライセンス: Link先を確認 | Ambar Pal, Jeremias Sulam, René Vidal, | (参考訳) 現代の機械学習分類器の敵例に対する感受性は、これらが避けられないかもしれないという理論的な結果を動機づけている。
しかし、これらの結果は自然データ分布に適用するには一般的すぎる。
実際、人間はビジョンを含むタスクに対して非常に堅牢です。
この明らかな対立は、この問題を深く掘り下げる動機となっている: 敵の例は本当に避けられないのか?
本研究では,データ分布の重要な性質である入力空間の小体積部分集合への集中が,ロバストな分類器が存在するか否かを理論的に証明する。
さらに、低次元線形部分空間の結合に集中したデータ分布において、データの構造を利用することで、データ依存多面体ロバスト性保証を享受する分類器が自然に生成され、特定の状態における証明可能な証明方法の改善が示されている。
The susceptibility of modern machine learning classifiers to adversarial examples has motivated theoretical results suggesting that these might be unavoidable. However, these results can be too general to be applicable to natural data distributions. Indeed, humans are quite robust for tasks involving vision. This apparent conflict motivates a deeper dive into the question: Are adversarial examples truly unavoidable? In this work, we theoretically demonstrate that a key property of the data distribution -- concentration on small-volume subsets of the input space -- determines whether a robust classifier exists. We further demonstrate that, for a data distribution concentrated on a union of low-dimensional linear subspaces, utilizing structure in data naturally leads to classifiers that enjoy data-dependent polyhedral robustness guarantees, improving upon methods for provable certification in certain regimes. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# 組合せ最適化のための連続緩和制御
Controlling Continuous Relaxation for Combinatorial Optimization ( http://arxiv.org/abs/2309.16965v3 ) ライセンス: Link先を確認 | Yuma Ichikawa, | (参考訳) 組合せ最適化(CO)のための教師なし学習(UL)ベースの解法は、連続緩和戦略を用いてCO目標を直接最適化することにより、出力がソフトソリューションを提供するニューラルネットワークを訓練する。
これらの解法は、特に大規模なCO問題に対して、従来の手法や他の学習ベースの手法よりもいくつかの利点を提供している。
しかし, ul-based solver は, (I) ul-based solver が局所最適に容易に閉じ込められる最適化問題, (II) UL-based solver が連続空間から元の離散空間への人工的な後円化を必要とするラウンドリング問題であり, 結果の堅牢性を損なう。
本研究では,ul-based solver に対する効果的なラウンドリングフリー学習法である連続緩和アニーリング (CRA) 戦略を提案する。
CRAは、連続的な解の優先順位付けから、目的関数の非凸性を効果的に滑らかにし、離散性を強制し、人工的な丸めをなくすペナルティ項を動的に導入する。
実験により、CRAは、複雑なCO問題において、既存のULベースの解法およびグリージーアルゴリズムよりも優れ、ULベースの解法の性能を著しく向上させることが示された。
また、人工ラウンドを効果的に排除し、学習を加速する。
Unsupervised learning (UL)-based solvers for combinatorial optimization (CO) train a neural network whose output provides a soft solution by directly optimizing the CO objective using a continuous relaxation strategy. These solvers offer several advantages over traditional methods and other learning-based methods, particularly for large-scale CO problems. However, UL-based solvers face two practical issues: (I) an optimization issue where UL-based solvers are easily trapped at local optima, and (II) a rounding issue where UL-based solvers require artificial post-learning rounding from the continuous space back to the original discrete space, undermining the robustness of the results. This study proposes a Continuous Relaxation Annealing (CRA) strategy, an effective rounding-free learning method for UL-based solvers. CRA introduces a penalty term that dynamically shifts from prioritizing continuous solutions, effectively smoothing the non-convexity of the objective function, to enforcing discreteness, eliminating the artificial rounding. Experimental results demonstrate that CRA significantly enhances the performance of UL-based solvers, outperforming existing UL-based solvers and greedy algorithms in complex CO problems. It also effectively eliminates the artificial rounding and accelerates the learning. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-25 |
# 画像異常検出と位置推定のためのプロトタイプベースニューラルネットワーク
A Prototype-Based Neural Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2310.02576v2 ) ライセンス: Link先を確認 | Chao Huang, Zhao Kang, Hong Wu, | (参考訳) 画像異常検出と局所化は、画像レベルの異常分類を行うだけでなく、画素レベルの異常領域を特定する。
近年、様々な分野に広く応用されているため、多くの研究が注目されている。
本稿では,画像の異常検出と局所化のためのプロトタイプベースニューラルネットワークProtoADを提案する。
まず,自然画像に事前学習したディープネットワークにより,通常の画像のパッチの特徴を抽出する。
そして、通常のパッチ機能のプロトタイプは、非パラメトリッククラスタリングによって学習される。
最後に,特徴抽出ネットワークに$L2$機能正規化,$1\times1$畳み込み層,チャネル最大プール,サブトラクション演算を付加することにより,画像異常ローカライゼーションネットワーク(ProtoAD)を構築する。
プロトタイプを1\times1$畳み込み層のカーネルとして使用するため、ニューラルネットワークはトレーニングフェーズを必要とせず、エンドツーエンドで異常検出とローカライズを行うことができる。
MVTec ADとBTADの2つの挑戦的産業異常検出データセットに関する大規模な実験により、ProtoADは、推論速度の高い最先端の手法と比較して、競争力を発揮することが示された。
ソースコードは、https://github.com/98chao/ProtoAD.comで入手できる。
Image anomaly detection and localization perform not only image-level anomaly classification but also locate pixel-level anomaly regions. Recently, it has received much research attention due to its wide application in various fields. This paper proposes ProtoAD, a prototype-based neural network for image anomaly detection and localization. First, the patch features of normal images are extracted by a deep network pre-trained on nature images. Then, the prototypes of the normal patch features are learned by non-parametric clustering. Finally, we construct an image anomaly localization network (ProtoAD) by appending the feature extraction network with $L2$ feature normalization, a $1\times1$ convolutional layer, a channel max-pooling, and a subtraction operation. We use the prototypes as the kernels of the $1\times1$ convolutional layer; therefore, our neural network does not need a training phase and can conduct anomaly detection and localization in an end-to-end manner. Extensive experiments on two challenging industrial anomaly detection datasets, MVTec AD and BTAD, demonstrate that ProtoAD achieves competitive performance compared to the state-of-the-art methods with a higher inference speed. The source code is available at: https://github.com/98chao/ProtoAD. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-25 |
# ノイズ・ロバスト学習による遠隔教師付き関節抽出
Distantly-Supervised Joint Extraction with Noise-Robust Learning ( http://arxiv.org/abs/2310.04994v2 ) ライセンス: Link先を確認 | Yufei Li, Xiao Yu, Yanghong Guo, Yanchi Liu, Haifeng Chen, Cong Liu, | (参考訳) 結合エンティティと関係抽出は、一つのモデルを用いてエンティティペアとその関係を識別するプロセスである。
我々は,知識ベース(KB)を用いて,エンティティの言及を対応するエンティティと関係タグに整合させることによりラベルを生成する遠隔ラベル付きデータにおいて,共同抽出の問題に焦点をあてる。
重要な課題の1つは、誤ったエンティティと関係アノテーションの両方から生じるノイズラベルの存在であり、教師付き学習の質を著しく損なう。
既存のアプローチは、ノイズの1つの源のみを考慮するか、外部知識を使って決定を行うかのいずれかで、トレーニングデータにおいて重要な情報を十分に活用することはできない。
一般化可能なフレームワークであるDENRLを提案する。
1)軽量変圧器のバックボーンをジョイントタグ付けのためのシーケンスラベリング方式に組み込んで,
2.2では、大きな関係パターンとエンティティ-リレーショナル依存関係を持つタグ付けモデルを正規化して、両方のソースからのノイズが少ないインスタンスに反復的に自己適応するノイズロバストフレームワークを採用しています。
驚くべきことに、2つのベンチマークデータセットの実験では、DENRLは、単に独自のパラメトリック分布と単純なデータ駆動ヒューリスティックを使用して、大きな言語モデルベースのベースラインを大きなマージンで上回り、解釈可能性も向上している。
Joint entity and relation extraction is a process that identifies entity pairs and their relations using a single model. We focus on the problem of joint extraction in distantly-labeled data, whose labels are generated by aligning entity mentions with the corresponding entity and relation tags using a knowledge base (KB). One key challenge is the presence of noisy labels arising from both incorrect entity and relation annotations, which significantly impairs the quality of supervised learning. Existing approaches, either considering only one source of noise or making decisions using external knowledge, cannot well-utilize significant information in the training data. We propose DENRL, a generalizable framework that 1) incorporates a lightweight transformer backbone into a sequence labeling scheme for joint tagging, and 2) employs a noise-robust framework that regularizes the tagging model with significant relation patterns and entity-relation dependencies, then iteratively self-adapts to instances with less noise from both sources. Surprisingly, experiments on two benchmark datasets show that DENRL, using merely its own parametric distribution and simple data-driven heuristics, outperforms large language model-based baselines by a large margin with better interpretability. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-25 |
# 仮想トライオンのためのシングルステージワート衣服学習と意味的・文脈的注意機能融合
Single Stage Warped Cloth Learning and Semantic-Contextual Attention Feature Fusion for Virtual TryOn ( http://arxiv.org/abs/2310.05024v2 ) ライセンス: Link先を確認 | Sanhita Pathak, Vinay Kaushik, Brejesh Lall, | (参考訳) 画像ベースの仮想試着は、ホップの衣服を着ている人の画像に合わせることを目的としている。
対象の衣服を人物画像の対応する身体部分と整列させるガーメント・ワープは、この目標を達成するための重要なステップである。
既存の手法では、衣料品のワープ、人体合成、トライトン生成を別々に扱うための多段階フレームワークや、ノイズの多い中間パーサーベースのラベルに依存する場合が多い。
明示的な多段階学習なしに暗黙的に同じことを学習する新しいシングルステージフレームワークを提案する。
提案手法では,新規な意味・コンテキスト・フュージョン・アテンション・モジュールを用いて,対象のポーズ・キーポイントから,効率的でリアルな布のワープと身体合成を可能にする。
複数のサンプルフロー場を融合させる軽量な線形アテンションフレームワークを導入することにより,従来手法のミスアライメントやアーティファクトにも対処する。
乱れた衣服と試着結果の同時学習を実現するために,乱れた衣服学習モジュールを導入する。
提案手法は,仮想試行法の品質と効率を大幅に向上させ,より信頼性が高く現実的な仮想試行体験を提供する。
Image-based virtual try-on aims to fit an in-shop garment onto a clothed person image. Garment warping, which aligns the target garment with the corresponding body parts in the person image, is a crucial step in achieving this goal. Existing methods often use multi-stage frameworks to handle clothes warping, person body synthesis and tryon generation separately or rely on noisy intermediate parser-based labels. We propose a novel single-stage framework that implicitly learns the same without explicit multi-stage learning. Our approach utilizes a novel semantic-contextual fusion attention module for garment-person feature fusion, enabling efficient and realistic cloth warping and body synthesis from target pose keypoints. By introducing a lightweight linear attention framework that attends to garment regions and fuses multiple sampled flow fields, we also address misalignment and artifacts present in previous methods. To achieve simultaneous learning of warped garment and try-on results, we introduce a Warped Cloth Learning Module. Our proposed approach significantly improves the quality and efficiency of virtual try-on methods, providing users with a more reliable and realistic virtual try-on experience. | 翻訳日:2024-05-29 11:49:01 公開日:2024-05-25 |
# ブロックチェーンによるUAV支援災害救助ネットワーク--課題と解決策
Blockchain-Envisioned UAV-Aided Disaster Relief Networks: Challenges and Solutions ( http://arxiv.org/abs/2310.05180v2 ) ライセンス: Link先を確認 | Yuntao Wang, Qinnan Hu, Zhendong Li, Zhou Su, Ruidong Li, Xiang Zou, Jian Zhou, | (参考訳) 自然災害や人的災害は、重要なインフラや物流網の破壊により、被災者への危機的救済を実現する上で大きな課題となる。
無人航空機(UAV)支援災害救助ネットワーク(UDRN)は、UAVを活用し、被災地を迅速に評価し、救命物資をタイムリーに届けることによって、既存の地上救援ネットワークを支援する。
コラボレーティブで信頼性のない透明なUDRNサービスに対する需要の増加に対応するため、ブロックチェーンベースのUDRNは、不変の台帳と分散スマートコントラクトを通じて、有望なアプローチとして登場します。
しかしながら、スマートコントラクト間の協力の欠如、スマートコントラクトの脆弱性に対する動的監査の欠如、トランザクションマニュアビリティ攻撃に対する低い法医学的堅牢性など、ブロックチェーンベースのUDRNの展開を妨げる、いくつかの効率性とセキュリティ上の課題がある。
ブロックチェーンベースのUDRNを効率的かつセキュアにするために,本論文では,潜在的なソリューションを提案する。
一 協調的救済管理のための一連の協調的スマートコントラクト
(二 既知の、未知の契約の脆弱性を防止するための動的契約監査機構、及び
三 取引の可逆性攻撃に抵抗するため、オン・オフ・チェーン協力によるロバストな取引法医学戦略。
提案手法の試作と実験により,本手法の有効性と有効性を示す。
最後に、この新興分野の進展に欠かせない重要な研究課題について概説する。
Natural or man-made disasters pose significant challenges for delivering critical relief to affected populations due to disruptions in critical infrastructures and logistics networks. Unmanned aerial vehicles (UAVs)-aided disaster relief networks (UDRNs) leverage UAVs to assist existing ground relief networks by swiftly assessing affected areas and timely delivering lifesaving supplies. To meet the growing demands for collaborative, trust-free, and transparent UDRN services, blockchain-based UDRNs emerge as a promising approach through immutable ledgers and distributed smart contracts. However, several efficiency and security challenges hinder the deployment of blockchain-based UDRNs, including the lack of cooperation between smart contracts, lack of dynamic audit for smart contract vulnerabilities, and low forensics robustness against transaction malleability attacks. Towards efficient and secure blockchain-based UDRNs, this paper presents potential solutions: (i) a series of collaborative smart contracts for coordinated relief management, (ii) a dynamic contract audit mechanism to prevent known/unknown contract vulnerabilities; and (iii) a robust transaction forensics strategy with on/off-chain cooperation to resist transaction malleability attacks. Our prototype implementation and experimental results demonstrate the feasibility and effectiveness of our approach. Lastly, we outline key open research issues crucial to advancing this emerging field. | 翻訳日:2024-05-29 11:49:01 公開日:2024-05-25 |
# CAMEL2: 意義比を組み込んだ病理画像の弱教師付き学習の強化
CAMEL2: Enhancing weakly supervised learning for histopathology images by incorporating the significance ratio ( http://arxiv.org/abs/2310.05394v2 ) ライセンス: Link先を確認 | Gang Xu, Shuhao Wang, Lingyu Zhao, Xiao Chen, Tongwei Wang, Lang Wang, Zhenwei Luo, Dahan Wang, Zewen Zhang, Aijun Liu, Wei Ba, Zhigang Song, Huaiyin Shi, Dingrong Zhong, Jianpeng Ma, | (参考訳) 病理組織像解析は癌診断において重要な役割を担っている。
しかし、臨床応用セグメンテーションアルゴリズムのトレーニングでは、病理学者は労働集約的なラベル付けを行う必要がある。
対照的に、画像レベルで粗いラベルしか必要としない弱教師付き学習法は、ラベル付けの労力を大幅に削減することができる。
残念ながら、これらの手法はスライドレベルの予測では合理的に機能するが、多くの臨床応用に欠かせないがん領域を見つける能力は相変わらず不十分である。
従来,ピクセルレベルのセグメンテーションにおいて,教師付きベースラインに匹敵する結果が得られるCAMELを提案した。
しかし、CAMELは正のWSIに対して1,280x1,280のイメージレベルのバイナリアノテーションを必要とする。
そこで我々はCAMEL2について,正の袋に対して癌比のしきい値を導入することにより,その情報をより有効活用し,精度を維持しつつ1,280x1,280から5120x5,120まで画像レベルの設定をスケールアップすることを可能にする。
CAMEL2は5,120x5,120のイメージレベルのバイナリアノテーションの助けを借りてアノテートが容易であり、インスタンスレベルの分類とスライドレベルの分類の両方において完全に教師付きベースラインのアノテーションと同等の性能を発揮することを示した。
Histopathology image analysis plays a crucial role in cancer diagnosis. However, training a clinically applicable segmentation algorithm requires pathologists to engage in labour-intensive labelling. In contrast, weakly supervised learning methods, which only require coarse-grained labels at the image level, can significantly reduce the labeling efforts. Unfortunately, while these methods perform reasonably well in slide-level prediction, their ability to locate cancerous regions, which is essential for many clinical applications, remains unsatisfactory. Previously, we proposed CAMEL, which achieves comparable results to those of fully supervised baselines in pixel-level segmentation. However, CAMEL requires 1,280x1,280 image-level binary annotations for positive WSIs. Here, we present CAMEL2, by introducing a threshold of the cancerous ratio for positive bags, it allows us to better utilize the information, consequently enabling us to scale up the image-level setting from 1,280x1,280 to 5,120x5,120 while maintaining the accuracy. Our results with various datasets, demonstrate that CAMEL2, with the help of 5,120x5,120 image-level binary annotations, which are easy to annotate, achieves comparable performance to that of a fully supervised baseline in both instance- and slide-level classifications. | 翻訳日:2024-05-29 11:49:01 公開日:2024-05-25 |
# In-Contextデモの少ないジェイルブレークとガードアライメント言語モデル
Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations ( http://arxiv.org/abs/2310.06387v3 ) ライセンス: Link先を確認 | Zeming Wei, Yifei Wang, Ang Li, Yichuan Mo, Yisen Wang, | (参考訳) 大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本稿では,LLMのアライメントを調整するために,ICL(In-Context Learning)の可能性を探究する。
具体的には, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の生成を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
我々は,LLMの安全アライメントに,限定された文脈内デモンストレーションがいかに重要な影響を及ぼすかを明らかにするための理論的洞察を提供する。
広汎な実験により,ジェイルブレーキングプロンプトの成功率の上昇と緩和にICAとICDが有効であることを実証した。
本研究は,ILCのLCM挙動に対する影響を解明し,LCMの安全性を高めるための新たな道を開いた。
Large Language Models (LLMs) have shown remarkable success in various tasks, yet their safety and the risk of generating harmful content remain pressing concerns. In this paper, we delve into the potential of In-Context Learning (ICL) to modulate the alignment of LLMs. Specifically, we propose the In-Context Attack (ICA) which employs harmful demonstrations to subvert LLMs, and the In-Context Defense (ICD) which bolsters model resilience through examples that demonstrate refusal to produce harmful responses. We offer theoretical insights to elucidate how a limited set of in-context demonstrations can pivotally influence the safety alignment of LLMs. Through extensive experiments, we demonstrate the efficacy of ICA and ICD in respectively elevating and mitigating the success rates of jailbreaking prompts. Our findings illuminate the profound influence of ICL on LLM behavior, opening new avenues for improving the safety of LLMs. | 翻訳日:2024-05-29 11:38:36 公開日:2024-05-25 |
# Split-and-Denoise: ローカル差分プライバシーによる大規模言語モデル推論の保護
Split-and-Denoise: Protect large language model inference with local differential privacy ( http://arxiv.org/abs/2310.09130v3 ) ライセンス: Link先を確認 | Peihua Mai, Ran Yan, Zhe Huang, Youjia Yang, Yan Pang, | (参考訳) 大規模言語モデル(LLM)は、ベクトル空間内の隠れセマンティクスをキャプチャすることで、自然言語理解において優れている。
このプロセスは、さまざまなダウンストリームタスクに対するテキスト埋め込みの価値を強化し、Embdding-as-a-Service(EaaS)ビジネスモデルを育む。
しかし、サーバへのダイレクトテキスト送信によるプライバシー漏洩のリスクは、依然として重要な懸念事項である。
これを解決するために、最小計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割するプライベート推論フレームワークであるSplit-N-Denoise(SnD)を導入する。
これにより、クライアントは、サーバに埋め込みを送信する前にノイズを導入し、その後、下流タスクの摂動された出力埋め込みを受信および復号化することができる。
提案手法は, LLMの推論段階に設計されており, モデルパラメータの変更は不要である。
大規模な実験では、SnDが様々なLLMアーキテクチャとさまざまな下流タスク間でのプライバシーとユーティリティのトレードオフを最適化する効果を実証している。
その結果、クライアントがローカルのプライバシー保護のためにプライバシを保存するソリューションを提供することで、ベースラインが平均で10%以上向上するのに対して、同じプライバシ予算の下でのパフォーマンスが向上することが明らかになった。
Large Language Models (LLMs) excel in natural language understanding by capturing hidden semantics in vector space. This process enriches the value of text embeddings for various downstream tasks, thereby fostering the Embedding-as-a-Service (EaaS) business model. However, the risk of privacy leakage due to direct text transmission to servers remains a critical concern. To address this, we introduce Split-N-Denoise (SnD), an private inference framework that splits the model to execute the token embedding layer on the client side at minimal computational cost. This allows the client to introduce noise prior to transmitting the embeddings to the server, and subsequently receive and denoise the perturbed output embeddings for downstream tasks. Our approach is designed for the inference stage of LLMs and requires no modifications to the model parameters. Extensive experiments demonstrate SnD's effectiveness in optimizing the privacy-utility tradeoff across various LLM architectures and diverse downstream tasks. The results reveal an improvement in performance under the same privacy budget compared to the baselines by over 10\% on average, offering clients a privacy-preserving solution for local privacy protection. | 翻訳日:2024-05-29 11:38:36 公開日:2024-05-25 |
# 画像は価値ある複数の単語である:マルチコンセプト・プロンプト・ラーニングを用いたオブジェクトレベルの概念の発見
An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning ( http://arxiv.org/abs/2310.12274v2 ) ライセンス: Link先を確認 | Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare, | (参考訳) テクスチュラル・インバージョン(Textural Inversion)は、画像のスタイルと外観を表現するために、新しい「単語」を埋め込んだ特異テキストを学習し、それを自然言語の文に統合し、新しい合成画像を生成する。
しかし、複数の未知のオブジェクトレベルの概念を1つのシーンで特定することは複雑な課題である。
近年の手法では、複数の概念を学習するために個々のイメージの収穫やマスキングに頼っているが、これらの手法は、しばしば新しい概念の事前知識を必要とし、労働集約的である。
この課題に対処するために、画像アノテーションを使わずに、複数の未知の「単語」を単一の文イメージ対から同時に学習するMCPL(Multi-Concept Prompt Learning)を導入する。
単語-概念相関の精度の向上と注意マスク境界の高度化を目的として,意図的マスキング,Prompts Contrastive Loss,Bind Adjectiveの3つの正規化手法を提案する。
実世界のカテゴリとバイオメディカルなイメージとの大規模な定量的比較は,本手法が新たな意味論的非絡み合いの概念を学習できることを実証している。
当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
プロジェクトページ、コード、データはhttps://astrazeneca.github.io/mcpl.github.ioで公開されている。
Textural Inversion, a prompt learning method, learns a singular text embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying multiple unknown object-level concepts within one scene remains a complex challenge. While recent methods have resorted to cropping or masking individual images to learn multiple concepts, these techniques often require prior knowledge of new concepts and are labour-intensive. To address this challenge, we introduce Multi-Concept Prompt Learning (MCPL), where multiple unknown "words" are simultaneously learned from a single sentence-image pair, without any imagery annotations. To enhance the accuracy of word-concept correlation and refine attention mask boundaries, we propose three regularisation techniques: Attention Masking, Prompts Contrastive Loss, and Bind Adjective. Extensive quantitative comparisons with both real-world categories and biomedical images demonstrate that our method can learn new semantically disentangled concepts. Our approach emphasises learning solely from textual embeddings, using less than 10% of the storage space compared to others. The project page, code, and data are available at https://astrazeneca.github.io/mcpl.github.io. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-25 |
# オフラインRLのトラクタブル推論
A Tractable Inference Perspective of Offline RL ( http://arxiv.org/abs/2311.00094v2 ) ライセンス: Link先を確認 | Xuejie Liu, Anji Liu, Guy Van den Broeck, Yitao Liang, | (参考訳) オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,正確なシーケンスモデルを取得することに加えて,様々な確率的クエリの正確かつ効率的な応答能力であるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
具体的には、オフラインデータ収集ポリシーと環境力学の基本的な確率性から、報酬行動を引き出すには、非常に非自明な条件付き/制約付き生成が必要である。
このようなクエリを近似することは依然として可能であり、そのような粗末な推定が表現的シーケンスモデルによってもたらされる利点を著しく損なうことを観察する。
そこで本研究では,Trifle (Tractable Inference for Offline RL) を提案する。このTrifle (Tractable Inference for Offline RL) は,Tractable Probabilistic Models (TPM) を利用して,良好なシーケンスモデルと高い予測リターンとのギャップを橋渡しする。
経験的に、Trifleは9つのGym-MuJoCoベンチマークにおいて、強いベースラインに対して最も最先端のスコアを達成している。
さらに、そのトラクタビリティにより、Trifleは確率的な環境や安全なRLタスク(例えば、行動制約のある)において、最小限のアルゴリズム修正で、従来のアプローチよりも大幅に優れている。
A popular paradigm for offline Reinforcement Learning (RL) tasks is to first fit the offline trajectories to a sequence model, and then prompt the model for actions that lead to high expected return. In addition to obtaining accurate sequence models, this paper highlights that tractability, the ability to exactly and efficiently answer various probabilistic queries, plays an important role in offline RL. Specifically, due to the fundamental stochasticity from the offline data-collection policies and the environment dynamics, highly non-trivial conditional/constrained generation is required to elicit rewarding actions. it is still possible to approximate such queries, we observe that such crude estimates significantly undermine the benefits brought by expressive sequence models. To overcome this problem, this paper proposes Trifle (Tractable Inference for Offline RL), which leverages modern Tractable Probabilistic Models (TPMs) to bridge the gap between good sequence models and high expected returns at evaluation time. Empirically, Trifle achieves the most state-of-the-art scores in 9 Gym-MuJoCo benchmarks against strong baselines. Further, owing to its tractability, Trifle significantly outperforms prior approaches in stochastic environments and safe RL tasks (e.g. with action constraints) with minimum algorithmic modifications. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-25 |
# 最適マルチエージェントポリシーグラディエント
Optimistic Multi-Agent Policy Gradient ( http://arxiv.org/abs/2311.01953v2 ) ライセンス: Link先を確認 | Wenshuai Zhao, Yi Zhao, Zhiyuan Li, Juho Kannala, Joni Pajarinen, | (参考訳) ※相対的過一般化*(RO)は、エージェントが他エージェントの過度な最適行動に適合するため、エージェントが最適下共同政策に収束する際に、協調的マルチエージェント学習タスクで発生する。
マルチエージェントポリシー勾配法(MAPG)ではROに対処する方法は提案されていないが,これらの手法は最先端の結果をもたらす。
このギャップに対処するために,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
当社のアプローチでは、負の値を排除し、MAPGの楽観的な更新を容易にするという利点をカットする。
この楽観主義は、個々のエージェントが局所的な楽観に素早く収束することを防ぐ。
さらに,提案手法が一定点における最適性を維持することを示す公式解析を行った。
Multi-agent MuJoCo* や *Overcooked* ベンチマークなど,さまざまなタスクセットに対する広範な評価では,テストされたタスク19つ中13つに対して,強いベースラインを上回り,残りのタスクのパフォーマンスにマッチする。
*Relative overgeneralization* (RO) occurs in cooperative multi-agent learning tasks when agents converge towards a suboptimal joint policy due to overfitting to suboptimal behavior of other agents. No methods have been proposed for addressing RO in multi-agent policy gradient (MAPG) methods although these methods produce state-of-the-art results. To address this gap, we propose a general, yet simple, framework to enable optimistic updates in MAPG methods that alleviate the RO problem. Our approach involves clipping the advantage to eliminate negative values, thereby facilitating optimistic updates in MAPG. The optimism prevents individual agents from quickly converging to a local optimum. Additionally, we provide a formal analysis to show that the proposed method retains optimality at a fixed point. In extensive evaluations on a diverse set of tasks including the *Multi-agent MuJoCo* and *Overcooked* benchmarks, our method outperforms strong baselines on 13 out of 19 tested tasks and matches the performance on the rest. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-25 |
# 200以上のカスタムGPTにおけるプロンプト注入リスクの評価
Assessing Prompt Injection Risks in 200+ Custom GPTs ( http://arxiv.org/abs/2311.11538v2 ) ライセンス: Link先を確認 | Jiahao Yu, Yuhang Wu, Dong Shu, Mingyu Jin, Sabrina Yang, Xinyu Xing, | (参考訳) 人工知能の急速な発展の中で、ChatGPTは様々な用途で広く使われてきた。
新機能 - 特定のニーズに対応するためにユーザによるChatGPTモデルのカスタマイズが、AIユーティリティの新たなフロンティアを開放した。
しかし,本研究では,これらのユーザカスタマイズGPTに固有の重大なセキュリティ脆弱性が明らかとなった。
ユーザ設計した200以上のGPTモデルの総合的なテストを通じて,これらのシステムがインジェクションのインジェクションに感受性があることを実証する。
プロンプトインジェクションによって、相手はカスタマイズされたシステムプロンプトを抽出するだけでなく、アップロードされたファイルにもアクセスできる。
本稿では,このような攻撃を軽減できる可能性の評価とともに,インパルス注入の直接的解析を行う。
我々の発見は、カスタマイズ可能なGPTモデルの設計と展開において、堅牢なセキュリティフレームワークが緊急に必要であることを示している。
本論文の目的は,GPTカスタマイズのメリットがセキュリティとプライバシの侵害の犠牲にならないように,AIコミュニティにおける意識を高め,行動を促すことである。
In the rapidly evolving landscape of artificial intelligence, ChatGPT has been widely used in various applications. The new feature - customization of ChatGPT models by users to cater to specific needs has opened new frontiers in AI utility. However, this study reveals a significant security vulnerability inherent in these user-customized GPTs: prompt injection attacks. Through comprehensive testing of over 200 user-designed GPT models via adversarial prompts, we demonstrate that these systems are susceptible to prompt injections. Through prompt injection, an adversary can not only extract the customized system prompts but also access the uploaded files. This paper provides a first-hand analysis of the prompt injection, alongside the evaluation of the possible mitigation of such attacks. Our findings underscore the urgent need for robust security frameworks in the design and deployment of customizable GPT models. The intent of this paper is to raise awareness and prompt action in the AI community, ensuring that the benefits of GPT customization do not come at the cost of compromised security and privacy. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-25 |
# 高忠実な人間のアバターモデリングのためのアニマタブルで楽しいガウス
Animatable and Relightable Gaussians for High-fidelity Human Avatar Modeling ( http://arxiv.org/abs/2311.16096v4 ) ライセンス: Link先を確認 | Zhe Li, Yipengjing Sun, Zerong Zheng, Lizhen Wang, Shengping Zhang, Yebin Liu, | (参考訳) RGBビデオからアニマタブルな人間のアバターをモデル化することは、長年の課題である。
最近の研究は、通常3次元人間を表現するためにMLPベースの神経放射場(NeRF)を採用するが、純粋なMLPがポーズ依存の衣服の詳細を抑えることは困難である。
この目的のために、強力な2次元CNNと3次元ガウススプラッティングを利用して高忠実度アバターを作成する新しいアバター表現であるAnimatable Gaussianを導入する。
アニマタブルなアバターと3Dガウスアンを関連付けるために,入力ビデオからパラメトリックテンプレートを学習し,各画素が3Dガウスアンを表す2つの前後標準ガウス地図上でテンプレートをパラメータ化する。
学習されたテンプレートは、ドレスのようなよりゆるい服をモデル化するための衣服に適応する。
このようなテンプレート誘導2次元パラメータ化により、強力なStyleGANベースのCNNを用いて、ポーズ依存ガウス写像を学習し、詳細な動的外観をモデル化することができる。
さらに,新規なポーズに対して,より優れた一般化のためのポーズプロジェクション戦略を導入する。
アニマタブルなアバターのリアルなリライティングに対処するために,アバターを分解するアバター表現と環境照明を物理的にベースとしたレンダリングを導入する。
全体として、我々の手法は、動的で現実的で、一般化され、楽しく見えるアバターを作ることができる。
実験により,本手法が他の最先端手法よりも優れていることが示された。
Modeling animatable human avatars from RGB videos is a long-standing and challenging problem. Recent works usually adopt MLP-based neural radiance fields (NeRF) to represent 3D humans, but it remains difficult for pure MLPs to regress pose-dependent garment details. To this end, we introduce Animatable Gaussians, a new avatar representation that leverages powerful 2D CNNs and 3D Gaussian splatting to create high-fidelity avatars. To associate 3D Gaussians with the animatable avatar, we learn a parametric template from the input videos, and then parameterize the template on two front & back canonical Gaussian maps where each pixel represents a 3D Gaussian. The learned template is adaptive to the wearing garments for modeling looser clothes like dresses. Such template-guided 2D parameterization enables us to employ a powerful StyleGAN-based CNN to learn the pose-dependent Gaussian maps for modeling detailed dynamic appearances. Furthermore, we introduce a pose projection strategy for better generalization given novel poses. To tackle the realistic relighting of animatable avatars, we introduce physically-based rendering into the avatar representation for decomposing avatar materials and environment illumination. Overall, our method can create lifelike avatars with dynamic, realistic, generalized and relightable appearances. Experiments show that our method outperforms other state-of-the-art approaches. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-25 |
# 反トラストレコメンダシステムの攻撃防止に対する脆弱性の解明
Unveiling Vulnerabilities of Contrastive Recommender Systems to Poisoning Attacks ( http://arxiv.org/abs/2311.18244v2 ) ライセンス: Link先を確認 | Zongwei Wang, Junliang Yu, Min Gao, Hongzhi Yin, Bin Cui, Shazia Sadiq, | (参考訳) コントラスト学習(CL)は、リコメンデーション精度を高め、モデルロバスト性を向上する優れた能力により、リコメンデーターシステムの領域で最近注目を集めている。
本報告では,CLをベースとしたレコメンデータシステムの脆弱性は,その利点にもかかわらず,個々の項目の促進を目的とした毒殺攻撃の影響を受けやすいことを示す。
解析の結果,この脆弱性はInfoNCE損失による表現の均一な拡散に起因することが示唆された。
さらに、理論的および経験的な証拠は、この損失を最適化することは表現の滑らかなスペクトル値を好むことを示している。
この発見は、攻撃者がスペクトル値のより均一な分布を奨励し、表現分散の度合いを高めることにより、CLのこの最適化プロセスを促進できることを示唆している。
これらの知見により,両目的の枠組みを含むCLベースの推薦システムに対する潜在的中毒攻撃を明らかにすることを試みた。これは,InfoNCE損失の固有分散効果を増幅するために,よりスムーズなスペクトル値分布を誘導し,分散促進と,ターゲット項目の視認性を高めることを目的としている。
4つのデータセットで広範囲な実験を行い、攻撃モデルの脅威を検証する。
これらの脆弱性に光を当てることで、私たちの目標は、より堅牢なCLベースのレコメンデータシステムの開発を進めることです。
コードは \url{https://github.com/CoderWZW/ARLib} で公開されている。
Contrastive learning (CL) has recently gained prominence in the domain of recommender systems due to its great ability to enhance recommendation accuracy and improve model robustness. Despite its advantages, this paper identifies a vulnerability of CL-based recommender systems that they are more susceptible to poisoning attacks aiming to promote individual items. Our analysis indicates that this vulnerability is attributed to the uniform spread of representations caused by the InfoNCE loss. Furthermore, theoretical and empirical evidence shows that optimizing this loss favors smooth spectral values of representations. This finding suggests that attackers could facilitate this optimization process of CL by encouraging a more uniform distribution of spectral values, thereby enhancing the degree of representation dispersion. With these insights, we attempt to reveal a potential poisoning attack against CL-based recommender systems, which encompasses a dual-objective framework: one that induces a smoother spectral value distribution to amplify the InfoNCE loss's inherent dispersion effect, named dispersion promotion; and the other that directly elevates the visibility of target items, named rank promotion. We validate the threats of our attack model through extensive experimentation on four datasets. By shedding light on these vulnerabilities, our goal is to advance the development of more robust CL-based recommender systems. The code is available at \url{https://github.com/CoderWZW/ARLib}. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# それぞれのテスト画像は特定のプロンプトを保持する:2次元医用画像分割のための連続的なテスト時間適応
Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation ( http://arxiv.org/abs/2311.18363v4 ) ライセンス: Link先を確認 | Ziyang Chen, Yongsheng Pan, Yiwen Ye, Mengkang Lu, Yong Xia, | (参考訳) 分布シフトは、異なる医療センターから取得した医療画像に広く存在し、実世界の応用に事前訓練されたセマンティックセグメンテーションモデルを展開する上で重要な障害となる。
テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。
しかし、既存のほとんどの手法は、事前訓練されたモデルを更新することで適応し、一連の分散シフト(すなわち連続的なテスト時間適応設定の下で)に遭遇した場合にエラーの蓄積や破滅的な忘れをしがちである。
モデル更新に伴うこれらの課題を克服するため,本論文では,事前学習したモデルを凍結し,各テストイメージに対して特定のプロンプトをトレーニングし,バッチ正規化層内の統計を整合させるためのVisual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。
具体的には、少数のパラメータしか持たず、単一のイテレーションで効果的に訓練できる軽量な低周波プロンプトを提案する。
迅速な初期化を促進するため、我々はVPTTAをメモリバンクに装備し、現在のプロンプトを以前のものから恩恵を受ける。
さらに、ソースとターゲット統計を混合してウォームアップ統計を構築し、トレーニングプロセスを容易にするウォームアップ機構を設計する。
2つの医用画像セグメンテーションベンチマークタスクにおいて、他の最先端手法よりもVPTTAの方が優れていることを示す。
事前トレーニング済みのソースモデルのコードと重みはhttps://github.com/Chen-Ziyang/VPTTAで公開されている。
Distribution shift widely exists in medical images acquired from different medical centres and poses a significant obstacle to deploying the pre-trained semantic segmentation model in real-world applications. Test-time adaptation has proven its effectiveness in tackling the cross-domain distribution shift during inference. However, most existing methods achieve adaptation by updating the pre-trained models, rendering them susceptible to error accumulation and catastrophic forgetting when encountering a series of distribution shifts (i.e., under the continual test-time adaptation setup). To overcome these challenges caused by updating the models, in this paper, we freeze the pre-trained model and propose the Visual Prompt-based Test-Time Adaptation (VPTTA) method to train a specific prompt for each test image to align the statistics in the batch normalization layers. Specifically, we present the low-frequency prompt, which is lightweight with only a few parameters and can be effectively trained in a single iteration. To enhance prompt initialization, we equip VPTTA with a memory bank to benefit the current prompt from previous ones. Additionally, we design a warm-up mechanism, which mixes source and target statistics to construct warm-up statistics, thereby facilitating the training process. Extensive experiments demonstrate the superiority of our VPTTA over other state-of-the-art methods on two medical image segmentation benchmark tasks. The code and weights of pre-trained source models are available at https://github.com/Chen-Ziyang/VPTTA. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# PaSCo:不確かさに気付く都市3Dパノラマシーン
PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness ( http://arxiv.org/abs/2312.02158v2 ) ライセンス: Link先を確認 | Anh-Quan Cao, Angela Dai, Raoul de Charette, | (参考訳) 本稿では,最近人気のセマンティック・シーン・コンプリート(SSC)タスクを拡張したPanoptic Scene Completion(PSC)タスクを提案する。
我々のPSC提案では,スパースマルチスケールコンプリートから空でないボクセルにマスクを用いたハイブリッド手法を用いている。
SSCの文献は、ロボット工学の応用にとって重要な不確実性を見落としているのに対し、我々は、PSCに沿ったボクセルワイドとインスタンスワイドの両方の不確実性を評価する効率的なアンサンブルを提案する。
これは、MIMO(multi-input multi-output)戦略に基づいて構築され、性能を改善し、少ない計算量に対してより良い不確実性をもたらす。
さらに、置換不変マスク予測を集約する手法を導入する。
実験により,Panoptic Scene Completionと3つの大規模自律走行データセットにおける不確実性評価の両方において,本手法が全ベースラインを超えることを示した。
私たちのコードとデータはhttps://astra-vision.github.io/PaSCoで公開されています。
We propose the task of Panoptic Scene Completion (PSC) which extends the recently popular Semantic Scene Completion (SSC) task with instance-level information to produce a richer understanding of the 3D scene. Our PSC proposal utilizes a hybrid mask-based technique on the non-empty voxels from sparse multi-scale completions. Whereas the SSC literature overlooks uncertainty which is critical for robotics applications, we instead propose an efficient ensembling to estimate both voxel-wise and instance-wise uncertainties along PSC. This is achieved by building on a multi-input multi-output (MIMO) strategy, while improving performance and yielding better uncertainty for little additional compute. Additionally, we introduce a technique to aggregate permutation-invariant mask predictions. Our experiments demonstrate that our method surpasses all baselines in both Panoptic Scene Completion and uncertainty estimation on three large-scale autonomous driving datasets. Our code and data are available at https://astra-vision.github.io/PaSCo . | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# DiffusionSat: 衛星画像のための生成基盤モデル
DiffusionSat: A Generative Foundation Model for Satellite Imagery ( http://arxiv.org/abs/2312.03606v2 ) ライセンス: Link先を確認 | Samar Khanna, Patrick Liu, Linqi Zhou, Chenlin Meng, Robin Rombach, Marshall Burke, David Lobell, Stefano Ermon, | (参考訳) 拡散モデルは、画像、音声、ビデオを含む多くのモダリティに対して最先端の結果を得た。
しかし、既存のモデルはリモートセンシングデータをサポートするように調整されておらず、環境モニタリングや収穫量予測といった重要な応用に広く利用されている。
衛星画像は自然画像とは大きく異なる -- マルチスペクトルで、時間をかけて不規則にサンプリングできる -- であり、Webの画像でトレーニングされた既存の拡散モデルはそれらをサポートしない。
さらに、リモートセンシングデータは本質的に時空間であり、キャプションや画像に基づく従来の手法ではサポートされない条件生成タスクを必要とする。
本稿では,DiffusionSatについて紹介する。DiffusionSatは,現在利用可能な大規模で高解像度なリモートセンシングデータセットの集合に基づいてトレーニングされている,最大の生成基盤モデルである。
衛星画像にはテキストベースのキャプションが少ないため、位置情報などの関連メタデータを条件情報として組み込む。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
提案手法は,衛星画像生成における従来の最先端手法よりも優れており,衛星画像の大規模生成基盤モデルとしては初めてのものである。
プロジェクトのWebサイトは以下の通りである。
Diffusion models have achieved state-of-the-art results on many modalities including images, speech, and video. However, existing models are not tailored to support remote sensing data, which is widely used in important applications including environmental monitoring and crop-yield prediction. Satellite images are significantly different from natural images -- they can be multi-spectral, irregularly sampled across time -- and existing diffusion models trained on images from the Web do not support them. Furthermore, remote sensing data is inherently spatio-temporal, requiring conditional generation tasks not supported by traditional methods based on captions or images. In this paper, we present DiffusionSat, to date the largest generative foundation model trained on a collection of publicly available large, high-resolution remote sensing datasets. As text-based captions are sparsely available for satellite images, we incorporate the associated metadata such as geolocation as conditioning information. Our method produces realistic samples and can be used to solve multiple generative tasks including temporal generation, superresolution given multi-spectral inputs and in-painting. Our method outperforms previous state-of-the-art methods for satellite image generation and is the first large-scale generative foundation model for satellite imagery. The project website can be found here: https://samar-khanna.github.io/DiffusionSat/ | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# 条件付きバリュー・アット・リスクテストによるマルチグループフェアネス評価
Multi-Group Fairness Evaluation via Conditional Value-at-Risk Testing ( http://arxiv.org/abs/2312.03867v2 ) ライセンス: Link先を確認 | Lucas Monteiro Paes, Ananda Theertha Suresh, Alex Beutel, Flavio P. Calmon, Ahmad Beirami, | (参考訳) 予測と分類タスクで使用される機械学習(ML)モデルは、センシティブな属性(例えば、人種、性別、年齢)によって決定された集団間でのパフォーマンス格差を表示することができる。
複数の属性(例えば、人種、性別、年齢)によって定義される集団間での固定MLモデルの性能を評価することの問題点を考察する。
ここでは、グループ間での最悪のパフォーマンスギャップ(例えば、エラー率の最大の差)を推定するサンプルの複雑さは、グループ記述の機密属性の数とともに指数関数的に増加する。
この問題に対処するため,CVaR(Conditional Value-at-Risk)に基づく性能格差テスト手法を提案する。
モデルがほぼ等しい性能を持つ群上での小さな確率的スラックを許容することにより、性能違反を発見するのに必要なサンプルの複雑さを指数関数的に減らし、群数の平方根によって最も上界にあることを示す。
解析の副産物として、群が特定の事前分布によって重み付けされている場合、先行分布の次数2/3のR'enyiエントロピーが、提案したCVaRテストアルゴリズムのサンプル複雑性を捉えていることを示す。
最後に、グループ数によらず、サンプルの複雑さをもたらす非i.d.データ収集戦略が存在することも示している。
Machine learning (ML) models used in prediction and classification tasks may display performance disparities across population groups determined by sensitive attributes (e.g., race, sex, age). We consider the problem of evaluating the performance of a fixed ML model across population groups defined by multiple sensitive attributes (e.g., race and sex and age). Here, the sample complexity for estimating the worst-case performance gap across groups (e.g., the largest difference in error rates) increases exponentially with the number of group-denoting sensitive attributes. To address this issue, we propose an approach to test for performance disparities based on Conditional Value-at-Risk (CVaR). By allowing a small probabilistic slack on the groups over which a model has approximately equal performance, we show that the sample complexity required for discovering performance violations is reduced exponentially to be at most upper bounded by the square root of the number of groups. As a byproduct of our analysis, when the groups are weighted by a specific prior distribution, we show that R\'enyi entropy of order 2/3 of the prior distribution captures the sample complexity of the proposed CVaR test algorithm. Finally, we also show that there exists a non-i.i.d. data collection strategy that results in a sample complexity independent of the number of groups. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# 身体的インテリジェンスのための自己モデル:階層的低次元表現を用いたフルボディヒト筋骨格系とロコモーション制御のモデル化
Self Model for Embodied Intelligence: Modeling Full-Body Human Musculoskeletal System and Locomotion Control with Hierarchical Low-Dimensional Representation ( http://arxiv.org/abs/2312.05473v4 ) ライセンス: Link先を確認 | Chenhui Zuo, Kaibo He, Jing Shao, Yanan Sui, | (参考訳) ヒトの筋骨格系のモデリングと制御は、ヒトの運動機能を理解し、インボディードインテリジェンスを開発し、ヒトとロボットの相互作用システムを最適化するために重要である。
しかし、現在のヒト筋骨格モデルは、限られた身体部位に限られており、しばしば筋肉の数が減少している。
また、合理的な人間の動きを生成するために600以上の筋肉を制御できるアルゴリズムが欠如している。
このギャップを埋めるために、90個の体節、206個の関節、700個の筋腱ユニットを備えた筋骨格モデル(MS-Human-700)を構築し、全身動態のシミュレーションと様々なデバイスとの相互作用を可能にする。
低次元表現と階層的深部強化学習を用いた新しいアルゴリズムを開発し、最先端のフルボディ制御を実現する。
我々は,実際の人間の移動データを用いたシミュレーションにおいて,モデルとアルゴリズムの有効性を検証した。
筋骨格モデルは、その制御アルゴリズムとともに、人間のモーションコントロールのより深い理解と対話型ロボットの設計を促進するために研究コミュニティに提供される。
プロジェクトページ:https://lnsgroup.cc/research/MS-Human-700
Modeling and control of the human musculoskeletal system is important for understanding human motor functions, developing embodied intelligence, and optimizing human-robot interaction systems. However, current human musculoskeletal models are restricted to a limited range of body parts and often with a reduced number of muscles. There is also a lack of algorithms capable of controlling over 600 muscles to generate reasonable human movements. To fill this gap, we build a musculoskeletal model (MS-Human-700) with 90 body segments, 206 joints, and 700 muscle-tendon units, allowing simulation of full-body dynamics and interaction with various devices. We develop a new algorithm using low-dimensional representation and hierarchical deep reinforcement learning to achieve state-of-the-art full-body control. We validate the effectiveness of our model and algorithm in simulations with real human locomotion data. The musculoskeletal model, along with its control algorithm, will be made available to the research community to promote a deeper understanding of human motion control and better design of interactive robots. Project page: https://lnsgroup.cc/research/MS-Human-700 | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-25 |
# 共形接合における熱的絡み合い
Thermal entanglement in conformal junctions ( http://arxiv.org/abs/2312.08275v2 ) ライセンス: Link先を確認 | Luca Capizzi, Andrei Rotaru, | (参考訳) 1+1次元境界共形場理論(BCFT)により記述された量子接合を考える。
解析は, 絡み合いの計算によって達成される有限温度での相関に焦点をあてる。
提案手法は,BCFT法によるツイスト場の相関関数の特徴付けに依存する。
我々は,低温と高温の交叉を非摂動予測する。
上記フィールドのバルク/バウンダリスケーリング次元に関連するバルク効果と境界効果の興味深い相互作用を見いだす。
特に、絡み合いエントロピーは、主にバルク熱ゆらぎの影響を受けており、欠陥の散乱特性に依存せず、大きなシステムサイズに対して広範囲性を示す。
対照的に、負性は絡み合う点のみのゆらぎによって支配され、領域法則に固執する;その値は欠陥に非自明に依存し、温度が低下するにつれて対数的に発散する。
予測を検証するために,格子上の自由フェルミオンを数値的に検証し,良好な一致を求める。
We consider a quantum junction described by a 1+1-dimensional boundary conformal field theory (BCFT). Our analysis focuses on correlations emerging at finite temperature, achieved through the computation of entanglement measures. Our approach relies on characterizing correlation functions of twist fields using BCFT techniques. We provide non-perturbative predictions for the crossover between low and high temperatures. An intriguing interplay between bulk and boundary effects, associated with the bulk/boundary scaling dimensions of the fields above, is found. In particular, the entanglement entropy is primarily influenced by bulk thermal fluctuations, exhibiting extensiveness for large system sizes with a prefactor independent of the scattering properties of the defect. In contrast, negativity is governed by fluctuations across the entangling points only, adhering to an area law; its value depends non-trivially on the defect, and it diverges logarithmically as the temperature is decreased. To validate our predictions, we numerically check them for free fermions on the lattice, finding good agreement. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-25 |
# 模擬アニーリングに基づく最小重み付きドミネート集合問題に対する多目的最適化アルゴリズム
A Simulated Annealing-Based Multiobjective Optimization Algorithm for Minimum Weight Minimum Connected Dominating Set Problem ( http://arxiv.org/abs/2312.11527v2 ) ライセンス: Link先を確認 | Hayet Dahmri, Salim Bouamama, | (参考訳) 最小連結支配集合問題は、グラフ理論におけるNPハード組合せ最適化問題である。
接続された支配集合を見つけることは、無線センサネットワーク、光ネットワーク、システム生物学など様々な分野に高い関心を持っている。
その重み付き変種である最小重み付き支配集合は、そのような応用にも有用である。
本稿では,最小連結支配集合問題の変種に対処するための欲求的ヒューリスティックに基づく擬似アニーリングアルゴリズムを提案する。
近年の研究では,本手法の優位性について検討した。
Minimum connected dominating set problem is an NP-hard combinatorial optimization problem in graph theory. Finding connected dominating set is of high interest in various domains such as wireless sensor networks, optical networks, and systems biology. Its weighted variant named minimum weight connected dominating set is also useful in such applications. In this paper, we propose a simulated annealing algorithm based on a greedy heuristic for tackling a variant of the minimum connected dominating set problem and that by exploiting two objectives together namely the cardinality and the total weight of the connected dominating set. Experimental results compared to those obtained by a recent proposed research show the superiority of our approach. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-25 |
# 効率的な検証に基づく顔の同定
Efficient Verification-Based Face Identification ( http://arxiv.org/abs/2312.13240v2 ) ライセンス: Link先を確認 | Amit Rozner, Barak Battash, Ofir Lindenbaum, Lior Wolf, | (参考訳) 効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
$f$の効率性は、顔認証問題を、最も近い隣人探索からバイナリ問題への埋め込みから単純化することにある。
トレーニングセット内の異なる個人間での情報共有を可能にするため、直接$f$をトレーニングするのではなく、ハイパーネットワークの$h$を使ってモデルウェイトを生成する。
これにより、エッジデバイスにデプロイ可能な、顔識別のためのコンパクトなパーソナライズされたモデルが生成される。
この手法の成功の鍵は、ハードネガティブを発生させ、トレーニング目標を慎重にスケジューリングする新しい方法である。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$につながる。
我々は、6つの顔検証データセットを用いて、我々の手法が最先端モデルと同等かそれ以上であり、パラメータの数と計算負荷が大幅に削減されていることを示す。
さらに,本手法における各要素の重要性を実証するために,広範囲にわたるアブレーション研究を行った。
We study the problem of performing face verification with an efficient neural model $f$. The efficiency of $f$ stems from simplifying the face verification problem from an embedding nearest neighbor search into a binary problem; each user has its own neural network $f$. To allow information sharing between different individuals in the training set, we do not train $f$ directly but instead generate the model weights using a hypernetwork $h$. This leads to the generation of a compact personalized model for face identification that can be deployed on edge devices. Key to the method's success is a novel way of generating hard negatives and carefully scheduling the training objectives. Our model leads to a substantially small $f$ requiring only 23k parameters and 5M floating point operations (FLOPS). We use six face verification datasets to demonstrate that our method is on par or better than state-of-the-art models, with a significantly reduced number of parameters and computational burden. Furthermore, we perform an extensive ablation study to demonstrate the importance of each element in our method. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-25 |
# 量子コンピュータのQCDに向けて:オービフォールド格子アプローチ
Toward QCD on Quantum Computer: Orbifold Lattice Approach ( http://arxiv.org/abs/2401.12045v3 ) ライセンス: Link先を確認 | Georg Bergner, Masanori Hanada, Enrico Rinaldi, Andreas Schafer, | (参考訳) 量子シミュレーションに適したQCDのオービフォールド格子定式化を提案する。
非コンパクト変数を用いてゲージ自由度を量子ビットにエンコードする方法と、座標基底で単純なトランケートされたハミルトニアンを記述する方法を明確に示す。
基本表現における SU(3) ゲージ群変数とクォークは、ゲージ多様体の任意のトランケーションに対して、立方体上で直接的に実装可能であることを示す。
We propose an orbifold lattice formulation of QCD suitable for quantum simulations. We show explicitly how to encode gauge degrees of freedom into qubits using noncompact variables, and how to write down a simple truncated Hamiltonian in the coordinate basis. We show that SU(3) gauge group variables and quarks in the fundamental representation can be implemented straightforwardly on qubits, for arbitrary truncation of the gauge manifold. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-25 |
# 深層学習ネットワークを用いたフルオロスコープ画像と映像の画像処理と分割のためのリアルタイム自動手法
An Automated Real-Time Approach for Image Processing and Segmentation of Fluoroscopic Images and Videos Using a Single Deep Learning Network ( http://arxiv.org/abs/2401.12488v2 ) ライセンス: Link先を確認 | Viet Dung Nguyen, Michael T. LaCour, Richard D. Komistek, | (参考訳) 人工膝関節全置換術のイメージセグメンテーションは, 正確な術前計画とインプラント位置決めに不可欠であり, 手術成績と患者満足度の改善につながる。
人工膝関節置換術におけるイメージセグメンテーションの最大の課題は、複雑な解剖学的構造を正確に記述すること、画像アーティファクトとノイズを扱うこと、そして患者でよく見られる解剖学的変化と病理を処理できる堅牢なアルゴリズムを開発することである。
人工膝関節置換術におけるイメージセグメンテーションに機械学習を使用することの可能性は、セグメンテーションの精度を向上し、プロセスを自動化し、外科医にリアルタイムの支援を提供し、手術計画の強化、インプラントの配置、患者の成果をもたらすことである。
本稿では, 人工膝関節全置換術における高精細度・高精細度画像分割のためのディープラーニング手法を提案する。
大規模なデータセットに基づいてトレーニングされたディープラーニングモデルは、インプラントされた大腿骨とティアビアの両方を正確にセグメンテーションし、地上の真実と比較して88.83の平均精度(mAP)を印象的に達成し、同時に毎秒20フレームのリアルタイムセグメンテーション速度(fps)を達成している。
人工膝関節鏡またはX線画像のセグメント化のための新しい手法を導入し, 精度と速度の顕著なレベルを示し, 様々な応用の道を開いた。
Image segmentation in total knee arthroplasty is crucial for precise preoperative planning and accurate implant positioning, leading to improved surgical outcomes and patient satisfaction. The biggest challenges of image segmentation in total knee arthroplasty include accurately delineating complex anatomical structures, dealing with image artifacts and noise, and developing robust algorithms that can handle anatomical variations and pathologies commonly encountered in patients. The potential of using machine learning for image segmentation in total knee arthroplasty lies in its ability to improve segmentation accuracy, automate the process, and provide real-time assistance to surgeons, leading to enhanced surgical planning, implant placement, and patient outcomes. This paper proposes a methodology to use deep learning for robust and real-time total knee arthroplasty image segmentation. The deep learning model, trained on a large dataset, demonstrates outstanding performance in accurately segmenting both the implanted femur and tibia, achieving an impressive mean-Average-Precision (mAP) of 88.83 when compared to the ground truth while also achieving a real-time segmented speed of 20 frames per second (fps). We have introduced a novel methodology for segmenting implanted knee fluoroscopic or x-ray images that showcases remarkable levels of accuracy and speed, paving the way for various potential extended applications. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-25 |
# 最適輸送による分散対物的説明
Distributional Counterfactual Explanation With Optimal Transport ( http://arxiv.org/abs/2401.13112v3 ) ライセンス: Link先を確認 | Lei You, Lele Cao, Mattias Nilsson, Bo Zhao, Lei Lei, | (参考訳) 対実的説明 (CE) は、異なる結果をもたらす代替入力インスタンスを特定することによって、ブラックボックス決定モデルにおける洞察と解釈可能性を提供するデファクト手法である。
本稿では、CEの概念を分散コンテキストに拡張し、個々のデータポイントから、分散対実的説明(DCE)と呼ばれる入力と出力の分布全体までの範囲を広げる。
DCEでは、利害関係者の視点を取り入れ、事実と反事実の分布特性の分析に焦点を移し、個別のインスタンスと結果の決定を古典的なアプローチで評価している。
我々は,確率制約付き最適化問題の枠組み化に最適な輸送(OT)を活用し,統計的信頼度で検証した実例と密に一致した反事実分布を導出することを目的とした。
提案手法であるDiscountは,入力分布と出力分布の両方において,この信頼性を戦略的にバランスさせる。
このアルゴリズムは収束速度の分析を伴う。
提案手法の有効性は, 定量的, 質的な実験を通じて実証され, 意思決定モデルに深い洞察を与える可能性を強調している。
Counterfactual explanations (CE) are the de facto method of providing insight and interpretability in black-box decision-making models by identifying alternative input instances that lead to different outcomes. This paper extends the concept of CE to a distributional context, broadening the scope from individual data points to entire input and output distributions, named distributional counterfactual explanation (DCE). In DCE, we take the stakeholder's perspective and shift focus to analyzing the distributional properties of the factual and counterfactual, drawing parallels to the classical approach of assessing individual instances and their resulting decisions. We leverage optimal transport (OT) to frame a chance-constrained optimization problem, aiming to derive a counterfactual distribution that closely aligns with its factual counterpart, substantiated by statistical confidence. Our proposed optimization method, Discount, strategically balances this confidence in both the input and output distributions. This algorithm is accompanied by an analysis of its convergence rate. The efficacy of our proposed method is substantiated through a series of quantitative and qualitative experiments, highlighting its potential to provide deep insights into decision-making models. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-25 |
# 不均一データから分子特性を予測するマルチタスク法
Multitask methods for predicting molecular properties from heterogeneous data ( http://arxiv.org/abs/2401.17898v2 ) ライセンス: Link先を確認 | Katharine Fisher, Michael Herbst, Youssef Marzouk, | (参考訳) データ生成は、分子特性を予測するために代理モデルを訓練する際のボトルネックである。
マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで、この制限を克服することを実証する。
特に,結合クラスタ(CC)と密度汎関数理論(DFT)のデータから構築したトレーニングセットを検討する。
マルチタスクサロゲートは,データ生成コストを1桁以上削減し,CCレベルの精度で予測可能であることを報告した。
なお,本手法では,関数の精度に人工的階層を課すことなく,不均一な相互相関関数の混合によって生成されたDFTデータをトレーニングセットに含めることができる。
より一般的には、multitaskフレームワークは、$\Delta$-learningに基づく既存のカーネルアプローチと、異なるレベルの忠実さの完全な相違を含む、幅広いトレーニングセット構造に対応できるが、この2つのアプローチの正確性は似ていることを示している。
したがって、マルチタスク回帰は、既存のデータソースを機会的に活用することで、データ生成コストをさらに削減できるツールである。
Data generation remains a bottleneck in training surrogate models to predict molecular properties. We demonstrate that multitask Gaussian process regression overcomes this limitation by leveraging both expensive and cheap data sources. In particular, we consider training sets constructed from coupled-cluster (CC) and density functional theory (DFT) data. We report that multitask surrogates can predict at CC-level accuracy with a reduction to data generation cost by over an order of magnitude. Of note, our approach allows the training set to include DFT data generated by a heterogeneous mix of exchange-correlation functionals without imposing any artificial hierarchy on functional accuracy. More generally, the multitask framework can accommodate a wider range of training set structures -- including full disparity between the different levels of fidelity -- than existing kernel approaches based on $\Delta$-learning, though we show that the accuracy of the two approaches can be similar. Consequently, multitask regression can be a tool for reducing data generation costs even further by opportunistically exploiting existing data sources. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-25 |
# BAT:大規模言語モデルによる空間音の推論学習
BAT: Learning to Reason about Spatial Sounds with Large Language Models ( http://arxiv.org/abs/2402.01591v2 ) ライセンス: Link先を確認 | Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David Harwath, | (参考訳) 空間音の推論は人間の基本的なスキルであり、音に基づいて周囲をナビゲートし解釈することができる。
本稿では,バイノーラル音響シーン解析モデルの空間音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせることで,本能力を再現するBATを提案する。
そこで我々はAudioSetとSoundSpaces 2.0を用いてバイノーラルオーディオデータセットを合成した。
次に,空間音響に基づく質問応答データセットであるSpatialSoundQAを開発し,空間音知覚と推論の様々な側面において,BATを訓練する様々なQAタスクを提供した。
BATの音響フロントエンドエンコーダは、空間音響スペクトログラム変換器(Spatial Audio Spectrogram Transformer、Spatial-AST)と呼ばれる新しい空間オーディオエンコーダであり、音響事象の検出、空間的局所化、距離推定などを通じて高い性能を達成する。
空間ASTをLLaMA-2 7Bモデルと統合することにより、BATは標準的な音事象の局所化と検出(SELD)タスクを超越し、モデルが環境内の音間の関係を推論できるようにする。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示し,複雑な空間音環境のナビゲートおよび解釈におけるLLMの潜在可能性を示した。
Spatial sound reasoning is a fundamental human skill, enabling us to navigate and interpret our surroundings based on sound. In this paper we present BAT, which combines the spatial sound perception ability of a binaural acoustic scene analysis model with the natural language reasoning capabilities of a large language model (LLM) to replicate this innate ability. To address the lack of existing datasets of in-the-wild spatial sounds, we synthesized a binaural audio dataset using AudioSet and SoundSpaces 2.0. Next, we developed SpatialSoundQA, a spatial sound-based question-answering dataset, offering a range of QA tasks that train BAT in various aspects of spatial sound perception and reasoning. The acoustic front end encoder of BAT is a novel spatial audio encoder named Spatial Audio Spectrogram Transformer, or Spatial-AST, which by itself achieves strong performance across sound event detection, spatial localization, and distance estimation. By integrating Spatial-AST with LLaMA-2 7B model, BAT transcends standard Sound Event Localization and Detection (SELD) tasks, enabling the model to reason about the relationships between the sounds in its environment. Our experiments demonstrate BAT's superior performance on both spatial sound perception and reasoning, showcasing the immense potential of LLMs in navigating and interpreting complex spatial audio environments. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-25 |
# BVI-Lowlight: 低照度ビデオ拡張のためのベンチマークデータセットを完全登録
BVI-Lowlight: Fully Registered Benchmark Dataset for Low-Light Video Enhancement ( http://arxiv.org/abs/2402.01970v2 ) ライセンス: Link先を確認 | Nantheera Anantrasirichai, Ruirui Lin, Alexandra Malyugina, David Bull, | (参考訳) 低照度ビデオはしばしば時空間的不整合ノイズを示し、視認性が悪く、様々なコンピュータビジョンアプリケーションで性能が損なわれている。
このようなコンテンツを現代技術を使って拡張する上で重要な課題は、トレーニングデータの不足である。
本稿では,2つの異なる低照度条件下で様々な動きシナリオで撮影される40のシーンからなる,新しい低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた、完全に登録された地上の真実データを、画像ベースの後処理により精査し、異なる光レベルにおけるフレームのピクセルワイドアライメントを保証する。
また,低照度データセットの包括的分析を行い,教師あり学習の文脈におけるデータセットの広範かつ代表的特性を示す。
実験の結果,低照度映像強調法の開発における完全登録ビデオペアの重要性と総合評価の必要性が示された。
私たちのデータセットはDOI:10.21227/mzny-8c77で利用可能です。
Low-light videos often exhibit spatiotemporal incoherent noise, leading to poor visibility and compromised performance across various computer vision applications. One significant challenge in enhancing such content using modern technologies is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes captured in various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly, and subsequently, refine them via image-based post-processing to ensure the pixel-wise alignment of frames in different light levels. This paper also presents an exhaustive analysis of the low-light dataset, and demonstrates the extensive and representative nature of our dataset in the context of supervised learning. Our experimental results demonstrate the significance of fully registered video pairs in the development of low-light video enhancement methods and the need for comprehensive evaluation. Our dataset is available at DOI:10.21227/mzny-8c77. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-25 |
# 組合せ最適化問題における逆解探索のための連続テンソル緩和法
Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems ( http://arxiv.org/abs/2402.02190v2 ) ライセンス: Link先を確認 | Yuma Ichikawa, Hiroaki Iwashita, | (参考訳) 最適解を見つけることは組合せ最適化(CO)において共通の目的である。
実際には、直接的に制約を扱うことはしばしば困難であり、それらは罰則として客観的な機能に組み込まれている。
しかし、これらの罰則のバランスが望ましいソリューションを達成するのに時間がかかる。
さらに、定式化された目的関数と制約は、しばしば実世界のシナリオに近似するだけであり、最適解が元の実世界の問題にとって必ずしも最良の解ではない。
一つの解決策は
一 前号の罰則の異なる罰則の解
(II)後者の課題に対する異なる特徴を持つ変分解。
ユーザは、これらの多様なソリューションから、望ましいソリューションをポストセレクトできる。
しかし、これらの多様な解を効率的に見つけることは、それらを特定することよりも難しい。
本研究では,教師なし学習(UL)に基づくCOソルバのための連続的テンソル緩和アニーリング(CTRA)を紹介した。
鍵となる考え方は、表現学習能力を活用して、共通の表現と並列化を自動的にかつ効率的に学習することだ。
数値実験により、CTRAは既存のULベースの解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
Finding the best solution is a common objective in combinatorial optimization (CO). In practice, directly handling constraints is often challenging, incorporating them into the objective function as the penalties. However, balancing these penalties to achieve the desired solution is time-consuming. Additionally, formulated objective functions and constraints often only approximate real-world scenarios, where the optimal solution is not necessarily the best solution for the original real-world problem. One solution is to obtain (i) penalty-diversified solutions with varying penalty strengths for the former issue and (ii) variation-diversified solutions with different characteristics for the latter issue. Users can then post-select the desired solution from these diverse solutions. However, efficiently finding these diverse solutions is more difficult than identifying one. This study introduces Continual Tensor Relaxation Annealing (CTRA) for unsupervised-learning (UL)-based CO solvers, a computationally efficient framework for finding these diverse solutions in a single training run. The key idea is to leverage representation learning capability to automatically and efficiently learn common representations and parallelization. Numerical experiments show that CTRA enables UL-based solvers to find these diverse solutions much faster than repeatedly running existing UL-based solvers. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-25 |
# 逐次最適化における平滑な目的関数におけるモメンタムの役割
Role of Momentum in Smoothing Objective Function in Implicit Graduated Optimization ( http://arxiv.org/abs/2402.02325v2 ) ライセンス: Link先を確認 | Naoki Sato, Hideaki Iiduka, | (参考訳) 運動量を持つ確率勾配降下(SGD)は、高速収束と優れた一般化性を持つが、理論的には不足している。
本稿では,運動量を持つSGDが目的関数を滑らかにし,学習速度,バッチサイズ,運動量係数,確率勾配のばらつき,勾配ノルムの上界によって決定される度合いを示す。
この理論的な発見は、運動量が一般化可能性を向上させる理由を明らかにし、運動量因子を含むハイパーパラメーターの役割に関する新たな洞察を提供する。
また、運動量を持つSGDの滑らか化特性を利用した暗黙的な漸進最適化アルゴリズムを提案し、運動量を持つSGDが目的関数を滑らかにすることを示す実験結果を提供する。
While stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, a theoretical explanation for this is lacking. In this paper, we show that SGD with momentum smooths the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. This theoretical finding reveals why momentum improves generalizability and provides new insights into the role of the hyperparameters, including momentum factor. We also present an implicit graduated optimization algorithm that exploits the smoothing properties of SGD with momentum and provide experimental results supporting our assertion that SGD with momentum smooths the objective function. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-25 |
# 分散データに対する条件平均処理効果の推定:プライバシー保護アプローチ
Estimation of conditional average treatment effects on distributed data: A privacy-preserving approach ( http://arxiv.org/abs/2402.02672v2 ) ライセンス: Link先を確認 | Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai, | (参考訳) 条件付き平均治療効果(CATE)の推定は、科学において重要なトピックである。
複数のパーティにわたる分散データが集中できる場合、CATEは高い精度で推定できる。
しかし、プライバシー上の懸念から、このようなデータを集約することは困難である。
この問題に対処するため,分散データのプライバシ保存を伴うCATEモデルを推定し,シミュレーションにより評価する手法として,データコラボレーションダブル機械学習を提案する。
私たちの貢献は以下の3つの点で要約されている。
まず,分散データ上で反復的な通信を行うことなく,半パラメトリックCATEモデルの推定とテストを可能にする。
半パラメトリックCATEモデルは、パラメトリックモデルよりも誤特定をモデル化するのに堅牢な推定とテストを可能にする。
第2に、複数の時間点と異なる当事者間の協調的な推定を可能にする。
第3に,本手法は,合成,半合成,実世界のデータセットを用いたシミュレーションにおいて,他の手法と等しくあるいは同等に動作する。
Estimation of conditional average treatment effects (CATEs) is an important topic in sciences. CATEs can be estimated with high accuracy if distributed data across multiple parties can be centralized. However, it is difficult to aggregate such data owing to privacy concerns. To address this issue, we proposed data collaboration double machine learning, a method that can estimate CATE models with privacy preservation of distributed data, and evaluated the method through simulations. Our contributions are summarized in the following three points. First, our method enables estimation and testing of semi-parametric CATE models without iterative communication on distributed data. Semi-parametric CATE models enable estimation and testing that is more robust to model mis-specification than parametric models. Second, our method enables collaborative estimation between multiple time points and different parties. Third, our method performed equally or better than other methods in simulations using synthetic, semi-synthetic and real-world datasets. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-25 |
# サーマル貯水池におけるコンパス状状態とその非古典的特徴の脆弱性
Compasslike states in a thermal reservoir and fragility of their nonclassical features ( http://arxiv.org/abs/2402.02971v2 ) ライセンス: Link先を確認 | Naeem Akhtar, Xiaosen Yang, Muhammad Asjad, Jia-Xin Peng, Gao Xianlong, Yuanping Chen, | (参考訳) 重畳された光子付加および光子置換されたスクリュッド真空状態は、元のコンパス状態(4つのコヒーレント状態の仮定)に類似したサブプランク相空間構造とメタロジカルポテンシャルを示すが、より近代的な実験と密接に結びついている。
ここでは, これらのコンパス状状態は, 熱貯水池と接触すると量子コヒーレンスが失われる可能性が高く, 熱貯水池との相互作用が脱コヒーレンスを引き起こし, 干渉特性を示すためにこれらの状態のキャパシティを徐々に抑制する。
これらの状態のサブプランク構造に注目し、これらの特徴に対するデコヒーレンス効果は、貯水池の平均熱光子数、スクイーズパラメータ、または圧縮された真空状態への付加(または減算)光子の量を増加させることによってより強くなることを示した。
さらに,光子減圧ケースのサブプランク構造は,光子減圧ケースのサブプランク構造が,光子減圧ケースのサブプランク構造よりも比較的長くなることを観察し,これらのコンパス状状態を古典的状態に変換する。
Superposed photon-added and photon-subtracted squeezed-vacuum states exhibit sub-Planck phase-space structures and metrological potential similar to the original compass states (superposition of four coherent states), but are more closely tied to modern experiments. Here, we observe that these compasslike states are highly susceptible to loss of quantum coherence when placed in contact with a thermal reservoir; that is, the interaction with the thermal reservoir causes decoherence, which progressively suppresses the capacity of these states to exhibit interference traits. We focus on the sub-Planck structures of these states and find that decoherence effects on these features are stronger with increasing the average thermal photon number of the reservoir, the squeezing parameter, or the quantity of added (or subtracted) photons to the squeezed-vacuum states. Furthermore, we observe that the sub-Planck structures of the photon-subtracted case survive comparatively longer in the thermal reservoir than their counterparts in the photon-added case, and prolonged contact with the thermal reservoir converts these compasslike states into a classical state. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-25 |
# P)ReLU MLPエキスパートの近似速度とVC次元境界
Approximation Rates and VC-Dimension Bounds for (P)ReLU MLP Mixture of Experts ( http://arxiv.org/abs/2402.03460v2 ) ライセンス: Link先を確認 | Anastasis Kratsios, Haitz Sáez de Ocáriz Borde, Takashi Furuya, Marc T. Law, | (参考訳) Mixture-of-Experts (MoEs)は、単一の"Expert"ディープラーニングモデルによって各入力が処理されるルーティング戦略を利用することで、従来のディープラーニングモデルを超えてスケールアップすることができる。
この戦略により、スパースアクティベーションを維持しながらMoEを定義するパラメータの数をスケールアップできる。つまり、MoEsは入力に応じて前方通過のためにGPU VRAMに少数のパラメータだけをロードする。
本稿では,(P)ReLUアクティベーション関数と専門家MLPの混合物の近似と学習理論解析について述べる。
まず、全てのエラーレベル $\varepsilon>0$ およびすべての Lipschitz 関数 $f:[0,1]^n\to \mathbb{R}$ に対して、(P)ReLU MLPs からなる MoMLP モデルを構築することができる。
さらに、MoMLPモデル全体のVC次元が$\tilde{O}(L\max\{nL,JW\})$であるので、MoMLPsが一般化可能であることを示す。
Mixture-of-Experts (MoEs) can scale up beyond traditional deep learning models by employing a routing strategy in which each input is processed by a single "expert" deep learning model. This strategy allows us to scale up the number of parameters defining the MoE while maintaining sparse activation, i.e., MoEs only load a small number of their total parameters into GPU VRAM for the forward pass depending on the input. In this paper, we provide an approximation and learning-theoretic analysis of mixtures of expert MLPs with (P)ReLU activation functions. We first prove that for every error level $\varepsilon>0$ and every Lipschitz function $f:[0,1]^n\to \mathbb{R}$, one can construct a MoMLP model (a Mixture-of-Experts comprising of (P)ReLU MLPs) which uniformly approximates $f$ to $\varepsilon$ accuracy over $[0,1]^n$, while only requiring networks of $\mathcal{O}(\varepsilon^{-1})$ parameters to be loaded in memory. Additionally, we show that MoMLPs can generalize since the entire MoMLP model has a (finite) VC dimension of $\tilde{O}(L\max\{nL,JW\})$, if there are $L$ experts and each expert has a depth and width of $J$ and $W$, respectively. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-25 |
# ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models ( http://arxiv.org/abs/2402.03848v5 ) ライセンス: Link先を確認 | David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger, | (参考訳) 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。
これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。
しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。
しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。
本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また,ANLS*メトリックを用いた7つの異なるデータセット,6つの異なるGLLM,3つの異なるプロンプト手法の評価を行い,提案手法の重要性を実証した。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
35件中27件では、SFTは他のテクニックよりも優れ、最先端の技術を改善している。
ソースはhttps://github.com/deepopinion/anls_star_metricにある。
Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, 6 different GLLMs and 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 27 out of 35 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $18$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-25 |
# アルゴリズム合成学習におけるトランスフォーマー言語モデルの限界
Limits of Transformer Language Models on Learning to Compose Algorithms ( http://arxiv.org/abs/2402.05785v3 ) ライセンス: Link先を確認 | Jonathan Thomm, Aleksandar Terzic, Giacomo Camposampiero, Michael Hersche, Bernhard Schölkopf, Abbas Rahimi, | (参考訳) 我々は、コンポジション離散タスクの学習におけるトランスフォーマー言語モデルの能力を分析する。
そこで本研究では,LLaMAモデルのトレーニングを行い,GPT-4とGeminiの4つのタスクに対して,複数の個別サブタスクの合成を学習するよう促す。
LLaMAモデルをゼロからトレーニングし,GPT-4とGeminiを併用することにより,これらのモデルがサブタスクで観測可能なプリミティブをどの程度再利用できるかを測定し,構成課題を学習する。
LLaMAはスクラッチからすべてのサブタスクを学習するよりも多くのデータサンプルを必要とする。サンプルが少ないインコンテクストは信頼性が低く,サブタスクの実行やマルチラウンドコード生成におけるエラーの修正に失敗する。
さらに, 複雑化理論を応用して, 記憶型フィードフォワードモデルにおける勾配降下の非効率性に着目した理論的解析を行った。
We analyze the capabilities of Transformer language models in learning compositional discrete tasks. To this end, we evaluate training LLaMA models and prompting GPT-4 and Gemini on four tasks demanding to learn a composition of several discrete sub-tasks. On both training LLaMA models from scratch and prompting on GPT-4 and Gemini, we measure how well these models can reuse primitives observable in the sub-tasks to learn the composition task. Our results indicate that compositional learning in state-of-the-art Transformer language models is highly sample inefficient: LLaMA requires more data samples than relearning all sub-tasks from scratch to learn the compositional task; in-context prompting with few samples is unreliable and fails at executing the sub-tasks or correcting the errors in multi-round code generation. Further, by leveraging complexity theory, we support these findings with a theoretical analysis focused on the sample inefficiency of gradient descent in memorizing feedforward models. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-25 |
# 遺伝的誘導型GFlowNetによる分子最適化
Genetic-guided GFlowNets for Sample Efficient Molecular Optimization ( http://arxiv.org/abs/2402.05961v2 ) ライセンス: Link先を確認 | Hyeonah Kim, Minsu Kim, Sanghyeok Choi, Jinkyoo Park, | (参考訳) 薬物発見や物質設計といった分野において、望ましい性質を持つ新しい分子を発見するという課題が重要である。
近年の深層学習による生成手法の進歩は有望であるが,報酬関数の評価に費用がかかるため,サンプル効率の問題に直面している。
本稿では,GFlowNetsトレーニングを用いて,強力な遺伝的アルゴリズムを深層生成ポリシーに蒸留し,サンプル効率のよい分子最適化手法を提案する。
このアプローチは、遺伝的アルゴリズムに明示的に統合されたドメイン知識から深い生成ポリシーを学ぶことを可能にする。
提案手法は, 分子最適化ベンチマークにおいて, 従来の手法よりも大幅に優れ, 最先端性能を実現している。
また、SARS-CoV-2に対するインヒビターの設計にも効果を示す。
The challenge of discovering new molecules with desired properties is crucial in domains like drug discovery and material design. Recent advances in deep learning-based generative methods have shown promise but face the issue of sample efficiency due to the computational expense of evaluating the reward function. This paper proposes a novel algorithm for sample-efficient molecular optimization by distilling a powerful genetic algorithm into deep generative policy using GFlowNets training, the off-policy method for amortized inference. This approach enables the deep generative policy to learn from domain knowledge, which has been explicitly integrated into the genetic algorithm. Our method achieves state-of-the-art performance in the official molecular optimization benchmark, significantly outperforming previous methods. It also demonstrates effectiveness in designing inhibitors against SARS-CoV-2 with substantially fewer reward calls. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-25 |
# HyperBERT: テキスト分散ハイパーグラフのノード分類のための言語モデルとハイパーグラフ認識層を混合する
HyperBERT: Mixing Hypergraph-Aware Layers with Language Models for Node Classification on Text-Attributed Hypergraphs ( http://arxiv.org/abs/2402.07309v3 ) ライセンス: Link先を確認 | Adrián Bazaga, Pietro Liò, Gos Micklem, | (参考訳) ハイパーグラフは複雑なトポロジカル構造を特徴とし、ハイパーエッジを通して複数のエンティティ間の高次相互作用を表現する。
近年,テキスト対応ハイパーグラフにおけるノード分類問題に対する情報表現を学習するためのハイパーグラフに基づくディープラーニング手法が研究の注目を集めている。
しかし、既存の手法は、ハイパーグラフ構造情報の全範囲と、ノード属性に固有の豊富な言語特性を同時に捉えるのに苦労し、その有効性と一般化性を大きく損なう。
これらの課題を克服するために、ノード分類のタスクのために、特別なハイパーグラフ対応層を持つ事前訓練されたBERTモデルをさらに強化する方法を探る。
このようなレイヤは言語モデルに高階構造帰納バイアスを導入し、ハイパーグラフ構造からの高階コンテキスト情報とテキストに存在する意味情報の両方を活用するためのモデルの能力を向上させる。
本稿では,事前学習したBERTの高品質テキスト符号化能力を維持しつつ,ハイパーグラフ関係構造を同時にモデル化する混合テキストハイパグラフモデルであるHyperBERTを提案する。
特に、HyperBERTは5つの挑戦的なテキスト分散ハイパーグラフノード分類ベンチマークに対して、最先端の新たな結果を提供する。
Hypergraphs are characterized by complex topological structure, representing higher-order interactions among multiple entities through hyperedges. Lately, hypergraph-based deep learning methods to learn informative data representations for the problem of node classification on text-attributed hypergraphs have garnered increasing research attention. However, existing methods struggle to simultaneously capture the full extent of hypergraph structural information and the rich linguistic attributes inherent in the nodes attributes, which largely hampers their effectiveness and generalizability. To overcome these challenges, we explore ways to further augment a pretrained BERT model with specialized hypergraph-aware layers for the task of node classification. Such layers introduce higher-order structural inductive bias into the language model, thus improving the model's capacity to harness both higher-order context information from the hypergraph structure and semantic information present in text. In this paper, we propose a new architecture, HyperBERT, a mixed text-hypergraph model which simultaneously models hypergraph relational structure while maintaining the high-quality text encoding capabilities of a pre-trained BERT. Notably, HyperBERT presents results that achieve a new state-of-the-art on five challenging text-attributed hypergraph node classification benchmarks. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-25 |
# AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes
AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods ( http://arxiv.org/abs/2402.11215v2 ) ライセンス: Link先を確認 | Tim Tsz-Kit Lau, Han Liu, Mladen Kolar, | (参考訳) 最小バッチ確率勾配最適化器におけるバッチサイズの選択は、最適化と一般化性能の両方の大規模モデルトレーニングにおいて重要である。
大規模バッチ学習はハードウェアの進歩による大規模深層学習の主流の訓練パラダイムであることは間違いないが、このモデルの一般化性能は小バッチ学習と比較して低下し、いわゆる「一般化ギャップ」現象へと繋がる。
これを軽減するため,適応サンプリング法から得られた適応バッチサイズ戦略について検討した。
学習率とバッチサイズの間に大きな相互作用があり、深層学習における適応的勾配法の適用率を考慮すると、これらの文脈における適応的バッチサイズ戦略の必要性が強調される。
本稿では,AdAdaGradとそのスカラー変種AdAdaGradNormについて紹介する。
我々は、AdAdaGradNorm が $\mathscr{O}(1/K)$ の速度で高い確率で収束することを証明し、$K$反復の中で滑らかな非凸函数の1次定常点を求める。
AdAdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。
画像分類実験を行うことで理論的主張を裏付け、学習効率とモデル一般化の両面から提案したスキームの利点を強調した。
本研究は,大規模モデルトレーニングにおける適応的勾配最適化のための適応的バッチサイズ戦略の可能性を明らかにする。
The choice of batch sizes in minibatch stochastic gradient optimizers is critical in large-scale model training for both optimization and generalization performance. Although large-batch training is arguably the dominant training paradigm for large-scale deep learning due to hardware advances, the generalization performance of the model deteriorates compared to small-batch training, leading to the so-called "generalization gap" phenomenon. To mitigate this, we investigate adaptive batch size strategies derived from adaptive sampling methods, originally developed only for stochastic gradient descent. Given the significant interplay between learning rates and batch sizes, and considering the prevalence of adaptive gradient methods in deep learning, we emphasize the need for adaptive batch size strategies in these contexts. We introduce AdAdaGrad and its scalar variant AdAdaGradNorm, which progressively increase batch sizes during training, while model updates are performed using AdaGrad and AdaGradNorm. We prove that AdAdaGradNorm converges with high probability at a rate of $\mathscr{O}(1/K)$ to find a first-order stationary point of smooth nonconvex functions within $K$ iterations. AdAdaGrad also demonstrates similar convergence properties when integrated with a novel coordinate-wise variant of our adaptive batch size strategies. We corroborate our theoretical claims by performing image classification experiments, highlighting the merits of the proposed schemes in terms of both training efficiency and model generalization. Our work unveils the potential of adaptive batch size strategies for adaptive gradient optimizers in large-scale model training. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-25 |
# DiLA: 差分論理層によるLLMツール学習の強化
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer ( http://arxiv.org/abs/2402.11903v2 ) ライセンス: Link先を確認 | Yu Zhang, Hui-Ling Zhen, Zehua Pei, Yingzhao Lian, Lihao Yin, Mingxuan Yuan, Bei Yu, | (参考訳) 論理的推論と計画において大きな言語モデル(LLM)が直面する課題を考えると、従来の取り組みは、外部の解法にアクセスしてLLMを増強しようと試みてきた。
単純な推論問題については進歩が進んでいるが、ブール満足度問題(SAT)やグラフ色問題(GCP)のような古典的な制約満足度問題の解法は、複雑な表現や指数探索空間のため、既成の解法では難しいままである。
本稿では,ネットワークレイヤの前方・後方パスに論理的制約を組み込む新たなディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。
DiLAでは、LLMは言語記述を論理制約に変換し、最も高品質な初期解を識別することを目的としている。
論理層をブリッジとして活用することで、DiLAはブール変数によって符号化された様々な推論問題に対してLLMの論理的推論能力を高め、解法プロセスの効率性と正確性を保証する。
2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
Considering the challenges faced by large language models (LLMs) in logical reasoning and planning, prior efforts have sought to augment LLMs with access to external solvers. While progress has been made on simple reasoning problems, solving classical constraint satisfaction problems, such as the Boolean Satisfiability Problem (SAT) and Graph Coloring Problem (GCP), remains difficult for off-the-shelf solvers due to their intricate expressions and exponential search spaces. In this paper, we propose a novel differential logic layer-aided language modeling (DiLA) approach, where logical constraints are integrated into the forward and backward passes of a network layer, to provide another option for LLM tool learning. In DiLA, LLM aims to transform the language description to logic constraints and identify initial solutions of the highest quality, while the differential logic layer focuses on iteratively refining the LLM-prompted solution. Leveraging the logic layer as a bridge, DiLA enhances the logical reasoning ability of LLMs on a range of reasoning problems encoded by Boolean variables, guaranteeing the efficiency and correctness of the solution process. We evaluate the performance of DiLA on two classic reasoning problems and empirically demonstrate its consistent outperformance against existing prompt-based and solver-aided approaches. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-25 |
# LLMウォーターマーキングにおけるフリーランチ:ウォーターマーキング設計選択におけるトレードオフ
No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices ( http://arxiv.org/abs/2402.16187v2 ) ライセンス: Link先を確認 | Qi Pang, Shengyuan Hu, Wenting Zheng, Virginia Smith, | (参考訳) 生成モデルの進歩により、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツのミラーリングを可能にした。
モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。
しかし、LCMの透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示しています。
これらのトレードオフをナビゲートするために,一般的な透かしシステムに対する簡易かつ効果的な攻撃のセットを厳格に研究し,実際にLLM透かしのガイドラインと防御について提案する。
Advances in generative models have made it possible for AI-generated text, code, and images to mirror human-generated content in many applications. Watermarking, a technique that aims to embed information in the output of a model to verify its source, is useful for mitigating the misuse of such AI-generated content. However, we show that common design choices in LLM watermarking schemes make the resulting systems surprisingly susceptible to attack -- leading to fundamental trade-offs in robustness, utility, and usability. To navigate these trade-offs, we rigorously study a set of simple yet effective attacks on common watermarking systems, and propose guidelines and defenses for LLM watermarking in practice. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-25 |
# 試行錯誤からターゲット人口への推論の一般化に向けて
Towards Generalizing Inferences from Trials to Target Populations ( http://arxiv.org/abs/2402.17042v2 ) ライセンス: Link先を確認 | Melody Y Huang, Harsh Parikh, | (参考訳) ランダム化制御試験(Randomized Controlled Trials, RCTs)は、最小限の仮定で内部的に有効な見積もりを生成する上で重要なものであり、因果推論手法の進歩に特化した研究者の基盤となっている。
しかしながら、これらの知見を実験コホートを越えて拡張して、外部で有効な見積もりを達成することは、より広範な科学的調査にとって不可欠である。
本稿は,2023年秋にブラウン大学数学計算実験研究所(ICERM)で開かれた多分野ワークショップの本質を包括して,これらの外的妥当性問題に対処する最前線について述べる。
このワークショップは、社会科学、医学、公衆衛生、統計学、コンピュータ科学、教育など様々な分野の専門家を集め、実験結果の外挿において各分野が直面する固有の障害に対処した。
本研究は,現在進行中の取り組みの統合,フィールド間の方法論的相乗効果の強調,ワークショップの談話に基づく一般化可能性と輸送可能性の徹底的なレビュー,そして今後の研究への道筋を示唆しながら,永続的なハードルを同定する,という3つの重要な貢献を提示する。
そこで本論文は,因果関係の一般化可能性と伝達可能性の総合的理解の向上,学際的コラボレーションの促進,および因果関係推論手法の洗練と適用に取り組む研究者に貴重な洞察を提供することを目的としている。
Randomized Controlled Trials (RCTs) are pivotal in generating internally valid estimates with minimal assumptions, serving as a cornerstone for researchers dedicated to advancing causal inference methods. However, extending these findings beyond the experimental cohort to achieve externally valid estimates is crucial for broader scientific inquiry. This paper delves into the forefront of addressing these external validity challenges, encapsulating the essence of a multidisciplinary workshop held at the Institute for Computational and Experimental Research in Mathematics (ICERM), Brown University, in Fall 2023. The workshop congregated experts from diverse fields including social science, medicine, public health, statistics, computer science, and education, to tackle the unique obstacles each discipline faces in extrapolating experimental findings. Our study presents three key contributions: we integrate ongoing efforts, highlighting methodological synergies across fields; provide an exhaustive review of generalizability and transportability based on the workshop's discourse; and identify persistent hurdles while suggesting avenues for future research. By doing so, this paper aims to enhance the collective understanding of the generalizability and transportability of causal effects, fostering cross-disciplinary collaboration and offering valuable insights for researchers working on refining and applying causal inference methods. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-25 |
# IntactKV:Pivot Tokens Intactの維持による大規模言語モデル量子化の改善
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact ( http://arxiv.org/abs/2403.01241v2 ) ライセンス: Link先を確認 | Ruikang Liu, Haoli Bai, Haokun Lin, Yuening Li, Han Gao, Zhengzhuo Xu, Lu Hou, Jun Yao, Chun Yuan, | (参考訳) 大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
これを軽減するために、様々な量子化法が検討されているが、LLM性能を損なう。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
このような異常値は、量子化LDMのパフォーマンスに不可欠であるピボットトークンと呼ばれる入力の初期トークンに注意点のほとんどを割り当てることが知られている。
そこで本研究では,全精度モデルからキートークンのKVキャッシュを生成するために,IntactKVを提案する。
このアプローチは単純で、余分な推論オーバーヘッドのない既存の量子化ソリューションと組み合わせやすい。
さらに、IntactKV を LLM パラメータとしてキャリブレーションすることで、最小のトレーニングコストで量子化 LLM をさらに高めることができる。
数学的解析により、IntactKVは量子化誤差の上限を効果的に減少させる。
実験結果から、IntactKVは様々なLLMタスクや下流タスクにまたがる様々な量子化手法に対して一貫した改善をもたらし、LLM量子化の新たな最先端をもたらすことが示された。
コードはhttps://github.com/ruikangliu/IntactKVで入手できる。
Large language models (LLMs) excel in natural language processing but demand intensive computation. To mitigate this, various quantization methods have been explored, yet they compromise LLM performance. This paper unveils a previously overlooked type of outliers in LLMs. Such outliers are found to allocate most of the attention scores on initial tokens of input, termed as pivot tokens, which are crucial to the performance of quantized LLMs. Given that, we propose IntactKV to generate the KV cache of pivot tokens losslessly from the full-precision model. The approach is simple and easy to combine with existing quantization solutions with no extra inference overhead. Besides, IntactKV can be calibrated as additional LLM parameters to boost the quantized LLMs further with minimal training costs. Mathematical analysis also proves that IntactKV effectively reduces the upper bound of quantization error. Empirical results show that IntactKV brings consistent improvement over various quantization methods across different LLMs and downstream tasks, leading to the new state-of-the-art for LLM quantization. The codes are available at https://github.com/ruikangliu/IntactKV. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-25 |
# 自己合成リハーサルによる大規模言語モデルにおける破滅的予測の緩和
Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal ( http://arxiv.org/abs/2403.01244v2 ) ライセンス: Link先を確認 | Jianheng Huang, Leyang Cui, Ante Wang, Chengyi Yang, Xinting Liao, Linfeng Song, Junfeng Yao, Jinsong Su, | (参考訳) 大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
従来のリハーサルベースの手法は、実際の応用では実現不可能なモデルの能力を維持するために、以前のトレーニングデータに依存している。
LLMチェックポイントに基づいて連続的な学習を行う場合、元のトレーニングデータの入手は不可能である。
この課題に対処するため,LLMを用いた自己合成リハーサル(Self-Synthesized Rehearsal, SSR)というフレームワークを提案する。
具体的には,まず,テキスト内学習に基本LLMを用い,合成インスタンスを生成する。
次に, 最新のLCMを用いて, 合成入力に基づいてインスタンス出力を改良し, 取得した能力を保存した。
最後に,今後のリハーサルのために,多種多様な高品質な合成インスタンスを選択する。
実験結果から,SSRは従来のリハーサルベースの手法に比べ,データ効率が向上し,優れた性能を示した。
さらに、SSRはLLMの一般領域での一般化能力を効果的に維持する。
Large language models (LLMs) suffer from catastrophic forgetting during continual learning. Conventional rehearsal-based methods rely on previous training data to retain the model's ability, which may not be feasible in real-world applications. When conducting continual learning based on a publicly-released LLM checkpoint, the availability of the original training data may be non-existent. To address this challenge, we propose a framework called Self-Synthesized Rehearsal (SSR) that uses the LLM to generate synthetic instances for rehearsal. Concretely, we first employ the base LLM for in-context learning to generate synthetic instances. Subsequently, we utilize the latest LLM to refine the instance outputs based on the synthetic inputs, preserving its acquired ability. Finally, we select diverse high-quality synthetic instances for rehearsal in future stages. Experimental results demonstrate that SSR achieves superior or comparable performance compared to conventional rehearsal-based approaches while being more data-efficient. Besides, SSR effectively preserves the generalization capabilities of LLMs in general domains. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-25 |
# 外部分布検出のための深部生成モデルの漁業情報メトリクスの近似
Approximations to the Fisher Information Metric of Deep Generative Models for Out-Of-Distribution Detection ( http://arxiv.org/abs/2403.01485v2 ) ライセンス: Link先を確認 | Sam Dauncey, Chris Holmes, Christopher Williams, Fabian Falck, | (参考訳) スコアベース拡散モデルや変分オートエンコーダのような、ファンデーションベースの深層生成モデルは、画像、テキスト、オーディオなどのデータの高次元分布を近似する最先端の機械学習モデルである。
自然に適用できる多くのダウンストリームタスクの1つは、アウト・オブ・ディストリビューション(OOD)検出である。
しかし,Nalisnickらによる初歩的な研究により,OODデータに対する深い生成モデルは,トレーニングしたデータよりも高いログ類似度を常に推論し,オープンな問題を示すことを示した。
本研究は,OODデータにトレーニングデータよりも勾配基準が大きくなるという単純な直観に基づいて,OOD検出のための深部生成モデルのパラメータに対するデータ点の勾配を用いて解析する。
勾配の大きさをフィッシャー情報量計の近似として定式化する。
本研究では,フィッシャー情報行列 (FIM) が絶対対角値が大きいことを示し,その特徴としてカイ二乗分布の層次勾配ノルムを用いる。
我々はこれらの特徴を組み合わせることで、与えられたデータポイントの層次勾配ノルムの結合密度を推定する、OOD検出のための単純でモデルに依存しないハイパーパラメータフリーな方法を作成する。
これらの層次勾配ノルムは弱い相関関係にあり、それらの組み合わせの利用を情報化し、層次勾配ノルムが(データ表現)不変性の原理を満たすことを証明している。
実験結果から,本手法は,ほとんどの深層生成モデルと画像データセットのペアリングにおいて,典型性試験よりも優れていたことが示唆された。
Likelihood-based deep generative models such as score-based diffusion models and variational autoencoders are state-of-the-art machine learning models approximating high-dimensional distributions of data such as images, text, or audio. One of many downstream tasks they can be naturally applied to is out-of-distribution (OOD) detection. However, seminal work by Nalisnick et al. which we reproduce showed that deep generative models consistently infer higher log-likelihoods for OOD data than data they were trained on, marking an open problem. In this work, we analyse using the gradient of a data point with respect to the parameters of the deep generative model for OOD detection, based on the simple intuition that OOD data should have larger gradient norms than training data. We formalise measuring the size of the gradient as approximating the Fisher information metric. We show that the Fisher information matrix (FIM) has large absolute diagonal values, motivating the use of chi-square distributed, layer-wise gradient norms as features. We combine these features to make a simple, model-agnostic and hyperparameter-free method for OOD detection which estimates the joint density of the layer-wise gradient norms for a given data point. We find that these layer-wise gradient norms are weakly correlated, rendering their combined usage informative, and prove that the layer-wise gradient norms satisfy the principle of (data representation) invariance. Our empirical results indicate that this method outperforms the Typicality test for most deep generative models and image dataset pairings. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-25 |
# Q$-Networkを繰り返す - 深層強化学習におけるワンステップベルマンのアップデートを超えて
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning ( http://arxiv.org/abs/2403.02107v2 ) ライセンス: Link先を確認 | Théo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo D'Eramo, | (参考訳) 強化学習手法の大多数は、アクション値関数の効果的な推定に必要な計算努力とデータ要求に大きく影響され、その結果、全体的な性能の質と学習手順のサンプル効率が決定される。
通常、アクション値関数は、ベルマン作用素の経験的近似とその後の射影ステップを考慮された函数空間に交互に適用する反復スキームによって推定される。
このスキームは、ベルマン演算子の複数回を同時に実行し、基礎となる学習アルゴリズムの恩恵を受けることができる。
しかし、これまで、特に高次元問題において、このアイデアを効果的に実装することは困難であった。
本稿では,次にターゲットとして機能するアクション値関数の調整シーケンスを学習することにより,複数連続的なベルマン更新を可能にする,新しい原理的アプローチである$Q$-Network(iQN)を提案する。
iQNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
Atari 2600ドルのゲームと MuJoCo の連続制御問題における iQN の利点を実証的に実証した。
The vast majority of Reinforcement Learning methods is largely impacted by the computation effort and data requirements needed to obtain effective estimates of action-value functions, which in turn determine the quality of the overall performance and the sample-efficiency of the learning procedure. Typically, action-value functions are estimated through an iterative scheme that alternates the application of an empirical approximation of the Bellman operator and a subsequent projection step onto a considered function space. It has been observed that this scheme can be potentially generalized to carry out multiple iterations of the Bellman operator at once, benefiting the underlying learning algorithm. However, till now, it has been challenging to effectively implement this idea, especially in high-dimensional problems. In this paper, we introduce iterated $Q$-Network (iQN), a novel principled approach that enables multiple consecutive Bellman updates by learning a tailored sequence of action-value functions where each serves as the target for the next. We show that iQN is theoretically grounded and that it can be seamlessly used in value-based and actor-critic methods. We empirically demonstrate the advantages of iQN in Atari $2600$ games and MuJoCo continuous control problems. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-25 |
# 正規化フローによる相互情報推定
Mutual Information Estimation via Normalizing Flows ( http://arxiv.org/abs/2403.02187v3 ) ライセンス: Link先を確認 | Ivan Butakov, Alexander Tolmachev, Sofia Malanchuk, Anna Neopryatnaya, Alexey Frolov, | (参考訳) 本稿では,正規化フローに基づく推定器群の導入による相互情報(MI)推定問題に対する新しいアプローチを提案する。
推定器は、元のデータをターゲット分布にマッピングし、MIを推定し易い。
また、MI の既知閉形式表現を用いて対象分布を探索する。
理論的な保証は、我々の手法が元のデータに対してMI推定値を得ることを示すためである。
提案手法の実用性を明らかにするため,高次元データを用いた実験を行った。
We propose a novel approach to the problem of mutual information (MI) estimation via introducing a family of estimators based on normalizing flows. The estimator maps original data to the target distribution, for which MI is easier to estimate. We additionally explore the target distributions with known closed-form expressions for MI. Theoretical guarantees are provided to demonstrate that our approach yields MI estimates for the original data. Experiments with high-dimensional data are conducted to highlight the practical advantages of the proposed method. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-25 |
# 確率モデルによるボンガード・ログ問題の解法
Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v6 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 抽象推論問題は、AIアルゴリズムの知覚と認識能力に課題をもたらし、明示的な画像特徴の単なる識別以上のパターン認識と帰納的推論を要求する。
本研究では,Bongard-Logo問題に適した確率モデルであるPMoCを導入し,独立確率モデルの構築を通じて高い推論精度を実現する。
さらに,Bongard-Logo,RAVEN,I-RAVEN,PGMなど,複雑な抽象的推論タスクに特化した拡張トランスフォーマーであるPose-Transformerを設計した。
カプセルネットワークのポーズ行列にインスパイアされたPose-Transformerは、画像データを処理する際の局所的特徴間の位置関係に焦点を当てる。
PMoCと組み合わせることで、推論精度をさらに高めることができる。
我々のPose-Transformerは、抽象エンティティの位置の変化に伴う推論の難しさを効果的に解決し、RAVENのOIG、D3x3サブセット、およびPGMデータセット上で以前のモデルより優れている。
最後に,多数のPose-Transformerパラメータから生じる展開困難を考慮し,パラメータ数を著しく削減しつつ,性能を向上する軽量版Straw Pose-Transformerを提案する。
本研究は,抽象的推論と認知パターン認識におけるAI能力の向上に寄与する。
Abstract reasoning problems pose challenges to the perception and cognition abilities of AI algorithms, demanding deeper pattern recognition and inductive reasoning beyond mere identification of explicit image features. In this study, we introduce PMoC, a probabilistic model tailored for the Bongard-Logo problem, achieving high reasoning accuracy through the construction of an independent probabilistic model. Additionally, we have designed the Pose-Transformer, an enhanced Transformer-Encoder specifically crafted for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Inspired by the pose matrix in capsule networks, Pose-Transformer strengthens the focus on positional relationships between local features when processing image data. When combined with PMoC, it can further enhance reasoning accuracy. Our Pose-Transformer effectively addresses reasoning difficulties associated with changes in the position of abstract entities, outperforming previous models on RAVEN's OIG, D3x3 subsets, and the PGM dataset. Finally, considering the deployment difficulties arising from the large number of Pose-Transformer parameters, this paper presents a lightweight version, Straw Pose-Transformer, which maintains performance while significantly reducing the parameter count. This study contributes to enhancing AI capabilities in abstract reasoning and cognitive pattern recognition. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-25 |
# エルミート保存アンサッツと変分開量子固有解法
Hermitian-preserving ansatz and variational open quantum eigensolver ( http://arxiv.org/abs/2403.03478v2 ) ライセンス: Link先を確認 | Zhong-Xia Shang, | (参考訳) 我々は、リンドブラッドマスター方程式または非エルミートハミルトン方程式によって記述された開量子系の定常状態を解決するために、変分開量子固有解法(VOQE)という新しい変分量子アルゴリズムを提案する。
VOQEでは、混合状態の密度行列は二重ヒルベルト空間における純粋状態によって表される。
本稿では,Hermitian-Reserving Ansatz (HPA) と呼ばれる回路アンサッツを構築するためのフレームワークを提案する。
また,選択後の測定により,演算子の期待値を効率的に測定する手法も提案する。
VOQEのワークフローは、駆動されたXXZモデルのLCMの定常状態を解き、VOQEを実装し、イジングスピン鎖の非エルミート的ハミルトニアンスペクトルを虚数体で解くことである。
We propose a new variational quantum algorithm named Variational Open Quantum Eigensolver (VOQE) for solving steady states of open quantum systems described by either Lindblad master equations or non-Hermitian Hamiltonians. In VOQE, density matrices of mixed states are represented by pure states in doubled Hilbert space. We give a framework for building circuit ansatz which we call the Hermitian-preserving ansatz (HPA) to restrict the searching space. We also give a method to efficiently measure the operators' expectation values by post-selection measurements. We show the workflow of VOQE on solving steady states of the LMEs of the driven XXZ model and implement VOQE to solve the spectrum of the non-Hermitian Hamiltonians of the Ising spin chain in an imaginary field. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-25 |
# SPA: 計算フレンドリーなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズジェネレーションを目指して
SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation ( http://arxiv.org/abs/2403.07088v2 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu, Mingbang Wang, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LLMは低リソースデバイスにかなりのメモリストレージを必要とする。
さらに重要なのは、これらのデバイスの計算速度も大幅に制限されていることだ。
本稿では、厳密なオンデバイス計算とメモリ制約の制約に対する高速なオンデバイス推論のための軽量アーキテクチャであるSPA(Side Plugin Adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,クラウド上での事前学習LLMとデバイス上での付加的パラメータとの相互作用を確立し,事前学習LLMの知識と特徴的特徴を両立させることができる。
さらに、SPAは、高次計算装置の一般情報を含むパラメータを残しながら、低次計算装置に特徴ベースパラメータを保持するためのフレームワークを提供する。
Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require substantial memory storage on low-resource devices. More critically, the computational speed on these devices is also severely limited. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and featured personal feature. Further more, SPA provides a framework to keep feature-base parameters on low computational devices while leave the parameters containing general information on the high computational devices. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-25 |
# Q学習者に対する戦略化:制御理論的アプローチ
Strategizing against Q-learners: A Control-theoretical Approach ( http://arxiv.org/abs/2403.08906v2 ) ライセンス: Link先を確認 | Yuksel Arslantas, Ege Yuceel, Muhammed O. Sayin, | (参考訳) 本稿では,従来の多エージェント強化学習手法である独立Q-ラーニングアルゴリズム(Q-ラーニングアルゴリズム)の,通常型ゲームにおける高度な対戦相手の戦略的操作に対する感受性について検討する。
敵のQ-ラーニングアルゴリズムを知っていれば、いかに戦略的に洗練されたエージェントが素質のQ-ラーナーを活用できるかを定量化する。
この目的のために、戦略アクターの相互作用を確率ゲーム(Q-学習者のQ-関数推定を含む状態)として定式化し、Q-学習アルゴリズムが基礎となる力学系であるようにする。
また、連続状態空間への量子化に基づく近似手法を提案し、競合する2人の戦略的アクターと1人の戦略的アクターのパフォーマンスを解析的および数値的に解析する。
In this paper, we explore the susceptibility of the independent Q-learning algorithms (a classical and widely used multi-agent reinforcement learning method) to strategic manipulation of sophisticated opponents in normal-form games played repeatedly. We quantify how much strategically sophisticated agents can exploit naive Q-learners if they know the opponents' Q-learning algorithm. To this end, we formulate the strategic actors' interactions as a stochastic game (whose state encompasses Q-function estimates of the Q-learners) as if the Q-learning algorithms are the underlying dynamical system. We also present a quantization-based approximation scheme to tackle the continuum state space and analyze its performance for two competing strategic actors and a single strategic actor both analytically and numerically. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-25 |
# CDMAD: クラス非バランスな半教師付き学習のためのクラス分散・ミスマッチ・アウェア・デバイアス
CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2403.10391v2 ) ライセンス: Link先を確認 | Hyuck Lee, Heeyoung Kim, | (参考訳) Pseudo-label-based semi-supervised learning (SSL)アルゴリズムは2つのカスケード課題に直面している。
1)分類者は多数派に偏っている傾向があり、
2) バイアス付き擬似ラベルは、訓練に使用される。
ラベル付けされていない集合のクラス分布がよく知られておらず、ラベル付けされた集合のクラスとミスマッチする可能性があるため、SSLの分類器を適切に再バランスすることは困難である。
本稿では,CDMAD (class-distribution-mismatch-aware debiasing) と呼ばれる新しいクラス不均衡SSLアルゴリズムを提案する。
トレーニングの各イテレーションについて、CDMADはまず、トレーニングセットとは無関係とみなすことのできるパターン(例えば、ソリッドカラー画像)を持たない画像上のロジットを計算することにより、各クラスに対する分類器のバイアス度を評価する。
CDMADは、分類器の中立性を保証することによって、ベースSSLアルゴリズムのバイアス付き擬似ラベルを洗練する。
CDMADは、ベースSSLアルゴリズムのトレーニング中にこれらの洗練された擬似ラベルを使用して、表現の質を向上させる。
テストフェーズでは、CDMADも同様に、テストサンプルの偏りのあるクラス予測を洗練させる。
CDMADは、クラス分布ミスマッチの下でバイアス付き分類器を再バランスする未ラベル集合の未知のクラス分布を組み込むという課題に対処するために、ポストホックロジット調整の拡張と見なすことができる。
CDMADはバランスの取れたエラーに対してフィッシャーの一貫性を保証する。
大規模な実験によりCDMADの有効性が検証された。
Pseudo-label-based semi-supervised learning (SSL) algorithms trained on a class-imbalanced set face two cascading challenges: 1) Classifiers tend to be biased towards majority classes, and 2) Biased pseudo-labels are used for training. It is difficult to appropriately re-balance the classifiers in SSL because the class distribution of an unlabeled set is often unknown and could be mismatched with that of a labeled set. We propose a novel class-imbalanced SSL algorithm called class-distribution-mismatch-aware debiasing (CDMAD). For each iteration of training, CDMAD first assesses the classifier's biased degree towards each class by calculating the logits on an image without any patterns (e.g., solid color image), which can be considered irrelevant to the training set. CDMAD then refines biased pseudo-labels of the base SSL algorithm by ensuring the classifier's neutrality. CDMAD uses these refined pseudo-labels during the training of the base SSL algorithm to improve the quality of the representations. In the test phase, CDMAD similarly refines biased class predictions on test samples. CDMAD can be seen as an extension of post-hoc logit adjustment to address a challenge of incorporating the unknown class distribution of the unlabeled set for re-balancing the biased classifier under class distribution mismatch. CDMAD ensures Fisher consistency for the balanced error. Extensive experiments verify the effectiveness of CDMAD. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-25 |
# 逆命令チューニングによる大規模視覚言語モデルにおける対話幻覚の緩和
Mitigating Dialogue Hallucination for Large Vision Language Models via Adversarial Instruction Tuning ( http://arxiv.org/abs/2403.10492v2 ) ライセンス: Link先を確認 | Dongmin Park, Zhaofang Qian, Guangxing Han, Ser-Nam Lim, | (参考訳) LVLM(Large Vision Language Models)の幻覚の緩和は,汎用アシスタントの信頼性向上に不可欠である。
本稿では,従来のユーザ・システム対話によってLVLMの幻覚が著しく悪化することを示す。
これを正確に測定するために、我々はまず、LVLMに対する敵対的攻撃を採用することで、画像関連であるが敵対的対話を自動生成できる新しいAdversarial Question Generator (AQG) をベースとして、人気のあるマルチモーダルベンチマークデータセットを拡張して評価ベンチマークを提示する。
我々のベンチマークでは、最先端のLVLMのゼロショット性能はVQAタスクとCaptioningタスクの両方で著しく低下する。
次に、この幻覚は、視覚コンテンツよりも先行する対話に対する予測バイアスが主な原因であることを示す。
このバイアスを軽減するために,幻覚的対話に対してLVLMを頑健に微調整するAdversarial Instruction Tuning (AIT)を提案する。
広汎な実験により,提案手法は性能を維持しながら,対話幻覚の低減に成功している。
Mitigating hallucinations of Large Vision Language Models,(LVLMs) is crucial to enhance their reliability for general-purpose assistants. This paper shows that such hallucinations of LVLMs can be significantly exacerbated by preceding user-system dialogues. To precisely measure this, we first present an evaluation benchmark by extending popular multi-modal benchmark datasets with prepended hallucinatory dialogues powered by our novel Adversarial Question Generator (AQG), which can automatically generate image-related yet adversarial dialogues by adopting adversarial attacks on LVLMs. On our benchmark, the zero-shot performance of state-of-the-art LVLMs drops significantly for both the VQA and Captioning tasks. Next, we further reveal this hallucination is mainly due to the prediction bias toward preceding dialogues rather than visual content. To reduce this bias, we propose Adversarial Instruction Tuning (AIT) that robustly fine-tunes LVLMs against hallucinatory dialogues. Extensive experiments show our proposed approach successfully reduces dialogue hallucination while maintaining performance. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-25 |
# 最適フローマッチング: たった1ステップで直線軌道を学習する
Optimal Flow Matching: Learning Straight Trajectories in Just One Step ( http://arxiv.org/abs/2403.13117v2 ) ライセンス: Link先を確認 | Nikita Kornilov, Petr Mokrov, Alexander Gasnikov, Alexander Korotin, | (参考訳) 近年,生成モデルのためのフローマッチング (FM) 手法の開発が盛んに行われている。
コミュニティが追求する興味深い特性の1つは、最適輸送(OT)変位を実現する直線軌道で流れを学習する能力である。
学習したフローのパスの高速な統合(推論)には、ストレートネスが不可欠です。
残念ながら、既存のフローストレート化手法のほとんどは、訓練中にエラーを蓄積したり、ミニバッチOTに基づくヒューリスティックスを利用する非自明な反復的FMプロシージャに基づいている。
これらの問題に対処するために, FM ステップで2次輸送の直列OT変位を回復できる新しい最適流れマッチング手法を開発し, 理論的に正当化する。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
Over the several recent years, there has been a boom in development of Flow Matching (FM) methods for generative modeling. One intriguing property pursued by the community is the ability to learn flows with straight trajectories which realize the Optimal Transport (OT) displacements. Straightness is crucial for the fast integration (inference) of the learned flow's paths. Unfortunately, most existing flow straightening methods are based on non-trivial iterative FM procedures which accumulate the error during training or exploit heuristics based on minibatch OT. To address these issues, we develop and theoretically justify the novel Optimal Flow Matching approach which allows recovering the straight OT displacement for the quadratic transport in just one FM step. The main idea of our approach is the employment of vector field for FM which are parameterized by convex functions. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-25 |
# Elite360D:Semantic- and Distance-Aware Bi-Projection Fusionによる高効率360度深度推定に向けて
Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion ( http://arxiv.org/abs/2403.16376v2 ) ライセンス: Link先を確認 | Hao Ai, Lin Wang, | (参考訳) 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。
近年のアプローチは、幾何的再射を伴うクロスプロジェクション融合に主に焦点をあてており、等角射影(ERP)と他の射影型(例えば立方体射影)を融合してERPフォーマットで深さを推定している。
しかし、これらの方法は苦しむ。
1) 局所受容野が限られており、大規模なFoVシーンの撮影が困難である。
2)複雑な相互投射核融合モジュールの設計による計算コストの禁止。
本稿では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
Elite360Dは、ローカル・ウィズ・グローバルの観点から表現を学ぶ能力において優れている。
柔軟なERPイメージエンコーダはICOSAPポイントエンコーダとバイジェクション・バイアテンション・フュージョン(B2F)モジュール(正確には1Mパラメータ)を備える。
具体的には、ERPイメージエンコーダは、様々な視点で訓練されたバックボーン(例えば、ResNet、Transformer)を使って局所的な特徴を抽出することができる。
ポイントエンコーダはICOSAPからグローバルな特徴を抽出する。
次に、B2FモジュールはERP機能の各ピクセルとICOSAP機能セット全体のセマンティックおよび距離認識依存関係をキャプチャする。
特定のバックボーン設計と明らかな計算コストの増加なしに、Elite360Dはいくつかのベンチマークデータセットで先行技術を上回っている。
360 depth estimation has recently received great attention for 3D reconstruction owing to its omnidirectional field of view (FoV). Recent approaches are predominantly focused on cross-projection fusion with geometry-based re-projection: they fuse 360 images with equirectangular projection (ERP) and another projection type, e.g., cubemap projection to estimate depth with the ERP format. However, these methods suffer from 1) limited local receptive fields, making it hardly possible to capture large FoV scenes, and 2) prohibitive computational cost, caused by the complex cross-projection fusion module design. In this paper, we propose Elite360D, a novel framework that inputs the ERP image and icosahedron projection (ICOSAP) point set, which is undistorted and spatially continuous. Elite360D is superior in its capacity in learning a representation from a local-with-global perspective. With a flexible ERP image encoder, it includes an ICOSAP point encoder, and a Bi-projection Bi-attention Fusion (B2F) module (totally ~1M parameters). Specifically, the ERP image encoder can take various perspective image-trained backbones (e.g., ResNet, Transformer) to extract local features. The point encoder extracts the global features from the ICOSAP. Then, the B2F module captures the semantic- and distance-aware dependencies between each pixel of the ERP feature and the entire ICOSAP feature set. Without specific backbone design and obvious computational cost increase, Elite360D outperforms the prior arts on several benchmark datasets. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-25 |
# LISA: メモリ効率の良い大規模言語モデルファインチューニングのための階層的重要度サンプリング
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning ( http://arxiv.org/abs/2403.17919v3 ) ライセンス: Link先を確認 | Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang, Chi Han, Tong Zhang, | (参考訳) 機械学習コミュニティは、大規模言語モデル(LLM)が最初に登場して以来、目覚ましい進歩を見せている。
しかし、その膨大なメモリ消費は、大規模なトレーニングにとって大きな障害となっている。
例えば、7Bモデルは一般的に、完全なパラメータトレーニングを備えた少なくとも60GBのGPUメモリを必要とする。
この問題を軽減するために,ローランド適応 (LoRA) のようなパラメータ効率の良いファインチューニング手法が提案されている。
しかし、ほとんどの大規模微調整環境では、パラメータ探索を低ランク部分空間に限定するため、その性能は完全なパラメータ訓練レベルに達しない。
この欠陥を補うために, 微調整作業におけるLoRAの層状特性を調査し, 異なる層にまたがる重みノルムの予期せぬ、一貫した歪さを観察する。
この重要な観察を利用して、驚くほど単純なトレーニング戦略が発見され、LoRAと完全なパラメータトレーニングの両方を、LoRAよりも低いメモリコストで幅広い設定で上回る。
LLMの異なるレイヤに重要サンプリングのアイデアを適用し、最適化中にほとんどのミドルレイヤをランダムに凍結する。
実験結果から,LISA は MT-Bench スコアにおいて常に LoRA を10%~35% 以上上回り,MMLU,AGIEval,WinoGrande ではパフォーマンスが向上した。
LLaMA-2-70Bの大型モデルでは、LISAはMT-Bench、GSM8K、PubMedQAのLoRAを上回り、異なるドメイン間での有効性を示す。
The machine learning community has witnessed impressive advancements since large language models (LLMs) first appeared. Yet, their massive memory consumption has become a significant roadblock to large-scale training. For instance, a 7B model typically requires at least 60 GB of GPU memory with full parameter training, which presents challenges for researchers without access to high-resource environments. Parameter Efficient Fine-Tuning techniques such as Low-Rank Adaptation (LoRA) have been proposed to alleviate this problem. However, in most large-scale fine-tuning settings, their performance does not reach the level of full parameter training because they confine the parameter search to a low-rank subspace. Attempting to complement this deficiency, we investigate the layerwise properties of LoRA on fine-tuning tasks and observe an unexpected but consistent skewness of weight norms across different layers. Utilizing this key observation, a surprisingly simple training strategy is discovered, which outperforms both LoRA and full parameter training in a wide range of settings with memory costs as low as LoRA. We name it Layerwise Importance Sampled AdamW (LISA), a promising alternative for LoRA, which applies the idea of importance sampling to different layers in LLMs and randomly freezes most middle layers during optimization. Experimental results show that with similar or less GPU memory consumption, LISA surpasses LoRA or even full parameter tuning in downstream fine-tuning tasks, where LISA consistently outperforms LoRA by over 10%-35% in terms of MT-Bench score while achieving on-par or better performance in MMLU, AGIEval and WinoGrande. On large models, specifically LLaMA-2-70B, LISA surpasses LoRA on MT-Bench, GSM8K, and PubMedQA, demonstrating its effectiveness across different domains. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-25 |
# HairFastGAN:高速エンコーダによる実効性とロバストなヘアトランスファー
HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach ( http://arxiv.org/abs/2404.01094v3 ) ライセンス: Link先を確認 | Maxim Nikolaev, Mikhail Kuznetsov, Dmitry Vetrov, Aibek Alanov, | (参考訳) 本稿では,ヘアスタイルを参照画像から入力写真に転送する複雑な作業に対処し,バーチャルヘアトライオンを行う。
この課題は、さまざまな写真のポーズ、髪型の感度、客観的な指標の欠如に適応する必要があるため、困難である。
現在の最先端のヘアスタイル転送手法では、アプローチの異なる部分に対して最適化プロセスを使用しており、非常に遅い。
同時に、より高速なエンコーダベースのモデルは、StyleGANのW+空間で動作するか、他の低次元イメージジェネレータを使用するため、非常に低品質である。
さらに、両方のアプローチは、ソースのポーズがターゲットのポーズと非常に異なる場合、そのポーズを全く考慮しないか、非効率に扱うため、ヘアスタイルの転送に問題がある。
本稿では,これらの問題を一意に解き,高分解能,ほぼリアルタイム性能を実現し,最適化問題に基づく手法よりも優れた再構成を実現するHairFastモデルを提案する。
我々のソリューションには、FS潜在空間のStyleGANで動く新しいアーキテクチャ、拡張された塗装アプローチ、アライメント改善のためのエンコーダの改善、カラー転送、ポストプロセッシングのための新しいエンコーダが含まれる。
提案手法の有効性は, 髪型移行時におけるランダムな髪型移動と再構成後のリアリズム指標で示される。
ヘアスタイルの形状と色を異なる画像から転送する最も難しいシナリオでは、Nvidia V100上で1秒未満で実行することができる。
私たちのコードはhttps://github.com/AIRI-Institute/HairFastGANで利用可能です。
Our paper addresses the complex task of transferring a hairstyle from a reference image to an input photo for virtual hair try-on. This task is challenging due to the need to adapt to various photo poses, the sensitivity of hairstyles, and the lack of objective metrics. The current state of the art hairstyle transfer methods use an optimization process for different parts of the approach, making them inexcusably slow. At the same time, faster encoder-based models are of very low quality because they either operate in StyleGAN's W+ space or use other low-dimensional image generators. Additionally, both approaches have a problem with hairstyle transfer when the source pose is very different from the target pose, because they either don't consider the pose at all or deal with it inefficiently. In our paper, we present the HairFast model, which uniquely solves these problems and achieves high resolution, near real-time performance, and superior reconstruction compared to optimization problem-based methods. Our solution includes a new architecture operating in the FS latent space of StyleGAN, an enhanced inpainting approach, and improved encoders for better alignment, color transfer, and a new encoder for post-processing. The effectiveness of our approach is demonstrated on realism metrics after random hairstyle transfer and reconstruction when the original hairstyle is transferred. In the most difficult scenario of transferring both shape and color of a hairstyle from different images, our method performs in less than a second on the Nvidia V100. Our code is available at https://github.com/AIRI-Institute/HairFastGAN. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-25 |
# 寿命RLのKパーセント評価
K-percent Evaluation for Lifelong RL ( http://arxiv.org/abs/2404.02113v3 ) ライセンス: Link先を確認 | Golnaz Mesbahi, Parham Mohammad Panahi, Olya Mastikhina, Martha White, Adam White, | (参考訳) 持続的あるいは生涯にわたる強化学習では、環境へのアクセスは制限されるべきである。
もし私たちが、新しい予期せぬ状況に継続的に適応し、長期間実行可能なアルゴリズムを設計したいなら、エージェントの生涯にわたってハイパーパラメータを調整せずにエージェントをデプロイしなければなりません。
ディープRL、さらには連続RLの標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境への未設定のアクセスを仮定することである。
本稿では,実験データの1k%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントの評価手法を提案する。
次に, DQN と SAC の連続および非定常領域に関する実証的研究を行った。
ネットワークの可塑性を維持するために設計されたいくつかのアルゴリズムによる緩和は驚くほどよく機能するのに対し、エージェントはkパーセントのチューニングに制限された場合、一般的に性能が良くない。
In continual or lifelong reinforcement learning, access to the environment should be limited. If we aspire to design algorithms that can run for long periods, continually adapting to new, unexpected situations, then we must be willing to deploy our agents without tuning their hyperparameters over the agent's entire lifetime. The standard practice in deep RL, and even continual RL, is to assume unfettered access to the deployment environment for the full lifetime of the agent. In this paper, we propose a new approach for evaluating lifelong RL agents where only k percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and SAC across a variety of continuing and non-stationary domains. We find agents generally perform poorly when restricted to k-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprisingly well. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-25 |
# 拡散モデルの正確なバイナリ化に向けて
Towards Accurate Binarization of Diffusion Model ( http://arxiv.org/abs/2404.05662v2 ) ライセンス: Link先を確認 | Xingyu Zheng, Haotong Qin, Xudong Ma, Mingyuan Zhang, Haojie Hao, Jiakai Wang, Zixiang Zhao, Jinyang Guo, Xianglong Liu, | (参考訳) 拡散モデル(DM)の進歩と計算要求の大幅な増大により、量子化はコンパクトで効率的な低ビットDMを得るための実用的な解決策として現れる。
しかし、非常に離散的な表現は精度の低下を招き、拡散モデルの超低ビット幅への量子化を妨げる。
本稿では,DMの新しい量子化学習手法であるBinaryDMを提案する。
提案手法は,表現特性と計算特性を考慮して,DMの重み付けを高精度かつ効率的にバイナライズする。
表現の観点からは、二項化DMによって生成された表現を復元するLearable Multi-Basis Binarizer (LMB)を提案する。
LMBは、DMアーキテクチャのパラメータスパースな位置に適用しながら、2つのバイナリベースをフレキシブルに組み合わせることで、詳細な情報を強化する。
最適化の観点からは、二項化DMの最適化を支援するために低ランク表現ミミシング(LRM)を適用する。
LRMは低ランク空間における完全精度DMの表現を模倣し、微粒なアライメントに起因する最適化プロセスの方向性の曖昧さを軽減する。
さらに、BinaryDMに高速なプログレッシブウォームアップを適用し、トレーニング開始時の階層的にプログレッシブ量子化による収束困難を回避する。
超低ビット幅におけるDMのSOTA量子化法と比較して,BinaryDMは高い精度と効率向上を達成することを示した。
1.1ビットの重みと4ビットのアクティベーション(W1.1A4)により、BinaryDMは7.11 FIDまで低くなり、破壊(ベースラインFID 39.69)から性能を低下させる。
拡散モデルの最初の二項化法として、W1.1A4 BinaryDMは9.3倍のOPと24.8倍のモデルサイズを達成し、エッジ展開の可能性を示している。
With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel quantization-aware training approach for DMs, namely BinaryDM. The proposed method pushes DMs' weights toward accurate and efficient binarization, considering the representation and computation properties. From the representation perspective, we present a Learnable Multi-basis Binarizer (LMB) to recover the representations generated by the binarized DM. The LMB enhances detailed information through the flexible combination of dual binary bases while applying to parameter-sparse locations of DM architectures to achieve minor burdens. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Moreover, a quick progressive warm-up is applied to BinaryDM, avoiding convergence difficulties by layerwisely progressive quantization at the beginning of training. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1.1-bit weight and 4-bit activation (W1.1A4), BinaryDM achieves as low as 7.11 FID and saves the performance from collapse (baseline FID 39.69). As the first binarization method for diffusion models, W1.1A4 BinaryDM achieves impressive 9.3 times OPs and 24.8 times model size savings, showcasing its substantial potential for edge deployment. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-25 |
# 構造保存拡散モデルによる量子状態生成
Quantum State Generation with Structure-Preserving Diffusion Model ( http://arxiv.org/abs/2404.06336v2 ) ライセンス: Link先を確認 | Yuchen Zhu, Tianrong Chen, Evangelos A. Theodorou, Xie Chen, Molei Tao, | (参考訳) 本稿では,量子系の混合状態の生成モデルについて考察し,拡散モデルに基づくアプローチを提案する。
鍵となる貢献は、量子状態の物理的性質を尊重するアルゴリズム的な革新である。
より正確には、混合状態の一般的な密度行列表現は複素値のエルミート、正の半定値、トレース 1 でなければならない。
ジェネリック拡散モデルや他の生成的手法は、たとえ全てのトレーニングデータが可能であるとしても、これらの構造的制約を厳密に満たすデータを生成することができないかもしれない。
物理系をハードワイヤリングした機械学習アルゴリズムを開発するために、鏡拡散を利用して、フォン・ノイマンエントロピーの物理概念を借りて新しい地図を設計し、厳密な構造保存生成を可能にする。
非条件生成と無分類化誘導による条件生成の両方が実験的に有効であることが示され、後者は未確認ラベルで生成された新しい量子状態の設計を可能にする。
This article considers the generative modeling of the (mixed) states of quantum systems, and an approach based on denoising diffusion model is proposed. The key contribution is an algorithmic innovation that respects the physical nature of quantum states. More precisely, the commonly used density matrix representation of mixed-state has to be complex-valued Hermitian, positive semi-definite, and trace one. Generic diffusion models, or other generative methods, may not be able to generate data that strictly satisfy these structural constraints, even if all training data do. To develop a machine learning algorithm that has physics hard-wired in, we leverage mirror diffusion and borrow the physical notion of von Neumann entropy to design a new map, for enabling strict structure-preserving generation. Both unconditional generation and conditional generation via classifier-free guidance are experimentally demonstrated efficacious, the latter enabling the design of new quantum states when generated on unseen labels. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-25 |
# PM2: 医用画像分類のための新しいマルチモーダルモデルパラダイム
PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification ( http://arxiv.org/abs/2404.08915v2 ) ライセンス: Link先を確認 | Zhenwei Wang, Qiule Sun, Bingbing Zhang, Pengfei Wang, Jianxin Zhang, Qiang Zhang, | (参考訳) 医用画像分類の分野では, ごくわずかの医学的例しか得られていないため, 撮影学習が成功している例は少ない。
注釈付き医用画像の数が限られているため、画像表現は概念クラスを特徴づけるには不十分な単一の画像モダリティからのみ派生すべきではない。
本稿では,PM2と呼ばれるマルチモーダル基盤モデルに基づく医用画像分類のための新しいマルチモーダルモデルパラダイムを提案する。
画像モダリティの他に、PM2はプロンプトと呼ばれる別の補足的なテキスト入力を導入し、対応する画像や概念のクラスをさらに記述し、多様なモダリティをまたいだ数発の学習を容易にする。
迅速なエンジニアリングの可能性を探るため、我々は新しいパラダイムの下で5つの異なるプロンプトスキームを実験的に検討した。
さらに、マルチモーダルモデルの線形探索は、入力のみのクラストークンとして線形分類ヘッドとして機能し、ハイレベルなビジュアルトークンに固有のリッチな統計学の利点を完全に無視する。
そこで我々は,視覚トークンとクラストークンの特徴分布を同時に線形に分類する。
このようなリッチな統計を効果的に掘り下げるために、効率的な行列パワー正規化を伴う大域的共分散プールを用いて視覚トークンを集約する。
次に、2つの分類ヘッドを研究し、組み合わせる。
1つは、視覚エンコーダからの画像のクラストークンと、テキストエンコーダによってエンコーダされたプロンプト表現のために共有される。
もう1つは視覚エンコーダからの視覚トークンの特徴分布の分類である。
3つの医学データセットに対する大規模な実験により、我々のPM2は、素早いスキームに関わらず、相手よりも著しく優れ、最先端のパフォーマンスを達成することが示された。
Few-shot learning has been successfully applied to medical image classification as only very few medical examples are available for training. Due to the challenging problem of limited number of annotated medical images, image representations should not be solely derived from a single image modality which is insufficient for characterizing concept classes. In this paper, we propose a new prompting multi-modal model paradigm on medical image classification based on multi-modal foundation models, called PM2. Besides image modality,PM2 introduces another supplementary text input, known as prompt, to further describe corresponding image or concept classes and facilitate few-shot learning across diverse modalities. To better explore the potential of prompt engineering, we empirically investigate five distinct prompt schemes under the new paradigm. Furthermore, linear probing in multi-modal models acts as a linear classification head taking as input only class token, which ignores completely merits of rich statistics inherent in high-level visual tokens. Thus, we alternatively perform a linear classification on feature distribution of visual tokens and class token simultaneously. To effectively mine such rich statistics, a global covariance pooling with efficient matrix power normalization is used to aggregate visual tokens. Then we study and combine two classification heads. One is shared for class token of image from vision encoder and prompt representation encoded by text encoder. The other is to classification on feature distribution of visual tokens from vision encoder. Extensive experiments on three medical datasets show that our PM2 significantly outperforms counterparts regardless of prompt schemes and achieves state-of-the-art performance. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-25 |
# Masked Image Modeling Pre-Trainingによる強軽量ビジョントランスの探索に関する実験的研究
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training ( http://arxiv.org/abs/2404.12210v2 ) ライセンス: Link先を確認 | Jin Gao, Shubo Lin, Shaoru Wang, Yutong Kou, Zeming Li, Liang Li, Congxuan Zhang, Xiaoqin Zhang, Yizheng Wang, Weiming Hu, | (参考訳) Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では, 従来の軽量アーキテクチャ設計手法とは対照的に, この事前学習パラダイムから, 軽量ViTの微調整性能を享受できるかどうかを疑問視する。
我々は観察・分析・溶解流を用いて研究を行った。
まず、下流の微調整データスケールに関して、評価された事前学習手法の異なる振る舞いを系統的に観察する。
さらに、得られたモデル間での層表現の類似性やアテンションマップを分析し、上位層でのMIM事前学習の劣悪な学習を明らかに示し、データ不足な下流タスクにおける不満足な転送性能をもたらす。
この発見は, 上述の劣化問題を解決するために, 予修試験において, 蒸留法を設計するためのガイドとなる。
大規模な実験により,本手法の有効性が実証された。
バニラ/階層設計による純粋な軽量ViT(5.7M$/$6.5M$)での蒸留による事前学習は、ImageNet-1Kで79.4\%/$78.9\%の精度で達成できる。
ADE20Kセグメンテーションタスク(42.8 %$ mIoU)とLaSOTトラッキングタスク(66.1 %$ AUC)でのSOTAのパフォーマンスも可能になった。
後者は、現在のSOTA軽量CPUリアルタイムトラッカーを全て上回っている。
Masked image modeling (MIM) pre-training for large-scale vision transformers (ViTs) has enabled promising downstream performance on top of the learned self-supervised ViT features. In this paper, we question if the \textit{extremely simple} lightweight ViTs' fine-tuning performance can also benefit from this pre-training paradigm, which is considerably less studied yet in contrast to the well-established lightweight architecture design methodology. We use an observation-analysis-solution flow for our study. We first systematically observe different behaviors among the evaluated pre-training methods with respect to the downstream fine-tuning data scales. Furthermore, we analyze the layer representation similarities and attention maps across the obtained models, which clearly show the inferior learning of MIM pre-training on higher layers, leading to unsatisfactory transfer performance on data-insufficient downstream tasks. This finding is naturally a guide to designing our distillation strategies during pre-training to solve the above deterioration problem. Extensive experiments have demonstrated the effectiveness of our approach. Our pre-training with distillation on pure lightweight ViTs with vanilla/hierarchical design ($5.7M$/$6.5M$) can achieve $79.4\%$/$78.9\%$ top-1 accuracy on ImageNet-1K. It also enables SOTA performance on the ADE20K segmentation task ($42.8\%$ mIoU) and LaSOT tracking task ($66.1\%$ AUC) in the lightweight regime. The latter even surpasses all the current SOTA lightweight CPU-realtime trackers. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-25 |
# 微分方程式に基づく生成モデルにおけるテンソル値時間と推論経路の最適化
Tensor-Valued Time and Inference Path Optimization in Differential Equation-Based Generative Modeling ( http://arxiv.org/abs/2404.14161v2 ) ライセンス: Link先を確認 | Dohoon Lee, Kyogu Lee, | (参考訳) 微分方程式に基づく生成モデリングの分野では、従来の方法では、トレーニングと推論の両方のフェーズでスカラー値の時間を利用する。
この研究は、従来のスカラー値の時間を複数の次元に拡張するテンソル値の時間を導入している。
さらに, 所定の微分方程式解法と一定数の関数評価を用いて, 多次元の推論軌道を適応的に決定する新しい経路最適化問題を提案する。
提案手法は,確率的補間フレームワーク,シミュレーション力学,対角訓練を利用して推論経路を最適化する。
特に、トレーニング中にテンソル値の時間を組み込むことで、パス最適化なしでも、いくつかのモデルの推論性能が向上する。
最適化プロセスから導出される適応的多次元経路を用いると、固定されたソルバ構成に拘わらず、さらなる性能向上が達成される。
テンソル値時間の導入はモデルの効率を高めるだけでなく、トレーニングや推論の方法論を探求するための新たな道を開き、適応多次元経路の可能性を強調している。
In the field of generative modeling based on differential equations, conventional methods utilize scalar-valued time during both the training and inference phases. This work introduces, for the first time, a tensor-valued time that expands the conventional scalar-valued time into multiple dimensions. Additionally, we propose a novel path optimization problem designed to adaptively determine multidimensional inference trajectories using a predetermined differential equation solver and a fixed number of function evaluations. Our approach leverages the stochastic interpolant framework, simulation dynamics, and adversarial training to optimize the inference pathway. Notably, incorporating tensor-valued time during training improves some models' inference performance, even without path optimization. When the adaptive, multidimensional path derived from our optimization process is employed, further performance gains are achieved despite the fixed solver configurations. The introduction of tensor-valued time not only enhances the efficiency of models but also opens new avenues for exploration in training and inference methodologies, highlighting the potential of adaptive multidimensional paths. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# 単語順変化におけるエントロピー最小化を超えるスワップ距離最小化
Swap distance minimization beyond entropy minimization in word order variation ( http://arxiv.org/abs/2404.14192v3 ) ライセンス: Link先を確認 | Víctor Franco-Sánchez, Arnau Martí-Llobet, Ramon Ferrer-i-Cancho, | (参考訳) 例えば、主語、直接目的語、動詞(n=3$)、または主語、直接目的語、間接目的語、動詞(n=4$)などである。
我々は$nの頻度を調べます!
可能な命令は2つの原則によって制限される。
まず、エントロピーの最小化(エントロピーの最小化)は、異なるレベルの組織で自然なコミュニケーションシステムを形成することが提案されている原則である。
第二に、スワップ距離の最小化(スワップ距離の最小化)、すなわちソースオーダーから生成される隣接要素のスワップを少なくするワードオーダーの好みである。
ここでは、スワップ距離最小化の研究のための新しいスコアである平均スワップ距離を提示し、その値の最小値と最大値、ダイリング実験における期待値、あるいは単語順の周波数がシャッフルされた場合の理論的分布について検討する。
エントロピーと平均スワップ距離は、対応する最小化原理と一致する$n=3$または$n=4$の異なる言語構造において著しく小さいかを検討する。
転がり実験に関してエントロピーの最小化とスワップ距離の最小化の強い証拠を見出した。
ポリア urn 過程に関するこれらの2つの力の証拠は、$n=4$に対して強いが、$n=3$ではより弱い。
単語順の周波数がシャッフルされた場合,スワップ距離最小化効果は,単語順エントロピーを最小化するために,圧力を超えていることを示す。
Here we consider the problem of all the possible orders of a linguistic structure formed by $n$ elements, for instance, subject, direct object and verb ($n=3$) or subject, direct object, indirect object and verb ($n=4$). We investigate if the frequency of the $n!$ possible orders is constrained by two principles. First, entropy minimization, a principle that has been suggested to shape natural communication systems at distinct levels of organization. Second, swap distance minimization, namely a preference for word orders that require fewer swaps of adjacent elements to be produced from a source order. Here we present average swap distance, a novel score for research on swap distance minimization, and investigate the theoretical distribution of that score for any $n$: its minimum and maximum values and its expected value in die rolling experiments or when the word order frequencies are shuffled. We investigate whether entropy and average swap distance are significantly small in distinct linguistic structures with $n=3$ or $n=4$ in agreement with the corresponding minimization principles. We find strong evidence of entropy minimization and swap distance minimization with respect to a die rolling experiment. The evidence of these two forces with respect to a Polya urn process is strong for $n=4$ but weaker for $n=3$. We still find evidence of swap distance minimization when word order frequencies are shuffled, indicating that swap distance minimization effects are beyond pressure to minimize word order entropy. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# エネルギーネットワークのためのマルチエージェント強化学習:計算問題、進展とオープン問題
Multi-Agent Reinforcement Learning for Energy Networks: Computational Challenges, Progress and Open Problems ( http://arxiv.org/abs/2404.15583v3 ) ライセンス: Link先を確認 | Sarah Keren, Chaimaa Essayeh, Stefano V. Albrecht, Thomas Morstyn, | (参考訳) 急速に変化する電気ネットワークのアーキテクチャと機能、および再生可能および分散エネルギー資源の浸透が、様々な技術的および管理上の課題を引き起こしている。
これらは、ネットワークの動的で進化的な性質をサポートすることができないため、伝統的な中央集権的なエネルギー市場パラダイムを不十分にしている。
本調査では,マルチエージェント強化学習(MARL)がエネルギーネットワークの分散化と脱炭を支援し,関連する課題を軽減する方法について検討する。
これは、エネルギーネットワークの管理における重要な計算上の課題を特定し、それらに対処する最近の研究の進捗をレビューし、MARLを使って対処する可能性のあるオープンな課題を強調することで達成される。
The rapidly changing architecture and functionality of electrical networks and the increasing penetration of renewable and distributed energy resources have resulted in various technological and managerial challenges. These have rendered traditional centralized energy-market paradigms insufficient due to their inability to support the dynamic and evolving nature of the network. This survey explores how multi-agent reinforcement learning (MARL) can support the decentralization and decarbonization of energy networks and mitigate the associated challenges. This is achieved by specifying key computational challenges in managing energy networks, reviewing recent research progress on addressing them, and highlighting open challenges that may be addressed using MARL. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# 多変量忠実度
Multivariate Fidelities ( http://arxiv.org/abs/2404.16101v2 ) ライセンス: Link先を確認 | Theshani Nuradha, Hemant K. Mishra, Felix Leditzky, Mark M. Wilde, | (参考訳) 本稿の主な貢献は、多くの多変量量子忠実度を導入し、ウルマンとホレヴォの忠実度を自然に拡張したいくつかの望ましい性質を満たすことを示すことである。
本稿では,平均対対数$z$-忠実度,多変量半定値プログラミング(SDP)忠実度,および既存の秘密度尺度に着想を得た多変量有限性という3つの変種を提案する。
2つ目は、ウルマン忠実度のSDP定式化を2つ以上の状態に拡張することで得られる。
これら3つの変種はすべて以下の性質を満たす。
(i)通勤国家における古典的忠実度の多変量化
(ii)データ処理の不平等
三 国家の順応による不変性
(iv)その値が$[0,1]$の間隔にあること、すなわち、それらの値が1に等しいこと、そして全ての状態が等しいこと、そしてそれらの値が0に等しいこと、そして状態が互いに直交している場合に限り、その値が0に等しいこと。
(v)直属財産
(vi)関節腔、及び
(vii)一様連続性は一定の条件下で有界である。
さらに、これらの異なる変種に関連する不等式を確立し、これらすべての定義が可換状態の平均対忠実度と一致することを明確にする。
最後に、多変量対ユークリッドフィディリティという別の多変量体を導入し、これはマツシタ多変量体フィディリティの量子一般化である。
また、上述の望ましい性質のほとんどを満足し、多変量対ユークリッド発散の関数であり、任意に変化するヌル仮説を持つ量子仮説検定の操作的解釈を持つことを示した。
The main contribution of our paper is to introduce a number of multivariate quantum fidelities and show that they satisfy several desirable properties that are natural extensions of those of the Uhlmann and Holevo fidelities. We propose three variants that reduce to the average pairwise fidelity for commuting states: average pairwise $z$-fidelities, the multivariate semi-definite programming (SDP) fidelity, and a multivariate fidelity inspired by an existing secrecy measure. The second one is obtained by extending the SDP formulation of the Uhlmann fidelity to more than two states. All three of these variants satisfy the following properties: (i) reduction to multivariate classical fidelities for commuting states, (ii) the data-processing inequality, (iii) invariance under permutations of the states, (iv) its values are in the interval $[0,1]$; they are faithful, that is, their values are equal to one if and only if all the states are equal, and they satisfy orthogonality, that is their values are equal to zero if and only if the states are mutually orthogonal to each other, (v) direct-sum property, (vi) joint concavity, and (vii) uniform continuity bounds under certain conditions. Furthermore, we establish inequalities relating these different variants, indeed clarifying that all these definitions coincide with the average pairwise fidelity for commuting states. Lastly, we introduce another multivariate fidelity called multivariate log-Euclidean fidelity, which is a quantum generalization of the Matusita multivariate fidelity. We also show that it satisfies most of the desirable properties listed above, it is a function of a multivariate log-Euclidean divergence, and has an operational interpretation in terms of quantum hypothesis testing with an arbitrarily varying null hypothesis. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# FeDeRA:Federated Learning Leveraging Weight Decompositionにおける言語モデルの効率的な微調整
FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition ( http://arxiv.org/abs/2404.18848v3 ) ライセンス: Link先を確認 | Yuxuan Yan, Qianqian Yang, Shunpu Tang, Zhiguo Shi, | (参考訳) 微調整後の様々なタスクにおける例外的なパフォーマンスにもかかわらず、事前訓練された言語モデル(PLM)は、集中的なトレーニング手法におけるデータに対するプライバシー上の懸念が増大するため、重大な課題に直面している。
本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。
しかし、PLMのかなりの数のパラメータは、限られた通信と計算資源を持つクライアントデバイスに重大な困難をもたらす。
1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
PEFT法はトレーニング効率は著しく向上するが、実験結果から明らかになったように、異なるクライアント間のデータが非i.dである場合、特に性能が低下する可能性がある。
これを解決するために、広く使われているPEFT法であるローランク適応法(LoRA)を拡張し改良するFeDeRAを提案する。
FeDeRAは、PLMの重み行列を低ランク行列に分解することでLoRAに従う。
ランダムサンプリングやゼロによってこれらの低ランク行列を単純に初期化するLoRAとは異なり、提案したFeDeRAは、事前学習された重み行列上で特異値分解(SVD)を行い、これらの行列を初期化する。
さまざまなタスクやデータセットにわたる大規模な実験により、FeDeRAはPEFTベースラインよりも優れており、タスクパフォーマンスの面でFL設定内のFFTメソッドに匹敵する、あるいは超越していることが示された。
さらに、FeDeRAはFFTと比較してトレーニング可能な麻痺の1%しか必要とせず、同じタスクパフォーマンスレベルを達成するためにトレーニング時間コストを90%以上削減する。
実験結果は、データ不均一性が増大しても安定したタスク性能を維持するため、データ不均一性に対するFeDeRAの堅牢性も強調する。
Despite their exceptional performance on various tasks after fine-tuning, pre-trained language models (PLMs) face significant challenges due to growing privacy concerns with data in centralized training methods. We consider federated learning (FL) to fine-tune PLMs in this paper. However, the substantial number of parameters in PLMs poses significant difficulties for client devices with limited communication and computational resources. One promising solution is to exploit parameter-efficient fine-tuning (PEFT) into FL, which trains a much smaller set of parameters than full parameter fine-tuning (FFT). Although remarkably improving training efficiency, PEFT methods may lead to degraded performance especially when data across different clients are non i.i.d, as revealed by experimental results. To overcome this, we propose FeDeRA, which extends and improves a widely used PEFT method, i.e., low-rank adaption (LoRA). FeDeRA follows LoRA by decomposing the weight matrices of the PLMs into low-rank matrices, which allows for more efficient computation and parameter updates during fine-tuning. Different from LoRA which simply initializes these low-rank matrices by random sampling or zeros, the proposed FeDeRA initializes these matrices by the results of performing singular value decomposition (SVD) on the pre-trained weight matrices. Extensive experiments across various tasks and datasets show that FeDeRA outperforms the considered PEFT baselines and is comparable to or even surpasses FFT method within the FL setting in terms of task performance. Moreover, FeDeRA requires only 1% trainable paramentes compared to FFT, significantly reducing training time costs by more than 90% to achieve the same task performance level. The experimental results also highlight the robustness of FeDeRA against data heterogeneity, as it maintains stable task performance even as data heterogeneity increases. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# VERT: 大きな言語モデルによる検証された等価なRustトランスパイラ
VERT: Verified Equivalent Rust Transpilation with Large Language Models as Few-Shot Learners ( http://arxiv.org/abs/2404.18852v2 ) ライセンス: Link先を確認 | Aidan Z. H. Yang, Yoshiki Takashima, Brandon Paulsen, Josiah Dodds, Daniel Kroening, | (参考訳) Rustはメモリ安全性と低レベルのコントロールを組み合わせたプログラミング言語で、デフォルトでは未定義の動作がないことを保証しながら、Cライクなパフォーマンスを提供する。
Rustの人気が高まっているため、既存のコードベースをRustに安全かつ正しく移行する研究が進められている。
既存の作業はルールベースと大規模言語モデル(LLM)という2つのカテゴリに分類される。
ルールベースのアプローチは理論上、インプット・アウトプットの等価性をオリジナルに維持する正しいトランスパイルを生成することができるが、多くの場合、Rust言語の安全でないサブセットを使用する可読性のないRustコードを生成する。
一方、LLMベースのアプローチは一般的により読みやすく、保守性があり、安全なコードを生成するが、正確性に関する保証は提供しない。
本研究では,可読性のあるRustトランスパイルを,正式な正確性を保証するツールであるVERTを紹介する。
VERTの唯一の要件は、ソース言語にWebアセンブリコンパイラが存在することだ。
VERTはまず、Web Assemblyコンパイラを使用して、オラクルRustプログラムを取得する。
並行して、VERTはLLMを使用して読み取り可能な候補Rustプログラムを生成する。
この候補はオラクルに対して検証され、検証が失敗した場合、検証が成功するまで新しい候補の複製を再生する。
我々は、競合プログラミングスタイルのベンチマークから得られた1,394個のプログラムをトランスパイルすることで、VERTを評価する。
AnthropicのClaude-2とVERTを組み合わせることで、プロパティベースのテストに合格するRustのトランスパイルが31%から54%に増加し、モデルチェックのバウンドが1%から42%に増加した。
さらに、ポインタを多用する現実世界のCプロジェクトから取得したプログラムに対して、VERTが非自明な安全なRustを生成する能力を評価した。
我々の結果は、安全なRustを書くためのLLMの制限に関する洞察を与えてくれます。
Rust is a programming language that combines memory safety and low-level control, providing C-like performance while guaranteeing the absence of undefined behaviors by default. Rust's growing popularity has prompted research on safe and correct transpiling of existing code-bases to Rust. Existing work falls into two categories: rule-based and large language model (LLM)-based. While rule-based approaches can theoretically produce correct transpilations that maintain input-output equivalence to the original, they often yield unreadable Rust code that uses unsafe subsets of the Rust language. On the other hand, while LLM-based approaches typically produce more readable, maintainable, and safe code, they do not provide any guarantees about correctness. In this work, we present VERT, a tool that can produce readable Rust transpilations with formal guarantees of correctness. VERT's only requirement is that there is Web Assembly compiler for the source language, which is true for most major languages. VERT first uses the Web Assembly compiler to obtain an oracle Rust program. In parallel, VERT uses an LLM to generate a readable candidate Rust program. This candidate is verified against the oracle, and if verification fails, we regenerate a new candidate transpilation until verification succeeds. We evaluate VERT by transpiling a suite of 1,394 programs taken from competitive programming style benchmarks. Combining Anthropic's Claude-2 and VERT increases Rust transpilations passing property-based testing from 31% to 54% and bounded model-checking from 1% to 42% compared to using Claude alone. In addition, we evaluate VERT's ability to generate non-trivial safe Rust on programs taken from real-world C projects that make significant use of pointers. Our results provide insights into the limitations of LLMs to write safe Rust. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-25 |
# ポジション:なぜ機械学習における経験的研究を再考する必要があるのか
Position: Why We Must Rethink Empirical Research in Machine Learning ( http://arxiv.org/abs/2405.02200v2 ) ライセンス: Link先を確認 | Moritz Herrmann, F. Julian D. Lange, Katharina Eggensperger, Giuseppe Casalicchio, Marcel Wever, Matthias Feurer, David Rügamer, Eyke Hüllermeier, Anne-Laure Boulesteix, Bernd Bischl, | (参考訳) 我々は、機械学習における実証研究の一般的な理解が不完全な結果をもたらし、発見を信頼できないものにし、この分野の進歩を損なう恐れがある、と警告する。
この危機を克服するために、我々は複数の知識を実験的に獲得する方法の認知度を高めるとともに、いくつかのエピステマ性制限も求めている。
特に、最近の経験的機械学習研究は、むしろ探索的なものとみなすべきであるが、確認研究として流用されていると我々は主張する。
We warn against a common but incomplete understanding of empirical research in machine learning that leads to non-replicable results, makes findings unreliable, and threatens to undermine progress in the field. To overcome this alarming situation, we call for more awareness of the plurality of ways of gaining knowledge experimentally but also of some epistemic limitations. In particular, we argue most current empirical machine learning research is fashioned as confirmatory research while it should rather be considered exploratory. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-25 |
# 不完全なクライアント参加の有無によるサーバ支援フェデレーション学習の理解
Understanding Server-Assisted Federated Learning in the Presence of Incomplete Client Participation ( http://arxiv.org/abs/2405.02745v2 ) ライセンス: Link先を確認 | Haibo Yang, Peiwen Qiu, Prashant Khanduri, Minghong Fang, Jia Liu, | (参考訳) 連邦学習(FL)における既存の作業は、多くの場合、完全なクライアントまたは均一に分散されたクライアントの参加を伴う理想的なシステムを前提とします。
しかし、実際には、システムの不均一性要因が無数にあるため、一部のクライアントがFLトレーニング(いわゆる不完全なクライアント参加)に参加できないことが観察されている。
不完全なクライアント参加の影響を緩和するための一般的なアプローチは、サーバに補助データセットを備えたサーバ支援連合学習(SA-FL)フレームワークである。
しかしながら、SA-FLが不完全なクライアント参加問題に対処する上で有効であることが実証的に証明されているにもかかわらず、SA-FLの理論的理解はいまだに欠如している。
一方、従来のFLにおける不完全なクライアント参加の意義もよく理解されていない。
これらの理論的ギャップは、SA-FLを厳格に調査する動機となっている。
この目的のために, 従来の FL は不完全なクライアント参加の下で PAC を学習可能であることを示す。
そして,不完全なクライアント参加を伴うFLのPAC学習性は,理論上初めてSA-FLの使用を正当化するSA-FLによって再現可能であることを示す。
最後に, 従来の FL と同じ線形収束速度保証を, 理想的なクライアント参加仮定で実現し, 収束保証付きの最初の SA-FL アルゴリズムを提供する$\mathsf{SAFARI}$ (server-assisted Federated Averaging) アルゴリズムを提案する。
異なるデータセットに対する大規模な実験では、$\mathsf{SAFARI}$が不完全なクライアント参加時のパフォーマンスを大幅に改善している。
Existing works in federated learning (FL) often assume an ideal system with either full client or uniformly distributed client participation. However, in practice, it has been observed that some clients may never participate in FL training (aka incomplete client participation) due to a myriad of system heterogeneity factors. A popular approach to mitigate impacts of incomplete client participation is the server-assisted federated learning (SA-FL) framework, where the server is equipped with an auxiliary dataset. However, despite SA-FL has been empirically shown to be effective in addressing the incomplete client participation problem, there remains a lack of theoretical understanding for SA-FL. Meanwhile, the ramifications of incomplete client participation in conventional FL are also poorly understood. These theoretical gaps motivate us to rigorously investigate SA-FL. Toward this end, we first show that conventional FL is {\em not} PAC-learnable under incomplete client participation in the worst case. Then, we show that the PAC-learnability of FL with incomplete client participation can indeed be revived by SA-FL, which theoretically justifies the use of SA-FL for the first time. Lastly, to provide practical guidance for SA-FL training under {\em incomplete client participation}, we propose the $\mathsf{SAFARI}$ (server-assisted federated averaging) algorithm that enjoys the same linear convergence speedup guarantees as classic FL with ideal client participation assumptions, offering the first SA-FL algorithm with convergence guarantee. Extensive experiments on different datasets show $\mathsf{SAFARI}$ significantly improves the performance under incomplete client participation. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-25 |
# 遅延整合性学習によるテキスト駆動動作の効率的な生成
Efficient Text-driven Motion Generation via Latent Consistency Training ( http://arxiv.org/abs/2405.02791v2 ) ライセンス: Link先を確認 | Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen, | (参考訳) 動き拡散モデルはテキスト駆動の動作生成において優れるが、動き列は時間軸の冗長であり、逆拡散軌道の解法は数十から数百の連続反復を含むため、リアルタイム推論に苦慮する。
本稿では,近接する摂動状態の出力の整合性を制限することで,コンパクトな動作遅延表現の大規模なスキップサンプリングを可能にするMLCT(Motion Latent Consistency Training)フレームワークを提案する。
特に,運動埋め込み空間の低次元性,簡潔性,および有界性を保証するために,量子化制約付きフレキシブルな運動オートエンコーダを設計する。
さらに,事前学習拡散モデルを追加せずに条件付き軌道シミュレーションに基づく条件付き整合性トレーニングフレームワークを提案し,トレーニングコストを最小にすることで条件付き生成性能を著しく向上させる。
2つのベンチマークの実験では、RTX 4090 GPUの8割の推論コストと約14ミリ秒で、我々のモデルの最先端性能が実証された。
Motion diffusion models excel at text-driven motion generation but struggle with real-time inference since motion sequences are time-axis redundant and solving reverse diffusion trajectory involves tens or hundreds of sequential iterations. In this paper, we propose a Motion Latent Consistency Training (MLCT) framework, which allows for large-scale skip sampling of compact motion latent representation by constraining the consistency of the outputs of adjacent perturbed states on the precomputed trajectory. In particular, we design a flexible motion autoencoder with quantization constraints to guarantee the low-dimensionality, succinctness, and boundednes of the motion embedding space. We further present a conditionally guided consistency training framework based on conditional trajectory simulation without additional pre-training diffusion model, which significantly improves the conditional generation performance with minimal training cost. Experiments on two benchmarks demonstrate our model's state-of-the-art performance with an 80\% inference cost saving and around 14 ms on a single RTX 4090 GPU. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-25 |
# TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション
TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation ( http://arxiv.org/abs/2405.04682v3 ) ライセンス: Link先を確認 | Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang, | (参考訳) 拡散に基づく生成モデリングの最近の進歩は、テキストプロンプトに条件付けされた高品質なビデオを生成することができるテキスト・ツー・ビデオ(T2V)モデルの開発につながっている。
これらのT2Vモデルの多くは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写したシングルシーンのビデオクリップを生成することが多い。
しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。
事前訓練されたT2Vモデルからマルチシーン映像を生成するために,時間調整キャプション(TALC)フレームワークを導入する。
具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。
その結果、事前訓練されたT2Vモデルは、マルチシーンのテキスト記述に忠実で、視覚的に一貫した(例えば、w.r.tエンティティと背景)マルチシーンビデオを生成することができることを示した。
talC-finetuned model は,複数シーンのビデオテキストデータに対するベースライン法を,集計スコアで15.5ポイント向上し,人間の評価による視覚的一貫性とテキストの付着度を平均化する。
プロジェクトのWebサイトはhttps://talc-mst2v.github.io/。
Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a particular action (e.g., 'a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., 'a red panda climbing a tree' followed by 'the red panda sleeps on the top of the tree'). To generate multi-scene videos from a pretrained T2V model, we introduce Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. As a result, we show that the pretrained T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., w.r.t entity and background). Our TALC-finetuned model outperforms the baseline methods on multi-scene video-text data by 15.5 points on aggregated score, averaging visual consistency and text adherence using human evaluation. The project website is https://talc-mst2v.github.io/. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-25 |
# 適応および高次SDEソルバのためのブラウンパスと積分の単列生成
Single-seed generation of Brownian paths and integrals for adaptive and high order SDE solvers ( http://arxiv.org/abs/2405.06464v3 ) ライセンス: Link先を確認 | Andraž Jelinčič, James Foster, Patrick Kidger, | (参考訳) ODEシミュレーションにおける適応型タイムステッピングの成功にもかかわらず、SDE(Stochastic Differential Equations)の応用例はこれまでにない。
適応的にSDEをシミュレートするために、VBT(Virtual Brownian Tree)のような手法が開発され、非時間的にブラウン運動(BM)を生成することができる。
しかし、ほとんどのアプリケーションでは、ブラウン運動の値のみを知って高次収束を達成するには不十分であり、そのため、$\int_s^t W_r \, dr$ のようなBMの時間積分を計算する必要がある。
高次SDEソルバを適応的に使用することを目的として、我々は、ブラウン増分に加えて、これらのBM積分を生成するためにVBTを拡張した。
私たちの構築のJAXベースの実装は、人気のあるDiffraxライブラリ(https://github.com/patrick-kidger/diffrax)に含まれている。
VBTが生成するブラウンパス全体が単一のPRNGシードによって一意に決定されるため、以前に生成されたサンプルを格納する必要がなく、結果としてメモリフットプリントが一定となり、実験の再現性と強いエラー推定が可能になる。
バイナリ検索に基づいて、VBTの時間複雑性は許容パラメータ$\varepsilon$の対数である。
元のVBTアルゴリズムとは違い、我々の構成は、少なくとも$\varepsilon$の差がある場合、ブラウン運動とその時間積分の結合分布と正確に一致することを証明している。
適応型高次解法を新しいVBTで実現した2つの応用について述べる。
適応解法を用いて高揮発性CIRモデルをシミュレートし、定常ステップの収束順序を2倍以上に向上する。
MCMC問題に対して, 適応型第3次ランゲヴィン解法を応用し, 提案手法は機能評価の10分の1しか使用せず, No U-Turn Samplerよりも優れていることを示した。
Despite the success of adaptive time-stepping in ODE simulation, it has so far seen few applications for Stochastic Differential Equations (SDEs). To simulate SDEs adaptively, methods such as the Virtual Brownian Tree (VBT) have been developed, which can generate Brownian motion (BM) non-chronologically. However, in most applications, knowing only the values of Brownian motion is not enough to achieve a high order of convergence; for that, we must compute time-integrals of BM such as $\int_s^t W_r \, dr$. With the aim of using high order SDE solvers adaptively, we extend the VBT to generate these integrals of BM in addition to the Brownian increments. A JAX-based implementation of our construction is included in the popular Diffrax library (https://github.com/patrick-kidger/diffrax). Since the entire Brownian path produced by VBT is uniquely determined by a single PRNG seed, previously generated samples need not be stored, which results in a constant memory footprint and enables experiment repeatability and strong error estimation. Based on binary search, the VBT's time complexity is logarithmic in the tolerance parameter $\varepsilon$. Unlike the original VBT algorithm, which was only precise at some dyadic times, we prove that our construction exactly matches the joint distribution of the Brownian motion and its time integrals at any query times, provided they are at least $\varepsilon$ apart. We present two applications of adaptive high order solvers enabled by our new VBT. Using adaptive solvers to simulate a high-volatility CIR model, we achieve more than twice the convergence order of constant stepping. We apply an adaptive third order underdamped or kinetic Langevin solver to an MCMC problem, where our approach outperforms the No U-Turn Sampler, while using only a tenth of its function evaluations. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-25 |
# 局所から大域的秩序へ:ニューラルシナプスバランスの理論
From Local to Global Order: A Theory of Neural Synaptic Balance ( http://arxiv.org/abs/2405.09688v2 ) ライセンス: Link先を確認 | Pierre Baldi, Alireza Rahmansetayesh, | (参考訳) 我々は、神経シナプスバランスの理論を開発し、それをニューラルネットワークでどのように実現または強制するかを考察する。
与えられた加算コスト関数$R$(正規化器)に対して、入力重みの総コストが出力重みの総コストと等しい場合、ニューロンは平衡にあると言われる。
基本的な例は、正規化器で訓練されたReLUユニットのフィードフォワードネットワークによって提供され、適切なトレーニング後にバランスを示す。
理論はこの現象を説明し、いくつかの方向に拡張している。
最初の方向は双線型や他の活性化関数の拡張である。
第2の方向はより一般的な正則化器の拡張であり、その中にはすべての$L_p$$(p>0$)正則化器が含まれる。
第3の方向性は、非層アーキテクチャ、繰り返しアーキテクチャ、畳み込みアーキテクチャ、および混合アクティベーション機能を持つアーキテクチャの拡張である。
この理論は、可換なスケーリングと、可換でないバランスという2つの局所的なニューロン操作に基づいている。
最後に、任意の初期重みの集合を考えると、局所的バランス操作が確率的に各ニューロンに適用されるとき、大域的順序は常に確率的バランスアルゴリズムの収束を通じて同じバランスの取れた重みの集合に現れる。
この収束の理由は、関連する変数が線型にのみアーキテクチャに依存した多様体に制約されるような厳密な凸最適化問題の存在である。
この理論は、ベンチマークデータセット上で実行される様々なシミュレーションを通して裏付けられている。
スケーリングとバランスの操作は、完全に局所的であり、したがって生物学的およびニューロモルフィックネットワークにおいて物理的に妥当である。
We develop a theory of neural synaptic balance and how it can emerge or be enforced in neural networks. For a given additive cost function $R$ (regularizer), a neuron is said to be in balance if the total cost of its input weights is equal to the total cost of its output weights. The basic example is provided by feedforward networks of ReLU units trained with $L_2$ regularizers, which exhibit balance after proper training. The theory explains this phenomenon and extends it in several directions. The first direction is the extension to bilinear and other activation functions. The second direction is the extension to more general regularizers, including all $L_p$ ($p>0$) regularizers. The third direction is the extension to non-layered architectures, recurrent architectures, convolutional architectures, as well as architectures with mixed activation functions. The theory is based on two local neuronal operations: scaling which is commutative, and balancing which is not commutative. Finally, and most importantly, given any initial set of weights, when local balancing operations are applied to each neuron in a stochastic manner, global order always emerges through the convergence of the stochastic balancing algorithm to the same unique set of balanced weights. The reason for this convergence is the existence of an underlying strictly convex optimization problem where the relevant variables are constrained to a linear, only architecture-dependent, manifold. The theory is corroborated through various simulations carried out on benchmark data sets. Scaling and balancing operations are entirely local and thus physically plausible in biological and neuromorphic networks. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-25 |
# 大規模言語モデルアライメントのためのアクティベーションのスペクトル編集
Spectral Editing of Activations for Large Language Model Alignment ( http://arxiv.org/abs/2405.09719v2 ) ライセンス: Link先を確認 | Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen, | (参考訳) 大規模言語モデル(LLM)は、非現実的あるいは偏見のあるコンテンツを生成するなど、望ましくない振る舞いを示すことが多い。
内部表現の編集は、既存のアライメントメソッドの上にそのような振る舞いを緩和するのに有効であることが示されている。
本稿では, アクティベーションのスペクトル編集(SEA)という新しい推論時間編集手法を提案し, 正の演示と最大共分散の方向へ入力表現を投影し, 負の演示との共分散を最小限に抑えながら, 正の演示と最大共分散の方向へ投影する。
また,特徴関数を用いた非線形編集にも拡張する。
我々は,異なるサイズとモデルファミリの6つのオープンソースLLMを用いて,真偽と偏見に関するベンチマーク実験を行った。
その結果、SEAの有効性、類似したタスクへの一般化、計算とデータ効率の優位性が示された。
また、SEA編集は他のモデル機能に限られた負の影響しか与えないことを示した。
Large language models (LLMs) often exhibit undesirable behaviours, such as generating untruthful or biased content. Editing their internal representations has been shown to be effective in mitigating such behaviours on top of the existing alignment methods. We propose a novel inference-time editing method, namely spectral editing of activations (SEA), to project the input representations into directions with maximal covariance with the positive demonstrations (e.g., truthful) while minimising covariance with the negative demonstrations (e.g., hallucinated). We also extend our method to non-linear editing using feature functions. We run extensive experiments on benchmarks concerning truthfulness and bias with six open-source LLMs of different sizes and model families. The results demonstrate the superiority of SEA in effectiveness, generalisation to similar tasks, as well as computation and data efficiency. We also show that SEA editing only has a limited negative impact on other model capabilities. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-25 |
# 距離画像に基づくポイントクラウドセグメンテーションにおける欠落値の充足
Filling Missing Values Matters for Range Image-Based Point Cloud Segmentation ( http://arxiv.org/abs/2405.10175v2 ) ライセンス: Link先を確認 | Bike Chen, Chen Gong, Juha Röning, | (参考訳) ポイントクラウドセグメンテーション(PCS)は、ロボットの知覚とナビゲーションタスクにおいて重要な役割を果たす。
大規模屋外点雲を効率的に理解するために、その範囲画像表現が一般的である。
このイメージライクな表現はコンパクトで構造化されており、レンジイメージベースのPCSモデルを実用的なものにしている。
しかし、範囲画像の望ましくない欠落値は、物体の形状やパターンを損なう。
この問題は、オブジェクトからコヒーレントで完全な幾何学的情報を学ぶ際に、モデルにとって困難を生じさせる。
その結果、PCSモデルは性能が劣るのみとなる。
この問題を深く掘り下げると、不合理なプロジェクションアプローチとデスクワーニングスキャンの使用は、主にレンジ画像に不要な値をもたらすことが分かる。
さらに、これまでのほとんどの作業は、PCSタスクの予期せぬ値の埋め合わせを考慮しなかった。
この問題を軽減するために、まず、生成した範囲画像の大量の欠落を回避すべく、展開する++(SU++)をスキャンする新しいプロジェクション手法を提案する。
次に, 距離依存型$K$-nearest 近傍補間 (K$NNI) という, 単純かつ効果的な手法を導入する。
最後に、FMVNet(Filling Missing Values Network)とFast FMVNetを紹介する。
SemanticKITTI、SemanticPOSS、nuScenesデータセットの大規模な実験結果から、提案したSU++と$K$NNIを使用することで、既存のレンジイメージベースのPCSモデルはベースラインモデルよりも一貫してパフォーマンスが向上することが示された。
さらに、FMVNetとFast FMVNetは、速度精度トレードオフの観点から最先端の性能を達成する。
提案手法は他の範囲の画像ベースタスクや実践的応用に適用できる。
Point cloud segmentation (PCS) plays an essential role in robot perception and navigation tasks. To efficiently understand large-scale outdoor point clouds, their range image representation is commonly adopted. This image-like representation is compact and structured, making range image-based PCS models practical. However, undesirable missing values in the range images damage the shapes and patterns of objects. This problem creates difficulty for the models in learning coherent and complete geometric information from the objects. Consequently, the PCS models only achieve inferior performance. Delving deeply into this issue, we find that the use of unreasonable projection approaches and deskewing scans mainly leads to unwanted missing values in the range images. Besides, almost all previous works fail to consider filling in the unexpected missing values in the PCS task. To alleviate this problem, we first propose a new projection method, namely scan unfolding++ (SU++), to avoid massive missing values in the generated range images. Then, we introduce a simple yet effective approach, namely range-dependent $K$-nearest neighbor interpolation ($K$NNI), to further fill in missing values. Finally, we introduce the Filling Missing Values Network (FMVNet) and Fast FMVNet. Extensive experimental results on SemanticKITTI, SemanticPOSS, and nuScenes datasets demonstrate that by employing the proposed SU++ and $K$NNI, existing range image-based PCS models consistently achieve better performance than the baseline models. Besides, both FMVNet and Fast FMVNet achieve state-of-the-art performance in terms of the speed-accuracy trade-off. The proposed methods can be applied to other range image-based tasks and practical applications. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-25 |
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法
SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v5 ) ライセンス: Link先を確認 | Ziyao Xu, Houfeng Wang, | (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。
データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。
本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。
SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。
2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。
評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。
本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。
Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-25 |
# MLLMのマルチレベル自動選好
Automated Multi-level Preference for MLLMs ( http://arxiv.org/abs/2405.11165v2 ) ライセンス: Link先を確認 | Mengxi Zhang, Kang Rong, | (参考訳) 現在のマルチモーダル大言語モデル(MLLM)は「幻覚」に悩まされ、時には入力画像に接していない応答を生成する。
この課題に対処するためには、人間からのフィードバック(RLHF)からの強化学習を利用することが期待できる。
二項選好(上等、下等)の一般的な実践を再考し、多水準選好(上等、中等、下等)を採用する方が2つの利点があることを示す。
1) 隣接レベル間のギャップを狭くし, MLLMが微妙な違いを識別できるようにする。
2) クロスレベル比較(隣接レベル比較)をさらに統合し,幻覚例との比較範囲を広げた。
我々の視点を検証するために,MLLMのための自動多レベル推論(\textbf{AMP})フレームワークを提案する。
このフレームワークを容易にするために、まず、人間のアノテータを使わずに高品質なマルチレベル嗜好データセットを提供する自動データセット生成パイプラインを開発する。
さらに,多レベル直接選好最適化(MDPO)アルゴリズムを設計し,複雑な多レベル選好学習を行う。
さらに,新しい幻覚ベンチマークMRHal-Benchを提案する。
我々のMRHal-Benchと同様に、公衆の幻覚や一般ベンチマークの広範な実験により、提案手法の有効性を実証した。
Current multimodal Large Language Models (MLLMs) suffer from "hallucination", occasionally generating responses that are not grounded in the input images. To tackle this challenge, one promising path is to utilize reinforcement learning from human feedback (RLHF), which steers MLLMs towards learning superior responses while avoiding inferior ones. We rethink the common practice of using binary preferences (i.e., superior, inferior), and find that adopting multi-level preferences (e.g., superior, medium, inferior) is better for two benefits: 1) It narrows the gap between adjacent levels, thereby encouraging MLLMs to discern subtle differences. 2) It further integrates cross-level comparisons (beyond adjacent-level comparisons), thus providing a broader range of comparisons with hallucination examples. To verify our viewpoint, we present the Automated Multi-level Preference (\textbf{AMP}) framework for MLLMs. To facilitate this framework, we first develop an automated dataset generation pipeline that provides high-quality multi-level preference datasets without any human annotators. Furthermore, we design the Multi-level Direct Preference Optimization (MDPO) algorithm to robustly conduct complex multi-level preference learning. Additionally, we propose a new hallucination benchmark, MRHal-Bench. Extensive experiments across public hallucination and general benchmarks, as well as our MRHal-Bench, demonstrate the effectiveness of our proposed method. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-25 |
# アクティブラーニングとアウト・オブ・ディストリビューション検出への統一的アプローチ
A Unified Approach Towards Active Learning and Out-of-Distribution Detection ( http://arxiv.org/abs/2405.11337v2 ) ライセンス: Link先を確認 | Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann, | (参考訳) オープンワールドシナリオにディープラーニングモデルを適用する場合、ラベル候補をほぼ無限のラベル付きデータから識別するためには、アクティブラーニング(AL)戦略が不可欠である。
この文脈では、アプリケーションのターゲット分布外のデータを扱うために、堅牢なアウト・オブ・ディストリビューション(OOD)検出メカニズムが不可欠である。
しかし、現在の研究は両方の問題を別々に調査している。
本研究では,AL検出とOOD検出の両方において,SISOMを最初の統合ソリューションとして紹介する。
特徴空間距離メトリクスを活用することで、SISOMは、現在独立したタスクの強みを組み合わせて、両方を効果的に解決する。
両タスク間の移動時に発生する問題を示す広範な実験を行う。
これらの評価において、SISOMは広く使われている2つのOpenOODベンチマークで1位、残る2つのベンチマークで2位を獲得し、その効果を下方修正した。
ALでは、SISOMは他より優れ、3つのベンチマークでトップ1のパフォーマンスを提供する
When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-25 |
# NetMamba: 事前トレーニングによるネットワークトラフィックの効率的な分類
NetMamba: Efficient Network Traffic Classification via Pre-training Unidirectional Mamba ( http://arxiv.org/abs/2405.11449v2 ) ライセンス: Link先を確認 | Tongze Wang, Xiaohui Xie, Wenduo Wang, Chuyi Wang, Youjian Zhao, Yong Cui, | (参考訳) ネットワークトラフィックの分類は、サービス品質の向上、ネットワーク管理の効率化、サイバーセキュリティの強化を目的とした重要な研究分野である。
送信暗号化技術の複雑さの増大に対処するため、様々な機械学習とディープラーニング手法が提案されている。
しかし、既存のアプローチは2つの大きな課題に直面している。
まず、広く使われているTransformerアーキテクチャの2次複雑さのため、モデル非効率に苦しむ。
第二に、不要なバイアスを保ちながら重要なバイト情報を破棄するため、トラフィックの表現が不十分である。
これらの課題に対処するために,包括的トラフィック表現方式を備えた効率的な線形時間状態空間モデルであるNetMambaを提案する。
効率問題に対処するために、トランスフォーマーの代わりに、ネットワークフィールド用に特別に選択され改良された一方向のMambaアーキテクチャを採用する。
さらに,バイアス情報を取り除き,大量のトラフィックデータから有効な情報を抽出するトラフィック表現方式を設計する。
3つの主要な分類タスクを含む6つの公開データセットの評価実験は、最先端のベースラインと比較して、NetMambaの優れた分類性能を示している。
すべてのタスクにおいて、ほぼ99%(一部は99%)の精度を達成する。
さらに、NetMambaは優れた効率を示し、最大60倍の推論速度を向上し、メモリ使用量も相容れないほど低い。
さらに、NetMambaは、ラベル付きデータの少ない分類性能で、より優れた数ショット学習能力を示す。
私たちの知る限りでは、NetMambaはネットワーク用にMambaアーキテクチャをカスタマイズする最初のモデルです。
Network traffic classification is a crucial research area aiming to enhance service quality, streamline network management, and bolster cybersecurity. To address the growing complexity of transmission encryption techniques, various machine learning and deep learning methods have been proposed. However, existing approaches face two main challenges. Firstly, they struggle with model inefficiency due to the quadratic complexity of the widely used Transformer architecture. Secondly, they suffer from inadequate traffic representation because of discarding important byte information while retaining unwanted biases. To address these challenges, we propose NetMamba, an efficient linear-time state space model equipped with a comprehensive traffic representation scheme. We adopt a specially selected and improved unidirectional Mamba architecture for the networking field, instead of the Transformer, to address efficiency issues. In addition, we design a traffic representation scheme to extract valid information from massive traffic data while removing biased information. Evaluation experiments on six public datasets encompassing three main classification tasks showcase NetMamba's superior classification performance compared to state-of-the-art baselines. It achieves an accuracy rate of nearly 99% (some over 99%) in all tasks. Additionally, NetMamba demonstrates excellent efficiency, improving inference speed by up to 60 times while maintaining comparably low memory usage. Furthermore, NetMamba exhibits superior few-shot learning abilities, achieving better classification performance with fewer labeled data. To the best of our knowledge, NetMamba is the first model to tailor the Mamba architecture for networking. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-25 |
# Mamba-in-Mamba:Tokenized Mamba Modelにおけるハイパースペクトル画像分類のための集中型Mamba-Cross-Scan
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.12003v2 ) ライセンス: Link先を確認 | Weilian Zhou, Sei-Ichiro Kamata, Haipeng Wang, Man-Sing Wong, Huiying, Hou, | (参考訳) ハイパースペクトル画像(HSI)分類は、リモートセンシング(RS)分野、特に深層学習技術の進歩において重要である。
RNN(Recurrent Neural Networks)やTransformers(Transformers)といった自然言語処理(NLP)の分野に適応したシーケンスモデルは、このタスクに特化しており、ユニークな視点を提供している。
しかし、いくつかの課題が続いている。
1)RNNは中心的特徴集約に苦慮し,画素干渉に敏感である。
2)変換器は重要な計算資源を必要とし、しばしば限られたHSIトレーニングサンプルで性能が低下する。
3) 画像からシーケンスデータに変換する現在の走査法は, 単純かつ非効率である。
そこで本研究では,HSI分類のための新しいMamba-in-Mamba(MiM)アーキテクチャを導入する。
MiM モデルには
1) 画像からシーケンスデータへ変換する新しい集中型マンバ・クロススキャン(MCS)機構
2)ガウス式Decay Mask(GDM)、STL(Semantic Token Learner)、STF(Semantic Token Fuser)を内蔵したT-Mambaエンコーダ
3) 重み付きMCSフュージョン(WMF)モジュールとマルチスケールロスデザインを組み合わせることで復号効率を向上する。
固定および非結合型トレーニング-テストサンプルを用いた3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れ,HSIアプリケーションの有効性と可能性を強調した。
Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# 分子キャビティ光学における集団量子絡み合い
Collective Quantum Entanglement in Molecular Cavity Optomechanics ( http://arxiv.org/abs/2405.12102v3 ) ライセンス: Link先を確認 | Jian Huang, Dangyuan Lei, Girish S. Agarwal, Zhedong Zhang, | (参考訳) 振動分極における量子絡み合いに到達するための光学的スキームを提案する。
このシステムは$N$分子で、その振動はプラズモンの空洞とかなり絡み合っている。
この振動-光子絡み合いは室温で存在し、熱雑音に対して頑丈であることがわかった。
さらに、プラズモニックキャビティを通した振動モード間の量子絡み合いを実証し、非局在性を示し、分子数で信じられないほど高めていることを示す。
絡み合いの基盤となるメカニズムは、集電性を持つ強い振動空洞結合に起因する。
この結果は、ノイズのない量子資源とマクロ量子現象の研究のための有望なプラットフォームを提供する分子オプティメカルスキームを提供する。
We propose an optomechanical scheme for reaching quantum entanglement in vibration polaritons. The system involves $N$ molecules, whose vibrations can be fairly entangled with plasmonic cavities. We find that the vibration-photon entanglement can exist at room temperature and is robust against thermal noise. We further demonstrate the quantum entanglement between the vibrational modes through the plasmonic cavities, which shows a delocalized nature and an incredible enhancement with the number of molecules. The underlying mechanism for the entanglement is attributed to the strong vibration-cavity coupling which possesses collectivity. Our results provide a molecular optomechanical scheme which offers a promising platform for the study of noise-free quantum resources and macroscopic quantum phenomena. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# 深層学習による膵の大規模マルチセンターCTとMRI分割
Large-Scale Multi-Center CT and MRI Segmentation of Pancreas with Deep Learning ( http://arxiv.org/abs/2405.12367v2 ) ライセンス: Link先を確認 | Zheyuan Zhang, Elif Keles, Gorkem Durak, Yavuz Taktak, Onkar Susladkar, Vandan Gorade, Debesh Jha, Asli C. Ormeci, Alpay Medetalibeyoglu, Lanhong Yao, Bin Wang, Ilkin Sevgi Isler, Linkai Peng, Hongyi Pan, Camila Lopes Vendrami, Amir Bourhani, Yury Velichko, Boqing Gong, Concetto Spampinato, Ayis Pyrros, Pallavi Tiwari, Derk C. F. Klatte, Megan Engels, Sanne Hoogenboom, Candice W. Bolan, Emil Agarunov, Nassier Harfouch, Chenchan Huang, Marco J. Bruno, Ivo Schoots, Rajesh N. Keswani, Frank H. Miller, Tamas Gonda, Cemal Yazici, Temel Tirkes, Baris Turkbey, Michael B. Wallace, Ulas Bagci, | (参考訳) 膵疾患の診断と経過観察には,横断的画像診断における膵の容積分画の自動化が必要である。
CTベースの膵セグメンテーションはより確立されているが、MRIベースのセグメンテーション手法は、公開データセットの欠如、ベンチマーク研究の努力、ドメイン固有のディープラーニング手法が主な原因である。
2004年3月から2022年11月にかけて,T1強調画像(T1W)とT2強調画像(T2W)の大規模なデータセット(499名)を収集した。
また,ベンチマーク目的で公開資料から1,350人の患者のCTも収集した。
そこで我々は,nnUNetとTransformerネットワークの長所と,体積計算が可能な新しい線形アテンションモジュールを組み合わせた,パンセグネットと呼ばれる新しい膵分画法を開発した。
我々は,Dice と Hausdorff 距離 (HD95) 評価指標を用いて,PanSegNet のクロスモダリティ (合計2,117スキャン) とクロスセンター設定の精度を検証した。
我々は,CohenのKappa統計を,それぞれ量比較とDice比較のペアt検定に用いた。
T1W MRIでは85.0% (std: 7.9%) , T2W MRIでは86.3% (std: 6.4%) であった。
R^2は0.91,0.84,0.85はCT,T1W,T2Wと高い相関を示した。
0.624,0.638,T1W,T2WMRIにて中等度なサーバ間一致率を示し,高いサーバ内一致率を示した。
すべてのMRIデータはhttps://osf.io/kysnj/で公開されている。
ソースコードはhttps://github.com/NUBagciLab/PaNSegNetで公開されています。
Automated volumetric segmentation of the pancreas on cross-sectional imaging is needed for diagnosis and follow-up of pancreatic diseases. While CT-based pancreatic segmentation is more established, MRI-based segmentation methods are understudied, largely due to a lack of publicly available datasets, benchmarking research efforts, and domain-specific deep learning methods. In this retrospective study, we collected a large dataset (767 scans from 499 participants) of T1-weighted (T1W) and T2-weighted (T2W) abdominal MRI series from five centers between March 2004 and November 2022. We also collected CT scans of 1,350 patients from publicly available sources for benchmarking purposes. We developed a new pancreas segmentation method, called PanSegNet, combining the strengths of nnUNet and a Transformer network with a new linear attention module enabling volumetric computation. We tested PanSegNet's accuracy in cross-modality (a total of 2,117 scans) and cross-center settings with Dice and Hausdorff distance (HD95) evaluation metrics. We used Cohen's kappa statistics for intra and inter-rater agreement evaluation and paired t-tests for volume and Dice comparisons, respectively. For segmentation accuracy, we achieved Dice coefficients of 88.3% (std: 7.2%, at case level) with CT, 85.0% (std: 7.9%) with T1W MRI, and 86.3% (std: 6.4%) with T2W MRI. There was a high correlation for pancreas volume prediction with R^2 of 0.91, 0.84, and 0.85 for CT, T1W, and T2W, respectively. We found moderate inter-observer (0.624 and 0.638 for T1W and T2W MRI, respectively) and high intra-observer agreement scores. All MRI data is made available at https://osf.io/kysnj/. Our source code is available at https://github.com/NUBagciLab/PaNSegNet. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# ディープラーニングを用いたC/C++コードの脆弱性検出
Vulnerability Detection in C/C++ Code with Deep Learning ( http://arxiv.org/abs/2405.12384v2 ) ライセンス: Link先を確認 | Zhen Huang, Amy Aumpansub, | (参考訳) ディープラーニングは、ソフトウェアの脆弱性を検出するための有望なツールであることが示されている。
本研究では,C/C++プログラムのソースコードから抽出したプログラムスライスを用いてニューラルネットワークをトレーニングし,ソフトウェア脆弱性を検出する。
プログラムスライスでは、API関数呼び出し、配列使用、ポインタ使用、演算式など、脆弱性に関連するプログラム構成の構文とセマンティック特性をキャプチャする。
脆弱なコードと非脆弱なコードの両方に対して強力な予測モデルを実現するため、異なるタイプのトレーニングデータ、異なるオプティマイザ、異なるタイプのニューラルネットワークを比較した。
この結果から,ソースコードの特徴の相違と,脆弱なプログラムスライスと非脆弱性なプログラムスライスをバランスよく組み合わせることで,脆弱なコードと非脆弱性なコードの両方を予測する上で,バランスの取れた精度が得られることがわかった。
さまざまなニューラルネットワークの中で、ADAMオプティマイザを備えたBGRUは、92.49%の精度でソフトウェア脆弱性を検出するのに最善を尽くしている。
Deep learning has been shown to be a promising tool in detecting software vulnerabilities. In this work, we train neural networks with program slices extracted from the source code of C/C++ programs to detect software vulnerabilities. The program slices capture the syntax and semantic characteristics of vulnerability-related program constructs, including API function call, array usage, pointer usage, and arithmetic expression. To achieve a strong prediction model for both vulnerable code and non-vulnerable code, we compare different types of training data, different optimizers, and different types of neural networks. Our result shows that combining different types of characteristics of source code and using a balanced number of vulnerable program slices and non-vulnerable program slices produce a balanced accuracy in predicting both vulnerable code and non-vulnerable code. Among different neural networks, BGRU with the ADAM optimizer performs the best in detecting software vulnerabilities with an accuracy of 92.49%. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# LLMプロセス:自然言語による数値予測分布
LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language ( http://arxiv.org/abs/2405.12856v2 ) ライセンス: Link先を確認 | James Requeima, John Bronskill, Dami Choi, Richard E. Turner, David Duvenaud, | (参考訳) 機械学習の実践者は、以前の知識と信念を予測モデルに統合し、ニュアンスとコンテキスト認識の分析の可能性を制限するという、重要な課題に直面することが多い。
さらに、この事前知識を確率的モデリングに統合するために必要な専門知識は、一般的にこれらのモデルの適用を専門家に限定する。
我々のゴールは、数値データを処理し、ユーザの事前知識を記述した自然言語テキストで導かれる任意の場所で確率予測を行うレグレッションモデルを構築することである。
大きな言語モデル(LLM)は、そのようなツールを設計するのに便利な出発点を提供する。
1) 自然言語に専門家の洞察を組み込むインターフェースを提供する。
2) LLM に符号化された潜伏問題関連知識を活用する機会を提供する。
まず、LLMから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
予測, 多次元回帰, ブラックボックス最適化, 画像モデリングなどの設定において, LLMプロセスと呼ばれるこれらの共同予測分布を任意に多量に検討する。
本稿では,コヒーレントな予測分布を導出する実践的詳細を考察し,その妥当性を実証する。
最後に,テキストを数値予測に活用し,予測性能を向上し,定性的な記述を反映した定量的な構造を与える能力を示す。
これにより、LLMが暗黙的にエンコードするリッチで基底的な仮説空間を探索し始めることができる。
Machine learning practitioners often face significant challenges in formally integrating their prior knowledge and beliefs into predictive models, limiting the potential for nuanced and context-aware analyses. Moreover, the expertise needed to integrate this prior knowledge into probabilistic modeling typically limits the application of these models to specialists. Our goal is to build a regression model that can process numerical data and make probabilistic predictions at arbitrary locations, guided by natural language text which describes a user's prior knowledge. Large Language Models (LLMs) provide a useful starting point for designing such a tool since they 1) provide an interface where users can incorporate expert insights in natural language and 2) provide an opportunity for leveraging latent problem-relevant knowledge encoded in LLMs that users may not have themselves. We start by exploring strategies for eliciting explicit, coherent numerical predictive distributions from LLMs. We examine these joint predictive distributions, which we call LLM Processes, over arbitrarily-many quantities in settings such as forecasting, multi-dimensional regression, black-box optimization, and image modeling. We investigate the practical details of prompting to elicit coherent predictive distributions, and demonstrate their effectiveness at regression. Finally, we demonstrate the ability to usefully incorporate text into numerical predictions, improving predictive performance and giving quantitative structure that reflects qualitative descriptions. This lets us begin to explore the rich, grounded hypothesis space that LLMs implicitly encode. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# アルツハイマー病診断のための残留CNNとトランスフォーマーを組み合わせた新しい特徴マップ強調手法
A Novel Feature Map Enhancement Technique Integrating Residual CNN and Transformer for Alzheimer Diseases Diagnosis ( http://arxiv.org/abs/2405.12986v2 ) ライセンス: Link先を確認 | Saddam Hussain Khan, | (参考訳) アルツハイマー病(AD)は認知機能低下と異常な脳タンパクの蓄積を伴い、効果的な治療のために時間的診断を必要とする。
したがって、ディープラーニングの進歩を活かしたCADシステムはAD検出に成功しているが、計算精度とデータセットの微妙なコントラスト、構造、テクスチャの変化が引き起こされている。
本稿では,MRIにおける局所的および局所的なAD分析を捉えるために,残差CNNとTransformerの概念を組み合わせた新しいFME-Residual-HSCMT手法を提案する。
このアプローチは、新しいCNN Meet Transformer(HSCMT)、カスタマイズされた残留学習CNN、ADの多様な形態、コントラスト、テクスチャのバリエーションを学ぶための新しい特徴マップ拡張(FME)戦略の3つの異なる要素を統合する。
最初の段階で提案されたHSCMTは、CMTブロックと統合されたステム畳み込みブロックを使用し、その後に系統的同種および構造的(HS)操作を行う。
カスタマイズされたCMTブロックは、多面的注意を通して各要素をグローバルな文脈的相互作用でカプセル化し、軽量で計算効率を向上する。
さらに、カスタマイズされたCMTにおける逆残差とステムCNNは、局所テクスチャ情報の効果的な抽出と消滅勾配の処理を可能にする。
さらに、FME戦略では、残余のCNNブロックはTLベース生成補助を利用しており、ターゲットレベルで提案されたHSCMTチャネルと組み合わせて、多様なリッチな特徴空間を実現する。
最後に、多様な拡張チャネルを最適な画素選択のための新しい空間的注意機構に投入し、冗長性を低減し、小さなコントラストとテクスチャ間の変動を識別する。
提案手法は、F1スコア(98.55%)、精度98.42%、感度98.50%、標準のKaggleデータセットで98.60%の精度を実現し、既存のViTとCNNのパフォーマンスを実証する。
Alzheimer diseases (ADs) involves cognitive decline and abnormal brain protein accumulation, necessitating timely diagnosis for effective treatment. Therefore, CAD systems leveraging deep learning advancements have demonstrated success in AD detection but pose computational intricacies and the dataset minor contrast, structural, and texture variations. In this regard, a novel hybrid FME-Residual-HSCMT technique is introduced, comprised of residual CNN and Transformer concepts to capture global and local fine-grained AD analysis in MRI. This approach integrates three distinct elements: a novel CNN Meet Transformer (HSCMT), customized residual learning CNN, and a new Feature Map Enhancement (FME) strategy to learn diverse morphological, contrast, and texture variations of ADs. The proposed HSCMT at the initial stage utilizes stem convolution blocks that are integrated with CMT blocks followed by systematic homogenous and structural (HS) operations. The customized CMT block encapsulates each element with global contextual interactions through multi-head attention and facilitates computational efficiency through lightweight. Moreover, inverse residual and stem CNN in customized CMT enables effective extraction of local texture information and handling vanishing gradients. Furthermore, in the FME strategy, residual CNN blocks utilize TL-based generated auxiliary and are combined with the proposed HSCMT channels at the target level to achieve diverse enriched feature space. Finally, diverse enhanced channels are fed into a novel spatial attention mechanism for optimal pixel selection to reduce redundancy and discriminate minor contrast and texture inter-class variation. The proposed achieves an F1-score (98.55%), an accuracy of 98.42% and a sensitivity of 98.50%, a precision of 98.60% on the standard Kaggle dataset, and demonstrates outperformance existing ViTs and CNNs methods. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-25 |
# Calibrated Self-Rewarding Vision Language Models
Calibrated Self-Rewarding Vision Language Models ( http://arxiv.org/abs/2405.14622v2 ) ライセンス: Link先を確認 | Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao, | (参考訳) LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と命令チューニングによる視覚モデルを統合することで大きな進歩を遂げた。
これらの進歩にもかかわらず、LVLMは、しばしば幻覚現象を示し、生成したテキスト応答は言語的に妥当に見えるが、入力画像と矛盾し、画像とテキストペアの相違を示す。
このミスアライメントは、言語モデルと視覚表現の両方が高品質である場合でも、モデルが視覚入力よりもテキスト情報を優先する傾向があるために生じる。
既存の方法は、追加のモデルや人間のアノテーションを利用して、好みデータをキュレートし、好みの最適化を通じてモダリティアライメントを強化する。
これらのアプローチはLVLMの選好を効果的に反映していないため、キュレートされた選好を容易に区別できる。
本研究は,CSR (Calibrated Self-Rewarding) アプローチを提案することで,モデルが候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,これらの課題に対処する。
報酬モデリングでは、ステップワイズ戦略を採用し、視覚的制約を自己回帰プロセスに組み込んで視覚的入力に重点を置く。
実証的な結果は、CSRがパフォーマンスを高め、10のベンチマークとタスクの幻覚を減らし、既存のメソッドに対して7.62%の大幅な改善を達成していることを示している。
我々の経験的結果は、厳密な理論的分析によってさらに支持され、軽微な仮定の下で、自己回帰パラダイムに視覚的制約を導入する効果が検証される。
さらに、CSRは異なる視覚言語モデルとの互換性を示し、反復的な微調整によってパフォーマンスを漸進的に改善する能力を示している。
私たちのデータとコードはhttps://github.com/YiyangZhou/CSR.comで公開されています。
Large Vision-Language Models (LVLMs) have made substantial progress by integrating pre-trained large language models (LLMs) and vision models through instruction tuning. Despite these advancements, LVLMs often exhibit the hallucination phenomenon, where generated text responses appear linguistically plausible but contradict the input image, indicating a misalignment between image and text pairs. This misalignment arises because the model tends to prioritize textual information over visual input, even when both the language model and visual representations are of high quality. Existing methods leverage additional models or human annotations to curate preference data and enhance modality alignment through preference optimization. These approaches may not effectively reflect the target LVLM's preferences, making the curated preferences easily distinguishable. Our work addresses these challenges by proposing the Calibrated Self-Rewarding (CSR) approach, which enables the model to self-improve by iteratively generating candidate responses, evaluating the reward for each response, and curating preference data for fine-tuning. In the reward modeling, we employ a step-wise strategy and incorporate visual constraints into the self-rewarding process to place greater emphasis on visual input. Empirical results demonstrate that CSR enhances performance and reduces hallucinations across ten benchmarks and tasks, achieving substantial improvements over existing methods by 7.62%. Our empirical results are further supported by rigorous theoretical analysis, under mild assumptions, verifying the effectiveness of introducing visual constraints into the self-rewarding paradigm. Additionally, CSR shows compatibility with different vision-language models and the ability to incrementally improve performance through iterative fine-tuning. Our data and code are available at https://github.com/YiyangZhou/CSR. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-25 |
# 磁気メトリーにおけるエネルギー分解能限界の量子熱力学的導出
Quantum thermodynamic derivation of the energy resolution limit in magnetometry ( http://arxiv.org/abs/2405.14687v2 ) ライセンス: Link先を確認 | I. K. Kominis, | (参考訳) 近年,多くの磁気センサ技術がエネルギー分解能の限界を満たすことが実証され,磁場推定値,センサ体積,測定時間などの分散によって構成される量を$\hbar$で結合することがわかった。
エネルギー分解限界の第一原理の導出はいまだに解明されている。
ここでは、量子熱力学の議論に基づく導出について述べる。
エネルギー分解限界は、量子計測とランダウアー消去に関連する量子熱力学的な仕事の結果であり、磁場と交換されることが示される。
これらの考察を原子磁気センサやSQUIDSに適用する。
前者については,原子蒸気が生成する磁気ノイズに関連する新しいスピン相関効果を解明する。
It was recently demonstrated that a large number of magnetic sensing technologies satisfy the energy resolution limit, which connects a quantity composed by the variance of the magnetic field estimate, the sensor volume and the measurement time, and having units of action, with $\hbar$. A first-principles derivation of the energy resolution limit is still elusive. We here present such a derivation based on quantum thermodynamic arguments. We show that the energy resolution limit is a result of quantum thermodynamic work associated with quantum measurement and Landauer erasure, the work being exchanged with the magnetic field. We apply these considerations to atomic magnetometers and SQUIDS. Regarding the former, we unravel a new spin correlation effect relevant to the magnetic noise produced by atomic vapors. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-25 |
# AI/ML/テキストマイニングによる偽情報ナラティブの分析方法 : ソーシャルメディアの弱体化の軽減をめざして
Modes of Analyzing Disinformation Narratives With AI/ML/Text Mining to Assist in Mitigating the Weaponization of Social Media ( http://arxiv.org/abs/2405.15987v1 ) ライセンス: Link先を確認 | Andy Skumanich, Han Kyul Kim, | (参考訳) 本稿では,ソーシャルメディアにおける悪意あるコミュニケーションを捕捉・監視するための定量的モードの必要性を明らかにする。
ソーシャル・ネットワークを利用したメッセージの「ウェポン化」が意図的に行われており、州が後援し、私的に運営される政治的指向のエンティティも含む。
記事は、ヘイトスピーチに類似した意図的な悪意のある物語を包含し、社会に悪影響を及ぼす、一般化された"mal-info"のAI/ML特徴の使用を特定する。
この議論の重要なポイントは、このモル-infoが体積を劇的に増加させ、人間の専門家の介入を支援するために、有能な定量化ツールが不可欠になるということだ。
FacebookやX/Twitterのような主要プラットフォームにモデレーションを導入しようとする試みにもかかわらず、現在では完全にモデレートされていないスペースを提供する代替ソーシャルネットワークが確立されている。
本稿では,これらのプラットフォームについて紹介し,特徴的マル・インフォポストの質的および半定量的解析の結果について述べる。
筆者らは, 予備評価のための初歩的なテキストマイニング機能を実行し, より自動化されたモニタリングの態様を評価する。
この行動は、テキスト分析を用いていくつかの炎症用語を調べ、特に、ある政治エージェントによる生成アルゴリズムの使用について議論し、社会への潜在的なリスクのいくつかの例を提供する。
後者は重大な問題であり、監視ツールを確立する必要がある。
本稿では、関連するソースを選択するための予備的なステップと、監視が必要なmal-infoを特徴付けるための基盤を設定する。
AI/ML法は半定量的シグネチャキャプチャの手段を提供する。
近日中の「mal-GenAI」の使用について紹介する。
This paper highlights the developing need for quantitative modes for capturing and monitoring malicious communication in social media. There has been a deliberate "weaponization" of messaging through the use of social networks including by politically oriented entities both state sponsored and privately run. The article identifies a use of AI/ML characterization of generalized "mal-info," a broad term which includes deliberate malicious narratives similar with hate speech, which adversely impact society. A key point of the discussion is that this mal-info will dramatically increase in volume, and it will become essential for sharable quantifying tools to provide support for human expert intervention. Despite attempts to introduce moderation on major platforms like Facebook and X/Twitter, there are now established alternative social networks that offer completely unmoderated spaces. The paper presents an introduction to these platforms and the initial results of a qualitative and semi-quantitative analysis of characteristic mal-info posts. The authors perform a rudimentary text mining function for a preliminary characterization in order to evaluate the modes for better-automated monitoring. The action examines several inflammatory terms using text analysis and, importantly, discusses the use of generative algorithms by one political agent in particular, providing some examples of the potential risks to society. This latter is of grave concern, and monitoring tools must be established. This paper presents a preliminary step to selecting relevant sources and to setting a foundation for characterizing the mal-info, which must be monitored. The AI/ML methods provide a means for semi-quantitative signature capture. The impending use of "mal-GenAI" is presented. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# トランスダクティブ信頼マシンとその医療データ集合への応用
Transductive Confidence Machine and its application to Medical Data Sets ( http://arxiv.org/abs/2405.15988v1 ) ライセンス: Link先を確認 | David Lindsay, | (参考訳) The Transductive Confidence Machine Nearest Neighbours (TCMNN) algorithm and a supporting simple user interface was developed。
TCMNNアルゴリズムのパラメータの異なる設定は、異なるMinkowskiメトリクスと多項式カーネルの使用に加えて、医療データセット上でテストされた。
また, 近隣住民の増加と有意なマーキング効果について検討した。
Transductive Confidence MachineのSVM実装はNearest Neighbours実装と比較された。
ニューラルネットワークの応用は、トランスダクティブアルゴリズムと有用な比較として検討された。
The Transductive Confidence Machine Nearest Neighbours (TCMNN) algorithm and a supporting, simple user interface was developed. Different settings of the TCMNN algorithms' parameters were tested on medical data sets, in addition to the use of different Minkowski metrics and polynomial kernels. The effect of increasing the number of nearest neighbours and marking results with significance was also investigated. SVM implementation of the Transductive Confidence Machine was compared with Nearest Neighbours implementation. The application of neural networks was investigated as a useful comparison to the transductive algorithms. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# TreeFormers -- 森林破壊運転者分類のための視覚変換器の探索
TreeFormers -- An Exploration of Vision Transformers for Deforestation Driver Classification ( http://arxiv.org/abs/2405.15989v1 ) ライセンス: Link先を確認 | Uche Ochuba, | (参考訳) 本稿では,インドネシアの森林の衛星画像を用いて森林破壊の要因を分類するために視覚変換器(ViT)を応用することによる森林破壊の重大な問題に対処する。
この問題の緊急性に感銘を受け,ViTと機械学習技術を活用したアプローチを提案する。
私のアルゴリズムへの入力は332x332ピクセルの衛星画像であり、私は森林破壊ドライバークラス、草地低木、他、プランテーション、または小規模農業を予測するためにViTアーキテクチャを使用します。
私の方法論は、スタンフォードMLグループからデータセット上でトレーニング済みのViTを微調整することと、回転データ増強技術(他)と縦データの埋め込みによる分類精度の向上を試行しています。
また、スクラッチからViTのトレーニングも試しました。
その結果、ベースラインモデルよりも大幅に改善され、72.9%のテスト精度が達成された。
私は、私のアプローチの強みと限界を強調するために、エラーパターンやメトリクスを含む包括的な分析を行います。
本研究は、先進的なコンピュータビジョン技術による森林破壊問題への取り組みに貢献する。
This paper addresses the critical issue of deforestation by exploring the application of vision transformers (ViTs) for classifying the drivers of deforestation using satellite imagery from Indonesian forests. Motivated by the urgency of this problem, I propose an approach that leverages ViTs and machine learning techniques. The input to my algorithm is a 332x332-pixel satellite image, and I employ a ViT architecture to predict the deforestation driver class; grassland shrubland, other, plantation, or smallholder agriculture. My methodology involves fine-tuning a pre-trained ViT on a dataset from the Stanford ML Group, and I experiment with rotational data augmentation techniques (among others) and embedding of longitudinal data to improve classification accuracy. I also tried training a ViT from scratch. Results indicate a significant improvement over baseline models, achieving a test accuracy of 72.9%. I conduct a comprehensive analysis, including error patterns and metrics, to highlight the strengths and limitations of my approach. This research contributes to the ongoing efforts to address deforestation challenges through advanced computer vision techniques. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# Rényi ニューラルプロセス
Rényi Neural Processes ( http://arxiv.org/abs/2405.15991v1 ) ライセンス: Link先を確認 | Xuesong Wang, He Zhao, Edwin V. Bonilla, | (参考訳) ニューラル・プロセス(NP)は、ディープ・ニューラル・ネットワークで確率的プロセスを表現することを目的とした変分フレームワークである。
データ駆動型事前分布による複素分布の不確実性推定における明らかな利点にもかかわらず、NPは条件付き事前分布と後続分布のネットワークパラメータ共有を強制し、不特定な事前分布を導入するリスクを負う。
そこで我々はR'enyi Neural Processes (RNP)を提案する。
より具体的には、標準KL偏差を後部と近似された前部のR'enyi偏差に置き換えることで、パラメータ {\alpha} を介して不特定前の影響を改善し、結果として得られる後部が尾部サンプルにもっと焦点を合わせ、過信領域の密度を減少させる。
実験の結果,既存のNPファミリーではログライクな改善が見られた。
回帰や画像のインペインティングなど,様々なベンチマークにおいて,提案手法の優れた性能を実証した。
また,実世界の表層回帰問題に対するRNPの有効性を検証した。
Neural Processes (NPs) are variational frameworks that aim to represent stochastic processes with deep neural networks. Despite their obvious benefits in uncertainty estimation for complex distributions via data-driven priors, NPs enforce network parameter sharing between the conditional prior and posterior distributions, thereby risking introducing a misspecified prior. We hereby propose R\'enyi Neural Processes (RNP) to relax the influence of the misspecified prior and optimize a tighter bound of the marginal likelihood. More specifically, by replacing the standard KL divergence with the R\'enyi divergence between the posterior and the approximated prior, we ameliorate the impact of the misspecified prior via a parameter {\alpha} so that the resulting posterior focuses more on tail samples and reduce density on overconfident regions. Our experiments showed log-likelihood improvements on several existing NP families. We demonstrated the superior performance of our approach on various benchmarks including regression and image inpainting tasks. We also validate the effectiveness of RNPs on real-world tabular regression problems. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# 演算子学習のためのデータ複雑度推定法
Data Complexity Estimates for Operator Learning ( http://arxiv.org/abs/2405.15992v1 ) ライセンス: Link先を確認 | Nikola B. Kovachki, Samuel Lanthaler, Hrushikesh Mhaskar, | (参考訳) 演算子学習は非線形演算子のデータ駆動近似の新しいパラダイムとして登場した。
経験的成功にもかかわらず、効率的な演算子学習の条件を管理する理論的基盤はいまだ不完全である。
本研究は、演算子学習のデータ複雑性を研究する理論を開発し、パラメータ複雑性に関する既存の研究を補完するものである。
所望の精度を達成するために、演算子学習には入力/出力サンプルがいくつ必要か?
この問題は$n$-widthsの観点から解決され、この研究は2つの重要な貢献をする。
最初の貢献は、Lipschitz および Fr\'echet 微分可能作用素の一般類に対する$n$-widths 上の下界を導出することである。
これらの境界は「'curse of data-complexity''」を厳密に示しており、そのような一般クラスでの学習には、所望の精度の$\epsilon$の逆で指数関数的なサンプルサイズが必要であることを明らかにしている。
この研究の第二の貢献は、 ‘`parametric efficiency'' が ``data efficiency'' を意味することを示すことである; フーリエニューラル演算子 (FNO) をケーススタディとして、より狭い演算子クラスにおいて、チューナブルパラメータの数の観点からFNOによって効率的に近似された、効率的な演算子学習もデータ複雑性において達成可能であることを厳密に示す。
具体的には、所望の近似精度に到達するために、代数的に増大するチューナブルパラメータの数だけが必要な場合、代数的に有界なデータサンプルの数も同じ精度を達成するのに十分であることを示す。
Operator learning has emerged as a new paradigm for the data-driven approximation of nonlinear operators. Despite its empirical success, the theoretical underpinnings governing the conditions for efficient operator learning remain incomplete. The present work develops theory to study the data complexity of operator learning, complementing existing research on the parametric complexity. We investigate the fundamental question: How many input/output samples are needed in operator learning to achieve a desired accuracy $\epsilon$? This question is addressed from the point of view of $n$-widths, and this work makes two key contributions. The first contribution is to derive lower bounds on $n$-widths for general classes of Lipschitz and Fr\'echet differentiable operators. These bounds rigorously demonstrate a ``curse of data-complexity'', revealing that learning on such general classes requires a sample size exponential in the inverse of the desired accuracy $\epsilon$. The second contribution of this work is to show that ``parametric efficiency'' implies ``data efficiency''; using the Fourier neural operator (FNO) as a case study, we show rigorously that on a narrower class of operators, efficiently approximated by FNO in terms of the number of tunable parameters, efficient operator learning is attainable in data complexity as well. Specifically, we show that if only an algebraically increasing number of tunable parameters is needed to reach a desired approximation accuracy, then an algebraically bounded number of data samples is also sufficient to achieve the same accuracy. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# ニューラルネットワークの動的モデルに対する安全な強化学習の検証
Verified Safe Reinforcement Learning for Neural Network Dynamic Models ( http://arxiv.org/abs/2405.15994v1 ) ライセンス: Link先を確認 | Junlin Wu, Huan Zhang, Yevgeniy Vorobeychik, | (参考訳) 安全な自律制御を確実に学習することは、信頼できる自律性における中核的な問題の1つだ。
しかし、公式に安全であると証明できるコントローラーをトレーニングすることは、依然として大きな課題である。
本稿では,非線形神経力学系における安全な制御ポリシーを学習し,性能を最大化するための新しいアプローチを提案する。
提案手法は,有限水平到達可能性証明の意味での安全性の実現を目的としており,三つの重要な部分から構成されている。
1つ目は、検証された安全な地平線を反復的に増加させる新しいカリキュラム学習方式である。
2つ目は、勾配に基づく学習の反復的な性質を活用して、インクリメンタルな検証を活用し、事前の検証実行からの情報を再利用する。
最後に、複数の検証済み初期状態依存コントローラを学習する。これは、単一の普遍的検証安全コントローラを学習することが極めて困難である、より複雑なドメインにとって特に価値のあるアイデアである。
5つの安全な制御問題に関する実験により、我々の訓練されたコントローラーは、最先端のベースラインよりも桁違い長い地平線上で、高い報酬を維持しつつ、全エピソードの完全な安全記録を達成できることが実証された。
Learning reliably safe autonomous control is one of the core problems in trustworthy autonomy. However, training a controller that can be formally verified to be safe remains a major challenge. We introduce a novel approach for learning verified safe control policies in nonlinear neural dynamical systems while maximizing overall performance. Our approach aims to achieve safety in the sense of finite-horizon reachability proofs, and is comprised of three key parts. The first is a novel curriculum learning scheme that iteratively increases the verified safe horizon. The second leverages the iterative nature of gradient-based learning to leverage incremental verification, reusing information from prior verification runs. Finally, we learn multiple verified initial-state-dependent controllers, an idea that is especially valuable for more complex domains where learning a single universal verified safe controller is extremely challenging. Our experiments on five safe control problems demonstrate that our trained controllers can achieve verified safety over horizons that are as much as an order of magnitude longer than state-of-the-art baselines, while maintaining high reward, as well as a perfect safety record over entire episodes. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# 境界認識型クエリ投票による時間的行動分割の効率化
Efficient Temporal Action Segmentation via Boundary-aware Query Voting ( http://arxiv.org/abs/2405.15995v1 ) ライセンス: Link先を確認 | Peiyao Wang, Yuewei Lin, Erik Blasch, Jie Wei, Haibin Ling, | (参考訳) 近年,TAS(Temporal Action Segmentation)の性能は向上しているが,高密度入力や複雑なモデル構造,リソース集約的な後処理要求などにより,高い計算コストが伴う場合が多い。
性能を保ちながら効率を向上させるために,セグメントごとの分類に着目した新しい視点を提案する。
Transformerの機能を利用することで、各ビデオセグメントに固有のインスタンスセグメンテーションを付与したインスタンストークンとしてトークン化します。
効率的なアクションセグメンテーションを実現するために,バウンダリ対応トランスフォーマーネットワークであるBaFormerを導入する。
インスタンスセグメンテーションのインスタンスクエリと、クラスに依存しない境界予測のためのグローバルクエリを使用して、連続的なセグメント提案を生成する。
推論の間、BaFormerは単純なが効果的な投票戦略を使用して、インスタンスのセグメンテーションに基づいて境界線セグメントを分類する。
注目すべきは、単一ステージのアプローチとして、BaFormerは、最先端のDiffActと比較して、実行時間の6%しか利用せず、いくつかの一般的なベンチマークよりも優れた、あるいは同等の精度で計算コストを大幅に削減することである。
このプロジェクトのコードはhttps://github.com/peiyao-w/BaFormer.comで公開されている。
Although the performance of Temporal Action Segmentation (TAS) has improved in recent years, achieving promising results often comes with a high computational cost due to dense inputs, complex model structures, and resource-intensive post-processing requirements. To improve the efficiency while keeping the performance, we present a novel perspective centered on per-segment classification. By harnessing the capabilities of Transformers, we tokenize each video segment as an instance token, endowed with intrinsic instance segmentation. To realize efficient action segmentation, we introduce BaFormer, a boundary-aware Transformer network. It employs instance queries for instance segmentation and a global query for class-agnostic boundary prediction, yielding continuous segment proposals. During inference, BaFormer employs a simple yet effective voting strategy to classify boundary-wise segments based on instance segmentation. Remarkably, as a single-stage approach, BaFormer significantly reduces the computational costs, utilizing only 6% of the running time compared to state-of-the-art method DiffAct, while producing better or comparable accuracy over several popular benchmarks. The code for this project is publicly available at https://github.com/peiyao-w/BaFormer. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# Omni-directional Camera を用いた顔表情認識による自撮り
Selfie Taking with Facial Expression Recognition Using Omni-directional Camera ( http://arxiv.org/abs/2405.15996v1 ) ライセンス: Link先を確認 | Kazutaka Kiuchi, Shimpei Imamura, Norihiko Kawai, | (参考訳) 近年の研究では、視覚障害者が自撮りをしたいという願望は、視覚障害者が自分の写真を録画して他の人と共有するのと同じようにあることが示されている。
視覚障害者がスマートフォンカメラで自撮りを撮るのを支援するために、音と振動を用いた支援アプリケーションも開発されているが、視界で全員を捉えることは依然として困難であり、写真に良い表情があることの確認も困難である。
これらの問題を緩和するために,全方向カメラを用いて複数人で自撮りを行う手法を提案する。
具体的には、全方向カメラで数秒のビデオを撮り、その後すべてのフレームで顔検出を行う。
提案手法は,すべてのフレーム間の整合性を考慮した偽顔検出を除去し,未検出顔検出を補完する。
提案手法は, すべてのフレームに対して表情認識を行い, 参加者が最も幸福なフレームを抽出し, 全参加者が全方向のフレームから視認できる視点投影画像を生成する。
実験では,提案手法の有効性を示すために,異なる人数のシーンを用いて実験を行った。
Recent studies have shown that visually impaired people have desires to take selfies in the same way as sighted people do to record their photos and share them with others. Although support applications using sound and vibration have been developed to help visually impaired people take selfies using smartphone cameras, it is still difficult to capture everyone in the angle of view, and it is also difficult to confirm that they all have good expressions in the photo. To mitigate these issues, we propose a method to take selfies with multiple people using an omni-directional camera. Specifically, a user takes a few seconds of video with an omni-directional camera, followed by face detection on all frames. The proposed method then eliminates false face detections and complements undetected ones considering the consistency across all frames. After performing facial expression recognition on all the frames, the proposed method finally extracts the frame in which the participants are happiest, and generates a perspective projection image in which all the participants are in the angle of view from the omni-directional frame. In experiments, we use several scenes with different number of people taken to demonstrate the effectiveness of the proposed method. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# 剛性時間遅延ニューラルネットワークを用いたカルナティックラガ同定システム
Carnatic Raga Identification System using Rigorous Time-Delay Neural Network ( http://arxiv.org/abs/2405.16000v1 ) ライセンス: Link先を確認 | Sanjay Natesan, Homayoon Beigi, | (参考訳) 大規模な機械学習に基づくRaga識別は、カルナティック音楽の背後にある計算的側面において、いまだに非自明な問題である。
それぞれのラガは固有のメロディックパターンを多く含み、容易に他のものと識別することができる。
これらのラガは、同じラガの曲をクラスタリングしたり、他の密接に関連するラガの曲を識別したりすることもできる。
この場合、離散フーリエ変換と三角フィルタを組み合わせたステップの組み合わせを用いて入力音を解析し、可能な音符のカスタムビンを作成し、特定の音符の存在や欠落から特徴を抽出する。
1次元畳み込みニューラルネットワークを含む1次元畳み込みニューラルネットワークと、リカレントニューラルネットワークの形式であるLSTM(Long Short-Term Memory)を組み合わせることで、モデルを構築するための分類戦略のバックボーンを作成することができる。
さらに、シュルティの変動に役立てるために、絶対的な違いではなく、周波数の相対的な変化を決定するために、長時間の注意に基づくメカニズムが実装される。
これは、異なるシュルーティスでオーディオクリップをトレーニングするときに、より意味のあるデータポイントを提供する。
分類器の精度を評価するために、676レコードのデータセットを使用する。
曲はラガのリストに散らばっている。
このプログラムの目的は、より広い範囲のオーディオクリップを、よりシュルーティス、ラガ、よりバックグラウンドノイズで効果的かつ効率的にラベル付けできるようにすることである。
Large scale machine learning-based Raga identification continues to be a nontrivial issue in the computational aspects behind Carnatic music. Each raga consists of many unique and intrinsic melodic patterns that can be used to easily identify them from others. These ragas can also then be used to cluster songs within the same raga, as well as identify songs in other closely related ragas. In this case, the input sound is analyzed using a combination of steps including using a Discrete Fourier transformation and using Triangular Filtering to create custom bins of possible notes, extracting features from the presence of particular notes or lack thereof. Using a combination of Neural Networks including 1D Convolutional Neural Networks conventionally known as Time-Delay Neural Networks) and Long Short-Term Memory (LSTM), which are a form of Recurrent Neural Networks, the backbone of the classification strategy to build the model can be created. In addition, to help with variations in shruti, a long-time attention-based mechanism will be implemented to determine the relative changes in frequency rather than the absolute differences. This will provide a much more meaningful data point when training audio clips in different shrutis. To evaluate the accuracy of the classifier, a dataset of 676 recordings is used. The songs are distributed across the list of ragas. The goal of this program is to be able to effectively and efficiently label a much wider range of audio clips in more shrutis, ragas, and with more background noise. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# SGDは本当に小さな部分空間で起こるのか?
Does SGD really happen in tiny subspaces? ( http://arxiv.org/abs/2405.16002v1 ) ライセンス: Link先を確認 | Minhak Song, Kwangjun Ahn, Chulhee Yun, | (参考訳) ディープニューラルネットワークのトレーニングダイナミクスを理解することは、その高次元の性質と複雑なロスランドスケープのために難しい。
近年の研究では、トレーニング軌道に沿って勾配が、支配的部分空間と呼ばれる訓練損失 Hessian の低ランクトップ固有空間とほぼ一致していることが示されている。
このアライメントを前提として、ニューラルネットワークが支配的な部分空間内でトレーニングできるかどうかを検討する。
我々の第一の観察は、SGD更新が支配的な部分空間に投影されると、トレーニング損失はさらに減少しないことである。
このことは、勾配と支配部分空間の間の観測されたアライメントが突発的であることを示唆している。
驚いたことに、支配的なサブスペースを投影することは、元のアップデートコンポーネントの大部分を削除したにもかかわらず、オリジナルのアップデートと同じくらい効果的であることが証明されている。
同様に、大きな学習率体系(安定性のエッジ)とシャープネス・アウェア最小化(シャープネス・アウェア最小化)についても同様の観測がなされている。
我々は、この刺激的なアライメントの主な原因と意味について論じ、ニューラルネットワークトレーニングの複雑なダイナミクスに光を当てる。
Understanding the training dynamics of deep neural networks is challenging due to their high-dimensional nature and intricate loss landscapes. Recent studies have revealed that, along the training trajectory, the gradient approximately aligns with a low-rank top eigenspace of the training loss Hessian, referred to as the dominant subspace. Given this alignment, this paper explores whether neural networks can be trained within the dominant subspace, which, if feasible, could lead to more efficient training methods. Our primary observation is that when the SGD update is projected onto the dominant subspace, the training loss does not decrease further. This suggests that the observed alignment between the gradient and the dominant subspace is spurious. Surprisingly, projecting out the dominant subspace proves to be just as effective as the original update, despite removing the majority of the original update component. Similar observations are made for the large learning rate regime (also known as Edge of Stability) and Sharpness-Aware Minimization. We discuss the main causes and implications of this spurious alignment, shedding light on the intricate dynamics of neural network training. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# 未証明知識の認知診断に組み込む異種知識概念
Disentangling Heterogeneous Knowledge Concept Embedding for Cognitive Diagnosis on Untested Knowledge ( http://arxiv.org/abs/2405.16003v1 ) ライセンス: Link先を確認 | Kui Xiao, Runtian Xing, Miao Zhang, Shunfeng Tan, Ziming Wang, Xiaolian Zhu, | (参考訳) 認知診断は, 生徒の知識概念に対する習熟度を, 応答ログから推定することを目的とした, 学習評価における基本的かつ重要な課題である。
現在の研究は、それぞれの知識の概念が確実にテストされ、複数のエクササイズによってカバーされると仮定している。
しかし、オンラインコースでもオフラインコースでも、いくつかのエクササイズですべての知識概念を完全にカバーすることは不可能です。
制限されたテストは未発見の知識不足、特に未検証の知識概念(UKC)につながる。
本稿では,未検証知識(DisKCD)に基づく新規なアンダーライン{Dis}entangling Heterogeneous \underline{K}nowledge \underline{C}ognitive \underline{D}iagnosisフレームワークを提案する。
具体的には、学生、演習、知識概念の潜在的な表現を学ぶために、コースグレード、エクササイズ、リソースを活用します。
特に、知識の概念は、実際の演習の制限に基づいて、テストと未テストに絡み合わされる。
我々は,学生,演習,テストされた知識概念(TKC),UKCを通じて異種関係グラフネットワークを構築した。
そして、階層的ヘテロジニアスメッセージパッシング機構を通じて、微細な関係をエンティティの埋め込みに組み込む。
最後に、埋め込みは既存の複数の認知診断モデルに適用され、UKCにおける生徒の習熟度を推定する。
実世界のデータセットを用いた実験結果から,提案モデルにより,UKCにおける生徒の習熟度を効果的に診断できることが示された。
我々の匿名コードはhttps://anonymous.4open.science/r/DisKCDで入手できる。
Cognitive diagnosis is a fundamental and critical task in learning assessment, which aims to infer students' proficiency on knowledge concepts from their response logs. Current works assume each knowledge concept will certainly be tested and covered by multiple exercises. However, whether online or offline courses, it's hardly feasible to completely cover all knowledge concepts in several exercises. Restricted tests lead to undiscovered knowledge deficits, especially untested knowledge concepts(UKCs). In this paper, we propose a novel \underline{Dis}entangling Heterogeneous \underline{K}nowledge \underline{C}ognitive \underline{D}iagnosis framework on untested knowledge(DisKCD). Specifically, we leverage course grades, exercise questions, and resources to learn the potential representations of students, exercises, and knowledge concepts. In particular, knowledge concepts are disentangled into tested and untested based on the limiting actual exercises. We construct a heterogeneous relation graph network via students, exercises, tested knowledge concepts(TKCs), and UKCs. Then, through a hierarchical heterogeneous message-passing mechanism, the fine-grained relations are incorporated into the embeddings of the entities. Finally, the embeddings will be applied to multiple existing cognitive diagnosis models to infer students' proficiency on UKCs. Experimental results on real-world datasets show that the proposed model can effectively improve the performance of the task of diagnosing students' proficiency on UKCs. Our anonymous code is available at https://anonymous.4open.science/r/DisKCD. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# PTQ4DiT:拡散変圧器のポストトレーニング量子化
PTQ4DiT: Post-training Quantization for Diffusion Transformers ( http://arxiv.org/abs/2405.16005v1 ) ライセンス: Link先を確認 | Junyi Wu, Haoxuan Wang, Yuzhang Shang, Mubarak Shah, Yan Yan, | (参考訳) 最近導入されたDiffusion Transformers (DiTs)は、異なるバックボーンアーキテクチャを使用して、従来のU-Netから離れ、トランスフォーマーのスケーラブルな性質を受け入れることで、画像生成において例外的な能力を実証している。
高度な能力にもかかわらず、特にリアルタイムアプリケーション向けのDiTの広範な展開は、推論段階でのかなりの計算要求によって妨げられている。
ポストトレーニング量子化(PTQ)は、低ビット重みとアクティベーションを使用して計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
しかし、DiTsの適用性はまだ検討されておらず、DiTsのユニークな設計のため、非自明な困難に直面している。
本稿では,DiTのPTQ法であるPTQ4DiTを提案する。
本研究では,DiTsに固有の2つの主量子化問題,特に極大な静電チャネルの存在,および複数の時間経過における静電活性化分布の時間的変動を明らかにする。
これらの課題に対処するため,チャンネルワイド・サリエンス・バランシング (CSB) とスピアメンの$\rho$-guided Salience Calibration (SSC) を提案する。
CSBはチャネルの等級の相補性を利用して極端を再分配し、活性化と重みの両方の量子化誤差を軽減する。
SSCは、バランスの取れたサリエンスを動的に調整し、アクティベーションの時間的変動を捉えることによってこのアプローチを拡張している。
さらに,推定中にPTQ4DiTが引き起こす余分な計算コストを削減するため,Ditのオフライン再パラメータ化戦略を設計する。
実験により, PTQ4DiTはDiTを8ビット精度 (W8A8) に量子化し, さらに4ビット重量精度 (W4A8) の有効定量化を可能にした。
The recent introduction of Diffusion Transformers (DiTs) has demonstrated exceptional capabilities in image generation by using a different backbone architecture, departing from traditional U-Nets and embracing the scalable nature of transformers. Despite their advanced capabilities, the wide deployment of DiTs, particularly for real-time applications, is currently hampered by considerable computational demands at the inference stage. Post-training Quantization (PTQ) has emerged as a fast and data-efficient solution that can significantly reduce computation and memory footprint by using low-bit weights and activations. However, its applicability to DiTs has not yet been explored and faces non-trivial difficulties due to the unique design of DiTs. In this paper, we propose PTQ4DiT, a specifically designed PTQ method for DiTs. We discover two primary quantization challenges inherent in DiTs, notably the presence of salient channels with extreme magnitudes and the temporal variability in distributions of salient activation over multiple timesteps. To tackle these challenges, we propose Channel-wise Salience Balancing (CSB) and Spearmen's $\rho$-guided Salience Calibration (SSC). CSB leverages the complementarity property of channel magnitudes to redistribute the extremes, alleviating quantization errors for both activations and weights. SSC extends this approach by dynamically adjusting the balanced salience to capture the temporal variations in activation. Additionally, to eliminate extra computational costs caused by PTQ4DiT during inference, we design an offline re-parameterization strategy for DiTs. Experiments demonstrate that our PTQ4DiT successfully quantizes DiTs to 8-bit precision (W8A8) while preserving comparable generation ability and further enables effective quantization to 4-bit weight precision (W4A8) for the first time. | 翻訳日:2024-05-29 01:39:22 公開日:2024-05-25 |
# カメラ画像を用いた間接拡張現実のための全方位画像の強度とテクスチャ補正
Intensity and Texture Correction of Omnidirectional Image Using Camera Images for Indirect Augmented Reality ( http://arxiv.org/abs/2405.16008v1 ) ライセンス: Link先を確認 | Hakim Ikebayashi, Norihiko Kawai, | (参考訳) モバイル端末でカメラ画像を用いた拡張現実(AR)が観光振興に人気を博している。
しかし、カメラ画像に現れる観光客などの障害は、カメラのポーズ推定誤差を引き起こし、CGのミスアライメントと内容の視認性が低下する可能性がある。
この問題を回避するため、リアルタイムカメラ画像を使用しない間接AR(IAR)が提案されている。
この方法では、全方位画像をキャプチャし、予め仮想オブジェクトを画像上に合成する。
ユーザは、デバイスセンサーに従って合成された全方位画像から抽出されたシーンを視聴することで、ARを体験することができる。
これによって堅牢性と高い可視性が可能になる。
しかし、撮影前の360度画像の天気条件と季節が、AR経験時の現在の天気条件と季節と異なる場合、AR経験の現実性は低下する。
そこで本研究では,モバイル端末からのカメラ画像を用いて,過去の全方位画像の強度とテクスチャを補正する手法を提案する。
まずセマンティックセグメンテーションを行います。
次に、パノラマ画像合成と塗装により現在の空模様を再現する。
その他の領域では、ヒストグラムマッチングにより強度を補正する。
実験では,様々なシーンを用いて提案手法の有効性を示す。
Augmented reality (AR) using camera images in mobile devices is becoming popular for tourism promotion. However, obstructions such as tourists appearing in the camera images may cause the camera pose estimation error, resulting in CG misalignment and reduced visibility of the contents. To avoid this problem, Indirect AR (IAR), which does not use real-time camera images, has been proposed. In this method, an omnidirectional image is captured and virtual objects are synthesized on the image in advance. Users can experience AR by viewing a scene extracted from the synthesized omnidirectional image according to the device's sensor. This enables robustness and high visibility. However, if the weather conditions and season in the pre-captured 360 images differs from the current weather conditions and season when AR is experienced, the realism of the AR experience is reduced. To overcome the problem, we propose a method for correcting the intensity and texture of a past omnidirectional image using camera images from mobile devices. We first perform semantic segmentation. We then reproduce the current sky pattern by panoramic image composition and inpainting. For the other areas, we correct the intensity by histogram matching. In experiments, we show the effectiveness of the proposed method using various scenes. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 大規模言語モデルによる長いビデオ理解のストリーミング
Streaming Long Video Understanding with Large Language Models ( http://arxiv.org/abs/2405.16009v1 ) ライセンス: Link先を確認 | Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Shuangrui Ding, Dahua Lin, Jiaqi Wang, | (参考訳) 本稿では,映像理解のための高度視覚言語大モデル(VLLM)であるVideoStreamingを提案する。
視覚言語領域におけるビデオ理解の課題は主に、長いビデオから抽出された大量のトークンによって引き起こされる大きな計算負担にある。
以前の作業はトークンを減らすためにスパースサンプリングやフレーム圧縮に依存していた。
しかし、このようなアプローチは時間的情報を長い間無視するか、空間的詳細を犠牲にして圧縮に欠陥をもたらす。
これらの制限に対処するため、VideoStreamingには、Memory-Propagated Streaming EncodingとAdaptive Memory Selectionという2つのコア設計があります。
Memory-Propagated Streaming Encodingアーキテクチャは、長いビデオを短いクリップに分割し、各クリップをプロパゲードメモリで逐次エンコードする。
各イテレーションにおいて、前回のクリップの符号化結果を履歴記憶として利用し、現在のクリップと統合して、ビデオコンテンツを現在のタイムスタンプまでカプセル化する凝縮表現を蒸留する。
符号化処理後、アダプティブメモリ選択戦略は、すべての履歴記憶から一定数の質問関連記憶を選択し、LSMに入力して情報応答を生成する。
疑問に関連する選択は、メモリ内の冗長性を低減し、効率的かつ正確なビデオ理解を可能にする。
一方、ゆがんだビデオ抽出と推論設計により、LLMは各質問に対してビデオ全体をエンコードすることなく、対応する記憶を直接選択することで、ビデオに関する異なる質問に答えることができる。
提案モデルは,詳細な質問応答の正確な時間的理解を示すとともに,長大なビデオベンチマークの性能向上と高効率化を実現している。
This paper presents VideoStreaming, an advanced vision-language large model (VLLM) for video understanding, that capably understands arbitrary-length video with a constant number of video tokens streamingly encoded and adaptively selected. The challenge of video understanding in the vision language area mainly lies in the significant computational burden caused by the great number of tokens extracted from long videos. Previous works rely on sparse sampling or frame compression to reduce tokens. However, such approaches either disregard temporal information in a long time span or sacrifice spatial details, resulting in flawed compression. To address these limitations, our VideoStreaming has two core designs: Memory-Propagated Streaming Encoding and Adaptive Memory Selection. The Memory-Propagated Streaming Encoding architecture segments long videos into short clips and sequentially encodes each clip with a propagated memory. In each iteration, we utilize the encoded results of the preceding clip as historical memory, which is integrated with the current clip to distill a condensed representation that encapsulates the video content up to the current timestamp. After the encoding process, the Adaptive Memory Selection strategy selects a constant number of question-related memories from all the historical memories and feeds them into the LLM to generate informative responses. The question-related selection reduces redundancy within the memories, enabling efficient and precise video understanding. Meanwhile, the disentangled video extraction and reasoning design allows the LLM to answer different questions about a video by directly selecting corresponding memories, without the need to encode the whole video for each question. Our model achieves superior performance and higher efficiency on long video benchmarks, showcasing precise temporal comprehension for detailed question answering. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# GFlowNetsの悲観的バックワードポリシー
Pessimistic Backward Policy for GFlowNets ( http://arxiv.org/abs/2405.16012v1 ) ライセンス: Link先を確認 | Hyosoon Jang, Yunhui Jang, Minsu Kim, Jinkyoo Park, Sungsoo Ahn, | (参考訳) 本稿では、状態遷移の軌跡を通して、与えられた報酬関数に比例するオブジェクトのサンプルを学習する生成フローネットワーク(GFlowNets)について検討する。
本研究は,GFlowNetsがトラジェクトリの不足による高次オブジェクトの過小評価を行う傾向にあり,推定フローと(既知の)報酬値との間に大きなギャップが生じる可能性があることを観察する。
そこで本研究では,GFlowNets (PBP-GFN) に対する悲観的逆向きポリシーを提案する。
我々は,超グリッド環境,バッグ生成,構造化セット生成,分子生成,4つのRNA配列生成タスクを含む8つのベンチマークでPBP-GFNを広範囲に評価した。
特に、PBP-GFNは、高次オブジェクトの発見を促進し、オブジェクトの多様性を維持し、既存のメソッドを一貫して上回る。
This paper studies Generative Flow Networks (GFlowNets), which learn to sample objects proportionally to a given reward function through the trajectory of state transitions. In this work, we observe that GFlowNets tend to under-exploit the high-reward objects due to training on insufficient number of trajectories, which may lead to a large gap between the estimated flow and the (known) reward value. In response to this challenge, we propose a pessimistic backward policy for GFlowNets (PBP-GFN), which maximizes the observed flow to align closely with the true reward for the object. We extensively evaluate PBP-GFN across eight benchmarks, including hyper-grid environment, bag generation, structured set generation, molecular generation, and four RNA sequence generation tasks. In particular, PBP-GFN enhances the discovery of high-reward objects, maintains the diversity of the objects, and consistently outperforms existing methods. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 逆弱スーパービジョン法の収束挙動
Convergence Behavior of an Adversarial Weak Supervision Method ( http://arxiv.org/abs/2405.16013v1 ) ライセンス: Link先を確認 | Steven An, Sanjoy Dasgupta, | (参考訳) データのラベル付けは、クラウドソースラーニングや半教師付きアンサンブルラーニングといった機械学習のサブ領域を仮定するパラダイムであるWeak Supervisionの中心である。
このラベル付きデータを使用して、現代の機械学習手法を訓練することにより、大量のラベル付きデータを取得するコストを改善することができる。
ツムブの規則を組み合わせるアプローチは、統計的推定の異なるイデオロギーを反映して、2つのキャンプに分かれる。
Dawid-Skeneモデルによって実証された最も一般的なアプローチは確率的モデリングに基づいている。
もう一つは、バルスラマニ=フルンドなどの著作で開発され、敵対的かつゲーム理論である。
対数ロス法では,解の形式を特徴付け,ロジスティック回帰に関連付け,一貫性を示し,収束率を与える。
一方、同じモデルクラスに対する確率論的アプローチは一貫性に欠ける可能性がある。
理論的結果を裏付ける実験結果が提供される。
Labeling data via rules-of-thumb and minimal label supervision is central to Weak Supervision, a paradigm subsuming subareas of machine learning such as crowdsourced learning and semi-supervised ensemble learning. By using this labeled data to train modern machine learning methods, the cost of acquiring large amounts of hand labeled data can be ameliorated. Approaches to combining the rules-of-thumb falls into two camps, reflecting different ideologies of statistical estimation. The most common approach, exemplified by the Dawid-Skene model, is based on probabilistic modeling. The other, developed in the work of Balsubramani-Freund and others, is adversarial and game-theoretic. We provide a variety of statistical results for the adversarial approach under log-loss: we characterize the form of the solution, relate it to logistic regression, demonstrate consistency, and give rates of convergence. On the other hand, we find that probabilistic approaches for the same model class can fail to be consistent. Experimental results are provided to corroborate the theoretical results. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# ComFace:顔比較のための合成データを用いた顔表現学習
ComFace: Facial Representation Learning with Synthetic Data for Comparing Faces ( http://arxiv.org/abs/2405.16016v1 ) ライセンス: Link先を確認 | Yusuke Akamatsu, Terumi Umematsu, Hitoshi Imaoka, Shizuko Gomi, Hideo Tsurushima, | (参考訳) 健康状態や感情状態に関連する顔変化の日常的モニタリングは、医療、医療、感情認識の分野で有用である可能性がある。
しかし, 顔画像の時間的変化の収集が困難であるため, 顔内変化を捉えるアプローチは, 比較的未探索である。
本稿では,合成画像を用いた顔表現学習手法ComFaceを提案する。
効果的な表現学習のために、ComFaceは2つの特徴表現、すなわち、対人的な顔の違いと対人的な顔の変化を取得することを目指している。
提案手法の要点は,実際の顔画像収集の限界を克服するために合成顔画像を使用することである。
ComFaceが学んだ顔表現は、顔の表情変化の推定、体重の変化、同一人物の2つの顔画像からの年齢変化の3つの広範囲な下流タスクに転送される。
我々のComFaceは、合成データのみを用いて訓練され、実画像を用いて訓練された一般的な事前学習や最先端表現学習方法と同等以上の転送性能を達成する。
Daily monitoring of intra-personal facial changes associated with health and emotional conditions has great potential to be useful for medical, healthcare, and emotion recognition fields. However, the approach for capturing intra-personal facial changes is relatively unexplored due to the difficulty of collecting temporally changing face images. In this paper, we propose a facial representation learning method using synthetic images for comparing faces, called ComFace, which is designed to capture intra-personal facial changes. For effective representation learning, ComFace aims to acquire two feature representations, i.e., inter-personal facial differences and intra-personal facial changes. The key point of our method is the use of synthetic face images to overcome the limitations of collecting real intra-personal face images. Facial representations learned by ComFace are transferred to three extensive downstream tasks for comparing faces: estimating facial expression changes, weight changes, and age changes from two face images of the same individual. Our ComFace, trained using only synthetic data, achieves comparable to or better transfer performance than general pre-training and state-of-the-art representation learning methods trained using real images. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 量子重力の計測について
On the measurements in Quantum Gravity ( http://arxiv.org/abs/2405.16017v1 ) ライセンス: Link先を確認 | Juanca Carrasco-Martinez, | (参考訳) このエッセイでは、測定の特定の側面は量子重力の修正を必要とすると論じる。
エントロピックな議論を用いて、測定結果の数と測定精度(または範囲)は、観測者スケールに関連するブラックホールのエントロピーによって制限される。
これはまた、可観測物の有限表現を保証するために可換関係の代数を変更する必要があることを示し、この方法でハイゼンベルクの不確実性原理を変更する。
In this essay, we argue that certain aspects of the measurement require revision in Quantum Gravity. Using entropic arguments, we propose that the number of measurement outcomes and the accuracy (or the range) of the measurement are limited by the entropy of the black hole associated with the observer scale. This also implies the necessity of modifying the algebra of commutation relationships to ensure a finite representation of observables, changing the Heisenberg Uncertainty Principle in this manner. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 量子センシングのための量子資源としてのスピン量子数
Spin quantum number as quantum resource for quantum sensing ( http://arxiv.org/abs/2405.16018v1 ) ライセンス: Link先を確認 | Qi Chai, Wen Yang, | (参考訳) 量子センシングのための量子リソースの同定は、最重要事項である。
これまで、2つの量子資源が広く認識されてきた: 絡み合った量子プローブの数$N$と、コヒーレントな進化時間$T$である。
ここでは、高スピン系のスピン量子数$S$を別の量子資源として同定し、ノイズのないハイゼンベルクスケールに従って磁場のセンシング精度を向上させる。
$N$や$T$と同様、$S$の効用は環境騒音によって劣化する可能性がある。
我々は、Ornstein-Uhlenbeckノイズ(現実的な物理系において一般的なノイズ)の下で、この点をシステマティックに解析する。
S$の効用はマルコフノイズにおいて消滅するが、非マルコフノイズでは存続し、古典的なスケールの1/\sqrt{S}$に従って知覚精度を向上させる。
超古典的スケーリングは、ハイスピンシステムの適切な制御によって達成できる。
Identifying quantum resources for quantum sensing is of paramount importance. Up to date, two quantum resources has been widely recognized: the number $N$ of entangled quantum probes and the coherent evolution time $T$. Here we identify the spin quantum number $S$ of high-spin systems as another quantum resource, which can improve the sensing precision of magnetic field according to the Heisenberg scaling in the absence of noises. Similar to the case of $N$ and $T$, the utility of $S$ may be degraded by environmental noises. We analyze this point sysmatically under the Ornstein-Uhlenbeck noise (a prevalent noise in realistic physical systems). We find that the utility of $S$ vanishes in Markovian noises, but survives in non-Markovian noises, where it improves the sensing precision according to the classical scaling $1/\sqrt{S}$. Super-classical scaling can be achieved by suitable control of the high-spin system. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 認知コンピューティングのためのスパイキングニューラルネットワーク位相符号化
Spiking Neural Network Phase Encoding for Cognitive Computing ( http://arxiv.org/abs/2405.16023v1 ) ライセンス: Link先を確認 | Lei Zhang, | (参考訳) 本稿では,認知情報学と認知コンピューティングの原理に基づくスパイキングニューラルネットワーク(SNN)を用いた信号再構成手法を提案する。
提案したSNNは離散フーリエ変換(DFT)を利用して任意の時系列信号を表現・再構成する。
N個のスパイキングニューロンを使用することで、SNNは入力信号の周波数成分を捕捉し、各ニューロンは独自の周波数を割り当てる。
スパイキングニューロンの大きさと位相とDFT係数の関係について検討し、元の信号の再構成を可能にする。
さらに、インパルス遅延の符号化と隣り合う周波数成分間の位相差について述べる。
本研究は信号処理の分野に貢献し,SNNの認知信号解析と再構成への応用に関する知見を提供する。
This paper presents a novel approach for signal reconstruction using Spiking Neural Networks (SNN) based on the principles of Cognitive Informatics and Cognitive Computing. The proposed SNN leverages the Discrete Fourier Transform (DFT) to represent and reconstruct arbitrary time series signals. By employing N spiking neurons, the SNN captures the frequency components of the input signal, with each neuron assigned a unique frequency. The relationship between the magnitude and phase of the spiking neurons and the DFT coefficients is explored, enabling the reconstruction of the original signal. Additionally, the paper discusses the encoding of impulse delays and the phase differences between adjacent frequency components. This research contributes to the field of signal processing and provides insights into the application of SNN for cognitive signal analysis and reconstruction. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# ひずみグラフェン中の多重励起子の量子絡み合い
Quantum entanglement of multiple excitons in strained graphene ( http://arxiv.org/abs/2405.16024v1 ) ライセンス: Link先を確認 | Gabriel P. Martins, Oleg Berman, Godfrey Gumbs, Yurii E. Lozovik, | (参考訳) グラフェン単分子膜の励起子間の絡み合いに及ぼす光子のコヒーレント源の影響について検討した。
グラフェン層は不完全な光学的微小キャビティに埋め込まれていると考えられた。
本研究では,原子状量子ビットとして扱われる最大5個の励起子からなる系の絡み合いダイナミクスについて検討した。
複数の量子ビットの絡み合った状態は、量子誤り訂正符号に有用である。
我々は,共起の時間的進化,3-\pi$,相互情報,特に負性度を監視した。
我々はコヒーレントポンプがエキシトン間の永続的な絡み合いを生じさせることを示した。
しかし、この絡み合いは光子が励起される速度が空洞の崩壊速度よりも小さい場合にのみ持続する。
その結果, グラフェンシートのひずみ誘起擬磁場の強度により, 励起子間の絡み合いの度合いが増加することがわかった。
さらに、構造を記述するパラメータに依存する系の有限個の励起子において、最大絡み合いが生じることを示した。
We studied the effects arising from a coherent source of photons on the entanglement between excitons in a strained graphene monolayer. The graphene layer was considered to be embedded in an imperfect optical microcavity. In our investigation, we have studied the entanglement dynamics of systems consisting of up to five excitons, which are treated as atomic-like qubits. Entangled states of multiple qubits are useful in quantum error correction codes. We have monitored the time evolution of the concurrence, three-$\pi$, mutual information, and especially the negativity. We have demonstrated that coherent pumping can create lasting entanglement between the excitons. However, the entanglement only persists when the rate at which photons are pumped is smaller than the decay rate of the cavity. Our results show that the degree in entanglement between the excitons is increased with the intensity of the strain-induced pseudomagnetic field in the graphene sheet. Additionally, we have shown that a maximum amount of entanglement occurs at a finite number of excitons in the system which depends on the parameters describing the structure. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# アウト・オブ・ディストリビューションの一般化のための特徴的保護
Feature Protection For Out-of-distribution Generalization ( http://arxiv.org/abs/2405.16027v1 ) ライセンス: Link先を確認 | Lu Tan, Huei Zhou, Yinxiang Huang, Zeming Zheng, Yujiu Yang, | (参考訳) 大規模な事前トレーニングモデルの可用性により、現実世界の機械学習ソリューションを構築するための現代的なワークフローは、比較的小さなドメイン固有のデータセットで下流タスクでそのようなモデルを微調整することである。
このようなアプリケーションでは、小さな微調整データセットがモデルがデプロイされたときに発生する分布について十分なカバレッジを持っていないことが大きな課題である。
したがって、トレーニングデータで表現されていないOOD(out-of-distriion)データに対して堅牢な微調整手法を設計することが重要である。
本稿では,OODの性能を調べるための一般的な微調整手法を比較し,標準手法が事前学習モデルに大きな変化をもたらすことを示し,微調整された特徴が微調整データセットに収まることを示した。
しかし、これはOOD性能を悪化させた。
この問題を克服するために、事前訓練された特徴の保護は、OOD一般化に対してより堅牢な微調整モデルをもたらすことを示す。
我々は,ImageNetとDomainNet上での細調整CLIPの広範な実験により特徴保護手法を検証する。
With the availability of large pre-trained models, a modern workflow for building real-world machine learning solutions is to fine-tune such models on a downstream task with a relatively small domain-specific dataset. In such applications, one major challenge is that the small fine-tuning dataset does not have sufficient coverage of the distribution encountered when the model is deployed. It is thus important to design fine-tuning methods that are robust to out-of-distribution (OOD) data that are under-represented by the training data. This paper compares common fine-tuning methods to investigate their OOD performance and demonstrates that standard methods will result in a significant change to the pre-trained model so that the fine-tuned features overfit the fine-tuning dataset. However, this causes deteriorated OOD performance. To overcome this issue, we show that protecting pre-trained features leads to a fine-tuned model more robust to OOD generalization. We validate the feature protection methods with extensive experiments of fine-tuning CLIP on ImageNet and DomainNet. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# モデルリトレーニングと推論を併用したエッジインテリジェンスのためのオンラインリソースアロケーション
Online Resource Allocation for Edge Intelligence with Colocated Model Retraining and Inference ( http://arxiv.org/abs/2405.16029v1 ) ライセンス: Link先を確認 | Huaiguang Cai, Zhi Zhou, Qianyi Huang, | (参考訳) エッジインテリジェンスによって、AIモデルは、ユビキタスユーザに提供するために、ますますエッジにプッシュされている。
しかし、モデル、データ、タスクのドリフトにより、エッジにデプロイされたAIモデルは、推論サービスフェーズの劣化した精度に悩まされる。
モデル再トレーニングは、新たに到着したデータで定期的にモデルを再トレーニングすることで、そのようなドリフトを処理する。
資源制限されたエッジサーバ上で同じモデルに対応するモデル再トレーニングとモデル推論のコロケーションを行う場合、モデル再トレーニングと推論のリソース割り当てのバランスをとることが根本的な課題となり、長期的推測精度を最大化することを目指している。
この問題は、基礎となる数学的定式化が時間結合、非凸、NPハードであるため、特に困難である。
これらの課題に対処するために、モデルトレーニングと推論の精度を適応的にバランスするリソース割り当てを最適化するために設計された、軽量で説明可能なオンライン近似アルゴリズム、ORRICを導入する。
ORRICの競合比は従来の推論・オンリーパラダイムよりも優れており、特にデータドリフトが十分に長い時間持続した場合に顕著である。
これは、モデルの再トレーニングと推論のコロケーションの利点と適用可能なシナリオを強調します。
特に、ORRICはリソース環境の異なる複数のヒューリスティックなアルゴリズムに変換できる。
実シナリオで実施された実験は、ORRICの有効性を検証する。
With edge intelligence, AI models are increasingly pushed to the edge to serve ubiquitous users. However, due to the drift of model, data, and task, AI model deployed at the edge suffers from degraded accuracy in the inference serving phase. Model retraining handles such drifts by periodically retraining the model with newly arrived data. When colocating model retraining and model inference serving for the same model on resource-limited edge servers, a fundamental challenge arises in balancing the resource allocation for model retraining and inference, aiming to maximize long-term inference accuracy. This problem is particularly difficult due to the underlying mathematical formulation being time-coupled, non-convex, and NP-hard. To address these challenges, we introduce a lightweight and explainable online approximation algorithm, named ORRIC, designed to optimize resource allocation for adaptively balancing the accuracy of model training and inference. The competitive ratio of ORRIC outperforms that of the traditional Inference-Only paradigm, especially when data drift persists for a sufficiently lengthy time. This highlights the advantages and applicable scenarios of colocating model retraining and inference. Notably, ORRIC can be translated into several heuristic algorithms for different resource environments. Experiments conducted in real scenarios validate the effectiveness of ORRIC. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 教師なしスキル発見のための制約付きアンサンブル探索
Constrained Ensemble Exploration for Unsupervised Skill Discovery ( http://arxiv.org/abs/2405.16030v1 ) ライセンス: Link先を確認 | Chenjia Bai, Rushuai Yang, Qiaosheng Zhang, Kang Xu, Yi Chen, Ting Xiao, Xuelong Li, | (参考訳) 教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
教師なしRLの既存の方法は、主にエンパワーメント駆動のスキル発見やエントロピーに基づく探索を行う。
しかし、エンパワーメントはしばしば静的なスキルをもたらし、純粋な探索は有用な振る舞いを学ぶよりも、状態カバレッジを最大化するだけである。
本稿では,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
これにより、各スキルは局所的にクラスタ化された領域を探索することができ、アンサンブルスキルは全体の状態カバレッジを最大化する。
我々は,スキル占有に対する国家分配の制約と,識別可能なスキルを学ぶための望ましいクラスタを採用する。
状態エントロピーと結果のスキル分布に関する理論的分析が提供される。
本手法は,様々な課題に対する広範囲な実験に基づいて,探索されたアンサンブルスキルを学習し,従来の手法と比較して,様々な下流タスクにおいて優れた性能を実現する。
Unsupervised Reinforcement Learning (RL) provides a promising paradigm for learning useful behaviors via reward-free per-training. Existing methods for unsupervised RL mainly conduct empowerment-driven skill discovery or entropy-based exploration. However, empowerment often leads to static skills, and pure exploration only maximizes the state coverage rather than learning useful behaviors. In this paper, we propose a novel unsupervised RL framework via an ensemble of skills, where each skill performs partition exploration based on the state prototypes. Thus, each skill can explore the clustered area locally, and the ensemble skills maximize the overall state coverage. We adopt state-distribution constraints for the skill occupancy and the desired cluster for learning distinguishable skills. Theoretical analysis is provided for the state entropy and the resulting skill distributions. Based on extensive experiments on several challenging tasks, we find our method learns well-explored ensemble skills and achieves superior performance in various downstream tasks compared to previous methods. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# DiffuBox:ポイント拡散による3Dオブジェクト検出の精細化
DiffuBox: Refining 3D Object Detection with Point Diffusion ( http://arxiv.org/abs/2405.16034v1 ) ライセンス: Link先を確認 | Xiangyu Chen, Zhenzhen Liu, Katie Z Luo, Siddhartha Datta, Adhitya Polavaram, Yan Wang, Yurong You, Boyi Li, Marco Pavone, Wei-Lun Chao, Mark Campbell, Bharath Hariharan, Kilian Q. Weinberger, | (参考訳) 堅牢な3Dオブジェクトの検出とローカライゼーションは、ロボット工学や自律運転における多くのアプリケーションにとって不可欠である。
しかし、近年のモデルでは、センサーの設定や地理的位置が異なるドメインに適用した場合、高い性能を維持することが困難であり、ドメインシフトによるローカライゼーションの精度が低下することが多い。
この課題を克服するために,新しい拡散型ボックスリファインメント手法を提案する。
この方法は、粗いバウンディングボックスを囲むLiDAR点に条件付きドメインに依存しない拡散モデルを用いて、ボックスの位置、サイズ、方向を同時に洗練する。
提案手法は,様々なドメイン適応設定下で評価され,その結果から,異なるデータセット,オブジェクトクラス,検出器間での大幅な改善が示された。
Ensuring robust 3D object detection and localization is crucial for many applications in robotics and autonomous driving. Recent models, however, face difficulties in maintaining high performance when applied to domains with differing sensor setups or geographic locations, often resulting in poor localization accuracy due to domain shift. To overcome this challenge, we introduce a novel diffusion-based box refinement approach. This method employs a domain-agnostic diffusion model, conditioned on the LiDAR points surrounding a coarse bounding box, to simultaneously refine the box's location, size, and orientation. We evaluate this approach under various domain adaptation settings, and our results reveal significant improvements across different datasets, object classes and detectors. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 認証アダプタ: 分類器の逆ロバスト性の評価と改善
Certifying Adapters: Enabling and Enhancing the Certification of Classifier Adversarial Robustness ( http://arxiv.org/abs/2405.16036v1 ) ライセンス: Link先を確認 | Jieren Deng, Hanbin Hong, Aaron Palmer, Xin Zhou, Jinbo Bi, Kaleel Mahmood, Yuan Hong, Derek Aguiar, | (参考訳) ランダムな平滑化は、L_{p}-ノルム対向摂動に対する深層分類器の証明された堅牢性を達成するための主要な方法となっている。
ガウスノイズによるデータ強化や逆行訓練のような認証されたロバスト性を達成するための現在のアプローチでは、ガウスノイズレベルの大きなモデルをチューニングし、高性能な事前学習ニューラルネットワークを利用できないような、高価なトレーニング手順が必要となる。
そこで本研究では,分類器の正当性を保証するための新しい認証アダプタフレームワーク(CAF)について紹介する。
提案手法は,基礎となるトレーニングアルゴリズムや特徴抽出器についてはほとんど仮定せず,様々な特徴抽出器アーキテクチャ(畳み込みニューラルネットワークや視覚変換器など)やスムーズなアルゴリズムに適用可能である。
CAFは
(a) クリーンデータセットで事前訓練された未認証モデルの認証を可能にする
b) CIFAR-10とImageNetの複数ラジイにおけるランダム化スムース化とSmoothAdvによる認証分類器の性能を大幅に向上させる。
ランダムなスムース化に基づく手法と比較して, CAFは認証精度の向上を実現しており, CAFはアダプタハイパーパラメータの認証に不感であることを示す。
最後に,適応器のアンサンブルにより,1つの事前訓練された特徴抽出器が様々な騒音摂動スケールに対して防御できることを示す。
Randomized smoothing has become a leading method for achieving certified robustness in deep classifiers against l_{p}-norm adversarial perturbations. Current approaches for achieving certified robustness, such as data augmentation with Gaussian noise and adversarial training, require expensive training procedures that tune large models for different Gaussian noise levels and thus cannot leverage high-performance pre-trained neural networks. In this work, we introduce a novel certifying adapters framework (CAF) that enables and enhances the certification of classifier adversarial robustness. Our approach makes few assumptions about the underlying training algorithm or feature extractor and is thus broadly applicable to different feature extractor architectures (e.g., convolutional neural networks or vision transformers) and smoothing algorithms. We show that CAF (a) enables certification in uncertified models pre-trained on clean datasets and (b) substantially improves the performance of certified classifiers via randomized smoothing and SmoothAdv at multiple radii in CIFAR-10 and ImageNet. We demonstrate that CAF achieves improved certified accuracies when compared to methods based on random or denoised smoothing, and that CAF is insensitive to certifying adapter hyperparameters. Finally, we show that an ensemble of adapters enables a single pre-trained feature extractor to defend against a range of noise perturbation scales. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# 改良型マルチスペクトル物体検出のための早期融合戦略の再考
Rethinking Early-Fusion Strategies for Improved Multispectral Object Detection ( http://arxiv.org/abs/2405.16038v1 ) ライセンス: Link先を確認 | Xue Zhang, Si-Yuan Cao, Fang Wang, Runmin Zhang, Zhe Wu, Xiaohan Zhang, Xiaokai Bai, Hui-Liang Shen, | (参考訳) 最近のマルチスペクトル物体検出器では、RGBや熱画像から特徴を抽出するために2分岐構造を採用している。
2分岐構造は単分岐構造よりも優れた性能を達成するが、推論効率は見落としている。
この対立はますます積極的になり、最近の研究はパフォーマンスと効率の両方よりもパフォーマンスの向上を追求している。
本稿では,効率的な単分岐構造の性能を向上させることでこの問題に対処する。
これらの構造間の性能差の原因を再検討する。
従来の単一ブランチ構造で採用されていた単純早期融合戦略における情報干渉問題について初めて明らかにする。
さらに,マルチスペクトル像間の領域ギャップや単一ブランチ構造の弱い特徴表現も性能上の重要な障害であることがわかった。
本稿では,これら3つの問題に着目し,新しい形状優先早期融合戦略,弱教師付き学習法,コア知識蒸留技術などに対応する手法を提案する。
これらの3つのコントリビューションを備えたシングルブランチネットワークは、高い効率を維持しつつ、大幅な性能向上を実現していることを示す実験である。
我々のコードは \url{https://github.com/XueZ-phd/Efficient-RGB-T-Early-Fusion-Detection} で利用可能です。
Most recent multispectral object detectors employ a two-branch structure to extract features from RGB and thermal images. While the two-branch structure achieves better performance than a single-branch structure, it overlooks inference efficiency. This conflict is increasingly aggressive, as recent works solely pursue higher performance rather than both performance and efficiency. In this paper, we address this issue by improving the performance of efficient single-branch structures. We revisit the reasons causing the performance gap between these structures. For the first time, we reveal the information interference problem in the naive early-fusion strategy adopted by previous single-branch structures. Besides, we find that the domain gap between multispectral images, and weak feature representation of the single-branch structure are also key obstacles for performance. Focusing on these three problems, we propose corresponding solutions, including a novel shape-priority early-fusion strategy, a weakly supervised learning method, and a core knowledge distillation technique. Experiments demonstrate that single-branch networks equipped with these three contributions achieve significant performance enhancements while retaining high efficiency. Our code will be available at \url{https://github.com/XueZ-phd/Efficient-RGB-T-Early-Fusion-Detection}. | 翻訳日:2024-05-29 01:29:38 公開日:2024-05-25 |
# MoEUT:Mixture-of-Experts Universal Transformers
MoEUT: Mixture-of-Experts Universal Transformers ( http://arxiv.org/abs/2405.16039v1 ) ライセンス: Link先を確認 | Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber, Christopher Potts, Christopher D. Manning, | (参考訳) UT(Universal Transformers)に関するこれまでの研究は、レイヤ間のパラメータ共有の重要性を実証してきた。
奥行きの繰り返しを許すことにより、UTは構成一般化の学習において標準変換器よりも利点があるが、層共有はパラメータ計算比の実用的な制限を伴い、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
パラメータの損失を補うために層のサイズをネイティブにスケールアップすることは、計算リソースの要求を禁止します。
実際には、言語モデリングのようなパラメータ数で支配されるタスクと競合する共有層トランスフォーマー設計の提案に、以前の研究は成功していない。
ここでは、標準トランスフォーマーのフィードフォワード層とアテンション層の両方に対するMoEsの最近の進歩と、UTsに特有かつ不可欠な新しい層正規化とグループ化スキームを組み合わせた、MoEUT(moot)を効果的に混合した共有層トランスフォーマーアーキテクチャを提案する。
UTモデルは、BLiMPやPIQAのような言語モデリングタスクで標準のTransformerをわずかに上回り、計算とメモリをはるかに少なくしている。
Previous work on Universal Transformers (UTs) has demonstrated the importance of parameter sharing across layers. By allowing recurrence in depth, UTs have advantages over standard Transformers in learning compositional generalizations, but layer-sharing comes with a practical limitation of parameter-compute ratio: it drastically reduces the parameter count compared to the non-shared model with the same dimensionality. Naively scaling up the layer size to compensate for the loss of parameters makes its computational resource requirements prohibitive. In practice, no previous work has succeeded in proposing a shared-layer Transformer design that is competitive in parameter count-dominated tasks such as language modeling. Here we propose MoEUT (pronounced "moot"), an effective mixture-of-experts (MoE)-based shared-layer Transformer architecture, which combines several recent advances in MoEs for both feedforward and attention layers of standard Transformers together with novel layer-normalization and grouping schemes that are specific and crucial to UTs. The resulting UT model, for the first time, slightly outperforms standard Transformers on language modeling tasks such as BLiMP and PIQA, while using significantly less compute and memory. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 説明可能な分子特性予測:言語モデルによる予測を伴う化学概念の調整
Explainable Molecular Property Prediction: Aligning Chemical Concepts with Predictions via Language Models ( http://arxiv.org/abs/2405.16041v1 ) ライセンス: Link先を確認 | Zhenzhong Wang, Zehui Lin, Wanyu Lin, Ming Yang, Minggang Zeng, Kay Chen Tan, | (参考訳) 説明可能な分子特性予測を提供することは、薬物発見や物質科学など、多くの科学分野において重要である。
トランスフォーマーに基づく言語モデルは、正確な分子特性予測に大きな可能性を示しているが、化学的に意味のある説明や、分子構造と固有性の関係を忠実に明らかにするものではない。
本研究では,Lamoleと呼ばれる言語モデルに基づく分子特性予測のための新しいフレームワークを開発し,化学概念に整合した説明を提供する。
まず、指定された分子表現(グループSELFIES)を利用し、化学的に意味のある意味論を提供する。
トランスフォーマーのアテンション機構は本質的に入力内の関係を捉えることができるため、注意重みと勾配を結合して機能群相互作用を捉えるための説明を生成する。
次に、化学者のアノテーションに合わせるように説明を明示的に最適化するために、限界的な損失を慎重に作ります。
我々は、データ多様体の接空間と説明が一致できることを証明するために、多様体の仮説を精巧な限界損失で橋渡しし、概念的に整合した説明をもたらす。
6つの変異原性データセットと1つの肝毒性データセットに対する実験結果から、ラモールは同等の分類精度を達成でき、説明精度を14.8%向上させることができる。
Providing explainable molecule property predictions is critical for many scientific domains, such as drug discovery and material science. Though transformer-based language models have shown great potential in accurate molecular property prediction, they neither provide chemically meaningful explanations nor faithfully reveal the molecular structure-property relationships. In this work, we develop a new framework for explainable molecular property prediction based on language models, dubbed as Lamole, which can provide chemical concepts-aligned explanations. We first leverage a designated molecular representation -- the Group SELFIES -- as it can provide chemically meaningful semantics. Because attention mechanisms in Transformers can inherently capture relationships within the input, we further incorporate the attention weights and gradients together to generate explanations for capturing the functional group interactions. We then carefully craft a marginal loss to explicitly optimize the explanations to be able to align with the chemists' annotations. We bridge the manifold hypothesis with the elaborated marginal loss to prove that the loss can align the explanations with the tangent space of the data manifold, leading to concept-aligned explanations. Experimental results over six mutagenicity datasets and one hepatotoxicity dataset demonstrate Lamole can achieve comparable classification accuracy and boost the explanation accuracy by up to 14.8%, being the state-of-the-art in explainable molecular property prediction. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 大規模言語モデルによるガーデンパス文のインクリメンタル理解:意味的解釈,構文的再分析,注意
Incremental Comprehension of Garden-Path Sentences by Large Language Models: Semantic Interpretation, Syntactic Re-Analysis, and Attention ( http://arxiv.org/abs/2405.16042v1 ) ライセンス: Link先を確認 | Andrew Li, Xianle Feng, Siddhant Narang, Austin Peng, Tianle Cai, Raj Sanjay Shah, Sashank Varma, | (参考訳) 一時的に曖昧な庭の道の文を読むとき、誤解は曖昧さの点を通り過ぎてしまうことがある。
この現象は、伝統的に精神言語学的実験において、読解時間や解答質問などのオフライン測度などのオンライン測度を用いて研究されてきた。
本稿では,GPT-2,LLaMA-2,Flan-T5,RoBERTaの4つの大言語モデル(LLM)を用いて,園芸パス文の処理と誤解釈の運命について検討する。
総合的な目的は、園道文の処理において人間とLLMが一致しているか、曖昧な点をたどる誤解釈(特に、節境界を省略するコンマなど)をガイド処理に含めている場合)を評価することである。
この目的を,任意に推移的かつ反射的な動詞を持つ24の庭道文を用いて解決し,一時的なあいまいさに繋がる。
各文には、誤解釈と正しい解釈に対応する一対の理解的質問がある。
3つの実験において,(1)問合せタスクを用いてLLMの動的意味解釈を計測し,(2)曖昧な点(文の終わりまでに)で暗黙のパースツリーを移動させるか,(3)問合せ処理時に不明瞭な情報に対応するモデルコンポーネントを可視化する。
これらの実験は、庭道文の処理における人間とLLM間の有望な整合性を示す。
When reading temporarily ambiguous garden-path sentences, misinterpretations sometimes linger past the point of disambiguation. This phenomenon has traditionally been studied in psycholinguistic experiments using online measures such as reading times and offline measures such as comprehension questions. Here, we investigate the processing of garden-path sentences and the fate of lingering misinterpretations using four large language models (LLMs): GPT-2, LLaMA-2, Flan-T5, and RoBERTa. The overall goal is to evaluate whether humans and LLMs are aligned in their processing of garden-path sentences and in the lingering misinterpretations past the point of disambiguation, especially when extra-syntactic information (e.g., a comma delimiting a clause boundary) is present to guide processing. We address this goal using 24 garden-path sentences that have optional transitive and reflexive verbs leading to temporary ambiguities. For each sentence, there are a pair of comprehension questions corresponding to the misinterpretation and the correct interpretation. In three experiments, we (1) measure the dynamic semantic interpretations of LLMs using the question-answering task; (2) track whether these models shift their implicit parse tree at the point of disambiguation (or by the end of the sentence); and (3) visualize the model components that attend to disambiguating information when processing the question probes. These experiments show promising alignment between humans and LLMs in the processing of garden-path sentences, especially when extra-syntactic information is available to guide processing. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 弱-ストロング一般化の理論解析
Theoretical Analysis of Weak-to-Strong Generalization ( http://arxiv.org/abs/2405.16043v1 ) ライセンス: Link先を確認 | Hunter Lang, David Sontag, Aravindan Vijayaraghavan, | (参考訳) 強い学生モデルは弱い教師から学ぶことができ、弱いモデルの予測に基づいて訓練すると、強い訓練を受けた学生は弱いモデルの誤りを訂正し、教師が自信を持っていない例に一般化することができる。
これにより、粗い論理規則や言語モデルの世代といった、安価で不完全で、おそらく不正確なラベル情報から学習することができる。
既存の弱い監督理論はこれらの効果の両方を考慮せず、これらは擬似ラベル補正とカバレッジ拡張と呼ばれる。
我々は,データ分布の展開特性と学生仮説クラスに基づいて,疑似ラベル補正とカバレッジ拡張を直接考慮した新たな境界を与える。
我々の境界線は、強モデルが追加の誤りを起こさずに弱教師の誤りに適合できない場合に、弱強一般化が起こるという直感を捉えている。
これらの拡張特性は有限データから確認でき、実際に保持する実証的な証拠を与える。
Strong student models can learn from weaker teachers: when trained on the predictions of a weaker model, a strong pretrained student can learn to correct the weak model's errors and generalize to examples where the teacher is not confident, even when these examples are excluded from training. This enables learning from cheap, incomplete, and possibly incorrect label information, such as coarse logical rules or the generations of a language model. We show that existing weak supervision theory fails to account for both of these effects, which we call pseudolabel correction and coverage expansion, respectively. We give a new bound based on expansion properties of the data distribution and student hypothesis class that directly accounts for pseudolabel correction and coverage expansion. Our bounds capture the intuition that weak-to-strong generalization occurs when the strong model is unable to fit the mistakes of the weak teacher without incurring additional error. We show that these expansion properties can be checked from finite data and give empirical evidence that they hold in practice. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# ドライバの選好を考慮したラストミル配送経路に対する双方向アプローチ
A Bi-Objective Approach to Last-Mile Delivery Routing Considering Driver Preferences ( http://arxiv.org/abs/2405.16051v1 ) ライセンス: Link先を確認 | Juan Pablo Mesa, Alejandro Montoya, Raul Ramos-Pollán, Mauricio Toro, | (参考訳) MOVRP(Multi-Objective Vehicle Routing Problem)は、輸送・物流業界における複雑な最適化問題である。
本稿では,運転者の判断や操作者の嗜好を考慮した経路作成を目的としたMOVRPに対する新しいアプローチを提案する。
この目的に対処するための2つのアプローチとして,視覚的に魅力的な経路計画と,同様の経路を計画するための過去の運転行動のデータマイニングを評価した。
Amazonが提供した実世界のデータセットを使用して、歴史パターンのデータマイニングが、文献に見られる視覚的魅力の指標よりも効果的であることを示す。
さらに,経路間の類似性のバランスと経路コストの最小化を両対象問題として提案する。
この問題を解決するために,ヒューリスティックボックス分割を用いた二段階GRASPアルゴリズムを提案する。
提案アルゴリズムは,Paretoフロントを近似し,目的関数空間の広い範囲をカバーする経路を示すことを目的としている。
その結果、本手法はインスタンス毎に少数の非支配的なソリューションを生成することができ、意思決定者がルーティングコストとドライバの好みとの間のトレードオフを識別するのに役立つことが示された。
当社のアプローチは、これらの相反する目標のバランスをとることで、ロジスティクス企業のラストマイル配送業務を強化する可能性がある。
The Multi-Objective Vehicle Routing Problem (MOVRP) is a complex optimization problem in the transportation and logistics industry. This paper proposes a novel approach to the MOVRP that aims to create routes that consider drivers' and operators' decisions and preferences. We evaluate two approaches to address this objective: visually attractive route planning and data mining of historical driver behavior to plan similar routes. Using a real-world dataset provided by Amazon, we demonstrate that data mining of historical patterns is more effective than visual attractiveness metrics found in the literature. Furthermore, we propose a bi-objective problem to balance the similarity of routes to historical routes and minimize routing costs. We propose a two-stage GRASP algorithm with heuristic box splitting to solve this problem. The proposed algorithm aims to approximate the Pareto front and to present routes that cover a wide range of the objective function space. The results demonstrate that our approach can generate a small number of non-dominated solutions per instance, which can help decision-makers to identify trade-offs between routing costs and drivers' preferences. Our approach has the potential to enhance the last-mile delivery operations of logistics companies by balancing these conflicting objectives. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 非定常強化学習における舗装政策学習
Pausing Policy Learning in Non-stationary Reinforcement Learning ( http://arxiv.org/abs/2405.16053v1 ) ライセンス: Link先を確認 | Hyunin Lee, Ming Jin, Javad Lavaei, Somayeh Sojoudi, | (参考訳) リアルタイム推論は,過去からデータを収集し,現在における意思決定モデルを更新し,将来的な展開を行う,時間環境の時間的差異による実世界の強化学習の課題である。
意思決定を継続的に更新することは、時間的ギャップを最小限にするために最適である、という共通の信念に取り組む。
本稿では,オンライン強化学習フレームワークの予測について提案し,戦略的に緩和された決定更新により,効率よく照会の不確実性を管理することにより,全体的な性能が向上することを示す。
理論的には、ポリシー更新と保持期間の最適比を計算し、非ゼロポリシー保持期間が動的後悔に対してよりシャープな上限を与えることを示す。
また,3つの異なる環境における実験結果から,非ゼロポリシー保持期間が連続的な意思決定更新よりも高い報奨を得られることが明らかとなった。
Real-time inference is a challenge of real-world reinforcement learning due to temporal differences in time-varying environments: the system collects data from the past, updates the decision model in the present, and deploys it in the future. We tackle a common belief that continually updating the decision is optimal to minimize the temporal gap. We propose forecasting an online reinforcement learning framework and show that strategically pausing decision updates yields better overall performance by effectively managing aleatoric uncertainty. Theoretically, we compute an optimal ratio between policy update and hold duration, and show that a non-zero policy hold duration provides a sharper upper bound on the dynamic regret. Our experimental evaluations on three different environments also reveal that a non-zero policy hold duration yields higher rewards compared to continuous decision updates. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 深部生成事前近似を用いた非ファクタブルモデルのフェデレーション学習
Federated Learning for Non-factorizable Models using Deep Generative Prior Approximations ( http://arxiv.org/abs/2405.16055v1 ) ライセンス: Link先を確認 | Conor Hassan, Joshua J Bon, Elizaveta Semenova, Antonietta Mira, Kerrie Mengersen, | (参考訳) フェデレートラーニング(FL)は、データ共有を避けてプライバシを保護しながら、分散クライアント間で協調的なモデルトレーニングを可能にする。
しかし、現在のFLメソッドはクライアントモデル間で条件付き独立性を前提としており、ガウスプロセス(GP)のような依存を捉えた事前の使用を制限する。
SIGMA(Structured Independence by Deep Generative Model Approximation)は、FLの空間統計学、疫学、環境科学、およびモデリング依存が不可欠である分野への適用性を拡大し、クライアント間での非分解性モデルのFLを可能にする。
SIGMA は、事前学習された深層生成モデルであり、所望の事前条件を近似し、潜伏変数の特定の条件独立構造を誘導し、FL設定に適した近似モデルを作成する。
我々は,SIGMA が合成データに有効であることを示すとともに,オーストラリアの空間依存モデルに先立って条件付き自己回帰式を用いて,空間データに対する FL の実例でその有用性を実証する。
我々の研究は、正確な予測と意思決定に依存したデータをモデリングすることが不可欠である領域における新しいFLアプリケーションを可能にする。
Federated learning (FL) allows for collaborative model training across decentralized clients while preserving privacy by avoiding data sharing. However, current FL methods assume conditional independence between client models, limiting the use of priors that capture dependence, such as Gaussian processes (GPs). We introduce the Structured Independence via deep Generative Model Approximation (SIGMA) prior which enables FL for non-factorizable models across clients, expanding the applicability of FL to fields such as spatial statistics, epidemiology, environmental science, and other domains where modeling dependencies is crucial. The SIGMA prior is a pre-trained deep generative model that approximates the desired prior and induces a specified conditional independence structure in the latent variables, creating an approximate model suitable for FL settings. We demonstrate the SIGMA prior's effectiveness on synthetic data and showcase its utility in a real-world example of FL for spatial data, using a conditional autoregressive prior to model spatial dependence across Australia. Our work enables new FL applications in domains where modeling dependent data is essential for accurate predictions and decision-making. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# FedSheafHN: グラフ構造化データによる個人化フェデレーション学習
FedSheafHN: Personalized Federated Learning on Graph-structured Data ( http://arxiv.org/abs/2405.16056v1 ) ライセンス: Link先を確認 | Wenfei Liang, Yanan Zhao, Rui She, Yiming Li, Wee Peng Tay, | (参考訳) パーソナライズされたサブグラフフェデレーション学習(FL)は、グラフニューラルネットワーク(GNN)を個々のクライアントのニーズに合わせてカスタマイズし、多様なデータ分散を調節するタスクである。
しかし、モデルパーソナライゼーションを促進することを目的としたFLでのハイパーネットの適用は、クライアント固有の特性の表現が不十分なため、しばしば課題に直面する。
これらの制約を克服するために、協調グラフの埋め込みと効率的なパーソナライズされたモデルパラメータ生成を用いたFedSheafHNと呼ばれるモデルを提案する。
具体的には、各クライアントのローカルサブグラフをサーバ構築コラボレーショングラフに埋め込む。
協調グラフにおけるせん断拡散を利用してクライアント表現を学習する。
我々のモデルは複雑なクライアント特性の統合と解釈を改善します。
さらに,クライアント間の並列処理に最適化された高度なハイパーネットによるパーソナライズされたモデルの生成も保証している。
実証的な評価では、FedSheafHNは、さまざまなグラフ構造化データセット上でのクライアントモデルのパフォーマンスにおいて、ほとんどのシナリオで既存のメソッドよりも優れています。
また、高速なモデル収束と効果的な新しいクライアントの一般化も備えている。
Personalized subgraph Federated Learning (FL) is a task that customizes Graph Neural Networks (GNNs) to individual client needs, accommodating diverse data distributions. However, applying hypernetworks in FL, while aiming to facilitate model personalization, often encounters challenges due to inadequate representation of client-specific characteristics. To overcome these limitations, we propose a model called FedSheafHN, using enhanced collaboration graph embedding and efficient personalized model parameter generation. Specifically, our model embeds each client's local subgraph into a server-constructed collaboration graph. We utilize sheaf diffusion in the collaboration graph to learn client representations. Our model improves the integration and interpretation of complex client characteristics. Furthermore, our model ensures the generation of personalized models through advanced hypernetworks optimized for parallel operations across clients. Empirical evaluations demonstrate that FedSheafHN outperforms existing methods in most scenarios, in terms of client model performance on various graph-structured datasets. It also has fast model convergence and effective new clients generalization. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# SPP:大規模言語モデルのための空間保存パラメータ効率の良い微調整
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models ( http://arxiv.org/abs/2405.16057v1 ) ライセンス: Link先を確認 | Xudong Lu, Aojun Zhou, Yuhui Xu, Renrui Zhang, Peng Gao, Hongsheng Li, | (参考訳) 大規模言語モデル(LLM)は人工知能の分野の発展において重要な役割を担っているが、その巨大なサイズは微調整と展開の両方に重大な課題をもたらす。
現在の訓練後のプルーニング法は、LLMのサイズを小さくする一方で、元の性能を維持するのに失敗することが多い。
これらの課題に対処するために、スペーサ性保存パラメーター効率の微調整法であるSPPを紹介する。
性能維持に苦しむ既存の訓練後のプルーニングアプローチとは異なり、SPPは軽量な学習可能な列と行行列を用いて、スパースLLM重みを最適化し、プルーニングされた事前訓練モデルの構造と疎結合性を維持することを提案する。
元素の乗算と余剰加法により、SPPはトレーニングおよび重み付け過程の双方においてモデルのスパーシティパターンと比の整合性を確保する。
LLaMA モデルと LLaMA-2 モデルに適用することで, SPP の有効性を実証した。
以上の結果から,SPPは疎度パターンの異なるモデル(非構造およびN:M疎度),特に高疎度比 (eg 75%) のモデルの性能を著しく向上させ,スパースLLMの効率的な微調整に有効であることが示された。
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
Large Language Models (LLMs) have become pivotal in advancing the field of artificial intelligence, yet their immense sizes pose significant challenges for both fine-tuning and deployment. Current post-training pruning methods, while reducing the sizes of LLMs, often fail to maintain their original performance. To address these challenges, this paper introduces SPP, a Sparsity-Preserved Parameter-efficient fine-tuning method. Different from existing post-training pruning approaches that struggle with performance retention, SPP proposes to employ lightweight learnable column and row matrices to optimize sparse LLM weights, keeping the structure and sparsity of pruned pre-trained models intact. By element-wise multiplication and residual addition, SPP ensures the consistency of model sparsity pattern and ratio during both training and weight-merging processes. We demonstrate the effectiveness of SPP by applying it to the LLaMA and LLaMA-2 model families with recent post-training pruning methods. Our results show that SPP significantly enhances the performance of models with different sparsity patterns (i.e. unstructured and N:M sparsity), especially for those with high sparsity ratios (e.g. 75%), making it a promising solution for the efficient fine-tuning of sparse LLMs. Code will be made available at https://github.com/Lucky-Lance/SPP. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 因果ベイズネットワークに基づく自律走行システムのリスクシナリオ生成
Risk Scenario Generation for Autonomous Driving Systems based on Causal Bayesian Networks ( http://arxiv.org/abs/2405.16063v1 ) ライセンス: Link先を確認 | Jiangnan Zhao, Dehui Du, Xing Yu, Hang Li, | (参考訳) 自律運転システム(ADS)の進歩は大きな利益をもたらしたが、安全性に関する懸念も持ち上がっている。
仮想テストは、現場での運用テストよりも効率的で安全であるため、ADSの安全性を確保するための一般的なプラクティスである。
しかし、現実の運転環境の複雑なダイナミクスを捉え、テストのリスクシナリオを効果的に生成することは困難である。
本稿では,ADSにおけるシナリオ生成にCausal Bayesian Networks(CBN)を活用するためのパラダイムシフトを提案する。
CBNはメリーランドの事故データを用いて構築され、検証されており、自律運転に影響を及ぼす無数の要因について深い洞察を提供する。
構築したCBNに基づいて,リスクシナリオ生成のプロセスを大幅に改善し,より効果的で安全なADSを実現するアルゴリズムを提案する。
CARLAシミュレータを用いて,ADSのエンドツーエンドテストフレームワークを構築した。
実験を通じて、5つのシードシナリオから89のハイリスクシナリオを生成しました。
Advancements in Autonomous Driving Systems (ADS) have brought significant benefits, but also raised concerns regarding their safety. Virtual tests are common practices to ensure the safety of ADS because they are more efficient and safer compared to field operational tests. However, capturing the complex dynamics of real-world driving environments and effectively generating risk scenarios for testing is challenging. In this paper, we propose a novel paradigm shift towards utilizing Causal Bayesian Networks (CBN) for scenario generation in ADS. The CBN is built and validated using Maryland accident data, providing a deeper insight into the myriad factors influencing autonomous driving behaviors. Based on the constructed CBN, we propose an algorithm that significantly enhances the process of risk scenario generation, leading to more effective and safer ADS. An end-to-end testing framework for ADS is established utilizing the CARLA simulator. Through experiments, we successfully generated 89 high-risk scenarios from 5 seed scenarios, outperforming baseline methods in terms of time and iterations required. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# LLMのキーポイント型プログレッシブ・オブ・サート蒸留
Keypoint-based Progressive Chain-of-Thought Distillation for LLMs ( http://arxiv.org/abs/2405.16064v1 ) ライセンス: Link先を確認 | Kaituo Feng, Changsheng Li, Xiaolu Zhang, Jun Zhou, Ye Yuan, Guoren Wang, | (参考訳) 思考の連鎖蒸留は、大言語モデル(LLM)から小学生モデルへの推論能力を伝達する強力な技術である。
従来の手法では、学生はLLMが作り出すステップバイステップの合理性を模倣し、しばしば次の課題に直面します。
一 合理性内のトークンは、意味が異なり、その扱いが、キーポイントトークンを正確に模倣することに失敗し、誤りを推論することがある。
(二)通常は、段階生成の学習順序を区別するのに不足する合理的な全てのステップを一貫して予測することによって知識を蒸留する。
これは、簡単なタスクから始まり、より難しいタスクへと進む人間の認知の進歩から分岐し、結果として準最適結果をもたらす。
そこで本研究では,これらの問題に対処する統合フレームワークKPODを提案する。
具体的には, マスク学習を利用したトークン重み付けモジュールを提案し, 蒸留中の学生によるキーポイントトークンの正確な模倣を促進する。
さらに,本研究は,まず,学生が最終推論ステップを作成できるように訓練し,段階的に論理的根拠を網羅し,段階的に拡張する,段階的漸進的蒸留戦略を開発する。
これを実現するために、ステップ推論困難を評価するために重み付きトークン生成損失を提案し、ステップの難易度と問題多様性の両方を考慮して進行蒸留をスケジュールする値関数を考案した。
4つの推論ベンチマークに関する大規模な実験は、我々のKPODが従来の方法よりも大きなマージンで優れていることを示している。
Chain-of-thought distillation is a powerful technique for transferring reasoning abilities from large language models (LLMs) to smaller student models. Previous methods typically require the student to mimic the step-by-step rationale produced by LLMs, often facing the following challenges: (i) Tokens within a rationale vary in significance, and treating them equally may fail to accurately mimic keypoint tokens, leading to reasoning errors. (ii) They usually distill knowledge by consistently predicting all the steps in a rationale, which falls short in distinguishing the learning order of step generation. This diverges from the human cognitive progression of starting with easy tasks and advancing to harder ones, resulting in sub-optimal outcomes. To this end, we propose a unified framework, called KPOD, to address these issues. Specifically, we propose a token weighting module utilizing mask learning to encourage accurate mimicry of keypoint tokens by the student during distillation. Besides, we develop an in-rationale progressive distillation strategy, starting with training the student to generate the final reasoning steps and gradually extending to cover the entire rationale. To accomplish this, a weighted token generation loss is proposed to assess step reasoning difficulty, and a value function is devised to schedule the progressive distillation by considering both step difficulty and question diversity. Extensive experiments on four reasoning benchmarks illustrate our KPOD outperforms previous methods by a large margin. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 単純低次元量子ビット格子上のウィービング複素グラフ
Weaving Complex Graph on simple low-dimensional qubit lattices ( http://arxiv.org/abs/2405.16067v1 ) ライセンス: Link先を確認 | Yu-Hang Dang, Shyam Dhamapurkar, Xiao-Long Zhu, Zheng-Yang Zhou, Hao-Yu Guan, Xiu-Hao Deng, | (参考訳) 量子コンピューティングにおいて、2次元チップ上に配置された量子ビットの接続は、固体量子コンピュータのスケーラビリティと機能を制限する。
本稿では、単純な量子ビットアレイ、特に格子格子から複雑な量子ネットワークを構築するための2つの方法を提案する。
最初のアプローチでは、キュービットのサブセットをチューナブルなカップルとして利用し、事実上非自明なグラフベースのハミルトニアンの範囲を生み出す。
第二のアプローチは、周期的活性化と非活性化によって動的グラフ工学を採用し、より長い範囲の結合を持つ効果的な量子ウォークを作成できる。
数値シミュレーションはこれらの手法の有効性を検証している。
これら2つのアプローチの観点から,2次元格子上の立方体やフラーレンなど,様々なグラフの実装について検討する。
これらの技術は、アナログ量子シミュレーション、特にこの写本で詳細に議論された連続時間量子ウォークの実現を促進する。
In quantum computing, the connectivity of qubits placed on two-dimensional chips limits the scalability and functionality of solid-state quantum computers. This paper presents two approaches to constructing complex quantum networks from simple qubit arrays, specifically grid lattices. The first approach utilizes a subset of qubits as tunable couplers, effectively yielding a range of non-trivial graph-based Hamiltonians. The second approach employs dynamic graph engineering by periodically activating and deactivating couplers, enabling the creation of effective quantum walks with longer-range couplings. Numerical simulations verify the effective dynamics of these approaches. In terms of these two approaches, we explore implementing various graphs, including cubes and fullerenes, etc, on two-dimensional lattices. These techniques facilitate the realization of analog quantum simulation, particularly continuous-time quantum walks discussed in detail in this manuscript, for different computational tasks on superconducting quantum chips despite their inherent low dimensional simple architecture. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# IncomeSCM:表データセットから時系列シミュレータと因果推定ベンチマークへ
IncomeSCM: From tabular data set to time-series simulator and causal estimation benchmark ( http://arxiv.org/abs/2405.16069v1 ) ライセンス: Link先を確認 | Fredrik D. Johansson, | (参考訳) 因果効果の観察的推定器を評価するには、ほとんど利用できない情報が必要である: ランダム化または調整によって生成される、関心の集団からの未確立の介入と結果。
結果として、ベンチマークタスクを作成する際にシミュレータにフォールバックするのが慣例である。
シミュレータは優れた制御を提供するが、実世界のデータのニュアンスを欠いた手作業や、構造的な制約のない観測データに適合しているため、難しいタスクを行うには単純すぎることが多い。
本研究では,観測データを逐次構造因果モデルに変換するための汎用的かつ反復的な戦略を提案する。
1)可能であれば現実世界のデータに適合し、
2)シンプルで手作りのメカニズムを構成することで複雑さを生み出す。
我々は、これらのアイデアを高度に構成可能なソフトウェアパッケージに実装し、IncomeSCMシミュレータを構築するための有名なアダルト所得データセットに適用する。
そこで我々は,複数の推定タスクとサンプルデータセットを考案し,因果効果の確立した推定器の比較を行った。
これらの課題は、実際の結果のモデリングにおける類似した性能にもかかわらず、メソッド間の品質に大きな違いがあるため、専用の因果推定器やモデル選択基準の必要性を強調しながら、適切な課題を示す。
Evaluating observational estimators of causal effects demands information that is rarely available: unconfounded interventions and outcomes from the population of interest, created either by randomization or adjustment. As a result, it is customary to fall back on simulators when creating benchmark tasks. Simulators offer great control but are often too simplistic to make challenging tasks, either because they are hand-designed and lack the nuances of real-world data, or because they are fit to observational data without structural constraints. In this work, we propose a general, repeatable strategy for turning observational data into sequential structural causal models and challenging estimation tasks by following two simple principles: 1) fitting real-world data where possible, and 2) creating complexity by composing simple, hand-designed mechanisms. We implement these ideas in a highly configurable software package and apply it to the well-known Adult income data set to construct the IncomeSCM simulator. From this, we devise multiple estimation tasks and sample data sets to compare established estimators of causal effects. The tasks present a suitable challenge, with effect estimates varying greatly in quality between methods, despite similar performance in the modeling of factual outcomes, highlighting the need for dedicated causal estimators and model selection criteria. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# 代数幾何学からの積分可能な量子回路の励起スピン共振器
Exact Spin Correlators of Integrable Quantum Circuits from Algebraic Geometry ( http://arxiv.org/abs/2405.16070v1 ) ライセンス: Link先を確認 | Arthur Hutsalyuk, Yunfeng Jiang, Balazs Pozsgay, Hefeng Xu, Yang Zhang, | (参考訳) 積分可能量子回路に対するスピン演算子の弦の相関関数を正確に計算する。
これらのオブザーバブルは、量子シミュレーションプラットフォームのキャリブレーションに使用できる。
我々は、代数的ベーテ・アンザッツと計算代数幾何学を組み合わせることで、中規模(約10-20量子ビット)量子回路の解析結果を得る。
結果は量子回路パラメータの有理関数である。
実空間とフーリエ空間の両方におけるそのような相関関数の解析結果を得る。
実空間において,相関関数の短時間・長時間の限界を解析する。
フーリエ空間において、定性的に異なる振る舞いを示すパラメータの異なる状態における解析結果を得る。
これらの解析結果を用いて、任意の精度で数値データを容易に生成できる。
We calculate the correlation functions of strings of spin operators for integrable quantum circuits exactly. These observables can be used for calibration of quantum simulation platforms. We use algebraic Bethe Ansatz, in combination with computational algebraic geometry to obtain analytic results for medium-size (around 10-20 qubits) quantum circuits. The results are rational functions of the quantum circuit parameters. We obtain analytic results for such correlation functions both in the real space and Fourier space. In the real space, we analyze the short time and long time limit of the correlation functions. In Fourier space, we obtain analytic results in different parameter regimes, which exhibit qualitatively different behaviors. Using these analytic results, one can easily generate numerical data to arbitrary precision. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# DynRefer:ダイナミックレゾリューションによる地域レベルのマルチモダリティタスクへの展開
DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution ( http://arxiv.org/abs/2405.16071v1 ) ライセンス: Link先を確認 | Yuzhong Zhao, Feng Liu, Yue Liu, Mingxiang Liao, Chen Gong, Qixiang Ye, Fang Wan, | (参考訳) 領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
本研究ではDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、人間の視覚認知の解像度適応性を模倣して高精度な領域レベルの参照を追求する。
DynReferはまず確率的視覚言語アライメントを実装する。
マルチモーダルタスクの言語記述を確率分解能の画像と整合させ、参照領域の周囲に一連のビューをネストすることで構築する。
次にDynReferは動的マルチモーダリティ参照を実装し、画像と言語の先行値に基づいてビューを選択することで実現される。
これにより、人間の嗜好に合った視覚情報を参照し、地域レベルのマルチモダリティモデルの表現適応性を向上させることができる。
広汎な実験により、DynReferは、領域レベルのキャプション、オープン語彙領域認識、属性検出などのタスクに相互改善をもたらすことが示された。
最後に、DynReferは、単一のモデルを使用して複数の領域レベルのマルチモダリティタスクにおいて、新しい最先端を実現する。
コードはhttps://github.com/callsys/DynRefer.comで入手できる。
Region-level multi-modality methods can translate referred image regions to human preferred language descriptions. Unfortunately, most of existing methods using fixed visual inputs remain lacking the resolution adaptability to find out precise language descriptions. In this study, we propose a dynamic resolution approach, referred to as DynRefer, to pursue high-accuracy region-level referring through mimicking the resolution adaptability of human visual cognition. DynRefer first implements stochastic vision-language alignment. It aligns desired language descriptions of multi-modality tasks with images of stochastic resolution, which are constructed by nesting a set of views around the referred region. DynRefer then implements dynamic multi-modality referring, which is realized by selecting views based on image and language priors. This allows the visual information used for referring to better match human preferences, thereby improving the representational adaptability of region-level multi-modality models. Extensive experiments show that DynRefer brings mutual improvement upon tasks including region-level captioning, open-vocabulary region recognition and attribute detection. Last but not least, DynRefer achieves new state-of-the-art on multiple region-level multi-modality tasks using a single model. Code is available at https://github.com/callsys/DynRefer. | 翻訳日:2024-05-29 01:19:52 公開日:2024-05-25 |
# SynthAI: モジュール型HLS設計自動生成のためのマルチエージェント生成AIフレームワーク
SynthAI: A Multi Agent Generative AI Framework for Automated Modular HLS Design Generation ( http://arxiv.org/abs/2405.16072v1 ) ライセンス: Link先を確認 | Seyed Arash Sheikholeslam, Andre Ivanov, | (参考訳) 本稿では,高レベル合成(HLS)設計の先駆的手法であるSynthAIを紹介する。
SynthAIは、ReActエージェント、Chain-of-Thought(CoT)プロンプト、Web検索技術、構造化決定グラフにRetrieval-Augmented Generation(RAG)フレームワークを統合する。
この革新的なアプローチは、複雑なハードウェア設計タスクを複数のステージとより小さく管理可能なモジュールに体系的に分解することを可能にする。
その結果、SynthAIはユーザが指定した設計目標と機能要件に忠実に準拠する合成可能な設計を作成した。
我々は、いくつかのケーススタディを通じて、SynthAIの能力をさらに検証し、単一の初期プロンプトから複雑なマルチモジュール論理設計を生成する能力を強調した。
SynthAIコードは以下のリポジトリを通じて提供される。
In this paper, we introduce SynthAI, a pioneering method for the automated creation of High-Level Synthesis (HLS) designs. SynthAI integrates ReAct agents, Chain-of-Thought (CoT) prompting, web search technologies, and the Retrieval-Augmented Generation (RAG) framework within a structured decision graph. This innovative approach enables the systematic decomposition of complex hardware design tasks into multiple stages and smaller, manageable modules. As a result, SynthAI produces synthesizable designs that closely adhere to user-specified design objectives and functional requirements. We further validate the capabilities of SynthAI through several case studies, highlighting its proficiency in generating complex, multi-module logic designs from a single initial prompt. The SynthAI code is provided via the following repo: \url{https://github.com/sarashs/FPGA_AGI} | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# エピタキシャルGaAs/AlGaAs量子ドットの3次元形態の解明
Unveiling the 3D Morphology of Epitaxial GaAs/AlGaAs Quantum Dots ( http://arxiv.org/abs/2405.16073v1 ) ライセンス: Link先を確認 | Yiteng Zhang, Lukas Gruenewald, Xin Cao, Doaa Abdelbarey, Xian Zheng, Eddy P. Rugeramigabo, Johan Verbeeck, Michael Zopf, Fei Ding, | (参考訳) ストレインフリーのGaAs/AlGaAs半導体量子ドット(QDs)は、液滴エッチングとナノホール充填(DENI)によって成長し、不明瞭で絡み合った光子源のオンデマンド生成に非常に有望な候補である。
QDの分光指紋と量子光学特性は、その形態に大きく影響されている。
ナノホール形状と充填材料がエキシトン結合エネルギーおよび微細構造分裂に及ぼす影響はよく理解されている。
しかし、GaAs/AlGaAs QD モルフォロジーの包括的理解はいまだ解明されていない。
そこで我々は,選択的化学エッチングと原子間力顕微鏡(AFM)による高分解能走査透過電子顕微鏡(STEM)とリバースエンジニアリングを用いた。
無人QDの断面STEMは、Al豊富な側壁と欠陥のない界面を持つ反転円錐状ナノホールを明らかにする。
その後の選択的化学エッチングとAFM測定により、元素分布の非対称性が明らかにされた。
本研究は、DENI QD形態の理解を深め、それらの光電子特性をシミュレートし最適化するための基本的な3次元構造モデルを提供する。
Strain-free GaAs/AlGaAs semiconductor quantum dots (QDs) grown by droplet etching and nanohole infilling (DENI) are highly promising candidates for the on-demand generation of indistinguishable and entangled photon sources. The spectroscopic fingerprint and quantum optical properties of QDs are significantly influenced by their morphology. The effects of nanohole geometry and infilled material on the exciton binding energies and fine structure splitting are well understood. However, a comprehensive understanding of GaAs/AlGaAs QD morphology remains elusive. To address this, we employ high-resolution scanning transmission electron microscopy (STEM) and reverse engineering through selective chemical etching and atomic force microscopy (AFM). Cross-sectional STEM of uncapped QDs reveals an inverted conical nanohole with Al-rich sidewalls and defect-free interfaces. Subsequent selective chemical etching and AFM measurements further reveal asymmetries in element distribution. This study enhances the understanding of DENI QD morphology and provides a fundamental three-dimensional structural model for simulating and optimizing their optoelectronic properties. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 連続時間領域一般化
Continuous Temporal Domain Generalization ( http://arxiv.org/abs/2405.16075v1 ) ライセンス: Link先を確認 | Zekun Cai, Guangji Bai, Renhe Jiang, Xuan Song, Liang Zhao, | (参考訳) 時間領域一般化(TDG)は、時間的に変化するデータ分布の下で予測モデルを訓練する際の課題に対処する。
従来のTDGアプローチは、固定された離散時間間隔で収集されたドメインデータに重点を置いている。
これを解決するために、ドメインデータは連続時間から導出され、任意の時間に収集される、連続時間領域一般化(CTDG)の概念を定式化する。
CTDGは以下を含む重要な課題に取り組む。
1)データとモデルの両方の連続的ダイナミクスを特徴付ける。
2)複雑高次元非線形力学の学習,および
3)連続時間領域における一般化の最適化と制御。
そこで本研究では,演算子駆動型連続時間領域一般化(Koodos)フレームワークを提案する。
我々は、連続力学系内の問題を定式化し、クープマン理論を利用して基礎力学を学習する。このフレームワークは、動的パターンの事前知識によって駆動される解析と制御を備えた包括的な最適化戦略により、さらに拡張される。
大規模な実験は、我々のアプローチの有効性と効率を実証する。
Temporal Domain Generalization (TDG) addresses the challenge of training predictive models under temporally varying data distributions. Traditional TDG approaches typically focus on domain data collected at fixed, discrete time intervals, which limits their capability to capture the inherent dynamics within continuous-evolving and irregularly-observed temporal domains. To overcome this, this work formalizes the concept of Continuous Temporal Domain Generalization (CTDG), where domain data are derived from continuous times and are collected at arbitrary times. CTDG tackles critical challenges including: 1) Characterizing the continuous dynamics of both data and models, 2) Learning complex high-dimensional nonlinear dynamics, and 3) Optimizing and controlling the generalization across continuous temporal domains. To address them, we propose a Koopman operator-driven continuous temporal domain generalization (Koodos) framework. We formulate the problem within a continuous dynamic system and leverage the Koopman theory to learn the underlying dynamics; the framework is further enhanced with a comprehensive optimization strategy equipped with analysis and control driven by prior knowledge of the dynamics patterns. Extensive experiments demonstrate the effectiveness and efficiency of our approach. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 衝突回避型マルチタスク強化学習のための有限時間解析
Finite-Time Analysis for Conflict-Avoidant Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2405.16077v1 ) ライセンス: Link先を確認 | Yudan Wang, Peiyao Xiao, Hao Ban, Kaiyi Ji, Shaofeng Zou, | (参考訳) MTRL (Multi-task reinforcement learning) は,多くの実世界の応用において大きな期待を抱いている。
既存のMTRLアルゴリズムは、個々の目的関数と与えられたタスクの優先順位(または重み)を同時に最適化するポリシーを学ぶことを目的としている。
しかしながら、これらのメソッドは、大きな勾配を持つタスクが更新方向を支配し、結果として他のタスクのパフォーマンスが低下する、という、‘textit{gradient conflict’という問題に悩まされることが多い。
本稿では,タスク重み更新におけるCAとFCというサブプロデューサの2つの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム(MTAC)を開発する。
MTAC-CAは、タスク間の最小値改善を最大化し、MTAC-FCターゲットをはるかに高速な収束速度で、コンフリクト回避(CA)更新方向を見つけることを目的としている。
両アルゴリズムを包括的に有限時間収束解析する。
MTAC-CAは$\epsilon+\epsilon_{\text{app}}$-accurate Pareto stationary policy using $\mathcal{O}({\epsilon^{-5}})$ sample, and ensure a small $\epsilon+\sqrt{\epsilon_{\text{app}}}$-level CA distance (定義されているCA方向の距離)。
MTAC-FCはサンプルの複雑さを$\mathcal{O}(\epsilon^{-3})$に改善するが、一定レベルのCA距離を持つ。
MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
Multi-task reinforcement learning (MTRL) has shown great promise in many real-world applications. Existing MTRL algorithms often aim to learn a policy that optimizes individual objective functions simultaneously with a given prior preference (or weights) on different tasks. However, these methods often suffer from the issue of \textit{gradient conflict} such that the tasks with larger gradients dominate the update direction, resulting in a performance degeneration on other tasks. In this paper, we develop a novel dynamic weighting multi-task actor-critic algorithm (MTAC) under two options of sub-procedures named as CA and FC in task weight updates. MTAC-CA aims to find a conflict-avoidant (CA) update direction that maximizes the minimum value improvement among tasks, and MTAC-FC targets at a much faster convergence rate. We provide a comprehensive finite-time convergence analysis for both algorithms. We show that MTAC-CA can find a $\epsilon+\epsilon_{\text{app}}$-accurate Pareto stationary policy using $\mathcal{O}({\epsilon^{-5}})$ samples, while ensuring a small $\epsilon+\sqrt{\epsilon_{\text{app}}}$-level CA distance (defined as the distance to the CA direction), where $\epsilon_{\text{app}}$ is the function approximation error. The analysis also shows that MTAC-FC improves the sample complexity to $\mathcal{O}(\epsilon^{-3})$, but with a constant-level CA distance. Our experiments on MT10 demonstrate the improved performance of our algorithms over existing MTRL methods with fixed preference. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# アイトラッキングとIDEアクションを用いたLCM生成コードの検証と修正のための開発者の行動に関する研究
A Study on Developer Behaviors for Validating and Repairing LLM-Generated Code Using Eye Tracking and IDE Actions ( http://arxiv.org/abs/2405.16081v1 ) ライセンス: Link先を確認 | Ningzhi Tang, Meng Chen, Zheng Ning, Aakash Bansal, Yu Huang, Collin McMillan, Toby Jia-Jun Li, | (参考訳) 大規模言語モデル(LLM)ベースのコード生成ツールであるGitHub Copilotの利用が増加し、ソフトウェアエンジニアリングのプラクティスが変化している。
本稿では,Copilotが生成したコードの検証と修復方法について検討し,これらのプロセスにおけるコード発見意識の影響について検討する。
我々は,Copilotの生成したコードを3つのソフトウェアプロジェクトで検証し,修復する役割を担った28人の被験者を対象に,実験室で調査を行った。
参加者はランダムに2つのグループに分けられた。
我々は,IDEのインタラクション,視線追跡,認知作業負荷評価などのデータを収集し,半構造化インタビューを行った。
我々の結果は、明示的な情報がないと、開発者はコードのLLM起源を識別できないことが多いことを示唆している。
開発者は一般的に、LLM生成コードに対して同様の検証と修正戦略を採用するが、コードとコメントの頻繁な切り替え、異なる注意点、コード削除と書き直しの傾向などの振る舞いを示す。
コードの存在を認識したことにより、パフォーマンスの向上、検索努力の向上、コパイロットの使用頻度の向上、認知作業負荷の向上につながった。
これらの知見は、開発者がLLM生成コードとどのように相互作用するかの理解を深め、ソフトウェア開発における効果的な人間とLLMのコラボレーションを促進するツールの設計に影響を及ぼす。
The increasing use of large language model (LLM)-powered code generation tools, such as GitHub Copilot, is transforming software engineering practices. This paper investigates how developers validate and repair code generated by Copilot and examines the impact of code provenance awareness during these processes. We conducted a lab study with 28 participants, who were tasked with validating and repairing Copilot-generated code in three software projects. Participants were randomly divided into two groups: one informed about the provenance of LLM-generated code and the other not. We collected data on IDE interactions, eye-tracking, cognitive workload assessments, and conducted semi-structured interviews. Our results indicate that, without explicit information, developers often fail to identify the LLM origin of the code. Developers generally employ similar validation and repair strategies for LLM-generated code, but exhibit behaviors such as frequent switching between code and comments, different attentional focus, and a tendency to delete and rewrite code. Being aware of the code's provenance led to improved performance, increased search efforts, more frequent Copilot usage, and higher cognitive workload. These findings enhance our understanding of how developers interact with LLM-generated code and carry implications for designing tools that facilitate effective human-LLM collaboration in software development. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 学習セットの凸重みに基づく深層学習システムの不確実性測定
Uncertainty Measurement of Deep Learning System based on the Convex Hull of Training Sets ( http://arxiv.org/abs/2405.16082v1 ) ライセンス: Link先を確認 | Hyekyoung Hwang, Jitae Shin, | (参考訳) 深層学習(DL)はコンピュータビジョンにおいて顕著な成果を上げ、医療画像や自律運転などの安全上の重要な領域に採用されている。
したがって,Deep Neural Networks (DNN) の誤認による事故や損失を効果的に低減するためには,モデルの不確実性を理解する必要がある。
これは、モデルに誤動作する可能性のあるデータを効率的に選択することから始めることができる。
伝統的に、データ収集とラベリングは手作業で行われているが、最近、モデルが何を学んだかに関係のないサンプルをキャプチャすることに焦点を当てたテストデータ選択方法が出現している。
DNNのニューロンの活性化パターンに基づいて選択され、DLのソフトマックス出力に基づいてエントロピー最小化される。
しかし、これらの手法は、トレーニングデータから見知らぬサンプルが外挿される程度を定量的に分析することはできない。
そこで本研究では,訓練データの凸殻に基づくトレーニングモデルの不確実性を測定するTo-hull Uncertainity and Closure Ratioを提案する。
学習したデータの凸船体と見えないサンプルとの間の位置関係を観察し、サンプルが凸船体からどのように外挿されているかを推測することができる。
提案手法を評価するため,一般的なデータセットとDNNモデルについて,最先端の試験選択指標と比較した実験的検討を行った。
実験の結果,提案したTo-hull Uncertaintyは,既存の試験選択基準と比較して異常なパターン(例えば逆攻撃)のサンプルを見つけるのに有効であることがわかった。
Deep Learning (DL) has made remarkable achievements in computer vision and adopted in safety critical domains such as medical imaging or autonomous drive. Thus, it is necessary to understand the uncertainty of the model to effectively reduce accidents and losses due to misjudgment of the Deep Neural Networks (DNN). This can start by efficiently selecting data that could potentially malfunction to the model. Traditionally, data collection and labeling have been done manually, but recently test data selection methods have emerged that focus on capturing samples that are not relevant to what the model had been learned. They're selected based on the activation pattern of neurons in DNN, entropy minimization based on softmax output of the DL. However, these methods cannot quantitatively analyze the extent to which unseen samples are extrapolated from the training data. Therefore, we propose To-hull Uncertainty and Closure Ratio, which measures an uncertainty of trained model based on the convex hull of training data. It can observe the positional relation between the convex hull of the learned data and an unseen sample and infer how extrapolate the sample is from the convex hull. To evaluate the proposed method, we conduct empirical studies on popular datasets and DNN models, compared to state-of-the art test selection metrics. As a result of the experiment, the proposed To-hull Uncertainty is effective in finding samples with unusual patterns (e.g. adversarial attack) compared to the existing test selection metric. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 直交性から従順性へ:マルチモーダル時系列センシング信号の非交叉表現学習
From Orthogonality to Dependency: Learning Disentangled Representation for Multi-Modal Time-Series Sensing Signals ( http://arxiv.org/abs/2405.16083v1 ) ライセンス: Link先を確認 | Ruichu Cai, Zhifang Jiang, Zijian Li, Weilin Chen, Xuexin Chen, Zhifeng Hao, Yifan Shen, Guangyi Chen, Kun Zhang, | (参考訳) 多モード時系列表現学習の既存の方法は、モダリティ共有変数とモダリティ特化変数をアンタングル化することを目的としている。
下流のタスクで顕著なパフォーマンスを達成するが、通常は直交の潜在空間を仮定する。
しかし、モダリティ固有変数とモダリティ共有変数は実世界のシナリオに依存しているかもしれない。
そこで本研究では,モダリティ共有変数とモダリティ特化変数が依存する一般生成プロセスを提案し,さらに \textbf{M}ulti-mod\textbf{A}l \textbf{TE}mporal Disentanglement (\textbf{MATE})モデルを開発する。
具体的には、潜伏変数の非絡み合いに対するモダリティ共有およびモダリティ特化事前ネットワークを備えた時間変動型推論アーキテクチャ上に構築した。
さらに,抽出した表現が絡み合っていることを示すために,識別可能性の評価結果を確立する。
より具体的には、マルチモーダルデータのペアリングを利用して、モダリティ共有変数とモダリティ特化変数のサブスペース識別性を最初に達成する。
次に、過去の潜伏変数の十分な変化を利用することで、モジュラリティ固有の潜伏変数の成分的識別性を確立する。
マルチモーダルセンサ,ヒューマンアクティビティ認識,医療データセットに関する大規模な実験研究は,下流タスクの全般的な改善を示し,実世界のシナリオにおける本手法の有効性を強調した。
Existing methods for multi-modal time series representation learning aim to disentangle the modality-shared and modality-specific latent variables. Although achieving notable performances on downstream tasks, they usually assume an orthogonal latent space. However, the modality-specific and modality-shared latent variables might be dependent on real-world scenarios. Therefore, we propose a general generation process, where the modality-shared and modality-specific latent variables are dependent, and further develop a \textbf{M}ulti-mod\textbf{A}l \textbf{TE}mporal Disentanglement (\textbf{MATE}) model. Specifically, our \textbf{MATE} model is built on a temporally variational inference architecture with the modality-shared and modality-specific prior networks for the disentanglement of latent variables. Furthermore, we establish identifiability results to show that the extracted representation is disentangled. More specifically, we first achieve the subspace identifiability for modality-shared and modality-specific latent variables by leveraging the pairing of multi-modal data. Then we establish the component-wise identifiability of modality-specific latent variables by employing sufficient changes of historical latent variables. Extensive experimental studies on multi-modal sensors, human activity recognition, and healthcare datasets show a general improvement in different downstream tasks, highlighting the effectiveness of our method in real-world scenarios. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# Deep-PE: ポイントクラウド登録のための学習ベースのPose評価器
Deep-PE: A Learning-Based Pose Evaluator for Point Cloud Registration ( http://arxiv.org/abs/2405.16085v1 ) ライセンス: Link先を確認 | Junjie Gao, Chongjian Wang, Zhongjun Ding, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang, | (参考訳) ポイントクラウド登録の領域では、最も一般的なポーズ評価アプローチは統計に基づくものであり、一貫性のある対応数の最大化によって最適な変換を特定する。
しかし、特徴記述子の設計や対応の確立に尽力したにもかかわらず、点雲の重複率が低い場合、登録リコールは大幅に減少する。
本稿では,ポーズ選択の精度を高めるために設計された,軽量で学習ベースのポーズ評価器であるDeep-PEを紹介する。
我々のネットワークは,多種多様なポーズの下で点雲のアライメント状態をシミュレートし,学習するために,Pose-Aware Attention (PAA) モジュールと,登録を成功させる可能性を予測するPose Confidence Prediction (PCP)モジュールを組み込んでいる。
これら2つのモジュールは、局所的および大域的アライメント先行の学習を促進する。
複数のベンチマークにわたる大規模なテストにより、Deep-PEの有効性が確認された。
特に,3DLoMatchにおいて,Deep-PEは,手作りFPFHと学習ベースFCGF記述子による登録リコールにおいて,最先端の手法を少なくとも8%,11%上回る性能を示した。
我々の知る限りでは、入力対応を明示的に必要とせずに、ディープラーニングを利用して最適なポーズを選択する最初の研究である。
In the realm of point cloud registration, the most prevalent pose evaluation approaches are statistics-based, identifying the optimal transformation by maximizing the number of consistent correspondences. However, registration recall decreases significantly when point clouds exhibit a low overlap rate, despite efforts in designing feature descriptors and establishing correspondences. In this paper, we introduce Deep-PE, a lightweight, learning-based pose evaluator designed to enhance the accuracy of pose selection, especially in challenging point cloud scenarios with low overlap. Our network incorporates a Pose-Aware Attention (PAA) module to simulate and learn the alignment status of point clouds under various candidate poses, alongside a Pose Confidence Prediction (PCP) module that predicts the likelihood of successful registration. These two modules facilitate the learning of both local and global alignment priors. Extensive tests across multiple benchmarks confirm the effectiveness of Deep-PE. Notably, on 3DLoMatch with a low overlap rate, Deep-PE significantly outperforms state-of-the-art methods by at least 8% and 11% in registration recall under handcrafted FPFH and learning-based FCGF descriptors, respectively. To the best of our knowledge, this is the first study to utilize deep learning to select the optimal pose without the explicit need for input correspondences. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 正規-逆-ウィッシュアート分布の推定
Estimating the normal-inverse-Wishart distribution ( http://arxiv.org/abs/2405.16088v1 ) ライセンス: Link先を確認 | Jonathan So, | (参考訳) 正規逆ウィッシュアート分布(NIW)は、多変量正規分布の平均と共分散パラメータの事前分布として一般的に用いられる。
NIW分布の族も最小指数族である。
本稿では、平均パラメータからNIWファミリーの自然パラメータに変換する収束手順について述べる。
これは例えば、期待伝播にNIWベースファミリを使用する際に必要である。
The normal-inverse-Wishart (NIW) distribution is commonly used as a prior distribution for the mean and covariance parameters of a multivariate normal distribution. The family of NIW distributions is also a minimal exponential family. In this short note we describe a convergent procedure for converting from mean parameters to natural parameters in the NIW family, or -- equivalently -- for performing maximum likelihood estimation of the natural parameters given observed sufficient statistics. This is needed, for example, when using a NIW base family in expectation propagation | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# COLT:大規模言語モデルのための完全性指向ツール検索に向けて
COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models ( http://arxiv.org/abs/2405.16089v1 ) ライセンス: Link先を確認 | Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen, | (参考訳) 近年,LLM(Large Language Models)と外部ツールの統合が,事前学習データ固有の制約を克服するための,有望なアプローチとして浮上している。
しかし、現実世界のアプリケーションは多種多様なツールを伴い、入力時間と応答時間に制約があるため、全てのツールを直接LSMに組み込むことができない。
したがって、ツール拡張LDMの可能性を十分に活用するためには、効果的なツール検索システムを開発することが不可欠である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに依存しており、冗長なツールの選択につながることが多い。
結果として、これらの手法はLLMが遭遇する多面的問題に対処するために必要な様々なツールの完全なセットを提供できない。
本稿では,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデルに依存しないコラボレーティブ・ラーニング・ベースのツール検索手法であるCOLTを提案する。
具体的には、まずPLMに基づく検索モデルを微調整し、セマンティックラーニング段階におけるクエリとツール間のセマンティックな関係を抽出する。
その後、クエリ、シーン、ツール間での3つの二部グラフを構築し、協調学習段階におけるツール間の複雑な協調関係を捉えるために、デュアルビューグラフ協調学習フレームワークを導入する。
オープンベンチマークと新たに導入されたToolLensデータセットに関する大規模な実験は、COLTが優れたパフォーマンスを実現していることを示している。
特に,提案したモデルフレームワークを用いたBERT-mini (11M) の性能は,30倍のパラメータを持つBERT-large (340M) よりも優れていた。
さらに、ツール検索のさらなる研究を支援するために、ToolLensデータセットを公開する予定です。
Recently, the integration of external tools with Large Language Models (LLMs) has emerged as a promising approach to overcome the inherent constraints of their pre-training data. However, realworld applications often involve a diverse range of tools, making it infeasible to incorporate all tools directly into LLMs due to constraints on input length and response time. Therefore, to fully exploit the potential of tool-augmented LLMs, it is crucial to develop an effective tool retrieval system. Existing tool retrieval methods techniques mainly rely on semantic matching between user queries and tool descriptions, which often results in the selection of redundant tools. As a result, these methods fail to provide a complete set of diverse tools necessary for addressing the multifaceted problems encountered by LLMs. In this paper, we propose a novel modelagnostic COllaborative Learning-based Tool Retrieval approach, COLT, which captures not only the semantic similarities between user queries and tool descriptions but also takes into account the collaborative information of tools. Specifically, we first fine-tune the PLM-based retrieval models to capture the semantic relationships between queries and tools in the semantic learning stage. Subsequently, we construct three bipartite graphs among queries, scenes, and tools and introduce a dual-view graph collaborative learning framework to capture the intricate collaborative relationships among tools during the collaborative learning stage. Extensive experiments on both the open benchmark and the newly introduced ToolLens dataset show that COLT achieves superior performance. Notably, the performance of BERT-mini (11M) with our proposed model framework outperforms BERT-large (340M), which has 30 times more parameters. Additionally, we plan to publicly release the ToolLens dataset to support further research in tool retrieval. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# プロンプト学習におけるOOD検出の強化:最大ゲイン,最小コスト
Enhancing Near OOD Detection in Prompt Learning: Maximum Gains, Minimal Costs ( http://arxiv.org/abs/2405.16091v1 ) ライセンス: Link先を確認 | Myong Chol Jung, He Zhao, Joanna Dipnall, Belinda Gabbe, Lan Du, | (参考訳) プロンプト学習は、CLIPのような視覚言語モデルの効率的かつ効果的な微調整法であることが示されている。
多くの研究は、これらのモデルを数発の分類で一般化することに焦点を合わせてきたが、オフ・オブ・ディストリビューション(OOD)検出におけるそれらの能力は見過ごされている。
いくつかの最近の研究は、OOD検出における迅速な学習の有望なパフォーマンスを強調している。
しかし、OOD検出付近でのより困難なタスクは、まだ解決されていない。
本研究では,素早い学習モデルのOOD検出能力について検討し,一般的に使用されているOODスコアがOOD検出近傍での性能に制限があることを観察する。
性能を向上させるため,既存のロジットベースのスコアを補完する高速で簡単なポストホック法を提案し,OOD検出AUROC近傍を最大11.67%改善し,計算コストを最小化する。
本手法は,アーキテクチャの変更やモデルの再学習なしに,任意の素早い学習モデルに容易に適用することができる。
13のデータセットと8つのモデルにまたがる総合的な経験的評価は,本手法の有効性と適応性を示す。
Prompt learning has shown to be an efficient and effective fine-tuning method for vision-language models like CLIP. While numerous studies have focused on the generalisation of these models in few-shot classification, their capability in near out-of-distribution (OOD) detection has been overlooked. A few recent works have highlighted the promising performance of prompt learning in far OOD detection. However, the more challenging task of few-shot near OOD detection has not yet been addressed. In this study, we investigate the near OOD detection capabilities of prompt learning models and observe that commonly used OOD scores have limited performance in near OOD detection. To enhance the performance, we propose a fast and simple post-hoc method that complements existing logit-based scores, improving near OOD detection AUROC by up to 11.67% with minimal computational cost. Our method can be easily applied to any prompt learning model without change in architecture or re-training the models. Comprehensive empirical evaluations across 13 datasets and 8 models demonstrate the effectiveness and adaptability of our method. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# クラスミスマッチ下での深層安全半監督学習のための異種教員学生
Diverse Teacher-Students for Deep Safe Semi-Supervised Learning under Class Mismatch ( http://arxiv.org/abs/2405.16093v1 ) ライセンス: Link先を確認 | Qikai Wang, Rundong He, Yongshun Gong, Chunxiao Ren, Haoliang Sun, Xiaoshui Huang, Yilong Yin, | (参考訳) 半教師付き学習は、ラベルなしデータ、特にラベル付きデータが不足している場合に、ラベルなしデータを活用することにより、モデルパフォーマンスを著しく向上させることができる。
しかし、実世界の無ラベルデータは、しばしば目に見えないクラスのサンプルを含んでいるため、目に見えないクラスの分類を妨げかねない。
この問題に対処するために、主流の安全なSSLメソッドは、ラベルのないデータから見えないクラスのサンプルを検出して破棄することを推奨している。
それにもかかわらず、これらの手法は典型的には、目に見えないクラスの分類と見えないクラスの検出の両方に同時に取り組むために、単一モデル戦略を用いる。
我々の研究は、そのようなアプローチがトレーニング中に衝突を引き起こす可能性を示し、結果として準最適モデル最適化がもたらされることを示唆している。
そこで本研究では,この2つの課題を個別に効果的に扱うために,2つの教師学生モデルを独自に活用する,Diverse Teacher-Students (\textbf{DTS}) という新しいフレームワークを紹介した。
DTSは、新しい不確実性スコアを使用して、未表示のクラスと可視クラスのデータをラベル付けされていないセットからソフトに分離し、トレーニングのための追加(K$+1)クラスの監視信号を生成する。
教師-学生モデルと教師-学生モデルの両方をラベルなしのサンプルで訓練することにより、DTSは見知らぬクラスの検出を同時に改善しながら、見知らぬクラスの分類を強化することができる。
総合的な実験では、DTSがさまざまなデータセットや構成のベースラインメソッドを超えることが示されている。
私たちのコードとモデルは、https://github.com/Zhanlo/DTS.comのリンクで公開できます。
Semi-supervised learning can significantly boost model performance by leveraging unlabeled data, particularly when labeled data is scarce. However, real-world unlabeled data often contain unseen-class samples, which can hinder the classification of seen classes. To address this issue, mainstream safe SSL methods suggest detecting and discarding unseen-class samples from unlabeled data. Nevertheless, these methods typically employ a single-model strategy to simultaneously tackle both the classification of seen classes and the detection of unseen classes. Our research indicates that such an approach may lead to conflicts during training, resulting in suboptimal model optimization. Inspired by this, we introduce a novel framework named Diverse Teacher-Students (\textbf{DTS}), which uniquely utilizes dual teacher-student models to individually and effectively handle these two tasks. DTS employs a novel uncertainty score to softly separate unseen-class and seen-class data from the unlabeled set, and intelligently creates an additional ($K$+1)-th class supervisory signal for training. By training both teacher-student models with all unlabeled samples, DTS can enhance the classification of seen classes while simultaneously improving the detection of unseen classes. Comprehensive experiments demonstrate that DTS surpasses baseline methods across a variety of datasets and configurations. Our code and models can be publicly accessible on the link https://github.com/Zhanlo/DTS. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# PLUG: 基盤モデルと階層的焦点によるアモーダルセグメンテーションの再検討
PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus ( http://arxiv.org/abs/2405.16094v1 ) ライセンス: Link先を確認 | Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Tingting Jiang, | (参考訳) アモーダルセグメンテーションは、部分的に隠された物体の完全な形状を予測するために、視覚知性への重要なステップである。
重要なこととして、実践的な事前知識は十分なトレーニングに由来するが、限定的なアモーダルアノテーションはより良いパフォーマンスを達成するための課題を提起する。
この問題に対処するため,基礎モデルに蓄積される強大な先行性を利用して,SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
手法として,タスク特性をよりよく適応し,SAMの潜在能力を解き放つために,階層的な焦点を持つ新しいフレームワークを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるため、別個の枝の焦点として、イモーダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
不確実性マップによって導かれ、予測された境界の精度を向上させるために計算-経済的な点損失が適用される。
実験はいくつかの顕著なデータセットで実施され,提案手法は既存の手法よりも大きなマージンを持つことを示す。
総パラメータが少なくても,本手法は依然として顕著な優位性を示している。
Aiming to predict the complete shapes of partially occluded objects, amodal segmentation is an important step towards visual intelligence. With crucial significance, practical prior knowledge derives from sufficient training, while limited amodal annotations pose challenges to achieve better performance. To tackle this problem, utilizing the mighty priors accumulated in the foundation model, we propose the first SAM-based amodal segmentation approach, PLUG. Methodologically, a novel framework with hierarchical focus is presented to better adapt the task characteristics and unleash the potential capabilities of SAM. In the region level, due to the association and division in visible and occluded areas, inmodal and amodal regions are assigned as the focuses of distinct branches to avoid mutual disturbance. In the point level, we introduce the concept of uncertainty to explicitly assist the model in identifying and focusing on ambiguous points. Guided by the uncertainty map, a computation-economic point loss is applied to improve the accuracy of predicted boundaries. Experiments are conducted on several prominent datasets, and the results show that our proposed method outperforms existing methods with large margins. Even with fewer total parameters, our method still exhibits remarkable advantages. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# MINet:鋼板表面欠陥をリアルタイムに検出するマルチスケールインタラクティブネットワーク
MINet: Multi-scale Interactive Network for Real-time Salient Object Detection of Strip Steel Surface Defects ( http://arxiv.org/abs/2405.16096v1 ) ライセンス: Link先を確認 | Kunye Shen, Xiaofei Zhou, Zhi Liu, | (参考訳) 自動表面欠陥検出は工業生産における基本的な課題であり、既存の衛生ベースの作業は困難なシーンを克服し、有望な検出結果を与える。
しかし、最先端の取り組みは、しばしば大きなパラメータサイズ、重い計算コスト、遅い推論速度に悩まされ、実用的な応用を厳しく制限する。
そこで我々は,DWConv(Deepwise Convolution)とPWConv(Pointwise Convolution)を用いて,異なるスケールの機能を独立して抽出し,相互に融合する多層対話型(MI)モジュールを考案した。
特に、MIモジュールは、少ないパラメータで欠陥領域を満足できる特徴を与えることができる。
本研究では, 鋼板表面欠陥をリアルタイムに検出するマルチスケールインタラクティブネットワーク(MINet)を提案する。
SD-Saliency-900データセットは,3種類のストリップ鋼表面欠陥検出画像(包含,パッチ,スクラッチなど)を含んでいて,GPU速度721FPS,CPU速度6.3FPS,パラメータ0.28Mの368*368に対して,MINetが最先端手法と同等な検出精度を示すことを示した。
コードはhttps://github.com/Kunye-Shen/MINet.comで公開されている。
The automated surface defect detection is a fundamental task in industrial production, and the existing saliencybased works overcome the challenging scenes and give promising detection results. However, the cutting-edge efforts often suffer from large parameter size, heavy computational cost, and slow inference speed, which heavily limits the practical applications. To this end, we devise a multi-scale interactive (MI) module, which employs depthwise convolution (DWConv) and pointwise convolution (PWConv) to independently extract and interactively fuse features of different scales, respectively. Particularly, the MI module can provide satisfactory characterization for defect regions with fewer parameters. Embarking on this module, we propose a lightweight Multi-scale Interactive Network (MINet) to conduct real-time salient object detection of strip steel surface defects. Comprehensive experimental results on SD-Saliency-900 dataset, which contains three kinds of strip steel surface defect detection images (i.e., inclusion, patches, and scratches), demonstrate that the proposed MINet presents comparable detection accuracy with the state-of-the-art methods while running at a GPU speed of 721FPS and a CPU speed of 6.3FPS for 368*368 images with only 0.28M parameters. The code is available at https://github.com/Kunye-Shen/MINet. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# 転写因子TAL1モチーフ予測の高速化のためのゲノミクスへの分散CNNの適用
Apply Distributed CNN on Genomics to accelerate Transcription-Factor TAL1 Motif Prediction ( http://arxiv.org/abs/2405.16097v1 ) ライセンス: Link先を確認 | Tasnim Assali, Zayneb Trabelsi Ayoub, Sofiane Ouni, | (参考訳) ビッグデータは、大量のデータから知識を取り出すために、Deep Learningとともに完璧に機能する。
しかし、この処理には多くのトレーニング時間がかかります。
ゲノミクス(Genomics)は、高次元のビッグデータ科学である。
深層学習に頼り、転写因子などの異なるDNA情報を使用することで、がんのような特定の疾患の複雑な問題を解決する。
TAL1は造血と血管系の発達に必須の転写因子である。
本稿では,ゲノミクス分野における深層学習の可能性と,何時間,何週間,何ヶ月もかかる訓練時間などの課題を明らかにする。
そこで本研究では,複数のGPUとTPUをアクセラレータとして使用することにより,トレーニング時間を短縮し,95%の精度で精度を向上する,畳み込みニューラルネットワーク(CNN)に基づく分散ディープラーニング実装を提案する。
転写因子TAL1モチーフを高速に予測するために,データ並列性に基づく分散戦略を用いることの有効性を実証した。
Big Data works perfectly along with Deep learning to extract knowledge from a huge amount of data. However, this processing could take a lot of training time. Genomics is a Big Data science with high dimensionality. It relies on deep learning to solve complicated problems in certain diseases like cancer by using different DNA information such as the transcription factor. TAL1 is a transcription factor that is essential for the development of hematopoiesis and of the vascular system. In this paper, we highlight the potential of deep learning in the field of genomics and its challenges such as the training time that takes hours, weeks, and in some cases months. Therefore, we propose to apply a distributed deep learning implementation based on Convolutional Neural Networks (CNN) that showed good results in decreasing the training time and enhancing the accuracy performance with 95% by using multiple GPU and TPU as accelerators. We proved the efficiency of using a distributed strategy based on data-parallelism in predicting the transcription-factor TAL1 motif faster. | 翻訳日:2024-05-29 01:10:08 公開日:2024-05-25 |
# Lateralization MLP: 拡散のためのシンプルな脳インスパイアされたアーキテクチャ
Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion ( http://arxiv.org/abs/2405.16098v1 ) ライセンス: Link先を確認 | Zizhao Hu, Mohammad Rostami, | (参考訳) Transformerアーキテクチャは、幅広いタスクで機械学習を支配してきた。
このアーキテクチャの特異な特徴は、その成功の背景にあるものとして知られており、トークン間の相互作用をモデル化する高価なスケールのドット製品アテンションメカニズムである。
しかし、そのようなメカニズムは人間の脳と直接に平行するものではないため、強力な表現力を持つ知能にスケールドドットの製品が必要なのかという疑問が持ち上がる。
人間の脳の側方化に触発されて、我々は、L-MLP ( Lateralization MLP) と呼ばれる、単純で効果的なアーキテクチャを提案する。
L-MLPブロックを積み重ねると複雑なアーキテクチャが生成される。
各L-MLPブロックは多層パーセプトロン(MLP)に基づいており、データ次元を置換し、各次元を並列に処理し、それらをマージし、最終的に関節MLPを通過する。
この特異な設計は、他のMLPのバリエーションよりも優れており、高い効率を保ちながら、挑戦的な拡散課題においてトランスフォーマーベースのアーキテクチャと同等に機能することを発見した。
L-MLPの有効性と有効性を示すために,テキスト・画像生成タスクを用いて実験を行った。
さらに、モデル行動を調べ、人間の脳の機能に関連性を見出す。
私たちのコードは公開されています。 \url{https://github.com/zizhao-hu/L-MLP}
The Transformer architecture has dominated machine learning in a wide range of tasks. The specific characteristic of this architecture is an expensive scaled dot-product attention mechanism that models the inter-token interactions, which is known to be the reason behind its success. However, such a mechanism does not have a direct parallel to the human brain which brings the question if the scaled-dot product is necessary for intelligence with strong expressive power. Inspired by the lateralization of the human brain, we propose a new simple but effective architecture called the Lateralization MLP (L-MLP). Stacking L-MLP blocks can generate complex architectures. Each L-MLP block is based on a multi-layer perceptron (MLP) that permutes data dimensions, processes each dimension in parallel, merges them, and finally passes through a joint MLP. We discover that this specific design outperforms other MLP variants and performs comparably to a transformer-based architecture in the challenging diffusion task while being highly efficient. We conduct experiments using text-to-image generation tasks to demonstrate the effectiveness and efficiency of L-MLP. Further, we look into the model behavior and discover a connection to the function of the human brain. Our code is publicly available: \url{https://github.com/zizhao-hu/L-MLP} | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# クラスバランシング損失とマルチスケール表現による3次元占有予測の改善
Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation ( http://arxiv.org/abs/2405.16099v1 ) ライセンス: Link先を確認 | Huizhou Chen, Jiangyi Wang, Yuxin Li, Na Zhao, Jun Cheng, Xulei Yang, | (参考訳) 自動運転車は周囲のシーンを包括的に理解する必要があるため、自動運転システムには3D環境認識が不可欠である。
近年、この現実問題を定義する主要なアプローチは、3D占有率予測である。
3次元空間における全てのボクセルの占有状態とセマンティックラベルを予測し、知覚能力を高める。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
それでもこのアーキテクチャは,さまざまな規模のBEV機能を表現できない。
本稿では, セマンティックセグメンテーションタスクにおけるUNetの成功に触発されて, この問題を解決するために, 新たなUNetライクなマルチスケールOccupancy Headモジュールを提案する。
さらに,データセット内の希少なクラスを補うために,クラスバランス損失を提案する。
nuScenes 3次元占有課題データセットの実験結果から,提案手法がベースライン法およびSOTA法よりも優れていることが示された。
3D environment recognition is essential for autonomous driving systems, as autonomous vehicles require a comprehensive understanding of surrounding scenes. Recently, the predominant approach to define this real-life problem is through 3D occupancy prediction. It attempts to predict the occupancy states and semantic labels for all voxels in 3D space, which enhances the perception capability. Birds-Eye-View(BEV)-based perception has achieved the SOTA performance for this task. Nonetheless, this architecture fails to represent various scales of BEV features. In this paper, inspired by the success of UNet in semantic segmentation tasks, we introduce a novel UNet-like Multi-scale Occupancy Head module to relieve this issue. Furthermore, we propose the class-balancing loss to compensate for rare classes in the dataset. The experimental results on nuScenes 3D occupancy challenge dataset show the superiority of our proposed approach over baseline and SOTA methods. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# 双極子相互作用による多レベル原子の弱駆動配列の絡み合い生成
Entanglement generation in weakly-driven arrays of multilevel atoms via dipolar interactions ( http://arxiv.org/abs/2405.16101v1 ) ライセンス: Link先を確認 | Sanaa Agarwal, A. Piñeiro Orioli, J. K. Thompson, A. M. Rey, | (参考訳) 双極子-双極子相互作用によって相互作用し、サブ波長スケールで捕捉される多層原子の1次元及び2次元配列の駆動散逸ダイナミクスについて検討した。
ここでは、弱い駆動の低励起状態において、2レベル原子とは対照的に、多レベル原子は強い絡み合いを持つ可能性があることを示す。
絡み合いは、基底状態多様体における集合スピン波の成長として現れ、駆動を停止した後でも生存する。
我々は、$\rm ^3{\rm P}_2 \leftrightarrow \, ^3{\rm D}_3$ in $\rm ^{88}Sr$ with $\rm 389~nm$ 光をトラップする理想的な実験プラットフォームとして、および光-物質相互作用から生じる複素多体現象を探索するための新しい量子インターフェースとして、$\sim 2.9~\mu$m遷移を用いることを提案する。
We investigate the driven-dissipative dynamics of 1D and 2D arrays of multilevel atoms interacting via dipole-dipole interactions and trapped at subwavelength scales. Here we show that in the weakly driven low excitation regime, multilevel atoms, in contrast to two-level atoms, can become strongly entangled. The entanglement manifests as the growth of collective spin-waves in the ground state manifold, and survives even after turning off the drive. We propose to use the $\sim 2.9~\mu$m transition between $\rm ^3{\rm P}_2 \leftrightarrow \, ^3{\rm D}_3$ in $\rm ^{88}Sr$ with $\rm 389~nm$ trapping light as an ideal experimental platform for validating our predictions and as a novel quantum interface for the exploration of complex many-body phenomena emerging from light-matter interactions. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# 根治的ソース近似:前庭神経癌MRIにおけるソースフリー非教師なし領域適応
Reliable Source Approximation: Source-Free Unsupervised Domain Adaptation for Vestibular Schwannoma MRI Segmentation ( http://arxiv.org/abs/2405.16102v1 ) ライセンス: Link先を確認 | Hongye Zeng, Ke Zou, Zhihao Chen, Rui Zheng, Huazhu Fu, | (参考訳) Source-Free Unsupervised Domain Adaptation (SFUDA)は、最近、ソースモデルのみを使用し、注釈付きターゲットデータを必要としないため、医療画像領域適応に重点を置いている。
しかし、現在のSFUDAのアプローチでは、前庭性スワンノーマのセグメンテーションなど、MRIシークエンスにまたがる複雑なセグメンテーションタスクには対応できない。
この問題に対処するため、モデルパラメータの更新とドメインシフトの適応のために、ターゲットドメインからソースライクで構造保存された画像を生成するReliable Source Approximation (RSA)を提案する。
具体的には、RSAは条件付き拡散モデルをデプロイし、1つのターゲット画像の異なるエッジのガイダンスの下で複数のソースライクな画像を生成する。
次に、生成した画像の信頼性の高い擬似ラベルを予測・洗練するために不確実性推定モジュールを導入し、最も信頼性の高い世代を選択するために予測一貫性を開発する。
その後、信頼できる生成画像とその擬似ラベルを使用してモデルを更新する。
RSAは多品位MRIで前庭性swannoma segmentationの診断に有用であった。
実験の結果、RSAは他の最先端のSFUDA法よりもドメイン適応性能が一貫して向上していることが示されている。
コードはhttps://github.com/zenghy96/Reliable-Source-Approximationで入手できる。
Source-Free Unsupervised Domain Adaptation (SFUDA) has recently become a focus in the medical image domain adaptation, as it only utilizes the source model and does not require annotated target data. However, current SFUDA approaches cannot tackle the complex segmentation task across different MRI sequences, such as the vestibular schwannoma segmentation. To address this problem, we proposed Reliable Source Approximation (RSA), which can generate source-like and structure-preserved images from the target domain for updating model parameters and adapting domain shifts. Specifically, RSA deploys a conditional diffusion model to generate multiple source-like images under the guidance of varying edges of one target image. An uncertainty estimation module is then introduced to predict and refine reliable pseudo labels of generated images, and the prediction consistency is developed to select the most reliable generations. Subsequently, all reliable generated images and their pseudo labels are utilized to update the model. Our RSA is validated on vestibular schwannoma segmentation across multi-modality MRI. The experimental results demonstrate that RSA consistently improves domain adaptation performance over other state-of-the-art SFUDA methods. Code is available at https://github.com/zenghy96/Reliable-Source-Approximation. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# シャープリプシッツ推定によるスコアベース生成モデルの大域的ウェルポッドネスと収束解析
Global Well-posedness and Convergence Analysis of Score-based Generative Models via Sharp Lipschitz Estimates ( http://arxiv.org/abs/2405.16104v1 ) ライセンス: Link先を確認 | Connor Mooney, Zhongjian Wang, Jack Xin, Yifeng Yu, | (参考訳) 我々は,スコア推定のための初期データの最小限の仮定の下で,スコアベース生成モデル(SGM)のグローバルな適合性と収束性を確立する。
スムーズな場合、最適時間長のスコア関数のリプシッツ境界から始める。
最適性は、スコアのリプシッツ定数が初期で有界であるが有限時間で爆発する例によって検証される。
これは、非対数分布に対する従来の境界における時間スケールの分離を必要とする。
対照的に、フォローアップ解析は局所的なリプシッツ条件にのみ依存しており、時間的にグローバルに有効である。
これは時間分離のない数値スキームの収束につながる。
非滑らかな場合、最適リプシッツ境界は、境界を持つコンパクトで滑らかで低次元多様体上で支えられる分布に対して点ワイズな意味で O(1/t) であることが示される。
We establish global well-posedness and convergence of the score-based generative models (SGM) under minimal general assumptions of initial data for score estimation. For the smooth case, we start from a Lipschitz bound of the score function with optimal time length. The optimality is validated by an example whose Lipschitz constant of scores is bounded at initial but blows up in finite time. This necessitates the separation of time scales in conventional bounds for non-log-concave distributions. In contrast, our follow up analysis only relies on a local Lipschitz condition and is valid globally in time. This leads to the convergence of numerical scheme without time separation. For the non-smooth case, we show that the optimal Lipschitz bound is O(1/t) in the point-wise sense for distributions supported on a compact, smooth and low-dimensional manifold with boundary. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# MambaLLIE:グローバル・テーマ・ローカル・ステート・スペースによるレチネックスを意識した低照度化
MambaLLIE: Implicit Retinex-Aware Low Light Enhancement with Global-then-Local State Space ( http://arxiv.org/abs/2405.16105v1 ) ライセンス: Link先を確認 | Jiangwei Weng, Zhiqiang Yan, Ying Tai, Jianjun Qian, Jian Yang, Jun Li, | (参考訳) 低光画像強調の最近の進歩は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーを活用するRetinexベースの学習フレームワークによって支配されている。
しかしながら、バニラ・レチネックス理論は、主に地球規模の照明劣化に対処し、暗い条件下でのノイズやぼやけなどの局所的な問題を無視する。
さらに、CNNとTransformersは、受容野が限られているため、グローバルな劣化を捉えるのに苦労している。
状態空間モデル(SSM)は、長いシーケンスモデリングにおいて有望であるが、局所不変量と視覚データにおけるグローバルコンテキストを組み合わせることの難しさに直面している。
本稿では,グローバルな局所状態空間設計を特徴とする暗黙のRetinex対応低照度エンハンサーであるMambaLLIEを紹介する。
まず,2次元選択走査機構に局所バイアスを付加したローカル拡張状態空間モジュール(LESSM)を提案する。
さらに、Implicit Retinex-aware Selective Kernelモジュール(IRSK)は、適応的なカーネル選択プロセスを通じて、様々な入力に適応して、空間的に変化する演算を用いて機能を動的に選択する。
我々のGlobal-then-Local State Space Block (GLSSB)は、LESSMとIRSKをLayerNormをコアとして統合しています。
この設計により、MambaLLIEは包括的なグローバルな長距離モデリングとフレキシブルな局所的特徴集約を実現することができる。
大規模な実験により、MambaLLIEは最先端のCNNやTransformerベースの手法よりも大幅に優れていた。
Project Page: https://mamballie.github.io/anon/
Recent advances in low light image enhancement have been dominated by Retinex-based learning framework, leveraging convolutional neural networks (CNNs) and Transformers. However, the vanilla Retinex theory primarily addresses global illumination degradation and neglects local issues such as noise and blur in dark conditions. Moreover, CNNs and Transformers struggle to capture global degradation due to their limited receptive fields. While state space models (SSMs) have shown promise in the long-sequence modeling, they face challenges in combining local invariants and global context in visual data. In this paper, we introduce MambaLLIE, an implicit Retinex-aware low light enhancer featuring a global-then-local state space design. We first propose a Local-Enhanced State Space Module (LESSM) that incorporates an augmented local bias within a 2D selective scan mechanism, enhancing the original SSMs by preserving local 2D dependency. Additionally, an Implicit Retinex-aware Selective Kernel module (IRSK) dynamically selects features using spatially-varying operations, adapting to varying inputs through an adaptive kernel selection process. Our Global-then-Local State Space Block (GLSSB) integrates LESSM and IRSK with LayerNorm as its core. This design enables MambaLLIE to achieve comprehensive global long-range modeling and flexible local feature aggregation. Extensive experiments demonstrate that MambaLLIE significantly outperforms state-of-the-art CNN and Transformer-based methods. Project Page: https://mamballie.github.io/anon/ | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# OmniBind:OmniBindのための不平等なスケールのモダリティインタラクションを構築するための教育
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All ( http://arxiv.org/abs/2405.16108v1 ) ライセンス: Link先を確認 | Yuanhuiyi Lyu, Xu Zheng, Dahun Kim, Lin Wang, | (参考訳) マルチモーダル学習の研究は、訓練時の統一空間におけるモダリティを支配的に整列させ、推論の予測のために1つだけを取る。
しかし、例えばロボットのような本物のマシンでは、センサーをいつでも追加したり、削除したりできる。
したがって、機械がトレーニングと推論のモダリティの組み合わせのミスマッチや不等スケールの問題に対処できることが不可欠である。
本稿では,モーダリティのモダリティを支援するモダリティ(Modalities Help Modalities)という新たな視点から,これらの課題に取り組む。
直感的には、あらゆるモダリティの組み合わせと相互作用を実現できる新しい2段階学習フレームワークであるOmniBindを提示する。
データ制約のあるa.k.a、学生、モダリティを、よく訓練されたデータ制約のあるa.k.a、教師、モダリティに合わせるように教える。
これにより、任意のモダリティの適応的融合が任意の組合せに対する統一表現空間を構築することができる。
具体的には,学生と教師のモダリティの不平等な問題に対処し,学生のモダリティを教師のモダリティ表現空間に効果的に整合させるために,CAD(クロスモーダルアライメント蒸留)を提案する。
次に、任意のモダリティ結合を融合し、ステージ2で統一表現空間を学ぶための適応核融合(AF)モジュールを提案する。
ミスマッチ問題に対処するため、既存のデータセットを集約し、異なるモダリティのサンプルを同じ意味論で組み合わせる。
このようにして、教師(画像、テキスト)と学生(タッチ、サーマル、イベント、ポイントクラウド、オーディオ)からなるトレーニングと評価のための最初のデータセットを構築し、それらすべてに対してomni-bindを可能にする。
認識タスクの広範囲な実験は、任意のモダリティの組み合わせ設定で平均4.05%の性能向上を示す。
また、1つのモダリティ(例えばタッチ)に対する最先端のパフォーマンスも4.34 %向上した。
Research on multi-modal learning dominantly aligns the modalities in a unified space at training, and only a single one is taken for prediction at inference. However, for a real machine, e.g., a robot, sensors could be added or removed at any time. Thus, it is crucial to enable the machine to tackle the mismatch and unequal-scale problems of modality combinations between training and inference. In this paper, we tackle these problems from a new perspective: "Modalities Help Modalities". Intuitively, we present OmniBind, a novel two-stage learning framework that can achieve any modality combinations and interaction. It involves teaching data-constrained, a.k.a, student, modalities to be aligned with the well-trained data-abundant, a.k.a, teacher, modalities. This subtly enables the adaptive fusion of any modalities to build a unified representation space for any combinations. Specifically, we propose Cross-modal Alignment Distillation (CAD) to address the unequal-scale problem between student and teacher modalities and effectively align student modalities into the teacher modalities' representation space in stage one. We then propose an Adaptive Fusion (AF) module to fuse any modality combinations and learn a unified representation space in stage two. To address the mismatch problem, we aggregate existing datasets and combine samples from different modalities by the same semantics. This way, we build the first dataset for training and evaluation that consists of teacher (image, text) and student (touch, thermal, event, point cloud, audio) modalities and enables omni-bind for any of them. Extensive experiments on the recognition task show performance gains over prior arts by an average of 4.05 % on the arbitrary modality combination setting. It also achieves state-of-the-art performance for a single modality, e.g., touch, with a 4.34 % gain. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# アクティブ・ディフェンシブ・バックドア注入によるバックドア攻撃の軽減
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor ( http://arxiv.org/abs/2405.16112v1 ) ライセンス: Link先を確認 | Shaokui Wei, Hongyuan Zha, Baoyuan Wu, | (参考訳) データ消去バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ上の脅威であり、敵はトレーニングデータセットを操作してモデルにバックドアを注入することができる。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor,プロアクティブディフェンシブ・バックドア)と呼ばれる新たな防御手法を提案する。
具体的には、PDBは、トレーニング中に防衛バックドアを積極的にモデルに注入することで、ディフェンダーの「ホームフィールド」の利点を活用する。
訓練プロセスの制御の利点を生かして、防御バックドアは攻撃者に秘密を保ちながら、悪意のあるバックドアを効果的に抑えるように設計されている。
さらに,防衛目標ラベルを決定するために可逆写像を導入する。
推論の間、PDBは入力に防御的なトリガーを埋め込み、モデルの予測を逆転させ、悪意のあるバックドアを抑圧し、モデルの本来のタスクにおける実用性を保証する。
様々なデータセットやモデルにまたがる実験結果から,我々の手法は,幅広いバックドア攻撃に対する最先端の防御性能を達成できることが示されている。
Data-poisoning backdoor attacks are serious security threats to machine learning models, where an adversary can manipulate the training dataset to inject backdoors into models. In this paper, we focus on in-training backdoor defense, aiming to train a clean model even when the dataset may be potentially poisoned. Unlike most existing methods that primarily detect and remove/unlearn suspicious samples to mitigate malicious backdoor attacks, we propose a novel defense approach called PDB (Proactive Defensive Backdoor). Specifically, PDB leverages the "home field" advantage of defenders by proactively injecting a defensive backdoor into the model during training. Taking advantage of controlling the training process, the defensive backdoor is designed to suppress the malicious backdoor effectively while remaining secret to attackers. In addition, we introduce a reversible mapping to determine the defensive target label. During inference, PDB embeds a defensive trigger in the inputs and reverses the model's prediction, suppressing malicious backdoor and ensuring the model's utility on the original task. Experimental results across various datasets and models demonstrate that our approach achieves state-of-the-art defense performance against a wide range of backdoor attacks. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# 効率的なデータセット凝縮を用いた体験再生によるオンデバイス学習の実現
Enabling On-Device Learning via Experience Replay with Efficient Dataset Condensation ( http://arxiv.org/abs/2405.16113v1 ) ライセンス: Link先を確認 | Gelei Xu, Ningzhi Tang, Jun Xia, Wei Jin, Yiyu Shi, | (参考訳) エッジデバイスへのデプロイ時には、モデルがストリーミングデータからさらに学び、精度を向上させることが望ましい場合が多い。
しかし、そのようなデータから代表的特徴を抽出することは、通常はラベルがなく、非独立で、同一に分布している(非i.d)ため困難であり、一度しか見られない。
この問題を緩和するためには、エッジデバイスに小さなデータバッファを保持して、さらなる学習のために最も代表的なデータを保持することが一般的な戦略である。
ほとんどのデータが保存されないか、すぐに破棄されることはないため、重要な情報損失を避けるために最も代表的なデータを特定することが重要になる。
本稿では,入力データをより情報的なサンプルに凝縮することで,この問題に対処するオンデバイスフレームワークを提案する。
具体的には、未ラベルの着信データを効果的に処理するために、未ラベルのオンデバイス学習環境向けに設計された擬似ラベル技術を提案する。
さらに,少ない計算資源しか必要としないデータセット凝縮手法を開発した。
凝縮過程におけるノイズラベルの効果を抑えるため,バッファ内のクラスデータの純度を向上させるために,コントラスト学習の目的をさらに活用する。
実験結果から,バッファ容量が著しく制限された場合,既存の手法よりも大幅に改善されたことが示唆された。
例えば、クラス毎のバッファ容量はたった1つのサンプルで、我々の手法は、CIFAR-10データセットにおいて、最高のベースラインを58.4%上回る精度を達成する。
Upon deployment to edge devices, it is often desirable for a model to further learn from streaming data to improve accuracy. However, extracting representative features from such data is challenging because it is typically unlabeled, non-independent and identically distributed (non-i.i.d), and is seen only once. To mitigate this issue, a common strategy is to maintain a small data buffer on the edge device to hold the most representative data for further learning. As most data is either never stored or quickly discarded, identifying the most representative data to avoid significant information loss becomes critical. In this paper, we propose an on-device framework that addresses this issue by condensing incoming data into more informative samples. Specifically, to effectively handle unlabeled incoming data, we propose a pseudo-labeling technique designed for unlabeled on-device learning environments. Additionally, we develop a dataset condensation technique that only requires little computation resources. To counteract the effects of noisy labels during the condensation process, we further utilize a contrastive learning objective to improve the purity of class data within the buffer. Our empirical results indicate substantial improvements over existing methods, particularly when buffer capacity is severely restricted. For instance, with a buffer capacity of just one sample per class, our method achieves an accuracy that outperforms the best existing baseline by 58.4% on the CIFAR-10 dataset. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# 軸受の故障診断のためのクロスセルフアテンション機能融合を用いたマルチスケール四元系CNNとBiGRU
Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing ( http://arxiv.org/abs/2405.16114v1 ) ライセンス: Link先を確認 | Huanbai Liu, Fanlong Zhang, Yin Tan, Lian Huang, Yan Li, Guoheng Huang, Shenghong Luo, An Zeng, | (参考訳) 近年, 深層学習は断層診断(FD)に大きく進歩している。
ほとんどの技術はより精度の高いものを目指している。
しかし、ノイズに敏感であり、堅牢性がないため、ドメイン適応やアンチノイズ能力が不十分である。
研究を比較すると、全ての特徴に等しく注意を払うことは、その重要性を区別するものではないことが分かる。
本研究では,マルチスケール四元数畳み込みニューラルネットワーク(MQCNN),双方向ゲート再帰ユニット(BiGRU),クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
我々はMQCNNとCSAFFという2つのモジュールで革新的な設計をしてきた。
まず、MQCNNは、複数のスケールから元の信号の豊富な隠れた特徴を抽出することを目的として、初めて4次畳み込みをマルチスケールアーキテクチャに適用する。
そして、抽出したマルチスケール情報を特徴融合のためのCSAFFに入力し、CSAFFは、特徴内の識別的相互作用表現を強化するために、横断自己認識機構を革新的に組み込む。
最後に、BiGRUは時間的依存関係をキャプチャし、ソフトマックス層は障害分類に使用され、正確なFDを達成する。
提案手法の有効性を評価するため,3つの公開データセット(CWRU,MFPT,Ottawa)を実験し,他の優れた手法と比較した。
その結果、CWRU、MFPT、オタワのデータセットで平均的な精度が99.99%、100%、99.21%に達することが確認された。
さらに,提案手法の有効性とロバスト性を検証するために,実用的な実験とアブレーション実験を行った。
コードはhttps://github.com/mubai011/MQCCAFで入手できる。
In recent years, deep learning has led to significant advances in bearing fault diagnosis (FD). Most techniques aim to achieve greater accuracy. However, they are sensitive to noise and lack robustness, resulting in insufficient domain adaptation and anti-noise ability. The comparison of studies reveals that giving equal attention to all features does not differentiate their significance. In this work, we propose a novel FD model by integrating multi-scale quaternion convolutional neural network (MQCNN), bidirectional gated recurrent unit (BiGRU), and cross self-attention feature fusion (CSAFF). We have developed innovative designs in two modules, namely MQCNN and CSAFF. Firstly, MQCNN applies quaternion convolution to multi-scale architecture for the first time, aiming to extract the rich hidden features of the original signal from multiple scales. Then, the extracted multi-scale information is input into CSAFF for feature fusion, where CSAFF innovatively incorporates cross self-attention mechanism to enhance discriminative interaction representation within features. Finally, BiGRU captures temporal dependencies while a softmax layer is employed for fault classification, achieving accurate FD. To assess the efficacy of our approach, we experiment on three public datasets (CWRU, MFPT, and Ottawa) and compare it with other excellent methods. The results confirm its state-of-the-art, which the average accuracies can achieve up to 99.99%, 100%, and 99.21% on CWRU, MFPT, and Ottawa datasets. Moreover, we perform practical tests and ablation experiments to validate the efficacy and robustness of the proposed approach. Code is available at https://github.com/mubai011/MQCCAF. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# SNOBERT : SNOMEDCT臨床用語における臨床ノートエンティティリンクのベンチマーク
SNOBERT: A Benchmark for clinical notes entity linking in the SNOMED CT clinical terminology ( http://arxiv.org/abs/2405.16115v1 ) ライセンス: Link先を確認 | Mikhail Kulyabin, Gleb Sokolov, Aleksandr Galaida, Andreas Maier, Tomas Arias-Vergara, | (参考訳) 医療従事者が主にフリーテキスト形式で保存する医療データからの洞察の抽出と分析は、その非構造的な性質から重要な課題を提起する。
医療における重要なプロセスであるメディカルコーディングは、医療オントロジーの複雑さと、自然言語処理モデルのトレーニングのための医学テキストへのアクセス制限により、最小限の自動化が続けられている。
本稿では,BERT モデルを用いた SNOMED CT の特定の概念に臨床ノート中のテキストスパンをリンクする手法 "SNOBERT" を提案する。
提案手法は,候補選択と候補マッチングの2段階からなる。
それらのモデルは、ラベル付き臨床ノートの最大の公開データセットの1つで訓練された。
SNOBERTは、ディープラーニングに基づく他の古典的手法よりも優れており、それが適用された課題の結果によって確認されている。
The extraction and analysis of insights from medical data, primarily stored in free-text formats by healthcare workers, presents significant challenges due to its unstructured nature. Medical coding, a crucial process in healthcare, remains minimally automated due to the complexity of medical ontologies and restricted access to medical texts for training Natural Language Processing models. In this paper, we proposed a method, "SNOBERT," of linking text spans in clinical notes to specific concepts in the SNOMED CT using BERT-based models. The method consists of two stages: candidate selection and candidate matching. The models were trained on one of the largest publicly available dataset of labeled clinical notes. SNOBERT outperforms other classical methods based on deep learning, as confirmed by the results of a challenge in which it was applied. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# リアルタイムシーングラフ生成
Real-Time Scene Graph Generation ( http://arxiv.org/abs/2405.16116v1 ) ライセンス: Link先を確認 | Maëlic Neau, Paulo E. Santos, Karl Sammut, Anne-Gwenn Bosser, Cédric Buche, | (参考訳) シーングラフ生成(SGG)は、画像内のエンティティ間の抽象的な意味関係をグラフ表現として抽出することができる。
このタスクは、自律エージェントの認識の具体化など、他の下流タスクに対する強い約束を持っている。
しかし、そのようなアプリケーションを動かすためには、SGGはリアルタイムレイテンシのギャップを解決する必要がある。
本研究では,リアルタイム制約アプリケーションに対する現在のアプローチのボトルネックについて検討する。
そこで本研究では,オブジェクト検出バックボーンとしてYOLOV8を用いて,リアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。
我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
私たちのコードはhttps://github.com/Maelic/SGG-Benchmark.comで無料で利用可能です。
Scene Graph Generation (SGG) can extract abstract semantic relations between entities in images as graph representations. This task holds strong promises for other downstream tasks such as the embodied cognition of an autonomous agent. However, to power such applications, SGG needs to solve the gap of real-time latency. In this work, we propose to investigate the bottlenecks of current approaches for real-time constraint applications. Then, we propose a simple yet effective implementation of a real-time SGG approach using YOLOV8 as an object detection backbone. Our implementation is the first to obtain more than 48 FPS for the task with no loss of accuracy, successfully outperforming any other lightweight approaches. Our code is freely available at https://github.com/Maelic/SGG-Benchmark. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# 確率的・対角的制約のある帯域における最小2次元法を超えて
Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints ( http://arxiv.org/abs/2405.16118v1 ) ライセンス: Link先を確認 | Martino Bernasconi, Matteo Castiglioni, Andrea Celli, Federico Fusco, | (参考訳) 我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
我々のゴールは、確率的制約と対角的制約の両方の下で最適に動作するベスト・オブ・ザ・ワールドのアルゴリズムを設計することである。
従来の研究は原始双対法によってこの問題に対処し、いくつかの厳密な仮定、すなわちスレーターの条件、および逆条件では、スレーターのパラメータの下位境界の知識を仮定するか、あるいは弱適応性を必要とするような原始的および二重後悔最小化に強い要件を課す。
本稿では,制約の楽観的な推定に基づく,より自然なアプローチを提案する。
驚いたことに、UCBのようなアプローチで制約を見積もると、最適な性能が保証される。
アルゴリズムは2つの主成分から構成される。
i) \emph{moving strategy set} で作業する後悔の最小化器と
(ii) 前回のサンプルの楽観的な重み付き実験平均として実現可能な集合の推定。
このアプローチの鍵となる課題は、確率的および対角的制約の異なる要件を満たす適応重みを設計することである。
我々のアルゴリズムは従来の手法よりもはるかに単純で、よりクリーンな分析ができる。
さらに,制約数における境界対数性を備えた世界最強のアルゴリズムは,本アルゴリズムが初めてである。
さらに確率的設定では、$\widetilde O(\sqrt{T})$ regret \emph{without} Slater の条件を提供する。
We address a generalization of the bandit with knapsacks problem, where a learner aims to maximize rewards while satisfying an arbitrary set of long-term constraints. Our goal is to design best-of-both-worlds algorithms that perform optimally under both stochastic and adversarial constraints. Previous works address this problem via primal-dual methods, and require some stringent assumptions, namely the Slater's condition, and in adversarial settings, they either assume knowledge of a lower bound on the Slater's parameter, or impose strong requirements on the primal and dual regret minimizers such as requiring weak adaptivity. We propose an alternative and more natural approach based on optimistic estimations of the constraints. Surprisingly, we show that estimating the constraints with an UCB-like approach guarantees optimal performances. Our algorithm consists of two main components: (i) a regret minimizer working on \emph{moving strategy sets} and (ii) an estimate of the feasible set as an optimistic weighted empirical mean of previous samples. The key challenge in this approach is designing adaptive weights that meet the different requirements for stochastic and adversarial constraints. Our algorithm is significantly simpler than previous approaches, and has a cleaner analysis. Moreover, ours is the first best-of-both-worlds algorithm providing bounds logarithmic in the number of constraints. Additionally, in stochastic settings, it provides $\widetilde O(\sqrt{T})$ regret \emph{without} Slater's condition. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# ディープニューラルネットワークに基づく生体画像の人工データベース生成方法及びソフトウェアツール
Method and Software Tool for Generating Artificial Databases of Biomedical Images Based on Deep Neural Networks ( http://arxiv.org/abs/2405.16119v1 ) ライセンス: Link先を確認 | Oleh Berezsky, Petro Liashchynskyi, Oleh Pitsun, Grygoriy Melnyk, | (参考訳) 生体医用画像データおよび基礎的な深層ニューラルネットワークを用いたトレーニング画像の生成方法について分析した。
さらに、画像を作成するための全てのプラットフォームが、その特性を考慮して分析された。
本稿では,GANに基づくバイオメディカル画像の生成法について述べる。
GANアーキテクチャは生体画像合成のために開発された。
トレーニング画像を生成するためのデータ基盤とモジュールは、ソフトウェアシステムで設計および実装された。
生成した画像データベースと既知のデータベースとの比較を行った。
A wide variety of biomedical image data, as well as methods for generating training images using basic deep neural networks, were analyzed. Additionally, all platforms for creating images were analyzed, considering their characteristics. The article develops a method for generating artificial biomedical images based on GAN. GAN architecture has been developed for biomedical image synthesis. The data foundation and module for generating training images were designed and implemented in a software system. A comparison of the generated image database with known databases was made. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# EASEによるプロンプト最適化 : 効率のよい注文認識による経験者の自動選択
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars ( http://arxiv.org/abs/2405.16122v1 ) ライセンス: Link先を確認 | Zhaoxuan Wu, Xiaoqiang Lin, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low, | (参考訳) 大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
In-context Learning(ICL)の能力により、モデル微調整なしでインプットラベルの例をプロンプトに含めることで、LLMを下流タスクに適応させることができる。
しかし、これらの例題の品質は性能に大きな影響を与え、効果的な自動例題選択法の必要性を強調している。
近年の研究では、個別のテストクエリに適合した例を検索ベースで選択する手法が検討されている。
さらに、既存の手法では、先行注文がパフォーマンスに与える影響を適切に説明できない。
一方、LLMに与えられたプロンプトのもう一つの重要な要素である命令の影響は、既存の模範的選択法では見過ごされがちである。
これらの課題に対処するために,事前訓練された言語モデルからの隠れ埋め込みを活用して,先行注文を考慮に入れながら,先行注文を最適化するニューラルバンディットアルゴリズムを提案する。
我々のEASEは、与えられたタスクから全てのテストクエリに対してうまく動作する順序付けられた例の集合を効率的に見つけることができ、テスト時間計算をなくすことができる。
重要な点として、EASEは前例と命令の両方を共同で最適化するために簡単に拡張できる。
実験的な評価(新規タスクを含む)を通じて、既存の方法よりもEASEの方が優れていることを実証し、独立性のあるICLに対する模範選択の影響に関する実践的な洞察を明らかにする。
私たちのコードはhttps://github.com/ZhaoxuanWu/EASE-Prompt-Optimizationで利用可能です。
Large language models (LLMs) have shown impressive capabilities in real-world applications. The capability of in-context learning (ICL) allows us to adapt an LLM to downstream tasks by including input-label exemplars in the prompt without model fine-tuning. However, the quality of these exemplars in the prompt greatly impacts performance, highlighting the need for an effective automated exemplar selection method. Recent studies have explored retrieval-based approaches to select exemplars tailored to individual test queries, which can be undesirable due to extra test-time computation and an increased risk of data exposure. Moreover, existing methods fail to adequately account for the impact of exemplar ordering on the performance. On the other hand, the impact of the instruction, another essential component in the prompt given to the LLM, is often overlooked in existing exemplar selection methods. To address these challenges, we propose a novel method named EASE, which leverages the hidden embedding from a pre-trained language model to represent ordered sets of exemplars and uses a neural bandit algorithm to optimize the sets of exemplars while accounting for exemplar ordering. Our EASE can efficiently find an ordered set of exemplars that performs well for all test queries from a given task, thereby eliminating test-time computation. Importantly, EASE can be readily extended to jointly optimize both the exemplars and the instruction. Through extensive empirical evaluations (including novel tasks), we demonstrate the superiority of EASE over existing methods, and reveal practical insights about the impact of exemplar selection on ICL, which may be of independent interest. Our code is available at https://github.com/ZhaoxuanWu/EASE-Prompt-Optimization. | 翻訳日:2024-05-29 01:00:23 公開日:2024-05-25 |
# Retro-prob:確率モデルに基づくRetrosynthetic Planning
Retro-prob: Retrosynthetic Planning Based on a Probabilistic Model ( http://arxiv.org/abs/2405.16123v1 ) ライセンス: Link先を確認 | Chengyang Tian, Yangpeng Zhang, Yang Liu, | (参考訳) 再合成は有機化学の基本的な課題であるが、薬物設計や合成などの分野に広く応用されている。
標的分子が与えられた場合、レトロ合成の目標は、合成経路に組み立てられる一連の反応を見つけ出すことである。
後進モデルの幻覚によって引き起こされる逆合成計画における反応の不確実性は近年注目されている。
本稿では,そのような不確実性を記述するための簡潔な確率モデルを提案する。
本モデルに基づいて, 目的分子の合成確率を最大化し, 誘導体の連鎖則を利用して高効率が得られるレトロプロブと呼ばれる新しいレトロ合成計画アルゴリズムを提案する。
Paroutesベンチマークの実験では、retro-probは以前のアルゴリズム、retro*およびretro-fallbackよりも高速で、合成計画の質で優れていることが示されている。
Retrosynthesis is a fundamental but challenging task in organic chemistry, with broad applications in fields such as drug design and synthesis. Given a target molecule, the goal of retrosynthesis is to find out a series of reactions which could be assembled into a synthetic route which starts from purchasable molecules and ends at the target molecule. The uncertainty of reactions used in retrosynthetic planning, which is caused by hallucinations of backward models, has recently been noticed. In this paper we propose a succinct probabilistic model to describe such uncertainty. Based on the model, we propose a new retrosynthesis planning algorithm called retro-prob to maximize the successful synthesis probability of target molecules, which acquires high efficiency by utilizing the chain rule of derivatives. Experiments on the Paroutes benchmark show that retro-prob outperforms previous algorithms, retro* and retro-fallback, both in speed and in the quality of synthesis plans. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# インテクスト学習による教師なしメタラーニング
Unsupervised Meta-Learning via In-Context Learning ( http://arxiv.org/abs/2405.16124v1 ) ライセンス: Link先を確認 | Anna Vettoruzzo, Lorenzo Braccaioli, Joaquin Vanschoren, Marlena Nowaczyk, | (参考訳) 教師なしメタラーニングは、ラベル付き限られたデータで下流タスクに転送できる教師なしデータセットから特徴表現を学習することを目的としている。
本稿では,トランスフォーマーアーキテクチャで観測される文脈内学習の一般化能力を活用する,教師なしメタラーニングの新たなアプローチを提案する。
提案手法は, メタラーニングをシーケンスモデリング問題として再設計し, トランスフォーマーエンコーダがサポート画像からタスクコンテキストを学習し, クエリ画像の予測に利用できるようにする。
このアプローチの核心にあるのは、データ拡張と、トレーニング中にモデルに挑戦し、テスト時に見えないタスクに一般化を奨励するミキシング戦略を組み合わせた、多様なタスクの生成です。
miniImageNet、CIFAR-fs、CUB、Aircraftといったベンチマークデータセットの実験結果は、既存の教師なしメタラーニングベースラインよりも、我々のアプローチの優位性を示し、この分野における新しい最先端技術として確立した。
注意すべき点として,本手法は,教師付きおよび自己教師型アプローチによる競合的な結果を達成し,メモリ化よりも一般化を活用できるモデルの有効性を裏付けるものである。
Unsupervised meta-learning aims to learn feature representations from unsupervised datasets that can transfer to downstream tasks with limited labeled data. In this paper, we propose a novel approach to unsupervised meta-learning that leverages the generalization abilities of in-context learning observed in transformer architectures. Our method reframes meta-learning as a sequence modeling problem, enabling the transformer encoder to learn task context from support images and utilize it to predict query images. At the core of our approach lies the creation of diverse tasks generated using a combination of data augmentations and a mixing strategy that challenges the model during training while fostering generalization to unseen tasks at test time. Experimental results on benchmark datasets, including miniImageNet, CIFAR-fs, CUB, and Aircraft, showcase the superiority of our approach over existing unsupervised meta-learning baselines, establishing it as the new state-of-the-art in the field. Remarkably, our method achieves competitive results with supervised and self-supervised approaches, underscoring the efficacy of the model in leveraging generalization over memorization. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 2次類似性を考慮したニア最適分散ミニマックス最適化
Near-Optimal Distributed Minimax Optimization under the Second-Order Similarity ( http://arxiv.org/abs/2405.16126v1 ) ライセンス: Link先を確認 | Qihao Zhou, Haishan Ye, Luo Luo, | (参考訳) 本稿では,2次類似性に基づく分散凸凹型最小値最適化について考察する。
SVOGS法は, 有限サム構造を目的とし, 最小バッチクライアントサンプリングと分散低減を両立させることにより, 確率的分散誘導型楽観的勾配スライディング(SVOGS)法を提案する。
SVOGS は${\mathcal O}(\delta D^2/\varepsilon)$, ${\mathcal O}(n+\sqrt{n}\delta D^2/\varepsilon)$, $\tilde{\mathcal O}(n+(\sqrt{n}\delta+L)D^2/\varepsilon\log(1/\varepsilon)$, $n$ はノード数、$\delta$ は2次類似性の次数、$L$ は滑らかなパラメータ、$D$ は制約セットの直径であることを示す。
上記の複雑さの全て(ほぼ)が対応する下界と一致することを検証できる。
特定の$\mu$-strongly-convex-$\mu$-strongly-convexの場合、我々のアルゴリズムは通信ラウンド、通信複雑性、局所勾配呼び出しの上限を持つ$\mathcal O(\delta/\mu\log(1/\varepsilon))$, ${\mathcal O}((n+\sqrt{n}\delta/\mu)\log(1/\varepsilon))$, $\tilde{\mathcal O}(n+(\sqrt{n}\delta+L)/\mu)\log(1/\varepsilon))$である。
さらに,提案手法の実証的利点を示す数値実験を行った。
This paper considers the distributed convex-concave minimax optimization under the second-order similarity. We propose stochastic variance-reduced optimistic gradient sliding (SVOGS) method, which takes the advantage of the finite-sum structure in the objective by involving the mini-batch client sampling and variance reduction. We prove SVOGS can achieve the $\varepsilon$-duality gap within communication rounds of ${\mathcal O}(\delta D^2/\varepsilon)$, communication complexity of ${\mathcal O}(n+\sqrt{n}\delta D^2/\varepsilon)$, and local gradient calls of $\tilde{\mathcal O}(n+(\sqrt{n}\delta+L)D^2/\varepsilon\log(1/\varepsilon))$, where $n$ is the number of nodes, $\delta$ is the degree of the second-order similarity, $L$ is the smoothness parameter and $D$ is the diameter of the constraint set. We can verify that all of above complexity (nearly) matches the corresponding lower bounds. For the specific $\mu$-strongly-convex-$\mu$-strongly-convex case, our algorithm has the upper bounds on communication rounds, communication complexity, and local gradient calls of $\mathcal O(\delta/\mu\log(1/\varepsilon))$, ${\mathcal O}((n+\sqrt{n}\delta/\mu)\log(1/\varepsilon))$, and $\tilde{\mathcal O}(n+(\sqrt{n}\delta+L)/\mu)\log(1/\varepsilon))$ respectively, which are also nearly tight. Furthermore, we conduct the numerical experiments to show the empirical advantages of proposed method. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 深層学習モデルが人間の概念をいかに捉えているか : 典型的効果の場合
How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect ( http://arxiv.org/abs/2405.16128v1 ) ライセンス: Link先を確認 | Siddhartha K. Vemuri, Raj Sanjay Shah, Sashank Varma, | (参考訳) MLモデルによって学習された表現は、人間の表現とどの程度一致しているか?
本稿では、深層学習モデルで学習した概念表現について考察し、それらが人間の概念の基本的な行動的シグネチャ、典型的効果を示すかどうかを評価する。
これは、あるカテゴリー(例えば、鳥)のいくつかのインスタンス(例えば、ロビン)が、他のカテゴリ(例えば、ペンギン)よりも典型的であると判断する発見である。
言語や視覚モデルにおける人間のような典型的効果を求める最近の研究は、単一のモダリティのモデルに焦点を当て、少数の概念のみをテストし、人間の典型的評価と緩やかな相関しか見つからなかった。
現在の研究では、より広い範囲の言語 (N = 8) とビジョン (N = 10) モデルアーキテクチャを考慮し、モデルの振る舞い評価を拡張している。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
最後に、先行研究よりも幅広い概念(N = 27)にわたるモデルを評価する。
3つの重要な発見があった。
第一に、言語モデルは視覚モデルよりも人間の典型的判断に適合する。
第2に、言語モデルと視覚モデル(例えば、AlexNet + MiniLM)は、最高のパフォーマンスを持つ言語モデル(例えば、MiniLM)や視覚モデル(例えば、ViT-Huge)よりも人間の典型データをより正確に予測する。
第三に、マルチモーダルモデル(CLIP ViT)は、人間の典型的判断を説明することを約束している。
これらの結果は、MLモデルと人間の概念的表現の整合化における最先端の進歩である。
方法論的貢献は、視覚モデルの概念的アライメントをテストするための新しいイメージセットを作成することである。
How well do representations learned by ML models align with those of humans? Here, we consider concept representations learned by deep learning models and evaluate whether they show a fundamental behavioral signature of human concepts, the typicality effect. This is the finding that people judge some instances (e.g., robin) of a category (e.g., Bird) to be more typical than others (e.g., penguin). Recent research looking for human-like typicality effects in language and vision models has focused on models of a single modality, tested only a small number of concepts, and found only modest correlations with human typicality ratings. The current study expands this behavioral evaluation of models by considering a broader range of language (N = 8) and vision (N = 10) model architectures. It also evaluates whether the combined typicality predictions of vision + language model pairs, as well as a multimodal CLIP-based model, are better aligned with human typicality judgments than those of models of either modality alone. Finally, it evaluates the models across a broader range of concepts (N = 27) than prior studies. There were three important findings. First, language models better align with human typicality judgments than vision models. Second, combined language and vision models (e.g., AlexNet + MiniLM) better predict the human typicality data than the best-performing language model (i.e., MiniLM) or vision model (i.e., ViT-Huge) alone. Third, multimodal models (i.e., CLIP ViT) show promise for explaining human typicality judgments. These results advance the state-of-the-art in aligning the conceptual representations of ML models and humans. A methodological contribution is the creation of a new image set for testing the conceptual alignment of vision models. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers
iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers ( http://arxiv.org/abs/2405.16129v1 ) ライセンス: Link先を確認 | Harshit Gupta, Manav Chaudhary, Tathagata Raha, Shivansh Subramanian, Vasudeva Varma, | (参考訳) 本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
Sentence Puzzle と Word Puzzle のサブタスクで構成されており、モデルがデフォルトの常識的協会をデフォールトし、非伝統的思考を示すことを要求する。
本稿では、両方のサブタスクにおいて、事前訓練された言語モデル、特にGemini 1.0 Proモデルの性能を改善するためのユニークな戦略を提案する。
我々は静的かつダイナミックなショットプロンプト技術を採用し、LLMの推論機能を利用して性能を向上させるモデル生成推論戦略を導入する。
提案手法は,ベースラインモデルよりも優れた性能を示したが,アノテータやヒトのアノテータの性能に乏しく,提案手法の有効性を強調した。
This paper describes our approach for SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense. The BRAINTEASER task comprises multiple-choice Question Answering designed to evaluate the models' lateral thinking capabilities. It consists of Sentence Puzzle and Word Puzzle subtasks that require models to defy default common-sense associations and exhibit unconventional thinking. We propose a unique strategy to improve the performance of pre-trained language models, notably the Gemini 1.0 Pro Model, in both subtasks. We employ static and dynamic few-shot prompting techniques and introduce a model-generated reasoning strategy that utilizes the LLM's reasoning capabilities to improve performance. Our approach demonstrated significant improvements, showing that it performed better than the baseline models by a considerable margin but fell short of performing as well as the human annotators, thus highlighting the efficacy of the proposed strategies. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 不測の共同創業者の近縁変数選択の自動化
Automating the Selection of Proxy Variables of Unmeasured Confounders ( http://arxiv.org/abs/2405.16130v1 ) ライセンス: Link先を確認 | Feng Xie, Zhengming Chen, Shanshan Luo, Wang Miao, Ruichu Cai, Zhi Geng, | (参考訳) 近年,観測データから未測定の共同創設者の存在下での因果効果を推定するために,非観測的共起のプロキシ変数の利用が注目されている。
実用的利用を阻害することの1つの困難は、関心の因果効果に対する観測されていない共起の有効なプロキシ変数を見つけることである。
これらのプロキシ変数は通常、バックグラウンド知識によって正当化される。
本稿では,複数の治療における因果効果の評価と,非測定共同設立者の影響を,代用変数の妥当性を事前に把握せずに線形因果モデルを用いて検討する。
より具体的に言うと、我々はまず既存のプロキシ変数推定器を拡張し、元々は測定されていない1人の共同創設者に対処し、治療と結果の間に複数の未測定の共同創設者が存在するシナリオに対応する。
次に,2次統計量と高次統計量に基づいて,計測されていない共同創設者の有効なプロキシ変数を選択するための2つの異なる正確な識別可能性条件を示す。
さらに、プロキシ変数の選択と因果効果の偏りのない推定のための2つのデータ駆動手法を提案する。
理論的解析は,提案アルゴリズムの正しさを実証する。
合成データと実世界のデータの両方を用いた実験結果から,提案手法の有効性が示された。
Recently, interest has grown in the use of proxy variables of unobserved confounding for inferring the causal effect in the presence of unmeasured confounders from observational data. One difficulty inhibiting the practical use is finding valid proxy variables of unobserved confounding to a target causal effect of interest. These proxy variables are typically justified by background knowledge. In this paper, we investigate the estimation of causal effects among multiple treatments and a single outcome, all of which are affected by unmeasured confounders, within a linear causal model, without prior knowledge of the validity of proxy variables. To be more specific, we first extend the existing proxy variable estimator, originally addressing a single unmeasured confounder, to accommodate scenarios where multiple unmeasured confounders exist between the treatments and the outcome. Subsequently, we present two different sets of precise identifiability conditions for selecting valid proxy variables of unmeasured confounders, based on the second-order statistics and higher-order statistics of the data, respectively. Moreover, we propose two data-driven methods for the selection of proxy variables and for the unbiased estimation of causal effects. Theoretical analysis demonstrates the correctness of our proposed algorithms. Experimental results on both synthetic and real-world data show the effectiveness of the proposed approach. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 2次元レイカストにおけるオブジェクト情報の効率的な量子回路符号化
Efficient Quantum Circuit Encoding of Object Information in 2D Ray Casting ( http://arxiv.org/abs/2405.16132v1 ) ライセンス: Link先を確認 | Seungjae Lee, Suhui Jeong, Jiwon Seo, | (参考訳) 量子コンピューティングは、時間複雑性を著しく減少させる能力のため、古典的なコンピュータでは事実上解決不可能な問題を解く可能性を秘めている。
コンピュータグラフィックスにおける3Dオブジェクトのレンダリングの簡易化のための重要な手法であるレイキャスティング(レイキャスティング)の強化にこの可能性を活用することを目的としている。
量子コンピュータでレイキャストを行うには、プリミティブの定義パラメータを量子ビットにエンコードする必要がある。
しかし、現在のノイズの多い中間スケール量子(NISQ)時代には、複数のゲートを実行するときの量子ビット数の制限とノイズの影響から課題が生じる。
論理最適化により、量子回路の深さを減らし、ゲートとキュービットの数を減らした。
その結果、IBMの量子コンピュータによる正しい測定の事象数は、誤った測定の事象をはるかに上回った。
Quantum computing holds the potential to solve problems that are practically unsolvable by classical computers due to its ability to significantly reduce time complexity. We aim to harness this potential to enhance ray casting, a pivotal technique in computer graphics for simplifying the rendering of 3D objects. To perform ray casting in a quantum computer, we need to encode the defining parameters of primitives into qubits. However, during the current noisy intermediate-scale quantum (NISQ) era, challenges arise from the limited number of qubits and the impact of noise when executing multiple gates. Through logic optimization, we reduced the depth of quantum circuits as well as the number of gates and qubits. As a result, the event count of correct measurements from an IBM quantum computer significantly exceeded that of incorrect measurements. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# LLM生成コード:コード書き換えによるゼロショット合成コード検出器
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting ( http://arxiv.org/abs/2405.16133v1 ) ライセンス: Link先を確認 | Tong Ye, Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji, Wenhai Wang, | (参考訳) LLM(Large Language Models)は、コード生成に優れた能力を発揮している。
しかし、LLM生成(合成)コードの誤用は、教育分野と産業分野の両方で懸念を引き起こしており、合成コード検出器の開発に必須の必要性が浮かび上がっている。
LLM生成されたコンテンツを検出する既存の方法は、主に一般的なテキスト用に調整されており、プログラミング言語の文法的構造や巨大な"低エントロピー"トークンのために、しばしばコードの内容に苦しむ。
そこで本研究では,コードと書き換え版との類似性に基づくゼロショット合成符号検出手法を提案する。
本手法は,LLM書き直し符号と原符号との差が,原符号が合成されたときに小さくなる傾向にあるという直感に依存する。
自己教師付きコントラスト学習を用いて、コード類似性を訓練し、2つの合成コード検出ベンチマークでアプローチを評価する。
以上の結果から,APPSベンチマークでは20.5%,MBPPベンチマークでは29.1%の改善が得られた。
Large Language Models (LLMs) have exhibited remarkable proficiency in generating code. However, the misuse of LLM-generated (Synthetic) code has prompted concerns within both educational and industrial domains, highlighting the imperative need for the development of synthetic code detectors. Existing methods for detecting LLM-generated content are primarily tailored for general text and often struggle with code content due to the distinct grammatical structure of programming languages and massive "low-entropy" tokens. Building upon this, our work proposes a novel zero-shot synthetic code detector based on the similarity between the code and its rewritten variants. Our method relies on the intuition that the differences between the LLM-rewritten and original codes tend to be smaller when the original code is synthetic. We utilize self-supervised contrastive learning to train a code similarity model and assess our approach on two synthetic code detection benchmarks. Our results demonstrate a notable enhancement over existing synthetic content detectors designed for general texts, with an improvement of 20.5% in the APPS benchmark and 29.1% in the MBPP benchmark. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 再活性化攻撃によるバックドアディフェンスのセキュリティ感覚の破壊
Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack ( http://arxiv.org/abs/2405.16134v1 ) ライセンス: Link先を確認 | Mingli Zhu, Siyuan Liang, Baoyuan Wu, | (参考訳) ディープニューラルネットワークは、バックドア攻撃に対する防御において永続的な課題に直面しており、攻撃と防御の間の戦いが進行中である。
既存のバックドア防衛戦略は、攻撃の成功率を下げるという有望な実績を示しているが、バックドアの脅威がモデルから真に排除されたと自信を持って主張できるだろうか?
そこで本研究では,防衛後のバックドアモデルの特徴を再検討する(防衛モデルとして記述する)。
意外なことに、既存の訓練後防衛戦略から派生した防衛モデルには、元のバックドアが依然として存在し、バックドアの存在率は、バックドアの存在係数と呼ばれる新しい指標によって測定される。
つまり、バックドアは取り除かれるのではなく休眠状態にあるということだ。
この発見をさらに検証するために、我々は、これらの休眠バックドアが推論中に容易に再活性化できることを実証的に示す。
より実践的に、我々はバックドアの再活性化をブラックボックスのシナリオに拡張し、このシナリオではディフェンスモデルは推論中に相手にのみ問い合わせることができ、クエリベースとトランスファーベースのバックドア再活性化攻撃という2つの効果的な方法を開発した。
提案手法の有効性を画像分類とマルチモーダルコントラスト学習(CLIP)の両課題で検証した。
結論として、この研究は既存の防衛戦略で調査されたことのない重大な脆弱性を明らかにし、より堅牢で先進的なバックドア防衛機構を設計する緊急性を強調した。
Deep neural networks face persistent challenges in defending against backdoor attacks, leading to an ongoing battle between attacks and defenses. While existing backdoor defense strategies have shown promising performance on reducing attack success rates, can we confidently claim that the backdoor threat has truly been eliminated from the model? To address it, we re-investigate the characteristics of the backdoored models after defense (denoted as defense models). Surprisingly, we find that the original backdoors still exist in defense models derived from existing post-training defense strategies, and the backdoor existence is measured by a novel metric called backdoor existence coefficient. It implies that the backdoors just lie dormant rather than being eliminated. To further verify this finding, we empirically show that these dormant backdoors can be easily re-activated during inference, by manipulating the original trigger with well-designed tiny perturbation using universal adversarial attack. More practically, we extend our backdoor reactivation to black-box scenario, where the defense model can only be queried by the adversary during inference, and develop two effective methods, i.e., query-based and transfer-based backdoor re-activation attacks. The effectiveness of the proposed methods are verified on both image classification and multimodal contrastive learning (i.e., CLIP) tasks. In conclusion, this work uncovers a critical vulnerability that has never been explored in existing defense strategies, emphasizing the urgency of designing more robust and advanced backdoor defense mechanisms in the future. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# C3LLM:大規模言語モデルを用いた条件付きマルチモーダルコンテンツ生成
C3LLM: Conditional Multimodal Content Generation Using Large Language Models ( http://arxiv.org/abs/2405.16136v1 ) ライセンス: Link先を確認 | Zixuan Wang, Qinkai Duan, Yu-Wing Tai, Chi-Keung Tang, | (参考訳) 本稿では,C3LLM(Conditioned-on-Three-Modalities Large Language Models)を紹介する。
C3LLMは、異なるモダリティを整合させ、与えられた条件情報を合成し、個別にマルチモーダル生成するブリッジとして、Large Language Model (LLM) 構造を適用する。
私たちの貢献は以下の通りです。
まず,事前学習したオーディオコードブックを用いた音声生成タスクに階層構造を適用する。
具体的には、所定条件から音声意味トークンを生成するためにLLMを訓練し、さらに非自己回帰変換器を用いて異なるレベルの音響トークンを層内に生成し、生成した音声の忠実度を向上する。
第二に、LLMはもともと次の単語予測法で個別のタスク用に設計されていたという直感に基づいて、音声生成に離散表現を使用し、LLMに「音響語彙」を追加するのと同様、意味を音響トークンに圧縮する。
第3に,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに組み合わせることで,エンドツーエンドでより汎用性を実現する。
我々のC3LLMは、様々な自動評価指標によって改善された結果を実現し、従来の手法よりもセマンティックアライメントが優れている。
We introduce C3LLM (Conditioned-on-Three-Modalities Large Language Models), a novel framework combining three tasks of video-to-audio, audio-to-text, and text-to-audio together. C3LLM adapts the Large Language Model (LLM) structure as a bridge for aligning different modalities, synthesizing the given conditional information, and making multimodal generation in a discrete manner. Our contributions are as follows. First, we adapt a hierarchical structure for audio generation tasks with pre-trained audio codebooks. Specifically, we train the LLM to generate audio semantic tokens from the given conditions, and further use a non-autoregressive transformer to generate different levels of acoustic tokens in layers to better enhance the fidelity of the generated audio. Second, based on the intuition that LLMs were originally designed for discrete tasks with the next-word prediction method, we use the discrete representation for audio generation and compress their semantic meanings into acoustic tokens, similar to adding "acoustic vocabulary" to LLM. Third, our method combines the previous tasks of audio understanding, video-to-audio generation, and text-to-audio generation together into one unified model, providing more versatility in an end-to-end fashion. Our C3LLM achieves improved results through various automated evaluation metrics, providing better semantic alignment compared to previous methods. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 摂動三重項をもつ正規化内部縮小多重参照結合クラスタ
Renormalized Internally-Contracted Multireference Coupled Cluster with Perturbative Triples ( http://arxiv.org/abs/2405.16139v1 ) ライセンス: Link先を確認 | Robin Feldmann, Markus Reiher, | (参考訳) 本研究では, 内部収縮型マルチ参照結合クラスタ (ic-MRCC) 法と, 駆動類似性再正規化群 (DSRG) のマルチ参照定式化を併用する。
DSRG法は単元的多重参照結合クラスタ理論とみなすことができ、流れ方程式のアプローチに基づいて振幅を再正規化し、数値不安定性を排除している。
我々は、単位流方程式アプローチが非単位変換に適応できることを示し、IC-MRCC振幅の再正規化を合理化することによって、このアプローチを拡張した。
今回,新しいアプローチとして ic-MRCC (ric-MRCC) 法を提案する。
妥当な計算コストで高い精度を達成するために,ベーカー・カンベル・ハウスドルフ展開に対する新しい近似を導入する。
二次可換器を近似しながら線形可換器を十分に検討し、アクティブな指数を持つ振幅を含む特定の収縮を無視する。
さらに, ric-MRCCSD[T]法を得るために, 近似摂動三重項を導入する。
我々は,H8,F2,H2O,N2,Cr2のポテンシャルエネルギー曲線に対する高度な多重参照法と比較して,我々のアプローチの精度を実証する。
さらに、 ric-MRCCSD と ric-MRCSSD[T] は、分光定数を評価するためのCCSD(T) の精度と、小さな分子の集合に対する完全な構成相互作用エネルギーとを一致させることを示した。
In this work, we combine the many-body formulation of the internally contracted multireference coupled cluster (ic-MRCC) method with Evangelista's multireference formulation of the driven similarity renormalization group (DSRG). The DSRG method can be viewed as a unitary multireference coupled cluster theory, which renormalizes the amplitudes based on a flow equation approach to eliminate numerical instabilities. We extend this approach by demonstrating that the unitary flow equation approach can be adapted for nonunitary transformations, rationalizing the renormalization of ic-MRCC amplitudes. We denote the new approach, the renormalized ic-MRCC (ric-MRCC) method. To achieve high accuracy with a reasonable computational cost, we introduce a new approximation to the Baker-Campbell-Hausdorff expansion. We fully consider the linear commutator while approximating the quadratic commutator, for which we neglect specific contractions involving amplitudes with active indices. Moreover, we introduce approximate perturbative triples to obtain the ric-MRCCSD[T] method. We demonstrate the accuracy of our approaches in comparison to advanced multireference methods for the potential energy curves of H8, F2, H2O, N2, and Cr2. Additionally, we show that ric-MRCCSD and ric-MRCSSD[T] match the accuracy of CCSD(T) for evaluating spectroscopic constants and of full configuration interaction energies for a set of small molecules. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# AIGB:拡散モデリングによる生成的自動入札
AIGB: Generative Auto-bidding via Diffusion Modeling ( http://arxiv.org/abs/2405.16141v1 ) ライセンス: Link先を確認 | Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng, | (参考訳) 自動入札は、広告主に自動入札を提供することによって、オンライン広告を促進する上で重要な役割を担っている。
強化学習(RL)は自動入札で人気を集めている。
しかし、現在のRL自動入札法のほとんどはマルコフ状態遷移を前提としたマルコフ決定過程(MDP)によってモデル化されている。
この仮定は、長い地平線シナリオで実行できることを制限し、高度にランダムなオンライン広告環境を扱う際にモデルを不安定にする。
本稿では,AIGB(AI-Generated Bidding)を提案する。
このパラダイムでは、入札生成のための条件付き拡散モデルであるDiffBidを提案する。
DiffBidはリターンとトラジェクトリ全体の相関を直接モデル化し、長い地平線におけるタイムステップ間のエラー伝播を効果的に回避する。
さらにDiffBidは、特定の制約に固執しながら、与えられた目標を最大化するトラジェクトリを生成するための汎用的なアプローチを提供する。
Alibabaの広告プラットフォーム上での実際のデータセットとオンラインA/Bテストで実施された大規模な実験は、DiffBidの有効性を示し、GMVが2.81%、ROIが3.36%増加した。
Auto-bidding plays a crucial role in facilitating online advertising by automatically providing bids for advertisers. Reinforcement learning (RL) has gained popularity for auto-bidding. However, most current RL auto-bidding methods are modeled through the Markovian Decision Process (MDP), which assumes the Markovian state transition. This assumption restricts the ability to perform in long horizon scenarios and makes the model unstable when dealing with highly random online advertising environments. To tackle this issue, this paper introduces AI-Generated Bidding (AIGB), a novel paradigm for auto-bidding through generative modeling. In this paradigm, we propose DiffBid, a conditional diffusion modeling approach for bid generation. DiffBid directly models the correlation between the return and the entire trajectory, effectively avoiding error propagation across time steps in long horizons. Additionally, DiffBid offers a versatile approach for generating trajectories that maximize given targets while adhering to specific constraints. Extensive experiments conducted on the real-world dataset and online A/B test on Alibaba advertising platform demonstrate the effectiveness of DiffBid, achieving 2.81% increase in GMV and 3.36% increase in ROI. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# GreenCOD:グリーンカモフラージュされた物体検出方法
GreenCOD: A Green Camouflaged Object Detection Method ( http://arxiv.org/abs/2405.16144v1 ) ライセンス: Link先を確認 | Hong-Shuo Chen, Yao Zhu, Suya You, Azad M. Madni, C. -C. Jay Kuo, | (参考訳) 本研究は, 後方伝播の回避に際し, カモフラージュした物体を検出するグリーンメソッドであるGreenCODを紹介する。
GreenCODは、事前訓練されたDeep Neural Networks(DNN)から抽出された勾配の強化と深い特徴を活用する。
従来のカモフラージュオブジェクト検出(COD)アプローチは複雑なディープニューラルネットワークアーキテクチャに依存し、バックプロパゲーションベースの微調整によるパフォーマンス改善を求めることが多い。
しかし、そのような手法は典型的には計算的に要求され、異なるモデルにまたがる限界性能の変化しか示さない。
これにより、バックプロパゲーションなしで効果的なトレーニングが達成できるかどうかという疑問が持ち上がる。
そこで本研究では,CODの勾配向上を利用した新しいパラダイムを提案する。
このアプローチはモデル設計を大幅に単純化し、結果としてパラメータや操作を少なくし、最先端のディープラーニングモデルと比較して高いパフォーマンスを維持するシステムとなる。
注目すべきは、我々のモデルはバックプロパゲーションなしで訓練され、20G乗算演算(MAC)未満で最高の性能を達成することである。
この新しいより効率的なパラダイムは、グリーンでバックプロパゲーションのないモデルトレーニングにおけるさらなる探索の道を開く。
We introduce GreenCOD, a green method for detecting camouflaged objects, distinct in its avoidance of backpropagation techniques. GreenCOD leverages gradient boosting and deep features extracted from pre-trained Deep Neural Networks (DNNs). Traditional camouflaged object detection (COD) approaches often rely on complex deep neural network architectures, seeking performance improvements through backpropagation-based fine-tuning. However, such methods are typically computationally demanding and exhibit only marginal performance variations across different models. This raises the question of whether effective training can be achieved without backpropagation. Addressing this, our work proposes a new paradigm that utilizes gradient boosting for COD. This approach significantly simplifies the model design, resulting in a system that requires fewer parameters and operations and maintains high performance compared to state-of-the-art deep learning models. Remarkably, our models are trained without backpropagation and achieve the best performance with fewer than 20G Multiply-Accumulate Operations (MACs). This new, more efficient paradigm opens avenues for further exploration in green, backpropagation-free model training. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# Dual-Adapter:Few-shot Out-of-Distribution Detectionのためのトレーニング不要なDual Adaptation
Dual-Adapter: Training-free Dual Adaptation for Few-shot Out-of-Distribution Detection ( http://arxiv.org/abs/2405.16146v1 ) ライセンス: Link先を確認 | Xinyi Chen, Yaohui Li, Haoxing Chen, | (参考訳) 提案手法は,数個のドメイン内サンプルをラベル付けしただけで,未知のカテゴリからOODサンプルを検出することを目的として,数発のアウト・オブ・ディストリビューション(OOD)検出の問題について検討する。
既存の手法は主にOOD検出のためのタスク認識プロンプトの訓練に重点を置いている。
しかし、少数ショットデータのトレーニングは過度なオーバーフィッティングを引き起こす可能性があり、テキストによるプロンプトだけでは効果的な検出には不十分である。
これらの問題に対処するために、テキストと視覚の両方の観点からOODサンプルを検出する事前学習自由度適応法(Dual-Adapter)を提案する。
具体的には、Dual-Adapterはまず、最も重要なチャネルを肯定的な特徴として抽出し、残りの非関連チャネルを否定的な特徴として指定する。
そして、デュアルパースペクティブから正のアダプタと負のアダプタの両方を構築し、トレーニングデータセットでこれまで見てきた機能や干渉機能をよりよく活用する。
このように、Dual-AdapterはCLIPの利点を継承することができる。
4つのベンチマークデータセットの大規模な実験結果は、Dual-Adapterの優位性を示している。
We study the problem of few-shot out-of-distribution (OOD) detection, which aims to detect OOD samples from unseen categories during inference time with only a few labeled in-domain (ID) samples. Existing methods mainly focus on training task-aware prompts for OOD detection. However, training on few-shot data may cause severe overfitting and textual prompts alone may not be enough for effective detection. To tackle these problems, we propose a prior-based Training-free Dual Adaptation method (Dual-Adapter) to detect OOD samples from both textual and visual perspectives. Specifically, Dual-Adapter first extracts the most significant channels as positive features and designates the remaining less relevant channels as negative features. Then, it constructs both a positive adapter and a negative adapter from a dual perspective, thereby better leveraging previously outlooked or interfering features in the training dataset. In this way, Dual-Adapter can inherit the advantages of CLIP not having to train, but also excels in distinguishing between ID and OOD samples. Extensive experimental results on four benchmark datasets demonstrate the superiority of Dual-Adapter. | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# スペクトル保存トケマージによる変圧器の高速化
Accelerating Transformers with Spectrum-Preserving Token Merging ( http://arxiv.org/abs/2405.16148v1 ) ライセンス: Link先を確認 | Hoai-Chau Tran, Duy M. H. Nguyen, Duy M. Nguyen, Trung-Tin Nguyen, Ngan Le, Pengtao Xie, Daniel Sonntag, James Y. Zou, Binh T. Nguyen, Mathias Niepert, | (参考訳) Transformerアーキテクチャのスループットの向上は、ビジョンや言語タスク(例えば、GPT、LLaVa)の最先端モデルで使用される基礎的なコンポーネントであり、機械学習において重要な問題である。
最近の効果的な戦略の1つはTransformerモデル内でトークン表現をマージすることであり、精度を維持しながら計算とメモリの要求を減らすことを目的としている。
BSM(Bipartite Soft Matching)は、トークンを異なる集合に分割し、トップkに似たトークンをマージするアルゴリズムである。
しかし、これらの手法にはトークン分割戦略に対する感受性や、後続の層における情報トークンに対するダメージなど、大きな欠点がある。
本稿では,エネルギースコアと呼ばれる付加指標を用いて情報トークンの保存を優先する,PiToMeという新しいパラダイムを提案する。
このスコアは、類似のトークンの大規模なクラスタを高エネルギーとして識別し、マージの潜在的な候補を示す一方、より小さな(一意で孤立した)クラスタは低エネルギーと見なされ保存される。
実験の結果,PiToMeはベースモデルの40~60倍のFLOPから保存され,VT-MAE-Hの平均性能低下は2.6倍のベースライン,画像テキスト検索(4.5倍のFlickr30kでのCLIPの平均性能低下),LLaVa-7Bでの視覚的質問に類似していることがわかった。
さらに、PiToMeは理論上、温和な条件下で元のトークン空間の固有のスペクトル特性を保存することが示されている。
Increasing the throughput of the Transformer architecture, a foundational component used in numerous state-of-the-art models for vision and language tasks (e.g., GPT, LLaVa), is an important problem in machine learning. One recent and effective strategy is to merge token representations within Transformer models, aiming to reduce computational and memory requirements while maintaining accuracy. Prior works have proposed algorithms based on Bipartite Soft Matching (BSM), which divides tokens into distinct sets and merges the top k similar tokens. However, these methods have significant drawbacks, such as sensitivity to token-splitting strategies and damage to informative tokens in later layers. This paper presents a novel paradigm called PiToMe, which prioritizes the preservation of informative tokens using an additional metric termed the energy score. This score identifies large clusters of similar tokens as high-energy, indicating potential candidates for merging, while smaller (unique and isolated) clusters are considered as low-energy and preserved. Experimental findings demonstrate that PiToMe saved from 40-60\% FLOPs of the base models while exhibiting superior off-the-shelf performance on image classification (0.5\% average performance drop of ViT-MAE-H compared to 2.6\% as baselines), image-text retrieval (0.3\% average performance drop of CLIP on Flickr30k compared to 4.5\% as others), and analogously in visual questions answering with LLaVa-7B. Furthermore, PiToMe is theoretically shown to preserve intrinsic spectral properties of the original token space under mild conditions | 翻訳日:2024-05-29 00:50:39 公開日:2024-05-25 |
# 大規模言語モデルを用いた5W1H抽出
5W1H Extraction With Large Language Models ( http://arxiv.org/abs/2405.16150v1 ) ライセンス: Link先を確認 | Yang Cao, Yangsong Lan, Feiyan Zhai, Piji Li, | (参考訳) 5W1Hフレームワーク(\textit{What}, \textit{When}, \textit{Where}, \textit{Why}, \textit{Who}, \textit{How})による必須ニュース要素の抽出は、イベント抽出とテキスト要約に不可欠である。
ChatGPTのような大規模言語モデル(LLM)の出現は、多くの時間で微調整モデルなしで単純なプロンプトを通じて言語関連のタスクに対処する機会を提供する。
ChatGPTは、長いニューステキストの処理やコンテキスト内の特定の属性の分析、特に \textit{What}, \textit{Why}, \textit{How} に関する質問に答える際の課題に直面している。
抽出タスクの有効性は、高品質な人間の注釈付きデータセットに依存している。
しかし、5W1H抽出のためのそのようなデータセットが存在しないと、オープンソースのLCMに基づく微調整戦略の難しさが増す。
まず,4つの典型的なニュースコーパス(\textit{CNN/DailyMail}, \textit{XSum}, \textit{NYT}, \textit{RA-MDS})に基づいて,高品質な5W1Hデータセットをアノテートする。
実験の結果,ラベル付きデータセット上での微調整モデルの性能はChatGPTよりも優れていた。
さらに,5W1H抽出のタスクに対して,対象ドメインコーパス(eg CNN/DailyMail)のソースドメイン(eg NYT)モデルをテストすることで,ドメイン適応性についても検討する。
The extraction of essential news elements through the 5W1H framework (\textit{What}, \textit{When}, \textit{Where}, \textit{Why}, \textit{Who}, and \textit{How}) is critical for event extraction and text summarization. The advent of Large language models (LLMs) such as ChatGPT presents an opportunity to address language-related tasks through simple prompts without fine-tuning models with much time. While ChatGPT has encountered challenges in processing longer news texts and analyzing specific attributes in context, especially answering questions about \textit{What}, \textit{Why}, and \textit{How}. The effectiveness of extraction tasks is notably dependent on high-quality human-annotated datasets. However, the absence of such datasets for the 5W1H extraction increases the difficulty of fine-tuning strategies based on open-source LLMs. To address these limitations, first, we annotate a high-quality 5W1H dataset based on four typical news corpora (\textit{CNN/DailyMail}, \textit{XSum}, \textit{NYT}, \textit{RA-MDS}); second, we design several strategies from zero-shot/few-shot prompting to efficient fine-tuning to conduct 5W1H aspects extraction from the original news documents. The experimental results demonstrate that the performance of the fine-tuned models on our labelled dataset is superior to the performance of ChatGPT. Furthermore, we also explore the domain adaptation capability by testing the source-domain (e.g. NYT) models on the target domain corpus (e.g. CNN/DailyMail) for the task of 5W1H extraction. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# SuDA:フレキシブルセンサを用いたSim2Realモーションキャプチャのためのサポートベースドメイン適応
SuDA: Support-based Domain Adaptation for Sim2Real Motion Capture with Flexible Sensors ( http://arxiv.org/abs/2405.16152v1 ) ライセンス: Link先を確認 | Jiawei Fang, Haishan Song, Chengxu Zuo, Xiaoxia Gao, Xiaowei Chen, Shihui Guo, Yipeng Qin, | (参考訳) フレキシブルセンサーは人間のモーションキャプチャ(MoCap)を約束しており、着用性、プライバシー保護、自然運動に対する最小限の制約といった利点を提供する。
しかし、既存の柔軟なセンサーベースのMoCapメソッドはディープラーニングに依存し、トレーニングには大規模で多様なラベル付きデータセットを必要とする。
これらのデータは、通常、特別な機器とかなりの手作業でMoCapスタジオで収集する必要があるため、大規模に入手することは困難で費用がかかる。
フレキシブルセンサーの高直線性のおかげで、ドメイン適応に基づいた新しいSim2Real Mocapソリューションを提案し、ラベル付きデータの必要性を排除し、教師付き学習に匹敵する精度を実現することで、この問題に対処する。
我々のソリューションは、ソースとターゲットドメイン間のインスタンス依存分布ではなく、予測関数のサポートを整列する、新しいサポートベースのドメイン適応法、すなわちSuDAに依存しています。
提案手法の有効性を実証し,本課題における現状分布に基づくドメイン適応手法よりも優れていることを示す。
Flexible sensors hold promise for human motion capture (MoCap), offering advantages such as wearability, privacy preservation, and minimal constraints on natural movement. However, existing flexible sensor-based MoCap methods rely on deep learning and necessitate large and diverse labeled datasets for training. These data typically need to be collected in MoCap studios with specialized equipment and substantial manual labor, making them difficult and expensive to obtain at scale. Thanks to the high-linearity of flexible sensors, we address this challenge by proposing a novel Sim2Real Mocap solution based on domain adaptation, eliminating the need for labeled data yet achieving comparable accuracy to supervised learning. Our solution relies on a novel Support-based Domain Adaptation method, namely SuDA, which aligns the supports of the predictive functions rather than the instance-dependent distributions between the source and target domains. Extensive experimental results demonstrate the effectiveness of our method andits superiority over state-of-the-art distribution-based domain adaptation methods in our task. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# DefSent+:無限辞書エントリの準等方的あるいは等方的ベクトル空間に定義文を投影することで言語モデルの文埋め込みを改善する
DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries ( http://arxiv.org/abs/2405.16153v1 ) ライセンス: Link先を確認 | Xiaodong Liu, | (参考訳) 本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。
前回の研究では、定義文を辞書エントリのベクトル空間に投影することで、言語モデルの文埋め込みを改善することを目的としている。
言語モデルの単語埋め込みによる辞書エントリ表現の方法論的制限により,本手法は十分に検討されていないことが判明した。
これは2つの障害に繋がる。
まず、辞書のエントリは単一の単語の語彙によって制約されるため、完全には利用できない。
第二に、言語モデルのセマンティック表現は異方性であることが知られているが、トレーニング中にその重みが凍結され、予測層に結びついているため、DefSentの事前処理ワード埋め込みは許されない。
本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。
その結果、定義文を無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影することができ、顕著に優れた品質の文埋め込みを実現することができる。
私たちはアプローチをDefSent+(DefSentのプラスバージョン)と略しています。
1) 文類似度の測定におけるタスク性能は、DefSentよりも大幅に向上する。
2)DefSent+を使用してSIMCSEやSNCSEのようなデータ拡張モデルのトレーニングを行う場合,手動でラベル付けしたデータセットを使わずに,文の類似性を計測するための最先端のパフォーマンスを実現することができる。
3)DefSent+はNLPダウンストリームタスクの機能ベースの転送でも競合する。
This paper presents a significant improvement on the previous conference paper known as DefSent. The prior study seeks to improve sentence embeddings of language models by projecting definition sentences into the vector space of dictionary entries. We discover that this approach is not fully explored due to the methodological limitation of using word embeddings of language models to represent dictionary entries. This leads to two hindrances. First, dictionary entries are constrained by the single-word vocabulary, and thus cannot be fully exploited. Second, semantic representations of language models are known to be anisotropic, but pre-processing word embeddings for DefSent is not allowed because its weight is frozen during training and tied to the prediction layer. In this paper, we propose a novel method to progressively build entry embeddings not subject to the limitations. As a result, definition sentences can be projected into a quasi-isotropic or isotropic vector space of unlimited dictionary entries, so that sentence embeddings of noticeably better quality are attainable. We abbreviate our approach as DefSent+ (a plus version of DefSent), involving the following strengths: 1) the task performance on measuring sentence similarities is significantly improved compared to DefSent; 2) when DefSent+ is used to further train data-augmented models like SIMCSE and SNCSE, state-of-the-art performance on measuring sentence similarities can be achieved among the approaches without using manually labeled datasets; 3) DefSent+ is also competitive in feature-based transfer for NLP downstream tasks. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# ソフトコントラスト学習による多言語アライメントの改善
Improving Multi-lingual Alignment Through Soft Contrastive Learning ( http://arxiv.org/abs/2405.16155v1 ) ライセンス: Link先を確認 | Minsu Park, Seyeon Choi, Chanyeol Choi, Jun-Seong Kim, Jy-yong Sohn, | (参考訳) 適切な多言語文表現を作ることは、言語間下流タスクで高いパフォーマンスを達成するために重要である。
本研究では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
本手法は,文間の類似性として定義されたソフトラベルを用いたコントラスト学習とみなすことができる。
5つの言語に対する実験結果から,ソフトラベルとの対比損失は,bitextマイニングタスクやSTSタスクのベンチマークにおいて,従来のハードラベルとの対比損失よりもはるかに優れていたことが明らかとなった。
さらに,本手法は,Tatoebaデータセットに対するLaBSEを含む既存の多言語埋め込みよりも優れていた。
コードはhttps://github.com/YAI12xLinq-B/IMASCLで公開されている。
Making decent multi-lingual sentence representations is critical to achieve high performances in cross-lingual downstream tasks. In this work, we propose a novel method to align multi-lingual embeddings based on the similarity of sentences measured by a pre-trained mono-lingual embedding model. Given translation sentence pairs, we train a multi-lingual model in a way that the similarity between cross-lingual embeddings follows the similarity of sentences measured at the mono-lingual teacher model. Our method can be considered as contrastive learning with soft labels defined as the similarity between sentences. Our experimental results on five languages show that our contrastive loss with soft labels far outperforms conventional contrastive loss with hard labels in various benchmarks for bitext mining tasks and STS tasks. In addition, our method outperforms existing multi-lingual embeddings including LaBSE, for Tatoeba dataset. The code is available at https://github.com/ YAI12xLinq-B/IMASCL | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# タブラルPFN用インコンテクストプロンプタの混合
Mixture of In-Context Prompters for Tabular PFNs ( http://arxiv.org/abs/2405.16156v1 ) ライセンス: Link先を確認 | Derek Xu, Olcay Cirit, Reza Asadi, Yizhou Sun, Wei Wang, | (参考訳) 最近のベンチマークでは、ICL(In-Context Learning)は、小さな表のデータセット上で、ディープラーニングとツリーベースのアルゴリズムの両方より優れています。
しかし、より大きなデータセットでは、グラフ学習のためのICLは、その二次空間とデータセットサイズに時間的複雑さがあるため、パフォーマンスを著しく損なうことなく実行できない。
提案するMIXTUREPFNは,近距離サンプリングを表型学習モデルのための最先端のICLに拡張し,ブートストラップを用いて推論時データセット上でそのモデルを微調整する。
MIXTUREPFNは、19の強いディープラーニングとツリーベースのベースラインに対して36の多様な表層データセットをまたいだCondorcetの勝者であり、上記のTop-10アルゴリズムの中で、統計的に有意な最高ランクを達成している。
Recent benchmarks found In-Context Learning (ICL) outperforms both deep learning and tree-based algorithms on small tabular datasets. However, on larger datasets, ICL for tabular learning cannot run without severely compromising performance, due to its quadratic space and time complexity w.r.t. dataset size. We propose MIXTUREPFN, which both extends nearest-neighbor sampling to the state-of-the-art ICL for tabular learning model and uses bootstrapping to finetune said model on the inference-time dataset. MIXTUREPFN is the Condorcet winner across 36 diverse tabular datasets against 19 strong deep learning and tree-based baselines, achieving the highest mean rank among Top-10 aforementioned algorithms with statistical significance. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 大規模、正規化、最適化: 計算とサンプル効率の連続制御のためのスケーリング
Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control ( http://arxiv.org/abs/2405.16158v1 ) ライセンス: Link先を確認 | Michal Nauman, Mateusz Ostaszewski, Krzysztof Jankowski, Piotr Miłoś, Marek Cygan, | (参考訳) 強化学習(RL)のサンプル効率は、伝統的にアルゴリズムの強化によって駆動されてきた。
この研究では、スケーリングが大幅な改善につながることも示しています。
スケーリングモデルキャパシティとドメイン固有のRL拡張の相互作用を徹底的に調査する。
これらの実験結果から,提案したBRO(Bigger, Regularized, Optimistic)アルゴリズムの設計選択が示唆された。
BROの背後にある重要な革新は、強い正規化によって、楽観的な探索と組み合わせて優れたパフォーマンスをもたらす、批評家ネットワークの効果的なスケーリングが可能になることである。
BROは最先端の結果を達成し、DeepMind Control、MetaWorld、MyoSuiteベンチマークの40の複雑なタスクにおいて、主要なモデルベースおよびモデルフリーのアルゴリズムを著しく上回っている。
BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
Sample efficiency in Reinforcement Learning (RL) has traditionally been driven by algorithmic enhancements. In this work, we demonstrate that scaling can also lead to substantial improvements. We conduct a thorough investigation into the interplay of scaling model capacity and domain-specific RL enhancements. These empirical findings inform the design choices underlying our proposed BRO (Bigger, Regularized, Optimistic) algorithm. The key innovation behind BRO is that strong regularization allows for effective scaling of the critic networks, which, paired with optimistic exploration, leads to superior performance. BRO achieves state-of-the-art results, significantly outperforming the leading model-based and model-free algorithms across 40 complex tasks from the DeepMind Control, MetaWorld, and MyoSuite benchmarks. BRO is the first model-free algorithm to achieve near-optimal policies in the notoriously challenging Dog and Humanoid tasks. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 科学的機械学習のための宣言型クエリ言語
A Declarative Query Language for Scientific Machine Learning ( http://arxiv.org/abs/2405.16159v1 ) ライセンス: Link先を確認 | Hasan M Jamil, | (参考訳) 分野としてのデータサイエンスの人気と、新興経済と産業の進歩におけるその重要性は、機械学習を大衆のために民主化することを規定している。
これはまた、低レベルの統計的およびアルゴリズム的な詳細を必要とする機械学習ツールを使用した現在の労働トレーニングが、対処すべき障壁であることを意味している。
SQLのようなデータ管理言語と同様に、マシンラーニングは一般的なユーザにとって必須のツールになるためには、概念レベルで実践する必要がある。
特に、既存の機械学習フレームワークが要求する技術的洗練は、計算に精通していない、あるいは機械学習技術に精通していない多くの科学者にとって禁止されている。
必要な機械学習ツールを使用するための学習曲線も高すぎて、これらの強力なプラットフォームを利用して科学を急速に進歩させるには至らなかった。
本稿では,ナイーブユーザのための新しい宣言型機械学習クエリ言語 {\em MQL}を紹介する。
従来のリレーショナルデータベースシステム上で実装するメリットと可能性について論じる。
本稿では,MQLを用いた2つの材料科学実験について論じる。
The popularity of data science as a discipline and its importance in the emerging economy and industrial progress dictate that machine learning be democratized for the masses. This also means that the current practice of workforce training using machine learning tools, which requires low-level statistical and algorithmic details, is a barrier that needs to be addressed. Similar to data management languages such as SQL, machine learning needs to be practiced at a conceptual level to help make it a staple tool for general users. In particular, the technical sophistication demanded by existing machine learning frameworks is prohibitive for many scientists who are not computationally savvy or well versed in machine learning techniques. The learning curve to use the needed machine learning tools is also too high for them to take advantage of these powerful platforms to rapidly advance science. In this paper, we introduce a new declarative machine learning query language, called {\em MQL}, for naive users. We discuss its merit and possible ways of implementing it over a traditional relational database system. We discuss two materials science experiments implemented using MQL on a materials science workflow system called MatFlow. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 電力グリッド時系列測定における異常と変化点検出の組み合わせによる負荷推定精度の向上
Acquiring Better Load Estimates by Combining Anomaly and Change-point Detection in Power Grid Time-series Measurements ( http://arxiv.org/abs/2405.16164v1 ) ライセンス: Link先を確認 | Roel Bouman, Linda Schmeitz, Luco Buise, Jacco Heres, Yuliya Shapovalova, Tom heskes, | (参考訳) 本稿では,電力系統における負荷推定を改善するために,自動異常および切替イベントフィルタリングのための新しい手法を提案する。
教師なしの手法を教師なしの最適化で活用することにより、本手法は、教師なしデータに対する堅牢で一般化可能な性能を確保しつつ、解釈可能性を向上させる。
実験を通じて、変化点検出のためのバイナリセグメンテーションと異常検出のための統計的プロセス制御の組み合わせが最も効果的な戦略として現れる。
その結果, 濾過が適用されない場合に, 洗浄電位が明らかになることが示唆された。
自動負荷推定もかなり正確で、約90%の見積もりが10%のエラーマージン以内に落ち、テストセット内の60の計測で最小値と最大値の両方で1つの大きな障害しか発生しない。
提案手法の解釈可能性により,重要なインフラ計画に特に適し,意思決定プロセスの強化が図られる。
In this paper we present novel methodology for automatic anomaly and switch event filtering to improve load estimation in power grid systems. By leveraging unsupervised methods with supervised optimization, our approach prioritizes interpretability while ensuring robust and generalizable performance on unseen data. Through experimentation, a combination of binary segmentation for change point detection and statistical process control for anomaly detection emerges as the most effective strategy, specifically when ensembled in a novel sequential manner. Results indicate the clear wasted potential when filtering is not applied. The automatic load estimation is also fairly accurate, with approximately 90% of estimates falling within a 10% error margin, with only a single significant failure in both the minimum and maximum load estimates across 60 measurements in the test set. Our methodology's interpretability makes it particularly suitable for critical infrastructure planning, thereby enhancing decision-making processes. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# デュエルバンドのためのマルチプレイヤーアプローチ
Multi-Player Approaches for Dueling Bandits ( http://arxiv.org/abs/2405.16168v1 ) ライセンス: Link先を確認 | Or Raveh, Junya Honda, Masashi Sugiyama, | (参考訳) 分散システムにおけるマルチアーマーブレイディットに対する様々なアプローチが出現している。
人間のフィードバックのような嗜好に基づく情報しか持たないシナリオに共通するマルチプレイヤー・デュエル・バンディット問題は、非形式的アームペアの協調探索の制御に関わる課題を提起するが、ほとんど注目されていない。
このギャップを埋めるために、Follow Your Leaderブラックボックスアプローチの直接使用は、既知のデュエルバンディットアルゴリズムを基礎として利用する場合に、この設定の下位境界と一致することを示す。
さらに,新しいコンドルチェット・ウィンナー・レコメンデーションプロトコルを用いてメッセージパッシング完全分散手法を解析し,高速な探索を行う。
実験の結果,我々のマルチプレイヤー・アルゴリズムはシングルプレイヤー・ベンチマーク・アルゴリズムを超越し,マルチプレイヤー・デュエル・バンディット・セッティングの難題に対処する上での有効性が示された。
Various approaches have emerged for multi-armed bandits in distributed systems. The multiplayer dueling bandit problem, common in scenarios with only preference-based information like human feedback, introduces challenges related to controlling collaborative exploration of non-informative arm pairs, but has received little attention. To fill this gap, we demonstrate that the direct use of a Follow Your Leader black-box approach matches the lower bound for this setting when utilizing known dueling bandit algorithms as a foundation. Additionally, we analyze a message-passing fully distributed approach with a novel Condorcet-winner recommendation protocol, resulting in expedited exploration in many cases. Our experimental comparisons reveal that our multiplayer algorithms surpass single-player benchmark algorithms, underscoring their efficacy in addressing the nuanced challenges of the multiplayer dueling bandit setting. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# Q重み付き変分ポリシー最適化による拡散型強化学習
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization ( http://arxiv.org/abs/2405.16173v1 ) ライセンス: Link先を確認 | Shutong Ding, Ke Hu, Zhenhao Zhang, Kan Ren, Weinan Zhang, Jingyi Yu, Jingya Wang, Ye Shi, | (参考訳) 拡散モデルは、強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
拡散ポリシの活用は,ガウスポリシなどの一元的ポリシの制限を克服し,探索能力の強化したエージェントを提供することで,連続制御タスクにおけるRLアルゴリズムの性能を著しく向上させることができることが確認されている。
しかし、既存の研究は主にオフラインRLにおける拡散ポリシーの適用に焦点を当てているが、オンラインRLへの組み入れは調査されていない。
拡散モデルのトレーニング目的は、変分下界として知られるもので、オンラインRLでは「良い」アクションが利用できないため、直接最適化できない。
これにより、拡散政策改善の実施が困難になる。
そこで本研究では,Q-weighted Variational Policy Optimization (QVPO) というモデルフリー拡散型オンラインRLアルゴリズムを提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
これらの条件を満たすため、一般的なシナリオに対してQ重変換関数を導入する。
さらに,拡散政策の探索能力を高めるために,特殊エントロピー正規化項を設計する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
その結果、QVPOアルゴリズムは拡散ポリシーの探索能力と多モード性を活用し、RLエージェントが準最適ポリシーに収束するのを防ぐ。
QVPOの有効性を検証するため,MuJoCoベンチマークの総合的な実験を行った。
最終結果は,QVPOが累積報酬と試料効率の両面において最先端の性能を達成することを示した。
Diffusion models have garnered widespread attention in Reinforcement Learning (RL) for their powerful expressiveness and multimodality. It has been verified that utilizing diffusion policies can significantly improve the performance of RL algorithms in continuous control tasks by overcoming the limitations of unimodal policies, such as Gaussian policies, and providing the agent with enhanced exploration capabilities. However, existing works mainly focus on the application of diffusion policies in offline RL, while their incorporation into online RL is less investigated. The training objective of the diffusion model, known as the variational lower bound, cannot be optimized directly in online RL due to the unavailability of 'good' actions. This leads to difficulties in conducting diffusion policy improvement. To overcome this, we propose a novel model-free diffusion-based online RL algorithm, Q-weighted Variational Policy Optimization (QVPO). Specifically, we introduce the Q-weighted variational loss, which can be proved to be a tight lower bound of the policy objective in online RL under certain conditions. To fulfill these conditions, the Q-weight transformation functions are introduced for general scenarios. Additionally, to further enhance the exploration capability of the diffusion policy, we design a special entropy regularization term. We also develop an efficient behavior policy to enhance sample efficiency by reducing the variance of the diffusion policy during online interactions. Consequently, the QVPO algorithm leverages the exploration capabilities and multimodality of diffusion policies, preventing the RL agent from converging to a sub-optimal policy. To verify the effectiveness of QVPO, we conduct comprehensive experiments on MuJoCo benchmarks. The final results demonstrate that QVPO achieves state-of-the-art performance on both cumulative reward and sample efficiency. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# データによるペトリネットのバイリーチ性
Bi-reachability in Petri nets with data ( http://arxiv.org/abs/2405.16176v1 ) ライセンス: Link先を確認 | Łukasz Kamiński, Sławomir Lasota, | (参考訳) 我々はペトリネットをデータで調べ、トークンが無限のデータ領域から値を運ぶ平らなペトリネットを拡張し、トランジションの実行性はデータ値間の等式によって条件付けられる。
ペトリネットとその2つの構成が与えられた場合、それぞれの構成が他方から到達可能かどうかを問う。
このことは、双到達性問題(英語版)がカバー可能性問題(決定可能であることが知られている)を仮定し、到達可能性問題(決定可能性のステータスが不明である)によって仮定されるため、決定可能性境界線を推し進める。
We investigate Petri nets with data, an extension of plain Petri nets where tokens carry values from an infinite data domain, and executability of transitions is conditioned by equalities between data values. We provide a decision procedure for the bi-reachability problem: given a Petri net and its two configurations, we ask if each of the configurations is reachable from the other. This pushes forward the decidability borderline, as the bi-reachability problem subsumes the coverability problem (which is known to be decidable) and is subsumed by the reachability problem (whose decidability status is unknown). | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# スパースコンテキスト選択による検索拡張生成の高速化
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection ( http://arxiv.org/abs/2405.16178v1 ) ライセンス: Link先を確認 | Yun Zhu, Jia-Chen Gu, Caitlin Sikora, Ho Ko, Yinxiao Liu, Chu-Cheng Lin, Lei Shu, Liangchen Luo, Lei Meng, Bang Liu, Jindong Chen, | (参考訳) 大きな言語モデル (LLM) は、検索によって強化され、外部コンテキストを組み込むことで、堅牢な性能と広範な汎用性を示す。
しかし、検索された文書数で入力長が線形に増加し、レイテンシが劇的に増加する。
本稿では,スパースRAG(Sparse RAG)という新しいパラダイムを提案する。
具体的には、Sparse RAGは、検索した文書を並列に符号化し、検索した文書の長距離の注意による遅延を取り除く。
次に、LLMは、特別な制御トークンでLLMをプロンプトすることで選択される、高度に関連性の高いキャッシュにのみ参加することで、出力を選択的にデコードする。
Sparse RAGは個々の文書の評価と応答の生成をひとつのプロセスにまとめている点が注目に値する。
設計されたRAGシステムにおけるスパース機構は、RAGシステムの推論を高速化するためにデコード時にロードされる文書の数を削減できる。
さらに、望ましくないコンテキストをフィルタリングすることで、モデルが関連するコンテキストに焦点を合わせ、その生成品質が本質的に向上する。
2つのデータセットの評価結果から,Sparse RAGは生成品質と計算効率の最適バランスを達成でき,その一般化可能性を示す。
Large language models (LLMs) augmented with retrieval exhibit robust performance and extensive versatility by incorporating external contexts. However, the input length grows linearly in the number of retrieved documents, causing a dramatic increase in latency. In this paper, we propose a novel paradigm named Sparse RAG, which seeks to cut computation costs through sparsity. Specifically, Sparse RAG encodes retrieved documents in parallel, which eliminates latency introduced by long-range attention of retrieved documents. Then, LLMs selectively decode the output by only attending to highly relevant caches auto-regressively, which are chosen via prompting LLMs with special control tokens. It is notable that Sparse RAG combines the assessment of each individual document and the generation of the response into a single process. The designed sparse mechanism in a RAG system can facilitate the reduction of the number of documents loaded during decoding for accelerating the inference of the RAG system. Additionally, filtering out undesirable contexts enhances the model's focus on relevant context, inherently improving its generation quality. Evaluation results of two datasets show that Sparse RAG can strike an optimal balance between generation quality and computational efficiency, demonstrating its generalizability across both short- and long-form generation tasks. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 隣接条件サンプリングによる対向移動性の向上
Enhancing Adversarial Transferability Through Neighborhood Conditional Sampling ( http://arxiv.org/abs/2405.16181v1 ) ライセンス: Link先を確認 | Chunlin Qiu, Yiheng Duan, Lingchen Zhao, Qian Wang, | (参考訳) トランスファーベースの攻撃は、ホワイトボックスサロゲートモデルを使用して様々なブラックボックスターゲットモデルを妥協する敵の例を作成し、多くの現実世界のアプリケーションに重大な脅威を与える。
しかし、既存の転送攻撃は、弱い転送可能性または高価な計算に悩まされている。
このギャップを埋めるため,我々は,軽量な計算で高い転送性を有する近距離条件付きサンプリング(NCS)と呼ばれる新しいサンプルベース攻撃を提案する。
平坦な最大値がより良い転送性をもたらすという観測にインスパイアされたNCSは、高い予測された対向損失と小さな標準偏差を持つ対向領域を求める最大2レベル最適化問題として定式化されている。
具体的には、内部の最小化問題を計算的に解決し、全体の転送可能性に影響を与えるため、計算コストを伴わずに内部の問題を効果的に解くために運動量に基づく事前勾配逆近似(PGIA)法を提案する。
さらに, 特定条件下では, NCSの特定事例として, 転送性の向上のために, 平坦な最大値を達成する2つの新たな攻撃が実際に行われていることを証明した。
大規模な実験により、NASは効率よく高い転送可能な対向例を生成し、計算コストの50%しか必要とせず、現在の転送可能性の最良の方法を超えることを示した。
さらに、NCSは他の方法とシームレスに統合して、転送可能性をさらに強化することができる。
Transfer-based attacks craft adversarial examples utilizing a white-box surrogate model to compromise various black-box target models, posing significant threats to many real-world applications. However, existing transfer attacks suffer from either weak transferability or expensive computation. To bridge the gap, we propose a novel sample-based attack, named neighborhood conditional sampling (NCS), which enjoys high transferability with lightweight computation. Inspired by the observation that flat maxima result in better transferability, NCS is formulated as a max-min bi-level optimization problem to seek adversarial regions with high expected adversarial loss and small standard deviations. Specifically, due to the inner minimization problem being computationally intensive to resolve, and affecting the overall transferability, we propose a momentum-based previous gradient inversion approximation (PGIA) method to effectively solve the inner problem without any computation cost. In addition, we prove that two newly proposed attacks, which achieve flat maxima for better transferability, are actually specific cases of NCS under particular conditions. Extensive experiments demonstrate that NCS efficiently generates highly transferable adversarial examples, surpassing the current best method in transferability while requiring only 50% of the computational cost. Additionally, NCS can be seamlessly integrated with other methods to further enhance transferability. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 周期的に駆動されるスピン鎖の拡散複雑性と量子カオス
Spread complexity and quantum chaos for periodically driven spin-chains ( http://arxiv.org/abs/2405.16182v1 ) ライセンス: Link先を確認 | Amin A. Nizami, Ankit W. Shrestha, | (参考訳) 動的進化の下での量子状態の複雑さは、予め定義された基底で状態の時間による拡散を研究することによって研究することができる。
この複雑さは、クリロフ基底を選択することによって最小化され、したがって拡散複雑性を定義することが知られている。
量子地図における拡散複雑性のダイナミクスをアルノルニ反復法を用いて研究する。
私たちが使用している主要な説明的量子多体モデルは、局所的および非局所的相互作用を観察するカオスシステムである、非可積分変形を伴う周期的に蹴られたイジングスピン鎖である。
様々な場合において、正規対カオス力学におけるアルノルニ係数の特異な挙動と拡散複雑性:アルノルニ係数の変動を抑制し、カオスの場合の拡散複雑性の飽和値を大きくする。
クリャロフ測度とカオスの標準的なスペクトル診断の挙動を比較した。
また,運転周波数の変化が複雑性飽和に及ぼす影響についても検討した。
The complexity of quantum states under dynamical evolution can be investigated by studying the spread with time of the state over a pre-defined basis. It is known that this complexity is minimised by choosing the Krylov basis, thus defining the spread complexity. We study the dynamics of spread complexity for quantum maps using the Arnoldi iterative procedure. The main illustrative quantum many-body model we use is the periodically kicked Ising spin-chain with non-integrable deformations, a chaotic system where we look at both local and non-local interactions. In the various cases we find distinctive behaviour of the Arnoldi coefficients and spread complexity for regular vs. chaotic dynamics: suppressed fluctuations in the Arnoldi coefficients as well as larger saturation value in spread complexity in the chaotic case. We compare the behaviour of the Krylov measures with that of standard spectral diagnostics of chaos. We also study the effect of changing the driving frequency on the complexity saturation. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# 保存と類似性-等価性を考慮したグラフニューラルPDE解法
Graph Neural PDE Solvers with Conservation and Similarity-Equivariance ( http://arxiv.org/abs/2405.16183v1 ) ライセンス: Link先を確認 | Masanobu Horie, Naoto Mitsume, | (参考訳) 機械学習を利用して偏微分方程式(PDE)に対処すると、空間領域の多様性とそれに対応する状態構成が大きな課題となる。
さらに、そのようなアプローチの一般化と信頼性については、しばしば固有の物理的制約を見落としているため、正当な懸念がある。
これらの課題に対応するため,本研究では,保存法則や物理対称性に固執し,より信頼性の高い機械学習アーキテクチャを提案する。
このアーキテクチャの基礎はグラフニューラルネットワーク(GNN)である。
さらに、GNNと従来の数値解法との並列性を探求し、保守的な原則と対称性を機械学習モデルにシームレスに統合することを容易にする。
実験の結果,物理法則を組み込んだモデルでは,空間領域の精度が著しく低下するのに対して,他のモデルでは劣化しないという結果が得られた。
コードはhttps://github.com/yellowshippo/fluxgnn-icml2024で公開されている。
Utilizing machine learning to address partial differential equations (PDEs) presents significant challenges due to the diversity of spatial domains and their corresponding state configurations, which complicates the task of encompassing all potential scenarios through data-driven methodologies alone. Moreover, there are legitimate concerns regarding the generalization and reliability of such approaches, as they often overlook inherent physical constraints. In response to these challenges, this study introduces a novel machine-learning architecture that is highly generalizable and adheres to conservation laws and physical symmetries, thereby ensuring greater reliability. The foundation of this architecture is graph neural networks (GNNs), which are adept at accommodating a variety of shapes and forms. Additionally, we explore the parallels between GNNs and traditional numerical solvers, facilitating a seamless integration of conservative principles and symmetries into machine learning models. Our findings from experiments demonstrate that the model's inclusion of physical laws significantly enhances its generalizability, i.e., no significant accuracy degradation for unseen spatial domains while other models degrade. The code is available at https://github.com/yellowshippo/fluxgnn-icml2024. | 翻訳日:2024-05-29 00:40:50 公開日:2024-05-25 |
# Lyapunov関数を用いた安全な深層モデルに基づく強化学習
Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions ( http://arxiv.org/abs/2405.16184v1 ) ライセンス: Link先を確認 | Harry Zhang, | (参考訳) モデルベース強化学習(MBRL)は知的制御タスクに望ましい多くの特性を示した。
しかし、トレーニングとロールアウト中に安全性と安定性の制約を満たすことは、未解決の問題である。
数学的に証明可能な安定性の保証を備えた学習モデル予測制御(LMPC)フレームワークに基づいて,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。
本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
新たな安定性向上フレームワークは、Lyapunov関数の構築を学習するニューラルネットワークベースの学習者と、モデルベースのRLエージェントによって構成される。
シミュレーション実験により,提案手法の有効性を実証する。
Model-based Reinforcement Learning (MBRL) has shown many desirable properties for intelligent control tasks. However, satisfying safety and stability constraints during training and rollout remains an open question. We propose a new Model-based RL framework to enable efficient policy learning with unknown dynamics based on learning model predictive control (LMPC) framework with mathematically provable guarantees of stability. We introduce and explore a novel method for adding safety constraints for model-based RL during training and policy learning. The new stability-augmented framework consists of a neural-network-based learner that learns to construct a Lyapunov function, and a model-based RL agent to consistently complete the tasks while satisfying user-specified constraints given only sub-optimal demonstrations and sparse-cost feedback. We demonstrate the capability of the proposed framework through simulated experiments. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 微分可能なクラスタグラフニューラルネットワーク
Differentiable Cluster Graph Neural Network ( http://arxiv.org/abs/2405.16185v1 ) ライセンス: Link先を確認 | Yanfei Dong, Mohammed Haroon Dupty, Lambert Deng, Zhuanghua Liu, Yong Liang Goh, Wee Sun Lee, | (参考訳) グラフニューラルネットワークは、長距離情報伝播や異種近傍の存在に苦慮することが多い。
我々は、追加のクラスタノードを使用して、メッセージパッシングメカニズムにクラスタリング誘導バイアスを組み込む統一されたフレームワークで、両方の課題に対処します。
我々のアプローチの中心は、最適輸送に基づく暗黙的クラスタリング目的関数の定式化である。
しかし、暗黙的目的関数を解くアルゴリズムは、GNNのエンドツーエンド学習を可能にするために微分可能である必要がある。
これを容易にするために、エントロピー正規化対象関数を採用し、クラスタ割り当ての解決とノード/クラスタノードの埋め込みの更新を交互に行う反復最適化プロセスを提案する。
特に,得られたクローズドフォーム最適化ステップは,ノードとクラスタノードの2部グラフ上でシームレスに動作する,単純かつエレガントなメッセージパッシングステップである。
クラスタリングに基づくアプローチは, 局所的およびグローバル的情報の両方を効果的に捉えることができ, ヘテロ親和性データセットとホモ親和性データセットの両方に関する広範な実験によって実証された。
Graph Neural Networks often struggle with long-range information propagation and in the presence of heterophilous neighborhoods. We address both challenges with a unified framework that incorporates a clustering inductive bias into the message passing mechanism, using additional cluster-nodes. Central to our approach is the formulation of an optimal transport based implicit clustering objective function. However, the algorithm for solving the implicit objective function needs to be differentiable to enable end-to-end learning of the GNN. To facilitate this, we adopt an entropy regularized objective function and propose an iterative optimization process, alternating between solving for the cluster assignments and updating the node/cluster-node embeddings. Notably, our derived closed-form optimization steps are themselves simple yet elegant message passing steps operating seamlessly on a bipartite graph of nodes and cluster-nodes. Our clustering-based approach can effectively capture both local and global information, demonstrated by extensive experiments on both heterophilous and homophilous datasets. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# MPCを用いたグリッドフィンとパス追従によるロケット着陸制御
Rocket Landing Control with Grid Fins and Path-following using MPC ( http://arxiv.org/abs/2405.16191v1 ) ライセンス: Link先を確認 | Junhao Yu, Jiarun Wei, | (参考訳) 本稿では,ロケットの着陸軌道の最適化を試みる。
目的は、異なる技術を用いて着陸過程における総燃料消費量を最小化することである。
モデル予測制御 (MPC) をベースとしたアルゴリズムであるトラジェクトリ最適化経路 (Torjectory Optimizing Path) を用いて, バッチ手法で最適かつ実現可能な軌道を生成すれば, 同様の初期状態やモデルに一般化するために, モデル予測制御 (MPC) を用いた経路を追従し, MPC が解決すべき新たなコスト関数を導入する。
さらに、TOPEDはモデルミスマッチと異なる初期状態の下で、実演軌道をうまく追従できることを示す。
In this project, we attempt to optimize a landing trajectory of a rocket. The goal is to minimize the total fuel consumption during the landing process using different techniques. Once the optimal and feasible trajectory is generated using batch approach, we attempt to follow the path using a Model Predictive Control (MPC) based algorithm, called Trajectory Optimizing Path following Estimation from Demonstration (TOPED), in order to generalize to similar initial states and models, where we introduce a novel cost function for the MPC to solve. We further show that TOPED can follow a demonstration trajectory well in practice under model mismatch and different initial states. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 拡散逆反転模倣学習
Diffusion-Reward Adversarial Imitation Learning ( http://arxiv.org/abs/2405.16194v1 ) ライセンス: Link先を確認 | Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun, | (参考訳) シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、ジェネレータポリシー学習(Generator Policy Learning)を用いて、専門家の行動を模倣し、差別化学習(disriminator learning)を行い、エージェントの軌跡から専門家のデモンストレーションを区別する。
励ましの結果にもかかわらず、GAILトレーニングは不安定で不安定であることが多い。
GAILに拡散モデルを統合するDRAIL(Diffusion-Reward Adversarial Imitation Learning)を提案する。
具体的には、拡張された識別器を構築するための拡散判別分類器を提案し、次に、政策学習のための分類器の出力に基づいて拡散報酬を設計する。
ナビゲーション,操作,移動に関する広範な実験を行い,従来の模倣学習法と比較してDRAILの有効性を検証する。
さらに、DRAILの一般化性とデータ効率を実験的に検証した。
GAILとDRAILの視覚的学習報酬関数は、DRAILがより正確でスムーズな報酬を得られることを示唆している。
Imitation learning aims to learn a policy from observing expert demonstrations without access to reward signals from environments. Generative adversarial imitation learning (GAIL) formulates imitation learning as adversarial learning, employing a generator policy learning to imitate expert behaviors and discriminator learning to distinguish the expert demonstrations from agent trajectories. Despite its encouraging results, GAIL training is often brittle and unstable. Inspired by the recent dominance of diffusion models in generative modeling, this work proposes Diffusion-Reward Adversarial Imitation Learning (DRAIL), which integrates a diffusion model into GAIL, aiming to yield more precise and smoother rewards for policy learning. Specifically, we propose a diffusion discriminative classifier to construct an enhanced discriminator; then, we design diffusion rewards based on the classifier's output for policy learning. We conduct extensive experiments in navigation, manipulation, and locomotion, verifying DRAIL's effectiveness compared to prior imitation learning methods. Moreover, additional experimental results demonstrate the generalizability and data efficiency of DRAIL. Visualized learned reward functions of GAIL and DRAIL suggest that DRAIL can produce more precise and smoother rewards. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# Adaptive $Q$-Network: 深層強化学習のためのオンザフライターゲット選択
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning ( http://arxiv.org/abs/2405.16195v1 ) ライセンス: Link先を確認 | Théo Vincent, Fabian Wahren, Jan Peters, Boris Belousov, Carlo D'Eramo, | (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、ハイパーパラメータに非常に敏感であることで知られており、実践者が手元にある問題に対してそれらを最適化するためにかなりの努力をしなければならない。
近年, 自動強化学習(AutoRL)の分野は, この問題に対処し, 人気が高まっている。
しかしながら、これらのアプローチは通常、高い性能のハイパーパラメータを選択するために追加のサンプルをヒンジし、RLのサンプル効率と実用性を阻害する。
さらに、ほとんどのAutoRLメソッドは既存のAutoMLメソッドに大きく依存している。
本稿では,AdaQN(Adaptive $Q$-Network)と呼ばれるAutoRLの新しい手法を提案する。
AdaQNはいくつかの$Q$関数を学習し、それぞれ異なるハイパーパラメータでトレーニングされ、最小の近似誤差を共有ターゲットとする$Q$関数を使用してオンラインで更新される。
我々の選択方式は、RL最適化法によって誘導される非定常性に対処しつつ、異なるハイパーパラメータを同時に処理し、任意の批判に基づくRLアルゴリズムに直交する。
AdaQNは,MuJoCo制御問題において理論的に健全かつ実験的に検証され,サンプル効率,全体的な性能,トレーニング安定性,確率性に対する堅牢性などの利点を示す。
Deep Reinforcement Learning (RL) is well known for being highly sensitive to hyperparameters, requiring practitioners substantial efforts to optimize them for the problem at hand. In recent years, the field of automated Reinforcement Learning (AutoRL) has grown in popularity by trying to address this issue. However, these approaches typically hinge on additional samples to select well-performing hyperparameters, hindering sample-efficiency and practicality in RL. Furthermore, most AutoRL methods are heavily based on already existing AutoML methods, which were originally developed neglecting the additional challenges inherent to RL due to its non-stationarities. In this work, we propose a new approach for AutoRL, called Adaptive $Q$-Network (AdaQN), that is tailored to RL to take into account the non-stationarity of the optimization procedure without requiring additional samples. AdaQN learns several $Q$-functions, each one trained with different hyperparameters, which are updated online using the $Q$-function with the smallest approximation error as a shared target. Our selection scheme simultaneously handles different hyperparameters while coping with the non-stationarity induced by the RL optimization procedure and being orthogonal to any critic-based RL algorithm. We demonstrate that AdaQN is theoretically sound and empirically validate it in MuJoCo control problems, showing benefits in sample-efficiency, overall performance, training stability, and robustness to stochasticity. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 道路品質の維持と管理:MLPとDNNを用いて
Maintaining and Managing Road Quality:Using MLP and DNN ( http://arxiv.org/abs/2405.16196v1 ) ライセンス: Link先を確認 | Makgotso Jacqueline Maotwana, | (参考訳) 自動車、運転者、歩行者にとって道路の低さは大きな問題であり、車両の損傷の主な原因であり、時には歩行者と運転者の両方にとって非常に危険であるため、道路表面の状況監視システムは交通安全に不可欠であり、事故率の低減と車両の損傷防止も図られている。
主な目的は、道路条件を正確に分類できる機械学習モデルを開発し、評価することである。
これを解決するために、さまざまな機械学習アプローチを実装しました。
まず、スクラッチから実装されたMultilayer Perceptron(MLP)を使用してベースラインモデルを作成する。
第二に、より洗練されたディープニューラルネットワーク(DNN)がKerasを使って構築された。
さらに、パフォーマンスを比較するために、スクラッチからロジスティック回帰モデルを開発した。
最後に,K-Nearest Neighbors (KNN) アルゴリズムとスケルンを用いて,広範な特徴工学を取り入れた広範モデルを構築した。
ディープラーニングモデルであるKerasを用いたDNNは、ベースラインのMLPがしっかりとした基盤を提供するのに対して、最高の精度を実現した。
Logistic Regressionはシンプルだが、重要な機能に対する解釈可能性と洞察を提供する。
KNNモデルは、機能エンジニアリングの助けを借りて、最高の結果を得た。
この研究は、機械学習が道路状況の監視、時間の節約、メンテナンスの費用を自動化できることを示している。
次のステップは、これらのモデルを改善して、実際の都市でテストすることだ。
Poor roads are a major issue for cars, drivers, and pedestrians since they are a major cause of vehicle damage and can occasionally be quite dangerous for both groups of people (pedestrians and drivers), this makes road surface condition monitoring systems essential for traffic safety, reducing accident rates ad also protecting vehicles from getting damaged. The primary objective is to develop and evaluate machine learning models that can accurately classify road conditions into four categories: good, satisfactory, poor, and very poor, using a Kaggle dataset of road images. To address this, we implemented a variety of machine learning approaches. Firstly, a baseline model was created using a Multilayer Perceptron (MLP) implemented from scratch. Secondly, a more sophisticated Deep Neural Network (DNN) was constructed using Keras. Additionally, we developed a Logistic Regression model from scratch to compare performance. Finally, a wide model incorporating extensive feature engineering was built using the K-Nearest Neighbors (KNN) algorithm with sklearn.The study compared different models for image-based road quality assessment. Deep learning models, the DNN with Keras achieved the best accuracy, while the baseline MLP provided a solid foundation. The Logistic Regression although it is simpler, but it provided interpretability and insights into important features. The KNN model, with the help of feature engineering, achieved the best results. The research shows that machine learning can automate road condition monitoring, saving time and money on maintenance. The next step is to improve these models and test them in real cities, which will make our cities better managed and safer. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 先行送信マップに基づく水中画像強調のための7Kパラメータモデル
A 7K Parameter Model for Underwater Image Enhancement based on Transmission Map Prior ( http://arxiv.org/abs/2405.16197v1 ) ライセンス: Link先を確認 | Fuheng Zhou, Dikai Wei, Ye Fan, Yulong Huang, Yonggang Zhang, | (参考訳) 深層学習に基づく水中画像強調モデルは優れた性能を示したが、軽量かつ有効性の両方に制限があり、リソース制約のあるプラットフォームへの展開や適用を妨げている。
さらに、既存のディープラーニングベースのモデルの多くは、データ圧縮を使用して、元の情報ではなく、潜在空間の高レベルなセマンティック情報を取得する。
そのため、出力の詳細を生成するにはデコーダブロックが必要である。
これにより計算コストが増大する。
本稿では,トップk選択型アテンションと送信マップ機構に基づく軽量アテンションネットワーク(LSNet)を提案する。
提案モデルでは,類似の注意ベースモデルと比較して,7KパラメータのみのPSNRを97 %達成している。
拡張実験により,提案したLSNetは,パラメータや計算資源が著しく少ない最先端モデルにおいて優れた性能を発揮することが示された。
コードはhttps://github.com/FuhengZhou/LSNet}{https://github.com/FuhengZhou/LSNetで入手できる。
Although deep learning based models for underwater image enhancement have achieved good performance, they face limitations in both lightweight and effectiveness, which prevents their deployment and application on resource-constrained platforms. Moreover, most existing deep learning based models use data compression to get high-level semantic information in latent space instead of using the original information. Therefore, they require decoder blocks to generate the details of the output. This requires additional computational cost. In this paper, a lightweight network named lightweight selective attention network (LSNet) based on the top-k selective attention and transmission maps mechanism is proposed. The proposed model achieves a PSNR of 97\% with only 7K parameters compared to a similar attention-based model. Extensive experiments show that the proposed LSNet achieves excellent performance in state-of-the-art models with significantly fewer parameters and computational resources. The code is available at https://github.com/FuhengZhou/LSNet}{https://github.com/FuhengZhou/LSNet. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# FlightPatchNet:飛行軌道予測のための差分符号化付きマルチスケールパッチネットワーク
FlightPatchNet: Multi-Scale Patch Network with Differential Coding for Flight Trajectory Prediction ( http://arxiv.org/abs/2405.16200v1 ) ライセンス: Link先を確認 | Lan Wu, Xuebin Wang, Ruijuan Chu, Guangyi Liu, Yingchun Chen, Jing Zhang, Linyu Wang, | (参考訳) 正確な多段階飛行軌道予測は航空交通の安全を確保する航空交通制御において重要な役割を果たす。
2つの大きな問題は、既存の作業の飛行軌道予測性能を制限することである。
第一の問題は、データ範囲の大きな違いに起因する予測精度に対する負の影響である。
第二の問題は、現実の飛行軌道は時間的依存の根底にあるものであり、既存の手法は隠れた複雑な時間的変動を明らかにしず、1つの時間スケールからのみ特徴を抽出する。
上記の問題に対処するため,フライトトラジェクトリ予測のための差分符号付きマルチスケールパッチネットワークであるFlightPatchNetを提案する。
具体的には、FlightPatchNetはまず差分符号化を利用して、経度と緯度の最初の値を1次差分にエンコードし、各時間ステップですべての変数に対する埋め込みを生成する。
そして、異なる時間ステップ間の依存関係を調べるために、グローバルな時間的注意が導入された。
飛行軌道における多様な時間的パターンを十分に探求するために、マルチスケールパッチネットワークはバックボーンとして機能するように微妙に設計されている。
マルチスケールパッチネットワークは、スタックされたパッチミキサーブロックを利用して、異なる時間スケールでパッチ間の依存関係をキャプチャし、異なるスケールと変数にわたってマルチスケールの時間的特徴を統合する。
最後に、FlightPatchNetは複数の予測器をアンサンブルして直接多段階予測を行う。
ADS-Bデータセットの大規模な実験は、我々のモデルが競争ベースラインを上回っていることを示している。
コードは、https://github.com/FlightTrajectoryResearch/FlightPatchNetで入手できる。
Accurate multi-step flight trajectory prediction plays an important role in Air Traffic Control, which can ensure the safety of air transportation. Two main issues limit the flight trajectory prediction performance of existing works. The first issue is the negative impact on prediction accuracy caused by the significant differences in data range. The second issue is that real-world flight trajectories involve underlying temporal dependencies, and existing methods fail to reveal the hidden complex temporal variations and only extract features from one single time scale. To address the above issues, we propose FlightPatchNet, a multi-scale patch network with differential coding for flight trajectory prediction. Specifically, FlightPatchNet first utilizes the differential coding to encode the original values of longitude and latitude into first-order differences and generates embeddings for all variables at each time step. Then, a global temporal attention is introduced to explore the dependencies between different time steps. To fully explore the diverse temporal patterns in flight trajectories, a multi-scale patch network is delicately designed to serve as the backbone. The multi-scale patch network exploits stacked patch mixer blocks to capture inter- and intra-patch dependencies under different time scales, and further integrates multi-scale temporal features across different scales and variables. Finally, FlightPatchNet ensembles multiple predictors to make direct multi-step prediction. Extensive experiments on ADS-B datasets demonstrate that our model outperforms the competitive baselines. Code is available at: https://github.com/FlightTrajectoryResearch/FlightPatchNet. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 自動特徴変換のための進化的大規模言語モデル
Evolutionary Large Language Model for Automated Feature Transformation ( http://arxiv.org/abs/2405.16203v1 ) ライセンス: Link先を確認 | Nanxu Gong, Chandan K. Reddy, Wangyang Ying, Yanjie Fu, | (参考訳) 特徴変換は、下流モデルの性能を高めるために、生の機能空間を再構築することを目的としている。
しかし、特徴と操作の組み合わせの指数関数的な成長は課題となり、既存の手法が広い空間を効率的に探索することが困難になる。
さらに、それらの最適化は特定の領域における下流モデルの精度によってのみ駆動され、一般的な特徴知識の獲得は無視される。
本研究のギャップを埋めるために,自動特徴変換のための進化的LLMフレームワークを提案する。
この枠組みは2つの部分から構成される。
1) データベース保守のための進化的アルゴリズム戦略を活用したRLデータコレクタによる多人数データベースの構築、及び
2) 配列理解におけるLarge Language Model (LLM) の能力を生かして, 特徴変換配列の区別に基づく優れたサンプルを生成する際に, LLM を誘導するために, 数発のプロンプトを用いる。
マルチポピュレーションデータベースを活用することで、当初は優れた人口を見つけるための広い検索範囲を提供する。
耕作と進化を通じて、高品質な個体群はより大きな機会を得ることができ、それによって最適な個体の追求が促進される。
LLMと進化的アルゴリズムの統合により、我々は広い空間での効率的な探索を実現するとともに、特徴知識を利用して最適化を推進し、より適応性の高い探索パラダイムを実現する。
最後に,提案手法の有効性と汎用性を実証的に示す。
Feature transformation aims to reconstruct the feature space of raw features to enhance the performance of downstream models. However, the exponential growth in the combinations of features and operations poses a challenge, making it difficult for existing methods to efficiently explore a wide space. Additionally, their optimization is solely driven by the accuracy of downstream models in specific domains, neglecting the acquisition of general feature knowledge. To fill this research gap, we propose an evolutionary LLM framework for automated feature transformation. This framework consists of two parts: 1) constructing a multi-population database through an RL data collector while utilizing evolutionary algorithm strategies for database maintenance, and 2) utilizing the ability of Large Language Model (LLM) in sequence understanding, we employ few-shot prompts to guide LLM in generating superior samples based on feature transformation sequence distinction. Leveraging the multi-population database initially provides a wide search scope to discover excellent populations. Through culling and evolution, the high-quality populations are afforded greater opportunities, thereby furthering the pursuit of optimal individuals. Through the integration of LLMs with evolutionary algorithms, we achieve efficient exploration within a vast space, while harnessing feature knowledge to propel optimization, thus realizing a more adaptable search paradigm. Finally, we empirically demonstrate the effectiveness and generality of our proposed method. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# VOODOO XP:VRテレプレゼンスのワンショットヘッド再現
VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence ( http://arxiv.org/abs/2405.16204v1 ) ライセンス: Link先を確認 | Phong Tran, Egor Zakharov, Long-Nhat Ho, Liwen Hu, Adilbek Karmanov, Aviral Agarwal, McLean Goldwhite, Ariana Bermudez Venegas, Anh Tuan Tran, Hao Li, | (参考訳) VOODOO XP: 入力ドライバビデオから高表現力の表情を生成できる3D対応ワンショットヘッド再現法と1枚の2Dポートレートについて紹介する。
我々のソリューションはリアルタイムでビューに一貫性があり、キャリブレーションや微調整なしで即座に利用できます。
我々は,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて実演する。
2次元頭部再現法と比較して、3D認識アプローチは、被写体のアイデンティティを保ち、新しいカメラのポーズに対するビュー一貫性のある顔形状を確保することを目的としており、没入型用途に適している。
様々な顔のゆがみ技術が導入されたが、最先端の3D認識神経再生技術は表現力に欠けており、複雑な顔の表情を再現することができない。
本稿では,ドライバの表情を直接入力源の3Dリフトモジュールのトランスフォーマーブロックに転送する,新しいクロスリファクターアーキテクチャを提案する。
本研究は, 表面中立化と3次元リフトドフロンダル化を併用した, 粗大な戦略を基礎とした, 革新的多段階自己超越的手法を用いて, 高い有効解離が可能であることを示す。
さらに私たちは、新しいヘッド再現ソリューションを高忠実度VRテレプレゼンスシステムに統合し、任意の写真からパーソナライズされたニューラルヘッドアバターを瞬時に構築し、ヘッドセットを使ってそれを生き返らせることができます。
本研究では,多種多様な被写体と捕獲条件の集合に対して,表現性および類似性保存の観点から,最先端の性能を実証する。
We introduce VOODOO XP: a 3D-aware one-shot head reenactment method that can generate highly expressive facial expressions from any input driver video and a single 2D portrait. Our solution is real-time, view-consistent, and can be instantly used without calibration or fine-tuning. We demonstrate our solution on a monocular video setting and an end-to-end VR telepresence system for two-way communication. Compared to 2D head reenactment methods, 3D-aware approaches aim to preserve the identity of the subject and ensure view-consistent facial geometry for novel camera poses, which makes them suitable for immersive applications. While various facial disentanglement techniques have been introduced, cutting-edge 3D-aware neural reenactment techniques still lack expressiveness and fail to reproduce complex and fine-scale facial expressions. We present a novel cross-reenactment architecture that directly transfers the driver's facial expressions to transformer blocks of the input source's 3D lifting module. We show that highly effective disentanglement is possible using an innovative multi-stage self-supervision approach, which is based on a coarse-to-fine strategy, combined with an explicit face neutralization and 3D lifted frontalization during its initial training stage. We further integrate our novel head reenactment solution into an accessible high-fidelity VR telepresence system, where any person can instantly build a personalized neural head avatar from any photo and bring it to life using the headset. We demonstrate state-of-the-art performance in terms of expressiveness and likeness preservation on a large set of diverse subjects and capture conditions. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# GeneAgent: ドメインデータベースを用いた遺伝子セット知識発見のための自己検証言語エージェント
GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases ( http://arxiv.org/abs/2405.16205v1 ) ライセンス: Link先を確認 | Zhizheng Wang, Qiao Jin, Chih-Hsuan Wei, Shubo Tian, Po-Ting Lai, Qingqing Zhu, Chi-Ping Day, Christina Ross, Zhiyong Lu, | (参考訳) 遺伝子組の知識発見はヒト機能ゲノムの進化に不可欠である。
近年の研究では,この課題に対してLarge Language Models (LLM) のパワーを活用することで,有望な性能を示した。
それにもかかわらず、これらの結果は幻覚などのLSMに共通するいくつかの制限を受ける。
そこで本研究では,自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、関連するドメイン知識を活用して精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
さらに、より詳細なマニュアルレビューでは、幻覚を最小化し、より信頼性の高い分析物語を生成するための自己検証モジュールの有効性を確認している。
その実用性を実証するために、マウスB2905メラノーマ細胞株由来の7つの新規遺伝子セットにGeneAgentを適用する。
Gene set knowledge discovery is essential for advancing human functional genomics. Recent studies have shown promising performance by harnessing the power of Large Language Models (LLMs) on this task. Nonetheless, their results are subject to several limitations common in LLMs such as hallucinations. In response, we present GeneAgent, a first-of-its-kind language agent featuring self-verification capability. It autonomously interacts with various biological databases and leverages relevant domain knowledge to improve accuracy and reduce hallucination occurrences. Benchmarking on 1,106 gene sets from different sources, GeneAgent consistently outperforms standard GPT-4 by a significant margin. Moreover, a detailed manual review confirms the effectiveness of the self-verification module in minimizing hallucinations and generating more reliable analytical narratives. To demonstrate its practical utility, we apply GeneAgent to seven novel gene sets derived from mouse B2905 melanoma cell lines, with expert evaluations showing that GeneAgent offers novel insights into gene functions and subsequently expedites knowledge discovery. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# GlycanML: Glycan機械学習のためのマルチタスクとマルチストラクチャベンチマーク
GlycanML: A Multi-Task and Multi-Structure Benchmark for Glycan Machine Learning ( http://arxiv.org/abs/2405.16206v1 ) ライセンス: Link先を確認 | Minghao Xu, Yunteng Geng, Yihang Zhang, Ling Yang, Jian Tang, Wentao Zhang, | (参考訳) グリカンは基本的な生体分子であり、生物の中で必須の機能を発揮する。
機能的なグリカンデータの急速な増加は、グリカン理解のための機械学習ソリューションの好機となる。
しかし、グリカン関数予測のための標準的な機械学習ベンチマークがまだ欠けている。
本稿では、Glycan Machine Learning(GlycanML)の包括的なベンチマークを構築することで、この空白を埋める。
GlycanMLベンチマークは、グリカン分類学予測、グリカン免疫原性予測、グリコシル化型予測、タンパク質-グリカン相互作用予測などの様々なタスクからなる。
グリカンはGlycanMLのシーケンスとグラフの両方で表現できるため、ベンチマークタスク上でシーケンスベースモデルとグラフニューラルネットワーク(GNN)を広範囲に評価することができる。
さらに、8つのグリカン分類予測タスクを同時に実行することにより、マルチタスク学習(MTL)アルゴリズムのためのGlycanML-MTLテストベッドを導入する。
実験結果から,マルチリレーショナルGNNを用いたグリカンのモデル化が優れており,適切なMTL法によりモデル性能が向上することが示された。
https://github.com/GlycanML/GlycanMLですべてのデータセットとソースコードを提供し、https://GlycanML.github.io/projectでリーダボードを維持しています。
Glycans are basic biomolecules and perform essential functions within living organisms. The rapid increase of functional glycan data provides a good opportunity for machine learning solutions to glycan understanding. However, there still lacks a standard machine learning benchmark for glycan function prediction. In this work, we fill this blank by building a comprehensive benchmark for Glycan Machine Learning (GlycanML). The GlycanML benchmark consists of diverse types of tasks including glycan taxonomy prediction, glycan immunogenicity prediction, glycosylation type prediction, and protein-glycan interaction prediction. Glycans can be represented by both sequences and graphs in GlycanML, which enables us to extensively evaluate sequence-based models and graph neural networks (GNNs) on benchmark tasks. Furthermore, by concurrently performing eight glycan taxonomy prediction tasks, we introduce the GlycanML-MTL testbed for multi-task learning (MTL) algorithms. Experimental results show the superiority of modeling glycans with multi-relational GNNs, and suitable MTL methods can further boost model performance. We provide all datasets and source codes at https://github.com/GlycanML/GlycanML and maintain a leaderboard at https://GlycanML.github.io/project | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 命題推論のための視覚的意味的部分空間表現の学習
Learning Visual-Semantic Subspace Representations for Propositional Reasoning ( http://arxiv.org/abs/2405.16213v1 ) ライセンス: Link先を確認 | Gabriel Moreira, Alexander Hauptmann, Manuel Marques, João Paulo Costeira, | (参考訳) 豊かな意味的関係を捉え、命題計算に適合する表現を学習することは、大きな課題となる。
既存のアプローチは対照的であり、理論的な保証が欠如しているか、あるいはリッチ・ビジュアル・セマンティックな階層に固有の部分的な順序を効果的に表すのに不足している。
本稿では,特定の意味構造に適合するだけでなく,確率論的命題推論を促進する視覚表現の学習手法を提案する。
我々のアプローチは、新しい核規範に基づく損失に基づいている。
その最小限は部分空間格子のセマンティクスのスペクトル幾何学を符号化し、そこでは論理命題を射影作用素で表現できることを示す。
Learning representations that capture rich semantic relationships and accommodate propositional calculus poses a significant challenge. Existing approaches are either contrastive, lacking theoretical guarantees, or fall short in effectively representing the partial orders inherent to rich visual-semantic hierarchies. In this paper, we propose a novel approach for learning visual representations that not only conform to a specified semantic structure but also facilitate probabilistic propositional reasoning. Our approach is based on a new nuclear norm-based loss. We show that its minimum encodes the spectral geometry of the semantics in a subspace lattice, where logical propositions can be represented by projection operators. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# カスタマイズCLIP分類器を用いた拡散モデルによる水中画像の強調
Underwater Image Enhancement by Diffusion Model with Customized CLIP-Classifier ( http://arxiv.org/abs/2405.16214v1 ) ライセンス: Link先を確認 | Shuaixin Liu, Kunqian Li, Yilin Ding, | (参考訳) 本稿では,複数誘導拡散モデルを用いた水中画像強調手法を提案する。
他の画像強調タスクとは異なり、水中画像は実際の参照画像の有効性に悩まされる。
既存の作品では、手動で選択した精巧な画像を参照画像として活用し、強化ネットワークを訓練しているが、その強化性能は常に手動選択から受け継がれた主観的嗜好が伴う。
この問題に対処するためには、画像合成戦略も使用しますが、合成画像は、水中領域でガイドされた、対応する水中画像に分解された空気中の自然画像に由来するものです。
この戦略に基づき、拡散モデルは水中劣化領域から実際の空中自然領域への画像強調に関する事前知識を学習することができる。
しかし、下流のタスクに適合するようにモデルを微調整することは避けられない。
これを軽減するため,拡散モデル生成過程を制御するための分類器を訓練するために,空気中の自然領域からの事前知識とコントラスト言語-画像事前学習(CLIP)を組み合わせる。
さらに、画像強調タスクでは、画像間の拡散モデルとCLIP分類器が、微調整過程において主に高周波領域で機能することがわかった。
そこで本研究では,従来の手法よりも最大10倍高速な高周波領域に着目した高速微調整戦略を提案する。
以上の結果から,CLIP-UIEはより自然に出現することが示唆された。
In this paper, we propose a novel underwater image enhancement method, by utilizing the multi-guided diffusion model for iterative enhancement. Unlike other image enhancement tasks, underwater images suffer from the unavailability of real reference images. Although existing works exploit synthetic images, manually selected well-enhanced images as reference images, to train enhancement networks, their enhancement performance always comes with subjective preferences that are inherited from the manual selection. To address this issue, we also use the image synthesis strategy, but the synthetic images derive from in-air natural images degraded into corresponding underwater images, guided by the underwater domain. Based on this strategy, the diffusion model can learn the prior knowledge of image enhancement from the underwater degradation domain to the real in-air natural domain. However, it is inevitable to fine-tune the model to suit downstream tasks, and this may erase the prior knowledge. To mitigate this, we combine the prior knowledge from the in-air natural domain with Contrastive Language-Image Pretraining (CLIP) to train a classifier for controlling the diffusion model generation process. Moreover, for image enhancement tasks, we find that the image-to-image diffusion model and the CLIP-Classifier mainly act in the high-frequency region during the fine-tuning process. Therefore, we propose a fast fine-tuning strategy focusing on the high-frequency region, which can be up to 10 times faster than the traditional strategy. Extensive experiments demonstrate that our method, abbreviated as CLIP-UIE, exhibit a more natural appearance. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# サイバーセキュリティ行動の個人的および文脈的変数 -- 国家文化、産業、組織、および(安全でない)人間の行動の個人的変数の実証分析
Individual and Contextual Variables of Cyber Security Behaviour -- An empirical analysis of national culture, industry, organisation, and individual variables of (in)secure human behaviour ( http://arxiv.org/abs/2405.16215v1 ) ライセンス: Link先を確認 | Marten de Bruin, Konstantinos Mersinas, | (参考訳) サイバーセキュリティ事件は増加しており、人間はその可能性と影響を減らす上で重要な役割を担っている。
文献では、サイバーセキュリティの技術的な側面にこだわった焦点を特定する一方、個人の安全な行動に影響を与える要因には、さらなる研究が必要である。
これらの要因は、人々が位置する個人レベルと文脈レベルの両方にまたがる。
私たちは合計37,075レコードの2つのデータセットを分析します。
a)EU全体での自己申告された安全保障行動、及び
b) 産業安全意識訓練プログラムからフィッシング関連行動を観察した。
我々は,国家文化,産業タイプ,組織のセキュリティ文化が,個人のセキュリティ行動の文脈レベルでの影響力のある変数(支援者)であることを確認した。
一方、人口動態(年齢、性別、レベルまたは都市化)とセキュリティ固有の要因(セキュリティ意識、セキュリティ知識、セキュリティインシデントに関する以前の経験)は、個々のレベルでのセキュリティ行動に影響を及ぼす変数である。
文献のギャップを埋め、セキュリティ行動に影響を与える変数に関する具体的な統計的証拠を提供するため、研究と実践の両方に影響を及ぼす。
さらに、調査結果は、集団が行動の安全を損なう可能性について、組織に実践的な洞察を与える。
その結果、組織は、セキュリティトレーニングと認識活動(例えば、行動変更の介入や/または適切な従業員グループプロファイル)を調整し、コミュニケーション(例えば、情報セキュリティポリシー)を適応させ、国家文化の特徴に従って介入をカスタマイズして、セキュリティ行動を改善することができる。
Cyber security incidents are increasing and humans play an important role in reducing their likelihood and impact. We identify a skewed focus towards technical aspects of cyber security in the literature, whereas factors influencing the secure behaviour of individuals require additional research. These factors span across both the individual level and the contextual level in which the people are situated. We analyse two datasets of a total of 37,075 records from a) self-reported security behaviours across the EU, and b) observed phishing-related behaviours from the industry security awareness training programmes. We identify that national culture, industry type, and organisational security culture play are influential Variables (antecedents) of individuals' security behaviour at contextual level. Whereas, demographics (age, gender, and level or urbanisation) and security-specific factors (security awareness, security knowledge, and prior experience with security incidents) are found to be influential variables of security behaviour at individual level. Our findings have implications for both research and practice as they fill a gap in the literature and provide concrete statistical evidence on the variables which influence security behaviour. Moreover, findings provides practical insights for organisations regarding the susceptibility of groups of people to insecure behaviour. Consequently, organisations can tailor their security training and awareness efforts (e.g., through behaviour change interventions and/or appropriate employee group profiles), adapt their communications (e.g., of information security policies), and customise their interventions according to national culture characteristics to improve security behaviour. | 翻訳日:2024-05-29 00:31:06 公開日:2024-05-25 |
# 特性制御による深部因果生成モデル
Deep Causal Generative Models with Property Control ( http://arxiv.org/abs/2405.16219v1 ) ライセンス: Link先を確認 | Qilong Zhao, Shiyu Wang, Guangji Bai, Bo Pan, Zhaohui Qin, Liang Zhao, | (参考訳) 外部ユーザの興味を引いたデータ生成は,本質的な要因の適切な因果関係を追及する上で重要であるが,共同で対処する上では不十分である。
これは、キー潜伏変数の同定、因果関係、興味のある性質との相関、および因果的に制御されたデータ生成に対するそれらの発見の活用という長期にわたる課題によるものである。
これらの課題に対処するために,相関対応因果変分オートエンコーダ (C2VAE) と呼ばれる新しい深層生成フレームワークを提案する。
このフレームワークは、非絡み付き潜在ベクトルを用いて特性間の相関関係と因果関係を同時に回復する。
具体的には、因果関係は、構造因果モデルを通して潜伏変数の因果グラフを学習し、相関性は、新しい相関プーリングアルゴリズムによって学習する。
大規模な実験では、C2VAEが真の因果関係と相関関係を正確に回復し、ベースラインモデルと比較して制御可能なデータ生成において優位性を示す。
Generating data with properties of interest by external users while following the right causation among its intrinsic factors is important yet has not been well addressed jointly. This is due to the long-lasting challenge of jointly identifying key latent variables, their causal relations, and their correlation with properties of interest, as well as how to leverage their discoveries toward causally controlled data generation. To address these challenges, we propose a novel deep generative framework called the Correlation-aware Causal Variational Auto-encoder (C2VAE). This framework simultaneously recovers the correlation and causal relationships between properties using disentangled latent vectors. Specifically, causality is captured by learning the causal graph on latent variables through a structural causal model, while correlation is learned via a novel correlation pooling algorithm. Extensive experiments demonstrate C2VAE's ability to accurately recover true causality and correlation, as well as its superiority in controllable data generation compared to baseline models. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# DAFFNet: 白血球の分類のための二重注意機能融合ネットワーク
DAFFNet: A Dual Attention Feature Fusion Network for Classification of White Blood Cells ( http://arxiv.org/abs/2405.16220v1 ) ライセンス: Link先を確認 | Yuzhuo Chen, Zetong Chen, Yunuo An, Chenyang Lu, Xu Qiao, | (参考訳) 白血球(WBC)の正確な分類は、血液関連疾患の診断に不可欠である。
しかし、臨床環境での手動分析は時間がかかり、労働集約的であり、エラーを起こしやすい。
多くの研究は、客観的なWBC分類を達成するために機械学習とディープラーニング技術を採用してきたが、これらの研究はWBC画像の情報を完全に活用していない。
そこで本研究の目的は,WBC画像の形態情報と高レベル意味情報を総合的に活用して,WBCの正確な分類を実現することである。
本研究では,WBCの形態的特徴とハイレベルな意味的特徴を初めて統合して正確な分類を実現する,新しいデュアルブランチネットワークDual Attention Feature Fusion Network (DAFFNet)を提案する。
具体的には、画像のチャネル特徴と空間的局所的特徴をより包括的に活用できる二重注意機構を導入する。
形態的属性予測器(MAP)と形態的属性エンコーダ(MAE)からなる形態的特徴抽出器(MFE)を提案し,WBCの形態的特徴を抽出した。
我々はまた、MAEのパフォーマンスを高めるために、ディープラーニング(DSL)と半教師付き学習(SSL)のトレーニング戦略を実装した。
提案するネットワークフレームワークは, PBC, LISC, Raabin-WBC, BCCD, LDWBC, Labelledの6つの公開データセットに対して, それぞれ98.77%, 91.30%, 98.36%, 99.71%, 98.45%, 98.85%の総合的精度を達成した。
その結果、WBCの高レベルな意味的特徴と低レベルの形態的特徴を組み合わせた分類が極めて重要であることが示唆され、顕微鏡的血球画像におけるWBCの客観的かつ正確な分類の基礎となった。
The precise categorization of white blood cell (WBC) is crucial for diagnosing blood-related disorders. However, manual analysis in clinical settings is time-consuming, labor-intensive, and prone to errors. Numerous studies have employed machine learning and deep learning techniques to achieve objective WBC classification, yet these studies have not fully utilized the information of WBC images. Therefore, our motivation is to comprehensively utilize the morphological information and high-level semantic information of WBC images to achieve accurate classification of WBC. In this study, we propose a novel dual-branch network Dual Attention Feature Fusion Network (DAFFNet), which for the first time integrates the high-level semantic features with morphological features of WBC to achieve accurate classification. Specifically, we introduce a dual attention mechanism, which enables the model to utilize the channel features and spatially localized features of the image more comprehensively. Morphological Feature Extractor (MFE), comprising Morphological Attributes Predictor (MAP) and Morphological Attributes Encoder (MAE), is proposed to extract the morphological features of WBC. We also implement Deep-supervised Learning (DSL) and Semi-supervised Learning (SSL) training strategies for MAE to enhance its performance. Our proposed network framework achieves 98.77%, 91.30%, 98.36%, 99.71%, 98.45%, and 98.85% overall accuracy on the six public datasets PBC, LISC, Raabin-WBC, BCCD, LDWBC, and Labelled, respectively, demonstrating superior effectiveness compared to existing studies. The results indicate that the WBC classification combining high-level semantic features and low-level morphological features is of great significance, which lays the foundation for objective and accurate classification of WBC in microscopic blood cell images. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 2キャビティマグノメカニクス系における非相互多部絡み合い
Nonreciprocal Multipartite Entanglement in a two-cavity magnomechanical system ( http://arxiv.org/abs/2405.16221v1 ) ライセンス: Link先を確認 | Rizwan Ahmed, Hazrat Ali, Aamir Shehzad, S K Singh, Amjad Sohail, Marcos Céesar de Oliveira, | (参考訳) 磁気双極子相互作用により結合したイットリウム鉄ガーネット(YIG)球を有する2つのクロスマイクロ波(MW)キャビティからなる2モードキャビティ・マグノメカニクス系における非相互多粒子交絡の発生手法を提案する。
以上の結果から,マグノン自己Kerr効果は,結晶軸 [110] に沿って運動場を調整した場合に,非相互性を示す二部構造エンタングルメントを著しく向上させることができることが示唆された。
これは磁場の方向に依存するマグノン(YIG球)の周波数シフトに起因する。
興味深いことに、エンタングルメントの非相互性の度合いは、正規化キャビティデチューニング、二部非線形指数$\Delta E_{K}$、自己カー係数、有効マグノメカニカルカップリングレート$G$などのシステムパラメータの慎重な選択に依存する。
両部交絡に加えて,三部交絡の非相反性についても検討した。
本論では, 多部交絡における非相互性に関する理論的提案は, 多様な工学的非相互性デバイスに適用できる可能性がある。
We propose a scheme for the generation of nonreciprocal multipartite entanglement in a two-mode cavity magnomechanical system, consisting of two cross microwave (MW) cavities having an yttrium iron garnet (YIG) sphere, which is coupled through magnetic dipole interaction. Our results show that the magnon self-Kerr effect can significantly enhance bipartite entanglement, which turns out to be non-reciprocal when the magetic field is tuned along the crystallographic axis [110]. This is due to the frequency shift on the magnons (YIG sphere), which depends upon the direction of magnetic field. Interestingly, the degree of nonreciprocity of entanglement depends upon a careful optimal choice of system parameters like normalizd cavity detunings, bipartite nonlinear index $\Delta E_{K}$, self-Kerr coefficient and effective magnomechanical coupling rate $G$. In addition to bipartite entanglement, we also explored the nonreciprocity in tripartite entanglement. Our present theoretical proposal for nonreciprocity in multipartite entanglement may find applications in diverse engineering nonreciprocal devices. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# ミリスケール重力の量子力学的試験の提案
Proposal for a Quantum Mechanical Test of Gravity at Millimeter Scale ( http://arxiv.org/abs/2405.16222v1 ) ライセンス: Link先を確認 | Yu Cheng, Jiadu Lin, Jie Sheng, Tsutomu T. Yanagida, | (参考訳) ニュートンの重力の法則を小さなスケールで実験的に検証することは、長年にわたって挑戦されてきた。
近年、ねじりバランス実験はミリスケールでの重力測定に成功している。
しかし、量子力学的波動関数の重力力の小さなスケールでの試験は依然として困難である。
本稿では,重力によるポテンシャル差から生じる量子相の異なる進化を検出するために,ジョセフソン効果を用いた新しい実験を提案する。
この実験は、ミリスケールで量子力学的に重力をテストすることができ、また、小さなスケールでの重力のパリティ不変性を調べることができる。
The experimental verification of the Newton law of gravity at small scales has been a longstanding challenge. Recently, torsion balance experiments have successfully measured gravitational force at the millimeter scale. However, testing gravity force on quantum mechanical wave function at small scales remains difficult. In this paper, we propose a novel experiment that utilizes the Josephson effect to detect the different evolution of quantum phase induced from the potential difference caused by gravity. We demonstrate that this experiment can test gravity quantum mechanically at the millimeter scale, and also has a potential to investigate the parity invariance of gravity at small scales. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 肯定的な否定:グラフコントラスト学習における分布外一般化の促進
Negative as Positive: Enhancing Out-of-distribution Generalization for Graph Contrastive Learning ( http://arxiv.org/abs/2405.16224v1 ) ライセンス: Link先を確認 | Zixu Wang, Bingbing Xu, Yige Yuan, Huawei Shen, Xueqi Cheng, | (参考訳) グラフ事前学習の分野で支配的なパラダイムであるグラフコントラスト学習(GCL)は、かなりの進歩をもたらした。
それでも、アウト・オブ・ディストリビューション(OOD)の一般化能力は比較的過小評価されている。
本稿では,GCL における InfoNCE の従来の最適化は,ドメイン間の分散ギャップを必然的に拡大する負のサンプルのみに制限されていることを指摘する。
これは、OODシナリオの下でのドメイン不変性の要件に違反し、結果としてモデルのOOD一般化性能を損なう。
この問題に対処するために、我々は、最も意味論的に類似したドメイン間負対をGCL中に正として扱う新しい戦略「Negative as Positive」を提案する。
実験結果から,GCLのOOD一般化性能が大幅に向上することが確認された。
Graph contrastive learning (GCL), standing as the dominant paradigm in the realm of graph pre-training, has yielded considerable progress. Nonetheless, its capacity for out-of-distribution (OOD) generalization has been relatively underexplored. In this work, we point out that the traditional optimization of InfoNCE in GCL restricts the cross-domain pairs only to be negative samples, which inevitably enlarges the distribution gap between different domains. This violates the requirement of domain invariance under OOD scenario and consequently impairs the model's OOD generalization performance. To address this issue, we propose a novel strategy "Negative as Positive", where the most semantically similar cross-domain negative pairs are treated as positive during GCL. Our experimental results, spanning a wide array of datasets, confirm that this method substantially improves the OOD generalization performance of GCL. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 潜伏変数の存在下での局所因果構造学習
Local Causal Structure Learning in the Presence of Latent Variables ( http://arxiv.org/abs/2405.16225v1 ) ライセンス: Link先を確認 | Feng Xie, Zheng Li, Peng Wu, Yan Zeng, Chunchen Liu, Zhi Geng, | (参考訳) 観測データから因果関係を明らかにすることは、特に潜伏変数の存在において、困難な問題を引き起こす。
現在の局所構造学習法は,目的変数の局所的関係のみに焦点が当てられている場合に有効かつ効果的であることが証明されているが,因果補足性の仮定の下で機能する。
この仮定は、測定された変数のすべての共通原因が観測され、潜伏変数の余地が残らないことを意味する。
このような前提は、様々な現実世界のアプリケーションで容易に違反でき、結果として下流のタスクに悪影響を及ぼすような不正確な構造をもたらす。
これを踏まえ,本論文では,潜伏変数を含む観測データから,対象の親子を同定する基礎的研究を行った。
具体的には,大域的構造学習と局所的構造学習のギャップを効果的に埋める理論的整合性を導出するために,m分離とV構造からの因果情報を利用する。
新たに開発された停止規則とともに,変数がターゲットの直接的な原因や効果であるか否かを判定する原理的手法を提案する。
さらに, 標準因果マルコフ条件と忠実度条件下でのアプローチの正しさを, 無限サンプルを用いて理論的に示す。
実世界の合成データと実世界のデータによる実験結果から,本手法の有効性と有効性について検証した。
Discovering causal relationships from observational data, particularly in the presence of latent variables, poses a challenging problem. While current local structure learning methods have proven effective and efficient when the focus lies solely on the local relationships of a target variable, they operate under the assumption of causal sufficiency. This assumption implies that all the common causes of the measured variables are observed, leaving no room for latent variables. Such a premise can be easily violated in various real-world applications, resulting in inaccurate structures that may adversely impact downstream tasks. In light of this, our paper delves into the primary investigation of locally identifying potential parents and children of a target from observational data that may include latent variables. Specifically, we harness the causal information from m-separation and V-structures to derive theoretical consistency results, effectively bridging the gap between global and local structure learning. Together with the newly developed stop rules, we present a principled method for determining whether a variable is a direct cause or effect of a target. Further, we theoretically demonstrate the correctness of our approach under the standard causal Markov and faithfulness conditions, with infinite samples. Experimental results on both synthetic and real-world data validate the effectiveness and efficiency of our approach. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 摂動フォージェリによる逆データ検出
Detecting Adversarial Data via Perturbation Forgery ( http://arxiv.org/abs/2405.16226v1 ) ライセンス: Link先を確認 | Qian Wang, Chen Li, Yuchen Luo, Hefei Ling, Ping Li, Jiazhong Chen, Shijuan Huang, Ning Yu, | (参考訳) 敵対的攻撃に対する防御戦略として、敵対的検出は、自然・敵対的データ間の分布の相違とノイズパターンに基づいて、データフローから敵対的データを識別・フィルタリングすることを目的としている。
従来の検出手法は勾配に基づく対向攻撃の検出では高い性能を示すが,不均衡および異方性雑音パターンを回避した生成モデルに基づく新たな攻撃は回避される。
さらに悪いことに、既存のテクニックは、防衛を展開する前に攻撃データへのアクセスを必要とするか、推論にかなりの時間的コストを要し、防御者が目にしない新たな攻撃を防御するためには実用的ではない。
本稿では, 対向雑音分布間の近接関係について検討し, 開放被覆の存在を実証する。
このオープンカバーと自然データの分布を区別することで、あらゆる種類の敵攻撃に対して強力な一般化能力を持つ検出器を開発することができる。
この知見に基づいて,ノイズ分布の摂動,スパースマスク生成,擬似逆数データ生成を含む摂動フォージェリを提案し,特定のモデルに依存せず,未知の勾配ベース,生成モデルベース,物理的逆数攻撃を検出可能な逆数検出器を訓練する。
複数の汎用的および顔的データセットに対して行われた総合的な実験は、幅広い攻撃範囲で、我々の手法の強力な一般化を検証した。
As a defense strategy against adversarial attacks, adversarial detection aims to identify and filter out adversarial data from the data flow based on discrepancies in distribution and noise patterns between natural and adversarial data. Although previous detection methods achieve high performance in detecting gradient-based adversarial attacks, new attacks based on generative models with imbalanced and anisotropic noise patterns evade detection. Even worse, existing techniques either necessitate access to attack data before deploying a defense or incur a significant time cost for inference, rendering them impractical for defending against newly emerging attacks that are unseen by defenders. In this paper, we explore the proximity relationship between adversarial noise distributions and demonstrate the existence of an open covering for them. By learning to distinguish this open covering from the distribution of natural data, we can develop a detector with strong generalization capabilities against all types of adversarial attacks. Based on this insight, we heuristically propose Perturbation Forgery, which includes noise distribution perturbation, sparse mask generation, and pseudo-adversarial data production, to train an adversarial detector capable of detecting unseen gradient-based, generative-model-based, and physical adversarial attacks, while remaining agnostic to any specific models. Comprehensive experiments conducted on multiple general and facial datasets, with a wide spectrum of attacks, validate the strong generalization of our method. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# SIGNLINE:線形方程式暗号系に基づくデジタル署名方式
SIGNLINE: Digital signature scheme based on linear equations cryptosystem ( http://arxiv.org/abs/2405.16227v1 ) ライセンス: Link先を確認 | Gennady Khalimov, Yevgen Kotukh, Maksym Kolisnyk, Svitlana Khalimova, Oleksandr Sievierinov, | (参考訳) 本稿では、対数的シグネチャに対する線形赤道演算に基づくデジタルシグネチャの新しい暗号システムについて検討する。
対数符号は基本的な暗号プリミティブとして機能し、非線形性、非可換性、一方向性、鍵依存因子性などの特性を特徴とする。
提案した暗号体系は、線形方程式の基礎を通じて対数的シグネチャの秘密性を保証する。
量子セキュリティは、対数署名の入力と出力の間のマッピングを排除し、グローバーの量子攻撃を非効率にする。
NISTのセキュリティレベルが128、192、256ビットの公開鍵サイズはそれぞれ1、1.5、および2KBである。
このアルゴリズムは、セキュリティを損なうことなく、計算コスト、メモリ使用量、ハードウェア制限に関するスケーラビリティを示す。
主な操作は、8, 16, 32, 64ビットの対数配列上のビットワイズXORである。
The paper explores a novel cryptosystem for digital signatures based on linear equa-tions for logarithmic signatures. A logarithmic signature serves as a fundamental cryptographic primitive, characterized by properties such as nonlinearity, non-commutability, unidirectionality, and key-dependent factorability. The proposed cryptosystem ensures the secrecy of logarithmic signatures through its foundation in linear equations. Quantum security is achieved by eliminating any possible mapping between the input and output of the logarithmic signature, thereby rendering Grover's quantum attack ineffective. The public key sizes for the NIST security levels of 128, 192, and 256 bits are 1, 1.5, and 2 KB, respectively. The algorithm demonstrates scalability concerning computational costs, memory usage, and hardware limitations without compromising security. Its primary operation involves bitwise XOR over logarithmic arrays of 8, 16, 32, and 64 bits. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 悪は2つもない! 微調整攻撃のメカニズムを解明する
No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks ( http://arxiv.org/abs/2405.16229v1 ) ライセンス: Link先を確認 | Chak Tou Leong, Yi Cheng, Kaishuai Xu, Jian Wang, Hanlin Wang, Wenjie Li, | (参考訳) LLM(Large Language Models)の既存の安全性アライメントは脆弱で、いくつかの有害な例を微調整したり、生成結果のプレフィックスを操作するなど、さまざまな戦略を通じて容易に攻撃できる。
しかし、これらの戦略の攻撃機構はまだ解明されていない。
これらのアプローチは安全性を著しく損なう可能性があるが、攻撃メカニズムは強い類似性を示すのか?
2) 有害な指示に遭遇した場合のLLMの保護プロセスは,(1)有害な指示の認識,(2)最初の拒絶音の発生,(3)拒絶反応の完了の3段階に分けられる。
そこで我々は,この保護プロセスの各段階において,異なる攻撃戦略がどのような影響を及ぼすかを検討した。
我々は、ロジットレンズやアクティベーションパッチなどの技術を用いて、特定の動作を駆動するモデルコンポーネントを特定し、攻撃後の表現シフトを調べるためにクロスモデルプローブを適用した。
特に、最も代表的な攻撃方法として、EHA(Explicit Harmful Attack)とISA(Identity-Shifting Attack)がある。
驚くべきことに、攻撃機構は劇的に多様化している。
ISAとは異なり、EHAは有害な認識段階を積極的に標的とする傾向がある。
EHAとISAの両方が後者の2つの段階を妨害するが、攻撃の程度と機構は大きく異なる。
本研究は, LLMの内部保護プロセスの理解の重要性を浮き彫りにして, 各種攻撃に効果的に対処するためには, 多様な防御機構が必要であることを示唆している。
The existing safety alignment of Large Language Models (LLMs) is found fragile and could be easily attacked through different strategies, such as through fine-tuning on a few harmful examples or manipulating the prefix of the generation results. However, the attack mechanisms of these strategies are still underexplored. In this paper, we ask the following question: \textit{while these approaches can all significantly compromise safety, do their attack mechanisms exhibit strong similarities?} To answer this question, we break down the safeguarding process of an LLM when encountered with harmful instructions into three stages: (1) recognizing harmful instructions, (2) generating an initial refusing tone, and (3) completing the refusal response. Accordingly, we investigate whether and how different attack strategies could influence each stage of this safeguarding process. We utilize techniques such as logit lens and activation patching to identify model components that drive specific behavior, and we apply cross-model probing to examine representation shifts after an attack. In particular, we analyze the two most representative types of attack approaches: Explicit Harmful Attack (EHA) and Identity-Shifting Attack (ISA). Surprisingly, we find that their attack mechanisms diverge dramatically. Unlike ISA, EHA tends to aggressively target the harmful recognition stage. While both EHA and ISA disrupt the latter two stages, the extent and mechanisms of their attacks differ significantly. Our findings underscore the importance of understanding LLMs' internal safeguarding process and suggest that diverse defense mechanisms are required to effectively cope with various types of attacks. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# Client2Vec: 分散シフトによるフェデレーション学習の改善
Client2Vec: Improving Federated Learning by Distribution Shifts Aware Client Indexing ( http://arxiv.org/abs/2405.16233v1 ) ライセンス: Link先を確認 | Yongxin Guo, Lin Wang, Xiaoying Tang, Tao Lin, | (参考訳) Federated Learning(FL)は、プライバシ保護のための分散機械学習パラダイムである。
それでも、クライアント間の実質的な分散シフトは、現在のFLアルゴリズムの性能にかなりの課題をもたらす。
この課題を軽減するために、FLトレーニングプロセスを強化する様々な方法が提案されている。
本稿では、実際のトレーニングステージに先立ってFLアルゴリズムを改善することにより、データ不均一性の問題に別の視点から取り組みます。
具体的には、FLトレーニング開始前にクライアント毎に独自のクライアントインデックスを生成するClient2Vecメカニズムを紹介する。
その後、生成されたクライアントインデックスを利用して、後のFLトレーニングプロセスを強化する。
提案手法の有効性を示すために,クライアントインデックスがFLトレーニングプロセスに与える影響を評価する3つの事例研究を行った。
これらのケーススタディには、強化されたクライアントサンプリング、モデルアグリゲーション、ローカルトレーニングが含まれる。
多様なデータセットとモデルアーキテクチャで実施された大規模な実験は、3つのケーススタディすべてでClient2Vecの有効性を示している。
我々のコードは \url{https://github.com/LINs-lab/client2vec} で無効です。
Federated Learning (FL) is a privacy-preserving distributed machine learning paradigm. Nonetheless, the substantial distribution shifts among clients pose a considerable challenge to the performance of current FL algorithms. To mitigate this challenge, various methods have been proposed to enhance the FL training process. This paper endeavors to tackle the issue of data heterogeneity from another perspective -- by improving FL algorithms prior to the actual training stage. Specifically, we introduce the Client2Vec mechanism, which generates a unique client index for each client before the commencement of FL training. Subsequently, we leverage the generated client index to enhance the subsequent FL training process. To demonstrate the effectiveness of the proposed Client2Vec method, we conduct three case studies that assess the impact of the client index on the FL training process. These case studies encompass enhanced client sampling, model aggregation, and local training. Extensive experiments conducted on diverse datasets and model architectures show the efficacy of Client2Vec across all three case studies. Our code is avaliable at \url{https://github.com/LINs-lab/client2vec}. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# スプレッドシート理解のための視覚言語モデル:課題と機会
Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities ( http://arxiv.org/abs/2405.16234v1 ) ライセンス: Link先を確認 | Shiyu Xia, Junyu Xiong, Haoyu Dong, Jianbo Zhao, Yuzhang Tian, Mengyu Zhou, Yeye He, Shi Han, Dongmei Zhang, | (参考訳) 本稿では,スプレッドシート理解における視覚言語モデルの有用性について考察する。
本稿では,光学的文字認識(OCR),空間認識,視覚的フォーマット認識におけるVLMを包括的に評価するための評価指標を用いた3つの自己監督的課題を提案する。
さらに,これらの課題を統合することで,VLMの全体的な性能を評価するために表テーブル検出タスクを利用する。
より詳細にVLMを探索するために,カラム幅調整,スタイル変更,アドレス拡張という3つのスプレッドシート・ツー・イメージ設定を提案する。
我々は、上記の課題に異なる設定で対処するためのプロンプトの変種を提案する。
特に,2次元位置決めよりもテキスト理解におけるVLMの強みを活用するために,表の4つの境界におけるセル値のデコードを提案する。
以上の結果から,VLMは有望なOCR機能を示すが,細胞欠失や不整合による不満足な結果が得られ,空間認識能力やフォーマット認識能力が不足していることが判明した。
This paper explores capabilities of Vision Language Models on spreadsheet comprehension. We propose three self-supervised challenges with corresponding evaluation metrics to comprehensively evaluate VLMs on Optical Character Recognition (OCR), spatial perception, and visual format recognition. Additionally, we utilize the spreadsheet table detection task to assess the overall performance of VLMs by integrating these challenges. To probe VLMs more finely, we propose three spreadsheet-to-image settings: column width adjustment, style change, and address augmentation. We propose variants of prompts to address the above tasks in different settings. Notably, to leverage the strengths of VLMs in understanding text rather than two-dimensional positioning, we propose to decode cell values on the four boundaries of the table in spreadsheet boundary detection. Our findings reveal that VLMs demonstrate promising OCR capabilities but produce unsatisfactory results due to cell omission and misalignment, and they notably exhibit insufficient spatial and format recognition skills, motivating future work to enhance VLMs' spreadsheet data comprehension capabilities using our methods to generate extensive spreadsheet-image pairs in various settings. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 網膜疾患の診断におけるより良いアプローチ : セグメンテーションに基づく血管拡張とディープラーニング機能の組み合わせ
A better approach to diagnose retinal diseases: Combining our Segmentation-based Vascular Enhancement with deep learning features ( http://arxiv.org/abs/2405.16235v1 ) ライセンス: Link先を確認 | Yuzhuo Chen, Zetong Chen, Yuanyuan Liu, | (参考訳) 網膜基底像の異常は、糖尿病性網膜症、高血圧、脳卒中、緑内障、網膜黄斑浮腫、静脈閉塞、動脈硬化症などの特定の病態を示し、網膜像の研究と解析に大きな意義がある。
従来の医学では、網膜関連疾患の診断は、医師の主観的評価に依存するが、これは時間のかかるプロセスであり、精度は医師の主観的経験に大きく依存している。
そこで本研究では,網膜基底画像関連疾患の迅速かつ客観的かつ正確な診断法を提案する。
本手法は、STAREデータベース上の正常サンプルと13種類の疾患サンプルの多分類化研究であり、テストセットの精度は99.96%である。
他の研究と比較すると,本手法は高い精度を達成できた。
本研究は,Segmentation-based Vascular Enhancement(SVE)を革新的に提案する。
SVE画像、オリジナル画像、Smooth Grad-CAM ++画像の深層学習モデルの分類性能を比較した後、SVE画像の深層学習特徴と伝統的な特徴を抽出し、9つのメタ学習者に入力した。
その結果,提案したUNet-SVE-VGG-MLPモデルは,STAREデータベース上で網膜基底画像に関連する疾患の分類に最適であり,総合精度は99.96%,重み付きAUCは99.98%であった。
本手法は、網膜底部画像関連疾患の迅速かつ客観的かつ正確な分類と診断を実現するために用いられる。
Abnormalities in retinal fundus images may indicate certain pathologies such as diabetic retinopathy, hypertension, stroke, glaucoma, retinal macular edema, venous occlusion, and atherosclerosis, making the study and analysis of retinal images of great significance. In conventional medicine, the diagnosis of retina-related diseases relies on a physician's subjective assessment of the retinal fundus images, which is a time-consuming process and the accuracy is highly dependent on the physician's subjective experience. To this end, this paper proposes a fast, objective, and accurate method for the diagnosis of diseases related to retinal fundus images. This method is a multiclassification study of normal samples and 13 categories of disease samples on the STARE database, with a test set accuracy of 99.96%. Compared with other studies, our method achieved the highest accuracy. This study innovatively propose Segmentation-based Vascular Enhancement(SVE). After comparing the classification performances of the deep learning models of SVE images, original images and Smooth Grad-CAM ++ images, we extracted the deep learning features and traditional features of the SVE images and input them into nine meta learners for classification. The results shows that our proposed UNet-SVE-VGG-MLP model has the optimal performance for classifying diseases related to retinal fundus images on the STARE database, with a overall accuracy of 99.96% and a weighted AUC of 99.98% for the 14 categories on test dataset. This method can be used to realize rapid, objective, and accurate classification and diagnosis of retinal fundus image related diseases. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 弱強一般化のための統計的枠組み
A statistical framework for weak-to-strong generalization ( http://arxiv.org/abs/2405.16236v1 ) ライセンス: Link先を確認 | Seamus Somerstep, Felipe Maia Polo, Moulinath Banerjee, Ya'acov Ritov, Mikhail Yurochkin, Yuekai Sun, | (参考訳) 現代の大規模言語モデル(LLM)のアライメント技術は人間のフィードバックに依存しているが、この手法が整列 LLM の能力を根本的に制限するかどうかは不明である。
特に,超人的能力と人間のフィードバックとを協調させることが,能力の劣化を伴わずに可能かどうかは不明である。
これは弱い(非有能な)フィードバックを使ってより強い(より有能な)モデルを訓練する弱い(非有能な)一般化問題の例である。
我々は、事前学習されたLLMから潜在知識を引き出すことにより、弱強一般化が可能であることを証明した。
特に,弱いモデルから強い事前学習モデルへの潜在概念の移行を希望する伝達学習問題として,弱強一般化問題を考察した。
直感的な微調整アプローチは基本的な制限に悩まされるが、問題構造によって提案される代替の精細化に基づくアプローチは、確実に微調整の限界を克服する。
最後に, 3つのLCMアライメントタスクによる改良手法の適用性を示す。
Modern large language model (LLM) alignment techniques rely on human feedback, but it is unclear whether the techniques fundamentally limit the capabilities of aligned LLMs. In particular, it is unclear whether it is possible to align (stronger) LLMs with superhuman capabilities with (weaker) human feedback without degrading their capabilities. This is an instance of the weak-to-strong generalization problem: using weaker (less capable) feedback to train a stronger (more capable) model. We prove that weak-to-strong generalization is possible by eliciting latent knowledge from pre-trained LLMs. In particular, we cast the weak-to-strong generalization problem as a transfer learning problem in which we wish to transfer a latent concept from a weak model to a strong pre-trained model. We prove that a naive fine-tuning approach suffers from fundamental limitations, but an alternative refinement-based approach suggested by the problem structure provably overcomes the limitations of fine-tuning. Finally, we demonstrate the practical applicability of the refinement approach with three LLM alignment tasks. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# N-BVH:境界体積階層を持つニューラルレイクエリ
N-BVH: Neural ray queries with bounding volume hierarchies ( http://arxiv.org/abs/2405.16237v1 ) ライセンス: Link先を確認 | Philippe Weier, Alexander Rath, Élie Michel, Iliyan Georgiev, Philipp Slusallek, Tamy Boubekeur, | (参考訳) ニューラルネットワークの表現は、生のデータサイズのごく一部で複雑な信号を圧縮する素晴らしい能力を示している。
3Dコンピュータグラフィックスでは、シーンのメモリ使用の大部分はポリゴンとテクスチャによるもので、ニューラル圧縮の理想的な候補となっている。
ここでの大きな課題は、トレーニング時間を最小化しながら、効率的な圧縮と安価な推論の間に良いトレードオフを見つけることである。
レンダリングの文脈では、この問題に対してレイ中心のアプローチを採用し、3Dで任意のレイクエリに応答するように設計されたニューラル圧縮アーキテクチャであるN-BVHを考案する。
我々のコンパクトモデルは入力幾何から学習され、路面追跡エンジンによって線交叉がクエリされるたびにその代用となる。
従来のニューラル圧縮手法ではポイントクエリに重点を置いていたが,我々は標準のレイトレーシングパイプラインにシームレスに統合するニューラルレイクエリを提案する。
提案手法のコアとなるのは, 適応的なBVH駆動型探索手法を用いて, 多分解能ハッシュグリッドのパラメータを最適化し, そのニューラルキャパシティを, 元の表面のスパース3D占有率に焦点を絞った。
結果として、我々のN-BVHは、桁違いにコンパクトな表現から正確な光線クエリを提供することができ、可視性、深さ、外観特性の忠実な近似を提供する。
この手法の柔軟性により、同じ3Dシーン内で神経と非神経の実体を結合し、重なり合うことができ、外観レベルまで拡張できる。
Neural representations have shown spectacular ability to compress complex signals in a fraction of the raw data size. In 3D computer graphics, the bulk of a scene's memory usage is due to polygons and textures, making them ideal candidates for neural compression. Here, the main challenge lies in finding good trade-offs between efficient compression and cheap inference while minimizing training time. In the context of rendering, we adopt a ray-centric approach to this problem and devise N-BVH, a neural compression architecture designed to answer arbitrary ray queries in 3D. Our compact model is learned from the input geometry and substituted for it whenever a ray intersection is queried by a path-tracing engine. While prior neural compression methods have focused on point queries, ours proposes neural ray queries that integrate seamlessly into standard ray-tracing pipelines. At the core of our method, we employ an adaptive BVH-driven probing scheme to optimize the parameters of a multi-resolution hash grid, focusing its neural capacity on the sparse 3D occupancy swept by the original surfaces. As a result, our N-BVH can serve accurate ray queries from a representation that is more than an order of magnitude more compact, providing faithful approximations of visibility, depth, and appearance attributes. The flexibility of our method allows us to combine and overlap neural and non-neural entities within the same 3D scene and extends to appearance level of detail. | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# 分析フェデレーション学習
Analytic Federated Learning ( http://arxiv.org/abs/2405.16240v1 ) ライセンス: Link先を確認 | Huiping Zhuang, Run He, Kai Tong, Di Fang, Han Sun, Haoran Li, Tianyi Chen, Ziqian Zeng, | (参考訳) 本稿では,分析フェデレーション学習(AFL)という新たな学習パラダイムを導入し,分析的(クローズドな)ソリューションをフェデレーション学習(FL)コミュニティに導入する。
私たちのAFLは、分析学習からインスピレーションを受けています -- ニューラルネットワークを1つの時代における分析ソリューションでトレーニングする、勾配のないテクニックです。
ローカルクライアントのトレーニング段階では、AFLはワンエポックなトレーニングを促進し、マルチエポックな更新の必要性を排除する。
集約段階では、絶対集約法(AA法)を導出する。
このAA法は単一ラウンドのアグリゲーションを可能にし、複数のアグリゲーションラウンドの必要性を取り除く。
さらに重要なのは、AFLが‘textit{weight-invariant}プロパティを示すことだ。
これは、データ不均一性不変性、クライアント数不変性、絶対収束性、ハイパーパラメータフリーであること(AFLはFL史上初のハイパーパラメータフリー法である)など、様々なポテンシャルを生み出す可能性がある。
極めて非IIDな設定や多数のクライアント(例えば$\ge 1000$)のシナリオなど、さまざまなFL設定で実験を行います。
これらすべての設定において、既存のFL技術が様々な障害に直面している間、AFLは絶えず競争力を発揮する。
コードは \url{https://github.com/ZHUANGHP/Analytic-federated-learning} で公開されている。
In this paper, we introduce analytic federated learning (AFL), a new training paradigm that brings analytical (i.e., closed-form) solutions to the federated learning (FL) community. Our AFL draws inspiration from analytic learning -- a gradient-free technique that trains neural networks with analytical solutions in one epoch. In the local client training stage, the AFL facilitates a one-epoch training, eliminating the necessity for multi-epoch updates. In the aggregation stage, we derive an absolute aggregation (AA) law. This AA law allows a single-round aggregation, removing the need for multiple aggregation rounds. More importantly, the AFL exhibits a \textit{weight-invariant} property, meaning that regardless of how the full dataset is distributed among clients, the aggregated result remains identical. This could spawn various potentials, such as data heterogeneity invariance, client-number invariance, absolute convergence, and being hyperparameter-free (our AFL is the first hyperparameter-free method in FL history). We conduct experiments across various FL settings including extremely non-IID ones, and scenarios with a large number of clients (e.g., $\ge 1000$). In all these settings, our AFL constantly performs competitively while existing FL techniques encounter various obstacles. Code is available at \url{https://github.com/ZHUANGHP/Analytic-federated-learning} | 翻訳日:2024-05-29 00:21:21 公開日:2024-05-25 |
# FastQuery: プライベートLLM推論のための通信効率のよい埋め込みテーブルクエリ
FastQuery: Communication-efficient Embedding Table Query for Private LLM Inference ( http://arxiv.org/abs/2405.16241v1 ) ライセンス: Link先を確認 | Chenqi Lin, Tianshi Xu, Zebin Yang, Runsheng Wang, Ru Huang, Meng Li, | (参考訳) 大規模言語モデル(LLM)の急速な進化により、ユーザクエリに対するプライバシの懸念が生じる。
ユーザクエリのプライバシを保護するため,同型暗号化(HE)に基づくプライベート推論が提案されている。
しかし、プライベートな埋め込みテーブルクエリはHEベースの行列ベクトル乗算問題として定式化され、膨大な計算と通信オーバーヘッドに悩まされる。
私たちは、主に無視から生じるオーバーヘッドを観察します。
1) ユーザクエリとユーザクエリの1ホットな性質
2) 埋め込みテーブルの低ビット幅量子化雑音に対する堅牢性
そこで本稿では,FastQueryと呼ばれる,プライベートな埋め込みテーブルクエリ最適化フレームワークを提案する。
FastQueryは、通信対応の埋め込みテーブル量子化アルゴリズムと、計算コストと通信コストの両方を同時に削減する1ホット対応の高密度パッキングアルゴリズムを備えている。
従来のHEベースのフレームワークであるeg、Cheetah、Iron、Bumblebeeと比較して、FastQueryはLLAMA-7BとLLAMA-30Bでそれぞれ4.3\times$、2.7\times$、1.3\times$遅延削減、75.7\times$、60.2\times$、20.2\times$通信削減をそれぞれ達成している。
With the fast evolution of large language models (LLMs), privacy concerns with user queries arise as they may contain sensitive information. Private inference based on homomorphic encryption (HE) has been proposed to protect user query privacy. However, a private embedding table query has to be formulated as a HE-based matrix-vector multiplication problem and suffers from enormous computation and communication overhead. We observe the overhead mainly comes from the neglect of 1) the one-hot nature of user queries and 2) the robustness of the embedding table to low bit-width quantization noise. Hence, in this paper, we propose a private embedding table query optimization framework, dubbed FastQuery. FastQuery features a communication-aware embedding table quantization algorithm and a one-hot-aware dense packing algorithm to simultaneously reduce both the computation and communication costs. Compared to prior-art HE-based frameworks, e.g., Cheetah, Iron, and Bumblebee, FastQuery achieves more than $4.3\times$, $2.7\times$, $1.3\times$ latency reduction, respectively and more than $75.7\times$, $60.2\times$, $20.2\times$ communication reduction, respectively, on both LLAMA-7B and LLAMA-30B. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# Conformalized Late Fusion Multi-View Learning
Conformalized Late Fusion Multi-View Learning ( http://arxiv.org/abs/2405.16246v1 ) ライセンス: Link先を確認 | Eduardo Ochoa Rivera, Yash Patel, Ambuj Tewari, | (参考訳) 多視点学習の不確かさの定量化は、科学的な問題における多視点データの利用の増加によって動機づけられる。
個別のビューで個別の予測器を訓練し、単一のビュー予測が利用可能になった後にそれらを組み合わせます。
後期核融合における既存の不確実性定量化の方法は、しばしば有効性に対する望ましくない分布仮定に依存する。
等角予測はそのような分布仮定を避ける方法の1つである。
しかし、後期核融合パイプラインに因果予測を適用すると、過度に保守的で非形式的な予測領域が生成され、下流のユーティリティが制限される。
本稿では,共形予測を単一ビュー予測器上で個別に行う手法として,MVCP(Multi-View Conformal Prediction)を提案する。
本フレームワークは、スコア関数の標準スカラー定式化を多変量スコアに拡張し、分類と回帰設定の両方においてより効率的な下流予測領域を生成する。
次に、整合化された回帰器上に構築された手法、特に堅牢な予測列最適化パイプラインにおいて、このような改善が実現可能であることを実証する。
Uncertainty quantification for multi-view learning is motivated by the increasing use of multi-view data in scientific problems. A common variant of multi-view learning is late fusion: train separate predictors on individual views and combine them after single-view predictions are available. Existing methods for uncertainty quantification for late fusion often rely on undesirable distributional assumptions for validity. Conformal prediction is one approach that avoids such distributional assumptions. However, naively applying conformal prediction to late-stage fusion pipelines often produces overly conservative and uninformative prediction regions, limiting its downstream utility. We propose a novel methodology, Multi-View Conformal Prediction (MVCP), where conformal prediction is instead performed separately on the single-view predictors and only fused subsequently. Our framework extends the standard scalar formulation of a score function to a multivariate score that produces more efficient downstream prediction regions in both classification and regression settings. We then demonstrate that such improvements can be realized in methods built atop conformalized regressors, specifically in robust predict-then-optimize pipelines. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 対話型環境学習によるLLMエージェントによる指導マニュアルの自動作成
AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning ( http://arxiv.org/abs/2405.16247v1 ) ライセンス: Link先を確認 | Minghao Chen, Yihang Li, Yanting Yang, Shiyu Yu, Binbin Lin, Xiaofei He, | (参考訳) LLM(Large Language Models)ベースのエージェントは、さまざまなドメイン、例えばロボティクス、ゲーム、Webナビゲーションにおいて、自律的にタスクを完了させることを約束している。
しかし、これらのエージェントは通常、特定のドメインのタスクを解決するために精巧な設計と専門家のプロンプトを必要とし、適応性を制限する。
我々は,LLMエージェントが対話を通じて理解を自律的に構築し,新しい環境に適応することを可能にするフレームワークであるAutoManualを紹介した。
AutoManualは、環境知識を多様なルールに分類し、2つのエージェントによってオンラインで最適化する。
1) プランナーは、環境と対話するための現在の規則に基づいて実行可能な計画をコーディングする。
2) ビルダーは、オンラインルール管理と本質的な詳細保持を容易にする、よく構造化されたルールシステムを通じてルールを更新する。
ルール管理における幻覚を軽減するため、ビルダーに対してtextit{case-conditioned prompting}戦略を導入します。
最後に、フォーミュラレータはこれらのルールを包括的なマニュアルにコンパイルする。
自己生成マニュアルは適応性を向上するだけでなく、人間可読性を維持しながら、より小さなLCMの計画も導くことができる。
1つの単純なデモンストレーションで、AutoManualはタスクの成功率を大幅に改善し、GPT-4-turboで97.4\%、ALFWorldベンチマークタスクで86.2\%を達成した。
ソースコードはまもなく公開される予定だ。
Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce \textit{case-conditioned prompting} strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The source code will be available soon. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 放射能と機械学習の併用による客観的ASD診断 : 白色物質とASDの関連性検証
Combining Radiomics and Machine Learning Approaches for Objective ASD Diagnosis: Verifying White Matter Associations with ASD ( http://arxiv.org/abs/2405.16248v1 ) ライセンス: Link先を確認 | Junlin Song, Yuzhuo Chen, Yuan Yao, Zetong Chen, Renhao Guo, Lida Yang, Xinyi Sui, Qihang Wang, Xijiao Li, Aihua Cao, Wei Li, | (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder)は、社会的スキル、コミュニケーション能力、反復行動、感覚処理の障害につながる典型的な脳発達を特徴とする症状である。
脳MRI画像と機械学習アルゴリズムを組み合わせて自閉症の客観的診断を行う研究は数多く行われているが、白質と自閉症の相関は十分に利用されていない。
このギャップに対処するために,脳MRIの白質領域に着目したコンピュータ支援診断モデルを開発した。
本研究では, ホワイトマターをセグメント化するためのMultiUNetモデルを導入し, UNetアーキテクチャを活用し, 手動分割MRI画像をトレーニングデータとして利用した。
その後、Piradiomicsツールキットを用いてホワイトマターの特徴を抽出し、Support Vector Machine、Random Forest、Logistic Regression、K-Nearest Neighborsといった機械学習モデルを用いて自閉症を予測する。
予測の精度は80%を超えた。
さらに、畳み込みニューラルネットワークを用いて、セグメント化された白色物質画像を分析し、86.84%の精度で予測した。
特に、Support Vector Machineは89.47%という高い予測精度を示した。
これらの知見は, モデルの有効性だけでなく, ホワイトマターの異常と自閉症との関連を裏付けるものである。
本研究は,各種自閉症診断モデルの総合的評価に寄与し,MRI白質領域に基づく早期・客観的自閉症診断のためのコンピュータ支援診断アルゴリズムを提案する。
Autism Spectrum Disorder is a condition characterized by a typical brain development leading to impairments in social skills, communication abilities, repetitive behaviors, and sensory processing. There have been many studies combining brain MRI images with machine learning algorithms to achieve objective diagnosis of autism, but the correlation between white matter and autism has not been fully utilized. To address this gap, we develop a computer-aided diagnostic model focusing on white matter regions in brain MRI by employing radiomics and machine learning methods. This study introduced a MultiUNet model for segmenting white matter, leveraging the UNet architecture and utilizing manually segmented MRI images as the training data. Subsequently, we extracted white matter features using the Pyradiomics toolkit and applied different machine learning models such as Support Vector Machine, Random Forest, Logistic Regression, and K-Nearest Neighbors to predict autism. The prediction sets all exceeded 80% accuracy. Additionally, we employed Convolutional Neural Network to analyze segmented white matter images, achieving a prediction accuracy of 86.84%. Notably, Support Vector Machine demonstrated the highest prediction accuracy at 89.47%. These findings not only underscore the efficacy of the models but also establish a link between white matter abnormalities and autism. Our study contributes to a comprehensive evaluation of various diagnostic models for autism and introduces a computer-aided diagnostic algorithm for early and objective autism diagnosis based on MRI white matter regions. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 量子多体ダイナミクス予測における伝達学習-物理観測値から絡み合いエントロピーへ
Transfer learning in predicting quantum many-body dynamics: from physical observables to entanglement entropy ( http://arxiv.org/abs/2405.16254v1 ) ライセンス: Link先を確認 | Philipp Schmidt, Florian Marquardt, Naeimeh Mohseni, | (参考訳) ディープニューラルネットワークは、複雑なデータセットから意味のある表現を抽出する際、顕著な効果を示した。
これにより、表現学習は様々な分野にまたがる研究の魅力的な領域として推進されてきた。
興味深いオープンな疑問は、量子多体物理学において、その不規則な高次元状態空間において、表現学習がいかに有益であるかである。
本研究では、多体系の物理観測可能量のサブセットに基づいてトレーニングされたニューラルネットワークの能力を示し、波動関数の暗黙的表現を部分的に取得する。
本稿では、ニューラルネットワークが学習した表現を再利用し、量子状態から派生した別の量の学習プロセスを強化する効果を示す。
特に、トレーニング済みのニューラルネットワークが絡み合いのエントロピーの学習をいかに促進するかに焦点を当てる。
これは、多体系の絡み合いを直接測定することは非常に困難であるが、物理観測装置のサブセットは実験で容易に測定できるため、特に興味深い。
トレーニング済みニューラルネットワークは,エントロピーのエントロピーを直接トレーニングした場合と比較して,少ないリソースと高い精度でエントロピーのダイナミクスを学習することを示す。
Deep neural networks have demonstrated remarkable efficacy in extracting meaningful representations from complex datasets. This has propelled representation learning as a compelling area of research across diverse fields. One interesting open question is how beneficial representation learning can be for quantum many-body physics, with its notouriosly high-dimensional state space. In this work, we showcase the capacity of a neural network that was trained on a subset of physical observables of a many-body system to partially acquire an implicit representation of the wave function. We illustrate this by demonstrating the effectiveness of reusing the representation learned by the neural network to enhance the learning process of another quantity derived from the quantum state. In particular, we focus on how the pre-trained neural network can enhance the learning of entanglement entropy. This is of particular interest as directly measuring the entanglement in a many-body system is very challenging, while a subset of physical observables can be easily measured in experiments. We show the pre-trained neural network learns the dynamics of entropy with fewer resources and higher precision in comparison with direct training on the entanglement entropy. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# GeoAdaLer: 適応確率勾配勾配アルゴリズムの幾何学的洞察
GeoAdaLer: Geometric Insights into Adaptive Stochastic Gradient Descent Algorithms ( http://arxiv.org/abs/2405.16255v1 ) ライセンス: Link先を確認 | Chinedu Eleh, Masuzyo Mwanza, Ekene Aguegboh, Hans-Werner van Wyk, | (参考訳) アダム最適化法は、確率最適化における現代の課題に対処する際、顕著な成功を収めた。
この手法は適応的な下位段階の手法の領域に該当するが、その性能を導く基礎となる幾何学的原理は謎に包まれており、長い間研究が続けられてきた。
本稿では,確率勾配降下最適化のための新しい適応学習手法であるGeoAdaLer(Geometric Adaptive Learner)を紹介する。
複雑な最適化シナリオにおける解釈可能性と有効性を向上する幾何学的傾斜アプローチを導入することで適応学習の概念を拡張した。
The Adam optimization method has achieved remarkable success in addressing contemporary challenges in stochastic optimization. This method falls within the realm of adaptive sub-gradient techniques, yet the underlying geometric principles guiding its performance have remained shrouded in mystery, and have long confounded researchers. In this paper, we introduce GeoAdaLer (Geometric Adaptive Learner), a novel adaptive learning method for stochastic gradient descent optimization, which draws from the geometric properties of the optimization landscape. Beyond emerging as a formidable contender, the proposed method extends the concept of adaptive learning by introducing a geometrically inclined approach that enhances the interpretability and effectiveness in complex optimization scenarios | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# HetHub:大規模モデルのための異種分散ハイブリッドトレーニングシステム
HetHub: A Heterogeneous distributed hybrid training system for large-scale models ( http://arxiv.org/abs/2405.16256v1 ) ライセンス: Link先を確認 | Si Xu, Zixiao Huang, Yan Zeng, Shengen Yan, Xuefei Ning, Haolin Ye, Sipei Gu, Chunsheng Shui, Zhezheng Lin, Hao Zhang, Sheng Wang, Guohao Dai, Yu Wang, | (参考訳) 大規模モデルの開発は、膨大な数の計算資源に依存している。
例えば、GPT-4モデル(1.8兆のパラメータ)はトレーニングに25,000のA100 GPUを必要とする。
GPUアクセラレータのタイプで大規模なクラスタを構築するのは難しい。
クラスタ構築に複数のタイプのGPUアクセラレータを使用することは、不均一なGPUアクセラレータの問題を解決する効果的な方法である。
しかし、大規模モデルの既存の分散トレーニングシステムは、異種GPU加速器ではなく、同種GPU加速器のみをサポートしている。
そこで本研究では,大規模モデル用ヘテロジニアスGPUアクセラレータをハイブリッド並列化サポートした分散トレーニングシステムを提案する。
異種GPUアクセラレータ間の通信を実現する分散統一コミュニケータ、分散パフォーマンス予測器、および異種GPUアクセラレータで効率的にモデルを開発し訓練するための自動ハイブリッド並列モジュールを導入している。
均質GPU加速器を用いた分散トレーニングシステムと比較して、同質GPU加速器の6つの異なる組み合わせをサポートし、同質GPU加速器の理論的上界性能の少なくとも90%は、異質GPU加速器の最適性能が達成されている。
The development of large-scale models relies on a vast number of computing resources. For example, the GPT-4 model (1.8 trillion parameters) requires 25000 A100 GPUs for its training. It is a challenge to build a large-scale cluster with a type of GPU-accelerator. Using multiple types of GPU-accelerators to construct a cluster is an effective way to solve the problem of insufficient homogeneous GPU-accelerators. However, the existing distributed training systems for large-scale models only support homogeneous GPU-accelerators, not heterogeneous GPU-accelerators. To address the problem, this paper proposes a distributed training system with hybrid parallelism support on heterogeneous GPU-accelerators for large-scale models. It introduces a distributed unified communicator to realize the communication between heterogeneous GPU-accelerators, a distributed performance predictor, and an automatic hybrid parallel module to develop and train models efficiently with heterogeneous GPU-accelerators. Compared to the distributed training system with homogeneous GPU-accelerators, our system can support six different combinations of heterogeneous GPU-accelerators and the optimal performance of heterogeneous GPU-accelerators has achieved at least 90% of the theoretical upper bound performance of homogeneous GPU-accelerators. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# USD:多変量時系列における故障検出のための教師なしソフトコントラスト学習
USD: Unsupervised Soft Contrastive Learning for Fault Detection in Multivariate Time Series ( http://arxiv.org/abs/2405.16258v1 ) ライセンス: Link先を確認 | Hong Liu, Xiuxiu Qiu, Yiming Shi, Zelin Zang, | (参考訳) 多変量時系列における教師なし故障検出は複雑なシステムの完全性と効率を維持するために重要であり、現在の手法は主に統計学と機械学習技術に焦点を当てている。
しかしながら、これらのアプローチは、データ分布が正規状態と異常状態の両方で現れるパターンの多様性を見越して、ガウスモデルに準拠しているという仮定に依存していることが多い。
我々のイノベーションは、データ強化とソフトコントラスト学習の組み合わせによって、この制限に対処します。
データ拡張プロセスは、正常な状態の様々な表現でデータセットを豊かにし、ソフトコントラスト学習は、正常なパターンと異常なパターンの微妙な違いに対するモデルの感度を微調整し、より広範な異常スペクトルを認識できるようにする。
この二重戦略は、モデルが正常な状態と異常な状態を区別する能力を大幅に向上させ、複数のデータセットと設定にわたって障害検出性能が著しく改善され、複雑なシステムにおける教師なし障害検出のための新しいベンチマークが設定される。
我々のメソッドのコードは \url{https://github.com/zangzelin/code_USD.git} で利用可能です。
Unsupervised fault detection in multivariate time series is critical for maintaining the integrity and efficiency of complex systems, with current methodologies largely focusing on statistical and machine learning techniques. However, these approaches often rest on the assumption that data distributions conform to Gaussian models, overlooking the diversity of patterns that can manifest in both normal and abnormal states, thereby diminishing discriminative performance. Our innovation addresses this limitation by introducing a combination of data augmentation and soft contrastive learning, specifically designed to capture the multifaceted nature of state behaviors more accurately. The data augmentation process enriches the dataset with varied representations of normal states, while soft contrastive learning fine-tunes the model's sensitivity to the subtle differences between normal and abnormal patterns, enabling it to recognize a broader spectrum of anomalies. This dual strategy significantly boosts the model's ability to distinguish between normal and abnormal states, leading to a marked improvement in fault detection performance across multiple datasets and settings, thereby setting a new benchmark for unsupervised fault detection in complex systems. The code of our method is available at \url{https://github.com/zangzelin/code_USD.git}. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# フロントプロパゲーションアルゴリズム:ニューラルネットワークから線形関数近似を抽出する説明可能なAI技術
Front-propagation Algorithm: Explainable AI Technique for Extracting Linear Function Approximations from Neural Networks ( http://arxiv.org/abs/2405.16259v1 ) ライセンス: Link先を確認 | Javier Viaña, | (参考訳) 本稿では、深層ニューラルネットワークの意思決定ロジックの解明を目的とした、新しいeXplainable AI(XAI)技術であるフロントプロパゲーションアルゴリズムを紹介する。
Integrated GradientsやShapley Valuesのような他の一般的な説明可能性アルゴリズムとは異なり、提案アルゴリズムはトレーニングされたモデルの1つの前方通過において、ネットワークの正確で一貫した線形関数説明を抽出することができる。
このニュアンスは、デプロイされたモデルと並行してリアルタイムに実行される可能性があるため、フロントプロパゲーションの時間的複雑さを分離する。
我々はこのアルゴリズムを$\texttt{front-prop}$というソフトウェアにパッケージ化し、公開ベンチマークデータセットに基づいてトレーニングされた3つの異なるニューラルネットワークアーキテクチャで正確な線形関数を提供することの有効性を実証した。
This paper introduces the front-propagation algorithm, a novel eXplainable AI (XAI) technique designed to elucidate the decision-making logic of deep neural networks. Unlike other popular explainability algorithms such as Integrated Gradients or Shapley Values, the proposed algorithm is able to extract an accurate and consistent linear function explanation of the network in a single forward pass of the trained model. This nuance sets apart the time complexity of the front-propagation as it could be running real-time and in parallel with deployed models. We packaged this algorithm in a software called $\texttt{front-prop}$ and we demonstrate its efficacy in providing accurate linear functions with three different neural network architectures trained on publicly available benchmark datasets. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 適応的分類とエネルギーに基づく識別による一貫性に基づく画像生成の促進
Enhancing Consistency-Based Image Generation via Adversarialy-Trained Classification and Energy-Based Discrimination ( http://arxiv.org/abs/2405.16260v1 ) ライセンス: Link先を確認 | Shelly Golan, Roy Ganz, Michael Elad, | (参考訳) 最近導入されたConsistencyモデルは拡散アルゴリズムの代替として効率的であり、高速で高品質な画像合成を可能にする。
これらの手法は、(比較的)単純なトレーニングを維持しながら、ノイズを直接データにマッピングすることで拡散モデルの遅さを克服する。
一貫性モデルは高速な1段階または数段階の生成を可能にするが、通常は拡散起源と比較してサンプル品質がやや低下する。
本研究では,一貫性に基づく画像の生成を後処理し,その知覚的品質を向上させる手法を提案する。
本手法では,両部位を逆向きに訓練する共同分類器-識別器モデルを用いる。
分類器は、指定されたクラスへの割り当てに基づいて画像を分類することを目的としているが、全く同じネットワークの判別部は、ソフトマックス値を活用して、入力画像と対象データ多様体との近接性を評価し、エネルギーベースモデルとして機能する。
このジョイントマシンの指導のもと、サンプル特異的な勾配反復を用いて、合成画像を洗練し、一貫性-評価と一貫性-蒸留の両方のためのImageNet 64x64データセット上で改良されたFIDスコアを得る。
The recently introduced Consistency models pose an efficient alternative to diffusion algorithms, enabling rapid and good quality image synthesis. These methods overcome the slowness of diffusion models by directly mapping noise to data, while maintaining a (relatively) simpler training. Consistency models enable a fast one- or few-step generation, but they typically fall somewhat short in sample quality when compared to their diffusion origins. In this work we propose a novel and highly effective technique for post-processing Consistency-based generated images, enhancing their perceptual quality. Our approach utilizes a joint classifier-discriminator model, in which both portions are trained adversarially. While the classifier aims to grade an image based on its assignment to a designated class, the discriminator portion of the very same network leverages the softmax values to assess the proximity of the input image to the targeted data manifold, thereby serving as an Energy-based Model. By employing example-specific projected gradient iterations under the guidance of this joint machine, we refine synthesized images and achieve an improved FID scores on the ImageNet 64x64 dataset for both Consistency-Training and Consistency-Distillation techniques. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 光子サブトラクション戦略によるマッハ・ツェンダー干渉計の利得感度
Gain sensitivity of the Mach-Zehnder interferometer by photon subtraction strategy ( http://arxiv.org/abs/2405.16261v1 ) ライセンス: Link先を確認 | Mikhail S. Podoshvedov, Sergey A. Podoshvedov, | (参考訳) 元の2モード圧縮真空(TMSV)状態のマッハ・ツェンダー干渉計(MZ)の位相推定感度について検討した。
初期段階では、TMSV状態は2つの単一モード圧縮真空(SMSV)状態に変換され、それぞれが補助モードで光子数分解(PNR)検出器によって測定される。
MZ干渉計の出力における初期SMSV状態と比較して、あるパリティの新たな測定誘起連続変数(CV)状態は、既に20dB以上の感度を示しており、SMSVスキーズ5dBの実用的な値のために測定チャネル内の多数の光子を減算する場合、ハイゼンベルクスケーリングに追随する。
特定のパリティの1つの測定誘起CV状態とSMSV状態とを併用すると、11dB未満の感度が上昇する。
MZ干渉計の2つの腕における2つの測定誘起CV状態の強度差を測定して得られた位相推定の感度は、実際の入力スキーズ5dB>の範囲において、元の2つのSMSV状態の量子クレーマー・ラオ(QCR)境界を超えることができることを示す。
一般に、2つのSMSVからの光子を予備的に減算した戦略は、スケザリングの小さな値の実用的な場合において、MZ干渉計の感度を大幅に向上させることができる。
We study sensitivity of phase estimation of Mach-Zehnder (MZ) interferometer with original two-mode squeezed vacuum (TMSV) state. At the initial stage, the TMSV state is converted into two single-mode squeezed vacuum (SMSV) states, from each of which photons are subtracted by measurement by photon-number resolving (PNR) detector in auxiliary modes. New measurement-induced continuous variable (CV) states of a certain parity can already demonstrate gain sensitivity more than 20 dB in relation to the initial SMSV states at the output from the MZ interferometer and follow to Heisenberg scaling in the case of subtracting a large number of photons in the measuring channels for practical values of the SMSV squeezing 5 dB>. Using only one measurement-induced CV state of a certain parity together with the SMSV state shows an increase in sensitivity of no more than 11 dB. We show that the sensitivity of the phase estimation obtained by measuring the intensity difference of two measurement-induced CV states in two arms of the MZ interferometer can surpass quantum Cramer-Rao (QCR) boundary of the original two SMSV states just in the practical range of input squeezing 5 dB>. In general, the strategy with preliminary subtraction of photons from two SMSV enables greatly enhance the sensitivity of the MZ interferometer in the practical case of small values of squeezing. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 破滅的オーバーフィッティングの層別解析:擬似ロバスト短絡依存性の解明
Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency ( http://arxiv.org/abs/2405.16262v1 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Bo Han, Hang Su, Tongliang Liu, | (参考訳) カタストロフィックオーバーフィッティング(CO)は、多段階の敵攻撃に対して脆弱な、高度に歪んだディープニューラルネットワーク(DNN)として、単段階の敵訓練(AT)において重大な課題を呈している。
しかし、決定境界の歪みにつながる根底にある要因はいまだ不明である。
本研究では、異なるDNN層内の特定の変化を探索し、CO中は、前層がより感受性が高く、より早く大きな歪みを経験し、後者層は相対的な感度を示した。
分析の結果,従来のレイヤーの感度向上は,単一段階の敵攻撃に対して防御できるが,真の不正学習を回避できる擬似不正ショートカットの形成に起因していることが明らかとなった。
これらのショートカットの除去は、CO状態からDNNの堅牢性を部分的に復元し、それらへの依存がCOの発生を引き起こすことを確認する。
この理解は、異なる層にまたがる適応的な重み摂動を実装する動機となり、擬似ロバストショートカットの発生を妨げ、結果としてCOを緩和する。
広汎な実験により,提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP) がCOを効果的に防止し,より堅牢性を高めることができることが示された。
Catastrophic overfitting (CO) presents a significant challenge in single-step adversarial training (AT), manifesting as highly distorted deep neural networks (DNNs) that are vulnerable to multi-step adversarial attacks. However, the underlying factors that lead to the distortion of decision boundaries remain unclear. In this work, we delve into the specific changes within different DNN layers and discover that during CO, the former layers are more susceptible, experiencing earlier and greater distortion, while the latter layers show relative insensitivity. Our analysis further reveals that this increased sensitivity in former layers stems from the formation of pseudo-robust shortcuts, which alone can impeccably defend against single-step adversarial attacks but bypass genuine-robust learning, resulting in distorted decision boundaries. Eliminating these shortcuts can partially restore robustness in DNNs from the CO state, thereby verifying that dependence on them triggers the occurrence of CO. This understanding motivates us to implement adaptive weight perturbations across different layers to hinder the generation of pseudo-robust shortcuts, consequently mitigating CO. Extensive experiments demonstrate that our proposed method, Layer-Aware Adversarial Weight Perturbation (LAP), can effectively prevent CO and further enhance robustness. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 自己整合性評価によるイメージインペインティングの評価
Assessing Image Inpainting via Re-Inpainting Self-Consistency Evaluation ( http://arxiv.org/abs/2405.16263v1 ) ライセンス: Link先を確認 | Tianyi Chen, Jianfu Zhang, Yan Hong, Yiyi Zhang, Liqing Zhang, | (参考訳) 画像インペインティング(英: Image inpainting)は、利用可能なデータを用いて、破損した画像の欠落したセグメントを再構築するタスクであり、特に情報交換条件下で、一貫性と忠実性を確保するための課題に直面している。
従来の評価手法は、非マスキーク参照画像の存在に大きく依存しており、本質的には、偏見を導入して、特定の着色効果を好んでいる。
この問題に対処するために,複数の再塗装パスに基づく自己監督的メトリクスを利用する,革新的な評価パラダイムを導入する。
このアプローチは、従来の画素や特徴空間と原画像との直接比較に頼らず、様々な実行可能なインペイントソリューションの探索を可能にする自己整合性の原理を強調し、バイアスを効果的に低減する。
評価手法と人的判断との整合性を検証するため,多数のベンチマークを用いた広範囲な実験を行った。
Image inpainting, the task of reconstructing missing segments in corrupted images using available data, faces challenges in ensuring consistency and fidelity, especially under information-scarce conditions. Traditional evaluation methods, heavily dependent on the existence of unmasked reference images, inherently favor certain inpainting outcomes, introducing biases. Addressing this issue, we introduce an innovative evaluation paradigm that utilizes a self-supervised metric based on multiple re-inpainting passes. This approach, diverging from conventional reliance on direct comparisons in pixel or feature space with original images, emphasizes the principle of self-consistency to enable the exploration of various viable inpainting solutions, effectively reducing biases. Our extensive experiments across numerous benchmarks validate the alignment of our evaluation method with human judgment. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# MindStar: 推論時間における事前学習LDMにおける数学推論の強化
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time ( http://arxiv.org/abs/2405.16265v1 ) ライセンス: Link先を確認 | Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Boxing Chen, | (参考訳) 大きな言語モデル(LLM)は様々なタスクで顕著なパフォーマンスを達成するが、数学的な疑問に答えるなど複雑な推論タスクに苦しむことが多い。
この問題に対処する最近の取り組みは、主に教師付き微調整技術や自己改善技術による数学的データセットの活用に焦点を当てている。
しかし、これらの手法は、しばしば準備が難しい高品質なデータセットに依存するか、あるいは微調整のためにかなりの計算資源を必要とする。
LLMは正しい解答の仕方を知っているが、正しい推論経路を選択するのに苦労しているという知見に触発されて、純粋に推論に基づく探索手法であるMindStar(M*)を提案し、推論タスクを探索問題として扱う。
この方法は、ステップワイズ推論アプローチを用いてツリー空間をナビゲートする。
探索効率を向上させるために,最適な推論経路を特定するための2つの木探索手法を提案する。
GSM8KとMATHの両方のデータセット上でM*フレームワークを評価し,その性能を既存のオープンソースLLMと比較した。
その結果,M* は Llama-2-13B や Mistral-7B などのオープンソースモデルの推論能力を大幅に向上し,GPT-3.5 や Grok-1 に匹敵する性能が得られたが,モデルサイズや計算コストは大幅に削減された。
Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging mathematical datasets through supervised fine-tuning or self-improvement techniques. However, these methods often depend on high-quality datasets that are difficult to prepare, or they require substantial computational resources for fine-tuning. Inspired by findings that LLMs know how to produce right answer but struggle to select the correct reasoning path, we propose a purely inference-based searching method called MindStar (M*), which treats reasoning tasks as search problems. This method utilizes a step-wise reasoning approach to navigate the tree space. To enhance search efficiency, we propose two tree-search ideas to identify the optimal reasoning paths. We evaluate the M* framework on both the GSM8K and MATH datasets, comparing its performance with existing open and closed-source LLMs. Our results demonstrate that M* significantly enhances the reasoning abilities of open-source models, such as Llama-2-13B and Mistral-7B, and achieves comparable performance to GPT-3.5 and Grok-1, but with substantially reduced model size and computational costs. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 安全移動ロボットナビゲーションのための強化PPOによる深層強化学習
Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation ( http://arxiv.org/abs/2405.16266v1 ) ライセンス: Link先を確認 | Hamid Taheri, Seyed Rasoul Hosseini, | (参考訳) 移動ロボットには衝突のない運動が不可欠である。
車輪付きロボットによる衝突のない効率的なナビゲーションには、優れたナビゲーション動作を得るためには、専門家によるパラメータチューニングが必要である。
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。
このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
本稿では,ガゼボシミュレーション環境における2つの強化学習アルゴリズム(Deep Deterministic Policy Gradient)と近似ポリシ最適化(proximal Policy Optimization)を採用する。
この研究は、アルゴリズムの有効性を改善するために、よく設計された報酬関数を伴って、性能を向上させるために、プロキシポリシー最適化アルゴリズムに強化されたニューラルネットワーク構造を導入している。
障害物のない環境と障害物のない環境の両方で実施した実験結果は,提案手法の有効性を裏付けるものである。
この研究は、深層強化学習の応用を通じて、複雑な環境における自律ロボット技術の進歩に大きく貢献する。
Collision-free motion is essential for mobile robots. Most approaches to collision-free and efficient navigation with wheeled robots require parameter tuning by experts to obtain good navigation behavior. This study investigates the application of deep reinforcement learning to train a mobile robot for autonomous navigation in a complex environment. The robot utilizes LiDAR sensor data and a deep neural network to generate control signals guiding it toward a specified target while avoiding obstacles. We employ two reinforcement learning algorithms in the Gazebo simulation environment: Deep Deterministic Policy Gradient and proximal policy optimization. The study introduces an enhanced neural network structure in the Proximal Policy Optimization algorithm to boost performance, accompanied by a well-designed reward function to improve algorithm efficacy. Experimental results conducted in both obstacle and obstacle-free environments underscore the effectiveness of the proposed approach. This research significantly contributes to the advancement of autonomous robotics in complex environments through the application of deep reinforcement learning. | 翻訳日:2024-05-28 22:17:06 公開日:2024-05-25 |
# 分散スパース機械学習のためのGPU-Accelerated Bi-linear ADMMアルゴリズム
A GPU-Accelerated Bi-linear ADMM Algorithm for Distributed Sparse Machine Learning ( http://arxiv.org/abs/2405.16267v1 ) ライセンス: Link先を確認 | Alireza Olama, Andreas Lundell, Jan Kronqvist, Elham Ahmadi, Eduardo Camponogara, | (参考訳) 本稿では,計算ノードネットワーク上で定義された大規模正規化スパース機械学習(SML)問題を解くことを目的とした,Bi-cADMM(Bi-linear consensus Alternating Direction Method of Multipliers)を提案する。
数学的には、これらは大域的決定ベクトル上の凸局所損失関数の最小化問題であり、所望の間隔を強制するための明示的な$\ell_0$ノルム制約に従う。
検討されたSML問題は、スパース線形回帰やロジスティック回帰、スパースソフトマックス回帰、スパースサポートベクトルマシンなど、異なるスパース回帰と分類モデルを一般化する。
Bi-cADMMは、元の非凸SML問題の線形コンセンサス再構成と、並列計算に適する小さなサブプロブレムに問題を分割する階層的な分解戦略を利用する。
Bi-cADMMでは、この分解戦略は2相アプローチに基づいている。
最初はデータのサンプル分解を行い、ローカルデータセットを計算ノードに分散する。
その後、各ノードで利用可能なグラフィクス処理ユニット(GPU)上で、データの遅延機能分解が行われる。
この手法により、Bi-cADMMはGPU上で計算集約的なデータ中心計算を実行でき、CPUはよりコスト効率のよい計算を処理できる。
提案アルゴリズムは、Parallel Sparse Fitting Toolbox (PsFiT)と呼ばれるオープンソースのPythonパッケージで実装され、公開されている。
最後に,分散データセットを特徴とする各種SML問題に対する数値ベンチマークにより,アルゴリズムの効率性と拡張性を示す。
This paper introduces the Bi-linear consensus Alternating Direction Method of Multipliers (Bi-cADMM), aimed at solving large-scale regularized Sparse Machine Learning (SML) problems defined over a network of computational nodes. Mathematically, these are stated as minimization problems with convex local loss functions over a global decision vector, subject to an explicit $\ell_0$ norm constraint to enforce the desired sparsity. The considered SML problem generalizes different sparse regression and classification models, such as sparse linear and logistic regression, sparse softmax regression, and sparse support vector machines. Bi-cADMM leverages a bi-linear consensus reformulation of the original non-convex SML problem and a hierarchical decomposition strategy that divides the problem into smaller sub-problems amenable to parallel computing. In Bi-cADMM, this decomposition strategy is based on a two-phase approach. Initially, it performs a sample decomposition of the data and distributes local datasets across computational nodes. Subsequently, a delayed feature decomposition of the data is conducted on Graphics Processing Units (GPUs) available to each node. This methodology allows Bi-cADMM to undertake computationally intensive data-centric computations on GPUs, while CPUs handle more cost-effective computations. The proposed algorithm is implemented within an open-source Python package called Parallel Sparse Fitting Toolbox (PsFiT), which is publicly available. Finally, computational experiments demonstrate the efficiency and scalability of our algorithm through numerical benchmarks across various SML problems featuring distributed datasets. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 単純さが有効性を満たすとき--単語埋め込みとLSTMによるコードコメントの一貫性の検出
When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM ( http://arxiv.org/abs/2405.16272v1 ) ライセンス: Link先を確認 | Michael Dubem Igbomezie, Phuong T. Nguyen, Davide Di Ruscio, | (参考訳) コードコメントは、プログラマに実用的な情報を提供し、基盤となるコードの意図や意味をよりよく理解できるようにするため、ソフトウェア開発において重要な役割を担います。
それでも、開発者はコードを更新した後にコメントをそのまま残す傾向にあり、2つのアーティファクトの間に相違が生じます。
このような不一致は開発者の間で誤解や混乱を引き起こし、コードの理解やメンテナンスなど、さまざまな活動を妨げます。
したがって、コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
残念ながら、この問題に対する既存のアプローチは、奨励的なパフォーマンスを得る一方で、厳格に事前訓練されたモデルに頼るか、入力データをテキストとして扱うか、単語の順序や同義語を含むコメントやコードに含まれる固有の特徴を無視している。
この研究は、コードコメントコヒーレンスを検出するための実践的なアプローチとしてCo3Dを提示している。
コーパス対のコヒーレンスを予測しながら、単語の内部的意味とテキスト中の単語の逐次順序に注意を払う。
我々は、Gensim word2vecエンコーディングと単純なリカレントニューラルネットワークの組み合わせ、Gensim word2vecエンコーディングとLSTMモデルの組み合わせ、CodeBERTをデプロイした。
実験の結果,Co3Dは予測性能が良好であり,良好なベースラインを達成できた。
文脈によっては、単純なアーキテクチャを使うことで満足できる予測を導入することができると結論付けている。
Code comments play a crucial role in software development, as they provide programmers with practical information, allowing them to understand better the intent and semantics of the underpinning code. Nevertheless, developers tend to leave comments unchanged after updating the code, resulting in a discrepancy between the two artifacts. Such a discrepancy may trigger misunderstanding and confusion among developers, impeding various activities, including code comprehension and maintenance. Thus, it is crucial to identify if, given a code snippet, its corresponding comment is coherent and reflects well the intent behind the code. Unfortunately, existing approaches to this problem, while obtaining an encouraging performance, either rely on heavily pre-trained models, or treat input data as text, neglecting the intrinsic features contained in comments and code, including word order and synonyms. This work presents Co3D as a practical approach to the detection of code comment coherence. We pay attention to internal meaning of words and sequential order of words in text while predicting coherence in code-comment pairs. We deployed a combination of Gensim word2vec encoding and a simple recurrent neural network, a combination of Gensim word2vec encoding and an LSTM model, and CodeBERT. The experimental results show that Co3D obtains a promising prediction performance, thus outperforming well-established baselines. We conclude that depending on the context, using a simple architecture can introduce a satisfying prediction. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# M^3$GPT:モーション理解と生成のための高度なマルチモーダルマルチタスクフレームワーク
$M^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation ( http://arxiv.org/abs/2405.16273v1 ) ライセンス: Link先を確認 | Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan, | (参考訳) 本稿では,先進的な \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation について述べる。
M^3$GPTは3つの基本原理で機能する。
第一の焦点は、様々な動き関連モダリティのための統一表現空間を作ることである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に対して離散ベクトル量子化を用い、単一の語彙で大きな言語モデル(LLM)へのシームレスな統合を可能にする。
2つ目は、原動空間でモデル生成を直接モデル化することである。
この戦略は、離散トークン化器に関連する情報損失を回避し、より詳細で包括的なモデル生成をもたらす。
第3に、M^3$GPTは様々な動き関連タスク間の接続とシナジーをモデル化することを学ぶ。
LLMの最も親しみやすくよく理解されたモダリティであるテキストは、異なる動作タスク間の接続を確立するブリッジとして利用され、相互強化を容易にする。
我々の知る限り、M^3$GPTは複数の信号に基づいて動きを解釈・生成できる最初のモデルである。
大規模な実験では、様々な動作関連タスクにまたがるM^3$GPTの優れた性能と、非常に困難なタスクに対する強力なゼロショット一般化能力が強調されている。
This paper presents $M^3$GPT, an advanced \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation. $M^3$GPT operates on three fundamental principles. The first focuses on creating a unified representation space for various motion-relevant modalities. We employ discrete vector quantization for multimodal control and generation signals, such as text, music and motion/dance, enabling seamless integration into a large language model (LLM) with a single vocabulary. The second involves modeling model generation directly in the raw motion space. This strategy circumvents the information loss associated with discrete tokenizer, resulting in more detailed and comprehensive model generation. Third, $M^3$GPT learns to model the connections and synergies among various motion-relevant tasks. Text, the most familiar and well-understood modality for LLMs, is utilized as a bridge to establish connections between different motion tasks, facilitating mutual reinforcement. To our knowledge, $M^3$GPT is the first model capable of comprehending and generating motions based on multiple signals. Extensive experiments highlight $M^3$GPT's superior performance across various motion-relevant tasks and its powerful zero-shot generalization capabilities for extremely challenging tasks. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# スケーラブルなマルチコア量子アーキテクチャにおける通信の役割の評価
Assessing the Role of Communication in Scalable Multi-Core Quantum Architectures ( http://arxiv.org/abs/2405.16275v1 ) ライセンス: Link先を確認 | Maurizio Palesi, Enrico Russo, Davide Patti, Giuseppe Ascia, Vincenzo Catania, | (参考訳) マルチコア量子アーキテクチャは、従来のモノリシック設計のスケーラビリティ制限に対する解決策を提供する。
しかし、システムを複数のチップに分割すると、コア間の通信という重大なボトルネックが発生する。
本稿では、スケーラブルなマルチコア量子アーキテクチャの性能に対する通信の影響を評価するためのシミュレーションツールであるqcommを紹介する。
Qcommは、システムの様々なアーキテクチャおよび物理パラメータを調整し、様々な通信メトリクスを出力する。
我々はqcommを用いて、これらのパラメータがマルチコア量子システムにおける通信性能にどのように影響するかを予備研究する。
Multi-core quantum architectures offer a solution to the scalability limitations of traditional monolithic designs. However, dividing the system into multiple chips introduces a critical bottleneck: communication between cores. This paper introduces qcomm, a simulation tool designed to assess the impact of communication on the performance of scalable multi-core quantum architectures. Qcomm allows users to adjust various architectural and physical parameters of the system, and outputs various communication metrics. We use qcomm to perform a preliminary study on how these parameters affect communication performance in a multi-core quantum system. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# あいまいさを画像化する - Winograd Schema Challengeの視覚的ツイスト
Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge ( http://arxiv.org/abs/2405.16277v1 ) ライセンス: Link先を確認 | Brendan Park, Madeline Janecek, Naser Ezzati-Jivan, Yifeng Li, Ali Emami, | (参考訳) 大規模言語モデル(LLM)は、Winograd Schema Challenge (WSC)のようなタスクで顕著な成功を収め、高度なテキストの常識推論を示している。
しかし、テキストと画像の理解が不可欠であるマルチモーダル領域にこの推論を適用することは、依然として大きな課題である。
この問題を解決するために,マルチモーダルコンテキストにおける代名詞の曖昧さに関するテキスト・ツー・イメージ・モデルを探索する新しいデータセットであるWinoVisを紹介した。
熱マップ解析にGPT-4と拡散注意属性マップ(DAAM)を用いて,他の視覚処理課題から曖昧さを発音するモデルの能力を分離する新しい評価フレームワークを提案する。
連続したモデルバージョンの評価では、段階的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisで56.7%の精度を達成し、ランダムな推測をわずかに上回っている。
さらなるエラー分析は、複雑な視覚の世界を解釈し、相互作用する能力において、テキスト・ツー・イメージ・モデルを進めることを目的とした将来の研究にとって重要な領域を特定する。
Large Language Models (LLMs) have demonstrated remarkable success in tasks like the Winograd Schema Challenge (WSC), showcasing advanced textual common-sense reasoning. However, applying this reasoning to multimodal domains, where understanding text and images together is essential, remains a substantial challenge. To address this, we introduce WinoVis, a novel dataset specifically designed to probe text-to-image models on pronoun disambiguation within multimodal contexts. Utilizing GPT-4 for prompt generation and Diffusion Attentive Attribution Maps (DAAM) for heatmap analysis, we propose a novel evaluation framework that isolates the models' ability in pronoun disambiguation from other visual processing challenges. Evaluation of successive model versions reveals that, despite incremental advancements, Stable Diffusion 2.0 achieves a precision of 56.7% on WinoVis, only marginally surpassing random guessing. Further error analysis identifies important areas for future research aimed at advancing text-to-image models in their ability to interpret and interact with the complex visual world. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# EIC(AID(2)E)のためのAI支援検出器設計
AI-Assisted Detector Design for the EIC (AID(2)E) ( http://arxiv.org/abs/2405.16279v1 ) ライセンス: Link先を確認 | M. Diefenthaler, C. Fanelli, L. O. Gerlach, W. Guan, T. Horn, A. Jentsch, M. Lin, K. Nagai, H. Nayak, C. Pecar, K. Suresh, A. Vossen, T. Wang, T. Wenaus, | (参考訳) 人工知能は、将来のElectron Ion ColliderでePICのような複雑な大規模検出器の設計を変革する可能性がある。
ePIC実験は、遠方および遠方領域に追加の検知システムを備えた中央検出器を備えており、機械的および幾何学的制限によって制約された性能、物理学的到達度、コストなど、多くの設計パラメータと目的を取り入れている。
このプロジェクトの目的は、複雑な設計に取り組むために最先端の多目的最適化を利用する、スケーラブルで分散AI支援型EIC(AID(2)E)検出器の開発である。
ePICソフトウェアスタックとGeant4シミュレーションによってサポートされ、我々のアプローチは透明なパラメータ化と高度なAI機能から恩恵を受ける。
このワークフローは、CERN LHCのATLASやルビン天文台、RHICのsPHENIXといった主要な実験で使用されるPanDAとiDDSシステムを利用して、ePIC検出器シミュレーションの計算集約的な要求を管理する。
PanDAシステムの拡張は、ユーザビリティ、スケーラビリティ、自動化、監視に重点を置いている。
最終的にこのプロジェクトは、堅牢な設計能力を確立し、分散AI支援ワークフローをePIC検出器に適用し、その応用をEICの第2検出器(Detector-2)の設計、キャリブレーションとアライメントタスクに拡張することを目的としている。
さらに、我々は、この最適化プロセスを通じて特定される複雑な多次元トレードオフを効率的にナビゲートする高度なデータサイエンスツールを開発している。
Artificial Intelligence is poised to transform the design of complex, large-scale detectors like the ePIC at the future Electron Ion Collider. Featuring a central detector with additional detecting systems in the far forward and far backward regions, the ePIC experiment incorporates numerous design parameters and objectives, including performance, physics reach, and cost, constrained by mechanical and geometric limits. This project aims to develop a scalable, distributed AI-assisted detector design for the EIC (AID(2)E), employing state-of-the-art multiobjective optimization to tackle complex designs. Supported by the ePIC software stack and using Geant4 simulations, our approach benefits from transparent parameterization and advanced AI features. The workflow leverages the PanDA and iDDS systems, used in major experiments such as ATLAS at CERN LHC, the Rubin Observatory, and sPHENIX at RHIC, to manage the compute intensive demands of ePIC detector simulations. Tailored enhancements to the PanDA system focus on usability, scalability, automation, and monitoring. Ultimately, this project aims to establish a robust design capability, apply a distributed AI-assisted workflow to the ePIC detector, and extend its applications to the design of the second detector (Detector-2) in the EIC, as well as to calibration and alignment tasks. Additionally, we are developing advanced data science tools to efficiently navigate the complex, multidimensional trade-offs identified through this optimization process. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# ダイヤモンド中の窒素空孔中心の励起状態における電気双極子対応遷移の研究
Probing electric-dipole-enabled transitions in the excited state of the nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2405.16280v1 ) ライセンス: Link先を確認 | Tom Delord, Richard Monge, Gabriel Lopez-Morales, Olaf Bach, Cyrus E. Dreyer, Johannes Flick, Carlos A. Meriles, | (参考訳) 色中心の励起軌道は、典型的には強い電気双極子を示し、絡み合い、発光調整、電場センシングの資源となる。
ここでは、ダイヤモンド中の負電荷窒素空孔中心の励起状態(ES)軌道に強い遷移双極子を露光するために共鳴レーザー励起を用いる。
マイクロ波電場の適用により、ES軌道間の強いラビ駆動を行い、装束状態の周波数調整が可能であり、横電場のゆらぎに対して保護されていることを示す。
従来の結果とは対照的に、ES軌道の磁気状態間の鋭いマイクロ波共鳴を観測し、同時に電気双極子駆動により拡張されていることを発見した。
The excited orbitals of color centers typically show stronger electric dipoles, which can serve as a resource for entanglement, emission tuning, or electric field sensing. Here, we use resonant laser excitation to expose strong transition dipoles in the excited state (ES) orbitals of the negatively charged nitrogen vacancy center in diamond. By applying microwave electric fields, we perform strong Rabi driving between ES orbitals, and show that the dressed states can be tuned in frequency and are protected against fluctuations of the transverse electric field. In contrast with previous results, we observe sharp microwave resonances between magnetic states of the ES orbitals, and find that they are broadened due to simultaneous electric dipole driving. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# ConStat: 大規模言語モデルにおけるパフォーマンスベース汚染検出
ConStat: Performance-Based Contamination Detection in Large Language Models ( http://arxiv.org/abs/2405.16281v1 ) ライセンス: Link先を確認 | Jasper Dekoninck, Mark Niklas Müller, Martin Vechev, | (参考訳) 公開ベンチマークは、大規模言語モデルの評価において重要な役割を果たす。
しかし、データ汚染は膨らませた性能をもたらす可能性があり、モデルの比較では信頼できない。
したがって, 汚染を検知し, 測定性能への影響を推定することが重要である。
残念ながら、既存の検出方法は簡単に回避でき、汚染の定量化に失敗する。
これらの制約を克服するため、トレーニングデータにベンチマークサンプルを含めるのではなく、人工的に膨らませて一般化しないベンチマーク性能として汚染の新たな定義を提案する。
このパースペクティブにより、インフレーションされたパフォーマンスを持つモデル、すなわち、言い換えられたサンプル、同じ分布から合成されたサンプル、または同じタスクの異なるベンチマークに一般化しないパフォーマンスを検出できる。
この知見に基づいて,参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することにより,汚染を確実に検出し,定量化する統計手法であるConStatを開発した。
本研究では,多種多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価においてConStatの有効性を実証し,Mistral,Llama,Yi,Open LLM Leaderboardの上位3モデルを含む複数の人気モデルにおいて高い汚染レベルを求める。
Public benchmarks play an essential role in the evaluation of large language models. However, data contamination can lead to inflated performance, rendering them unreliable for model comparison. It is therefore crucial to detect contamination and estimate its impact on measured performance. Unfortunately, existing detection methods can be easily evaded and fail to quantify contamination. To overcome these limitations, we propose a novel definition of contamination as artificially inflated and non-generalizing benchmark performance instead of the inclusion of benchmark samples in the training data. This perspective enables us to detect any model with inflated performance, i.e., performance that does not generalize to rephrased samples, synthetic samples from the same distribution, or different benchmarks for the same task. Based on this insight, we develop ConStat, a statistical method that reliably detects and quantifies contamination by comparing performance between a primary and reference benchmark relative to a set of reference models. We demonstrate the effectiveness of ConStat in an extensive evaluation of diverse model architectures, benchmarks, and contamination scenarios and find high levels of contamination in multiple popular models including Mistral, Llama, Yi, and the top-3 Open LLM Leaderboard models. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# フッド下の信頼:大規模言語モデルにおける信頼-確率アライメントの検討
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models ( http://arxiv.org/abs/2405.16282v1 ) ライセンス: Link先を確認 | Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami, | (参考訳) LLM(Large Language Models)の使用が広まるにつれて、これらのモデルの出力の信頼性に不可欠なので、生成した応答に対する自信の自己評価を理解することがますます重要になる。
本稿では, LLMの内部信頼度をトークン確率で定量化した信頼度と, その確実性を明示的に問う場合のモデル応答で伝達される信頼度を結合する信頼確率アライメントの概念を紹介する。
モデルイントロスペクションを促進する様々なデータセットとプロンプト技術を用いて、モデルの内部と表現された信頼の一致を探索する。
これらの手法は、信頼度を評価するために構造化された評価尺度を使用し、プロンプト時の回答オプションや、それ自身が認識していない出力に対してモデルの信頼レベルを引き出すことを含む。
特に、分析されたモデルの中で、OpenAIのGPT-4は、幅広いタスクにわたって、平均的なSpearmanの$\hat{\rho}$ 0.42の信頼性と確率のアライメントを示した。
我々の研究は、LCMの適用におけるリスクアセスメントの促進と、モデル信頼性のさらなる理解に寄与する。
As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM's internal confidence, quantified by token probabilities, to the confidence conveyed in the model's response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models' internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model's confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI's GPT-4 showed the strongest confidence-probability alignment, with an average Spearman's $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 大規模言語モデルを用いたクリックベイトスポイラーの生成
Generating clickbait spoilers with an ensemble of large language models ( http://arxiv.org/abs/2405.16284v1 ) ライセンス: Link先を確認 | Mateusz Woźny, Mateusz Lango, | (参考訳) Clickbaitの投稿は、Web空間で広く使われている問題だ。
スポイラーの生成、すなわちクリックベイトを中和する短いテキストは、それによって引き起こされる好奇心を満たす情報を提供し、この問題に対する提案された解決策の1つである。
現在の最先端の手法は、文節検索や質問応答アプローチに基づいており、句や文節の形でのみスポイラーを生成することに制限されている。
本研究では,クリックベイトスポイラー生成のための細調整された大規模言語モデルのアンサンブルを提案する。
提案手法はフレーズスポイラーや文節スポイラーに限らず, テキストの非連続部分を参照するマルチパートスポイラーを生成することができる。
実験により,提案したアンサンブルモデルがBLEU, METEOR, BERTScoreの基準値よりも高い性能を示した。
Clickbait posts are a widespread problem in the webspace. The generation of spoilers, i.e. short texts that neutralize clickbait by providing information that satisfies the curiosity induced by it, is one of the proposed solutions to the problem. Current state-of-the-art methods are based on passage retrieval or question answering approaches and are limited to generating spoilers only in the form of a phrase or a passage. In this work, we propose an ensemble of fine-tuned large language models for clickbait spoiler generation. Our approach is not limited to phrase or passage spoilers, but is also able to generate multipart spoilers that refer to several non-consecutive parts of text. Experimental evaluation demonstrates that the proposed ensemble model outperforms the baselines in terms of BLEU, METEOR and BERTScore metrics. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# ModelLock: モデルをスペルでロックする
ModelLock: Locking Your Model With a Spell ( http://arxiv.org/abs/2405.16285v1 ) ライセンス: Link先を確認 | Yifeng Gao, Yuhua Sun, Xingjun Ma, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) 本稿では,モデル保護パラダイムであるModelLockを提案する。これは,モデルの性能を正常なクリーンデータにロックし,適切なキーを使わずに使用不能あるいは抽出不能にする。
具体的には、テキスト誘導画像編集を探索し、トレーニングデータをユニークなスタイルにしたり、新しいオブジェクトをバックグラウンドで追加したりする拡散ベースのフレームワークModelLockを提案する。
このデータセットに微調整されたモデルはロックされ、キープロンプトによってのみアンロックされる。
画像分類とセグメンテーションの両タスクについて広範な実験を行い、それを実証する。
1) ModelLockは、期待するパフォーマンスを著しく低下させることなく、効果的に微調整されたモデルをロックできます。
2)ロックされたモデルはキープロンプトと拡散モデルの両方を知ることなく簡単にロック解除できない。
我々の研究は、プライベートモデルの知的財産権保護のための新しい方向性を開く。
This paper presents a novel model protection paradigm ModelLock that locks (destroys) the performance of a model on normal clean data so as to make it unusable or unextractable without the right key. Specifically, we proposed a diffusion-based framework dubbed ModelLock that explores text-guided image editing to transform the training data into unique styles or add new objects in the background. A model finetuned on this edited dataset will be locked and can only be unlocked by the key prompt, i.e., the text prompt used to transform the data. We conduct extensive experiments on both image classification and segmentation tasks, and show that 1) ModelLock can effectively lock the finetuned models without significantly reducing the expected performance, and more importantly, 2) the locked model cannot be easily unlocked without knowing both the key prompt and the diffusion model. Our work opens up a new direction for intellectual property protection of private models. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 乳癌データセットを用いた合成データの生成とresnet18を用いた分類
Generation of synthetic data using breast cancer dataset and classification with resnet18 ( http://arxiv.org/abs/2405.16286v1 ) ライセンス: Link先を確認 | Dilsat Berin Aytar, Semra Gunduc, | (参考訳) 現代の情報時代において、テクノロジーは急速に進歩しているため、多くの分野においてデータが必須のリソースになりつつある。
正しいデータ収集、組織、分析は、幅広い分野にわたる意思決定、プロセス改善、成功のための強力なツールとなります。
合成データは、実際のデータの制約、ラベル付きデータの収集のコスト、特定の状況やドメインにおけるプライバシーとセキュリティの問題など、さまざまな理由から必要とされる。
セキュリティ、倫理、法的制限、敏感さとプライバシーの問題、倫理など、さまざまな理由から、合成データは特に医療分野において貴重なツールである。
GAN(Generative Adversarial Networks)と呼ばれるディープラーニングモデルは,合成データを生成する目的で開発された。
本研究では,GANの形式であるMSG-GAN(Multi-Scale Gradients for Generative Adversarial Networks)を用いて,悪性かつ負にラベル付けされた合成パッチ画像を生成するために,乳癌病理組織データセットを用いた。
その後、ResNet18モデルを使用して、Transfer Learningを通じて合成データと実データの両方を分類した。
調査の後、合成画像が実際のデータのように振る舞うか、あるいは元のデータに匹敵するかを確認する試みが行われた。
Since technology is advancing so quickly in the modern era of information, data is becoming an essential resource in many fields. Correct data collection, organization, and analysis make it a potent tool for successful decision-making, process improvement, and success across a wide range of sectors. Synthetic data is required for a number of reasons, including the constraints of real data, the expense of collecting labeled data, and privacy and security problems in specific situations and domains. For a variety of reasons, including security, ethics, legal restrictions, sensitivity and privacy issues, and ethics, synthetic data is a valuable tool, particularly in the health sector. A deep learning model called GAN (Generative Adversarial Networks) has been developed with the intention of generating synthetic data. In this study, the Breast Histopathology dataset was used to generate malignant and negatively labeled synthetic patch images using MSG-GAN (Multi-Scale Gradients for Generative Adversarial Networks), a form of GAN, to aid in cancer identification. After that, the ResNet18 model was used to classify both synthetic and real data via Transfer Learning. Following the investigation, an attempt was made to ascertain whether the synthetic images behaved like the real data or if they are comparable to the original data. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# LoGAH: 1/100パラメータグラフハイパーネットを用いた774ミリパラメータ変換器の予測
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters ( http://arxiv.org/abs/2405.16287v1 ) ライセンス: Link先を確認 | Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu, | (参考訳) ディープラーニングモデルの優れた初期化が不可欠である。
しかし、多くの研究者にとって、大規模なモデルの事前学習は困難であり、現在では初期パラメータの予測がより必要である。
モデルパラメータを予測する1つのアプローチであるGraph HyperNetworks(GHNs)は、最近、大規模なビジョンモデルの初期化において、強力なパフォーマンスを示している。
残念ながら、非常に広いネットワークのパラメータを予測するには、パラメータの小さなチャンクを複数回コピーする必要がある。
この制限に対処するために,低ランクパラメータデコーダを備えたGHNであるLoGAH(Low-rank GrAph Hypernetworks)を提案する。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
視覚と言語モデル(ViTとGPT-2)がLoGAHで初期化された場合、ランダムに初期化されたものや既存のハイパーネットよりも優れた性能が得られることを示す。
さらに、小さなデータセット上でLoGAHをトレーニングし、予測されたパラメータを使ってより大きなタスクを初期化する、有望な転送学習結果を示す。
私たちはhttps://github.com/Blackzxy/LoGAH のコードを提供しています。
A good initialization of deep learning models is essential since it can help them converge better and faster. However, pretraining large models is unaffordable for many researchers, which makes a desired prediction for initial parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to predicting model parameters, have recently shown strong performance in initializing large vision models. Unfortunately, predicting parameters of very wide networks relies on copying small chunks of parameters multiple times and requires an extremely large number of parameters to support full prediction, which greatly hinders its adoption in practice. To address this limitation, we propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter decoder that expands to significantly wider networks without requiring as excessive increase of parameters as in previous attempts. LoGAH allows us to predict the parameters of 774-million large neural networks in a memory-efficient manner. We show that vision and language models (i.e., ViT and GPT-2) initialized with LoGAH achieve better performance than those initialized randomly or using existing hypernetworks. Furthermore, we show promising transfer learning results w.r.t. training LoGAH on small datasets and using the predicted parameters to initialize for larger tasks. We provide the codes in https://github.com/Blackzxy/LoGAH . | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 機械学習と逆再正規化群による格子サイズの増大構成の生成
Generating configurations of increasing lattice size with machine learning and the inverse renormalization group ( http://arxiv.org/abs/2405.16288v1 ) ライセンス: Link先を確認 | Dimitrios Bachtis, | (参考訳) 本稿では,Ron-Swendsen-Brandtによる逆再正規化群に係わる機械学習アルゴリズムの最近の発展を,モンテカルロシミュレーションの実装を通じて概説する。
逆再正規化群法は、臨界減速効果を伴わずに格子サイズを増大させる構成を反復的に生成することができる。
本稿では,畳み込みニューラルネットワークを用いた逆正規化群変換の構成について論じ,統計力学,格子場理論,不規則系のモデルへの応用について述べる。
三次元のエドワーズ・アンダーソンスピンガラスの場合、逆再正規化群を用いて、まだ専用スーパーコンピュータでアクセスされていない格子体積の構成を構築することができる。
We review recent developments of machine learning algorithms pertinent to the inverse renormalization group, which was originally established as a generative numerical method by Ron-Swendsen-Brandt via the implementation of compatible Monte Carlo simulations. Inverse renormalization group methods enable the iterative generation of configurations for increasing lattice size without the critical slowing down effect. We discuss the construction of inverse renormalization group transformations with the use of convolutional neural networks and present applications in models of statistical mechanics, lattice field theory, and disordered systems. We highlight the case of the three-dimensional Edwards-Anderson spin glass, where the inverse renormalization group can be employed to construct configurations for lattice volumes that have not yet been accessed by dedicated supercomputers. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 正弦波磁場下でのDMおよびKSEA相互作用を付加したスピン-1/2ハイゼンベルクXYZモデルの非古典的特性:量子資源の階層
Nonclassical characteristics in spin-1/2 Heisenberg XYZ model with added DM and KSEA interactions under sinusoidal magnetic field: Hierarchy of quantum resources ( http://arxiv.org/abs/2405.16294v1 ) ライセンス: Link先を確認 | A. Ali, S. Al-Kuwari, M. T. Rahim, M. Ghominejad, H. Ali, S. Haddadi, | (参考訳) 我々は、ギブス密度演算子によって記述された熱状態におけるジアラロシンスキー-モリヤ(DM)とカプラン-シェフツマン-エンチン-ヴルマン-アハロニ(KSEA)相互作用を添加したスピン-1/2ハイゼンベルクXYZモデルにおける様々な量子コヒーレンスと量子相関の挙動について検討した。
量子コヒーレンス$\supseteq$ quantum discord $\supseteq$ quantum entanglement $\supseteq$ quantum steering $\supseteq$ Bell nonlocality。
量子コヒーレンス, 量子相関, テレポーテーションの忠実度を高めるために, 本分析では, 独立に供給された正弦波磁場制御と, DMとKSEAの相互作用が考慮されたシステムに与える影響を考察した。
その結果、チャネルの絡み合いや量子相関性の向上は、常にテレポーテーションの成功を保証したり、テレポーテーションの忠実性を改善することさえ保証しないことが明らかとなった。
したがって、テレポーテーションの忠実度とチャネルの根底にある量子的性質の関係は複雑である。
本研究は、量子コヒーレンスと相関階層の複雑な相互作用に関する貴重な知見を提供し、量子通信および情報処理技術への潜在的応用を提供する。
We investigate the behavior of various measures of quantum coherence and quantum correlation in the spin-1/2 Heisenberg XYZ model with added Dzyaloshinsky-Moriya (DM) and Kaplan--Shekhtman--Entin-Wohlman--Aharony (KSEA) interactions at a thermal regime described by a Gibbs density operator. We aim to understand the restricted hierarchical classification of different quantum resources, where quantum coherence $\supseteq$ quantum discord $\supseteq$ quantum entanglement $\supseteq$ quantum steering $\supseteq$ Bell nonlocality. In order to enhance quantum coherence, quantum correlation, and fidelity of teleportation, our analysis encompasses the effects of independently provided sinusoidal magnetic field control as well as DM and KSEA interactions on the considered system. The results reveal that enhancing the entanglement or quantum correlation of the channel does not always guarantee successful teleportation or even an improvement in teleportation fidelity. Thus, the relationship between teleportation fidelity and the channel's underlying quantum properties is intricate. Our study provides valuable insights into the complex interplay of quantum coherence and correlation hierarchy, offering potential applications for quantum communication and information processing technologies. | 翻訳日:2024-05-28 22:07:19 公開日:2024-05-25 |
# 医用テキストデータの要約におけるオープンソース言語モデルの比較分析
Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data ( http://arxiv.org/abs/2405.16295v1 ) ライセンス: Link先を確認 | Yuhao Chen, Zhimu Wang, Bo Wen, Farhana Zulkernine, | (参考訳) 医療ノートや対話における構造化されていないテキストには、豊富な情報が含まれている。
近年のLarge Language Models (LLMs) の進歩は、非構造化テキストデータに対する回答および要約タスクにおいて優れた性能を示し、従来のテキスト解析手法よりも優れている。
しかし、医学図表のような分野固有のデータに対して、異なるLCMの性能を客観的に評価し報告する科学的研究は文献に欠けている。
GPT-4 をアセスメントとして,医療要約タスクにおける Llama2 や Mistral などのオープンソース LLM の性能評価手法を提案する。
LLMの定量的評価に対する革新的なアプローチは、品質管理を可能にし、特定のタスクに有効なLLMの選択を支援し、デジタルヘルスにおける知識発見を促進する。
Unstructured text in medical notes and dialogues contains rich information. Recent advancements in Large Language Models (LLMs) have demonstrated superior performance in question answering and summarization tasks on unstructured text data, outperforming traditional text analysis approaches. However, there is a lack of scientific studies in the literature that methodically evaluate and report on the performance of different LLMs, specifically for domain-specific data such as medical chart notes. We propose an evaluation approach to analyze the performance of open-source LLMs such as Llama2 and Mistral for medical summarization tasks, using GPT-4 as an assessor. Our innovative approach to quantitative evaluation of LLMs can enable quality control, support the selection of effective LLMs for specific tasks, and advance knowledge discovery in digital health. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# シングルビュー2Dビデオによるニューラルネットワークによる野球ピッチ軌跡の追跡と3次元再構成
Neural Network-Based Tracking and 3D Reconstruction of Baseball Pitch Trajectories from Single-View 2D Video ( http://arxiv.org/abs/2405.16296v1 ) ライセンス: Link先を確認 | Jhen Hsieh, | (参考訳) 本稿では,2次元映像から3次元座標まで,野球球の軌跡の追跡と再構成のためのニューラルネットワークによるアプローチを提案する。
我々は,OpenCVのCSRTアルゴリズムを用いて,2次元ビデオフレーム内の野球および固定基準点を正確に追跡する。
これらの追跡されたピクセル座標は、ニューラルネットワークモデルの入力機能として使用され、2次元座標を3次元空間にマッピングするために、複数の完全に接続された層から構成される。
このモデルは平均二乗誤差損失関数とAdamオプティマイザを用いてラベル付き軌道のデータセットに基づいてトレーニングされ、予測エラーを最小限に抑えるためにネットワークを最適化する。
実験結果から,本手法は2次元入力から3次元軌跡を復元する際の精度が高いことが示された。
本手法は, スポーツ分析, コーチング, および各種スポーツにおける軌道予測の精度向上に有効であることを示す。
In this paper, we present a neural network-based approach for tracking and reconstructing the trajectories of baseball pitches from 2D video footage to 3D coordinates. We utilize OpenCV's CSRT algorithm to accurately track the baseball and fixed reference points in 2D video frames. These tracked pixel coordinates are then used as input features for our neural network model, which comprises multiple fully connected layers to map the 2D coordinates to 3D space. The model is trained on a dataset of labeled trajectories using a mean squared error loss function and the Adam optimizer, optimizing the network to minimize prediction errors. Our experimental results demonstrate that this approach achieves high accuracy in reconstructing 3D trajectories from 2D inputs. This method shows great potential for applications in sports analysis, coaching, and enhancing the accuracy of trajectory predictions in various sports. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# LUCIE:O(1000)メンバーアンサンブルの長期安定性と物理的整合性を有する軽量無結合クリメートエミュレータ
LUCIE: A Lightweight Uncoupled ClImate Emulator with long-term stability and physical consistency for O(1000)-member ensembles ( http://arxiv.org/abs/2405.16297v1 ) ライセンス: Link先を確認 | Haiwen Guan, Troy Arcomano, Ashesh Chattopadhyay, Romit Maulik, | (参考訳) LUCIEはデータ駆動型大気エミュレータで、数千年間の自己回帰推論の間、漂流気候なしで安定している。
LUCIEは、1つのA100 GPU上で4ドル(約4,400円)の確率変数を24ドル(約2,400円)で、粗解像度のERA5データを9.5ドル(約9,800円)でトレーニングしている。
安価な計算コストの推論のため、1000ドルのモデルアンサンブルが5ドルで実行され、ERA5から得られた気候と密接に一致する確率変数の不確実性定量気候学が計算される。
他の最先端のAI気象モデルとは異なり、LUCIEは不安定でもなく、エミュレートされた気候の非物理的漂流をもたらす幻覚も生じない。
さらに、LUCIE \textbf{does not put} `true' sea- surface temperature (SST) from a combined numerical model to enforce the annual cycle in temperature。
我々はLUCIEから得られた長期気候学と,その予知変数に対する季節-季節間スケール予測技術を実証した。
https://drive.google.com/file/d/1mRmhx9RRGiF3uGo_mRQK8RpwQatrCiMn/view
We present LUCIE, a $1000$- member ensemble data-driven atmospheric emulator that remains stable during autoregressive inference for thousands of years without a drifting climatology. LUCIE has been trained on $9.5$ years of coarse-resolution ERA5 data with $4$ prognostic variables on a single A100 GPU for $2.4$ h. Owing to the cheap computational cost of inference, $1000$ model ensembles are executed for $5$ years to compute an uncertainty-quantified climatology for the prognostic variables that closely match the climatology obtained from ERA5. Unlike all the other state-of-the-art AI weather models, LUCIE is neither unstable nor does it produce hallucinations that result in unphysical drift of the emulated climate. Furthermore, LUCIE \textbf{does not impose} ``true" sea-surface temperature (SST) from a coupled numerical model to enforce the annual cycle in temperature. We demonstrate the long-term climatology obtained from LUCIE as well as subseasonal-to-seasonal scale prediction skills on the prognostic variables. We also demonstrate a $20$-year emulation with LUCIE here: https://drive.google.com/file/d/1mRmhx9RRGiF3uGo_mRQK8RpwQatrCiMn/view | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 誘電体双極子モーメントと位置依存質量を持つダイラックフェルミオン
Dirac fermions with electric dipole moment and position-dependent mass in the presence of a magnetic field generated by magnetic monopoles ( http://arxiv.org/abs/2405.16300v1 ) ライセンス: Link先を確認 | R. R. S. Oliveira, | (参考訳) 本稿では,電気双極子モーメント (EDM) と位置依存質量 (PDM) を持つディラックフェルミオンの磁気単極子による放射磁場の存在下での境界状態解を決定する。
これを達成するために、極座標における非最小結合を持つ (2+1)-次元(DE) ディラック方程式を扱う。
後続的に、二次微分方程式は2次微分方程式(類似性変換により単純化)によって得られる。
この微分方程式を変数の変化と漸近挙動によって解くと、一般化されたラゲール方程式が得られる。
このことから、2成分のディラックスピノルと相対論的エネルギースペクトルによって与えられる系の有界解を得る。
したがって、そのようなスピノルは一般化されたラゲール多項式の項で書かれており、そのようなスペクトル(フェルミオンと反フェルミオン)は半径および全磁性量子数$n$と$m_j$で量子化され、EDM$d$、PDMパラメータ$\kappa$、磁気電荷密度$\lambda_m$、スピノリアルパラメータ$s$に明示的に依存する。
特に、量子化は$\kappa$の存在の直接的な結果である(つまり、$\kappa$は ` `external field or potential''' の一種として作用する)。
さらに,3つの異なる値の$n$(基底状態と最初の2つの励起状態)に対して,スペクトルの特性と,スペクトルの挙動を$\kappa$と$\lambda_m$の関数としてグラフィカルに解析する。
In this paper, we determine the bound-state solutions for Dirac fermions with electric dipole moment (EDM) and position-dependent mass (PDM) in the presence of a radial magnetic field generated by magnetic monopoles. To achieve this, we work with the (2+1)-dimensional (DE) Dirac equation with nonminimal coupling in polar coordinates. Posteriorly, we obtain a second-order differential equation via quadratic DE (simplified by a similarity transformation). Solving this differential equation through a change of variable and the asymptotic behavior, we obtain a generalized Laguerre equation. From this, we obtain the bound-state solutions of the system, given by the two-component Dirac spinor and by the relativistic energy spectrum. So, we note that such spinor is written in terms of the generalized Laguerre polynomials, and such spectrum (for a fermion and an antifermion) is quantized in terms of the radial and total magnetic quantum numbers $n$ and $m_j$, and explicitly depends on the EDM $d$, PDM parameter $\kappa$, magnetic charge density $\lambda_m$, and on the spinorial parameter $s$. In particular, the quantization is a direct result of the existence of $\kappa$ (i.e., $\kappa$ acts as a kind of ``external field or potential''). Besides, we discuss in detail the characteristics of the spectrum as well as graphically analyze the behavior of the spectrum as a function of $\kappa$ and $\lambda_m$ for three different values of $n$ (ground state and the first two excited states). | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 難易度未知サンプルの選択による微細分類画像検索のためのアクティブラーニング
Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples ( http://arxiv.org/abs/2405.16301v1 ) ライセンス: Link先を確認 | Dae Ung Jo, Kyuewang Lee, JaeHo Chung, Jin Young Choi, | (参考訳) 画像テキスト検索(ITR)モデルをトレーニングするには十分なペアデータを確保することが重要であるが、ペアデータ収集は非常に高価である。
この問題に対処するため、本研究では、ペア化されたデータを低コストで収集できるITRの能動的学習アルゴリズムを提案する。
以前の研究では、画像とテキストのペアが与えられ、それらのカテゴリラベルがアノテータに尋ねられると仮定されていた。
しかし、最近のITR研究では、画像とテキストのペアだけで検索モデルを訓練できるため、カテゴリラベルの重要性が低下している。
そこで我々は、未ペア画像(またはテキスト)を付与し、アノテータが対応するテキスト(または画像)をペア化するためのアクティブな学習シナリオを構築した。
提案アルゴリズムの鍵となる考え方は、既存のテキスト(または画像)に対して厳しい負のサンプルとなる未ペア画像(またはテキスト)を選択することである。
そこで本研究では, 高い負のサンプルを選択するための新しいスコアリング機能を提案する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
Securing a sufficient amount of paired data is important to train an image-text retrieval (ITR) model, but collecting paired data is very expensive. To address this issue, in this paper, we propose an active learning algorithm for ITR that can collect paired data cost-efficiently. Previous studies assume that image-text pairs are given and their category labels are asked to the annotator. However, in the recent ITR studies, the importance of category label is decreased since a retrieval model can be trained with only image-text pairs. For this reason, we set up an active learning scenario where unpaired images (or texts) are given and the annotator provides corresponding texts (or images) to make paired data. The key idea of the proposed AL algorithm is to select unpaired images (or texts) that can be hard negative samples for existing texts (or images). To this end, we introduce a novel scoring function to choose hard negative samples. We validate the effectiveness of the proposed method on Flickr30K and MS-COCO datasets. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 炭化ケイ素における光通信障害のスピン緩和時間延長
Extended spin relaxation times of optically addressed telecom defects in silicon carbide ( http://arxiv.org/abs/2405.16303v1 ) ライセンス: Link先を確認 | Jonghoon Ahn, Christina Wicker, Nolan Bitner, Michael T. Solomon, Benedikt Tissot, Guido Burkard, Alan M. Dibos, Jiefei Zhang, F. Joseph Heremans, David D. Awschalom, | (参考訳) 光インタフェースの固体欠陥は量子通信技術の候補として有望である。
理想的な欠陥システムは、明るい通信放出、長い寿命のスピン状態、およびスケーラブルな材料プラットフォームを同時に備える。
ここでは, 炭化ケイ素(SiC)中のバナジウム(V4+)を用いて, 成熟半導体ホスト内での通信スピン光子界面を確立する。
この効率的な光スピン偏光と読み出しの実証は、温度依存性のスピン緩和時間(T1)の全ての光学的測定を促進する。
この手法により, 温度を約2Kから100mKに下げ, 57msから27ms以上で, 全測定地点からのスピンT1の4次増加を観測した。
さらに,2フォノンオーバッハプロセスを含む緩和機構を解明し,高温での量子ビット操作を実現するためのひずみ調整の機会を示す。
これらの結果は、将来の量子ネットワークにおけるスケーラブルな量子ノードのプライマリ候補として、SiCにおけるV4+を位置づけている。
Optically interfaced solid-state defects are promising candidates for quantum communication technologies. The ideal defect system would feature bright telecom emission, long-lived spin states, and a scalable material platform, simultaneously. Here, we employ one such system, vanadium (V4+) in silicon carbide (SiC), to establish a potential telecom spin-photon interface within a mature semiconductor host. This demonstration of efficient optical spin polarization and readout facilitates all optical measurements of temperature-dependent spin relaxation times (T1). With this technique, we lower the temperature from about 2K to 100 mK to observe a remarkable four-orders-of-magnitude increase in spin T1 from all measured sites, with site-specific values ranging from 57 ms to above 27 s. Furthermore, we identify the underlying relaxation mechanisms, which involve a two-phonon Orbach process, indicating the opportunity for strain-tuning to enable qubit operation at higher temperatures. These results position V4+ in SiC as a prime candidate for scalable quantum nodes in future quantum networks. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# グローバルアライメントと局所アライメントを用いた非教師なしドメインの一般化
Federated Unsupervised Domain Generalization using Global and Local Alignment of Gradients ( http://arxiv.org/abs/2405.16304v1 ) ライセンス: Link先を確認 | Farhad Pourpanah, Mahdiyar Molahasani, Milad Soltany, Michael Greenspan, Ali Etemad, | (参考訳) フェデレートされた領域一般化の問題を、教師なしの環境で初めて解決する。
まず、教師なしのフェデレーション学習におけるドメインシフトと勾配のアライメントの関連性を理論的に確立し、クライアントレベルとサーバレベルのグラデーションの整合が新しい(ターゲット)ドメインへのモデルの一般化を促進することを示す。
この知見に基づいてFedGaLAという新しい手法を提案し、クライアントがドメイン不変の特徴を学習できるようにクライアントレベルで勾配アライメントを実行するとともに、サーバ上でグローバルな勾配アライメントを行い、より一般化された集約モデルを得る。
提案手法を実証的に評価するために,PACS,OfficeHome,DomainNet,TerraIncの4つの一般的なマルチドメインデータセットを用いて実験を行った。
その結果,本手法が同等のベースラインより優れていることを示す。
アブレーションと感度の研究は、我々のアプローチにおける異なる成分とパラメータの影響を示している。
ソースコードは、公開時にオンラインで入手できる。
We address the problem of federated domain generalization in an unsupervised setting for the first time. We first theoretically establish a connection between domain shift and alignment of gradients in unsupervised federated learning and show that aligning the gradients at both client and server levels can facilitate the generalization of the model to new (target) domains. Building on this insight, we propose a novel method named FedGaLA, which performs gradient alignment at the client level to encourage clients to learn domain-invariant features, as well as global gradient alignment at the server to obtain a more generalized aggregated model. To empirically evaluate our method, we perform various experiments on four commonly used multi-domain datasets, PACS, OfficeHome, DomainNet, and TerraInc. The results demonstrate the effectiveness of our method which outperforms comparable baselines. Ablation and sensitivity studies demonstrate the impact of different components and parameters in our approach. The source code will be available online upon publication. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 効率的なパラメータ化ニューラルメトロプレクティックシンセム
Efficiently Parameterized Neural Metriplectic Sysyems ( http://arxiv.org/abs/2405.16305v1 ) ライセンス: Link先を確認 | Anthony Gruber, Kookjin Lee, Haksoo Lim, Noseong Park, Nathaniel Trask, | (参考訳) メトロトレクティックシステムは、状態の大きさとメトロトレクティックデータのランクの両方で二次的にスケールする方法でデータから学習される。
提案手法は, エネルギー保存とエントロピー安定性に加えて, 近似誤差が低い場合に, 一般化する可能性を示す誤差推定値とともに, データからメチレント力学を正確に学習する能力を示す近似結果から導かれる。
提案手法は, モデル表現率を損なうことなく, 精度とスケーラビリティが向上することを確認した。
Metriplectic systems are learned from data in a way that scales quadratically in both the size of the state and the rank of the metriplectic data. Besides being provably energy conserving and entropy stable, the proposed approach comes with approximation results demonstrating its ability to accurately learn metriplectic dynamics from data as well as an error estimate indicating its potential for generalization to unseen timescales when approximation error is low. Examples are provided which illustrate performance in the presence of both full state information as well as when entropic variables are unknown, confirming that the proposed approach exhibits superior accuracy and scalability without compromising on model expressivity. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# LLMサプライチェーンにおけるトラストダイナミクスの実証実験
An Empirical Exploration of Trust Dynamics in LLM Supply Chains ( http://arxiv.org/abs/2405.16310v1 ) ライセンス: Link先を確認 | Agathe Balayn, Mireia Yurrita, Fanny Rancourt, Fabio Casati, Ujwal Gadiraju, | (参考訳) AIシステムの普及に伴い、AIへの信頼は、ナビゲートするための重要かつタイムリーなトピックである。
これまでの研究者は、この関係の神秘的な見解を多く採用してきた。
特に、限られた数の関連する委託者(エンドユーザー、AIシステムなど)と委託者(AIシステム)が検討され、実験的な調査は実験室で行われ、現実世界における人間とAIの関係に影響を及ぼす要因を見落としている可能性がある。
本稿では、AIシステムが生み出す複雑で動的なサプライチェーンを考慮し、「AIにおける信頼」に対処する研究の範囲を広げることについて議論する。
AIサプライチェーンは、さまざまな個人、組織、利害関係者がさまざまな方法で相互作用するさまざまな技術的アーティファクトを包含する。
LLMサプライチェーンのin-situ, empirical studyから得られた知見を報告する。
私たちの研究は、新たなタイプの信頼者、信頼者、信頼関係に影響を与える新しい要因を明らかにします。
これらの関係はLLMの開発と採用の中心であることがわかったが、信頼できないLLMへの信頼と信頼の欠如の地でもある。
これらの知見に基づき,「AIにおける信頼」研究の意義について論じる。
我々は,サプライチェーン全体にわたるアクター間関係の適切な研究と,キャリブレーションされた信頼と有意義な依存行動の開発に関する新たな研究機会と課題を強調した。
また,LLMサプライチェーンにおける信頼構築の意味についても疑問を呈する。
With the widespread proliferation of AI systems, trust in AI is an important and timely topic to navigate. Researchers so far have largely employed a myopic view of this relationship. In particular, a limited number of relevant trustors (e.g., end-users) and trustees (i.e., AI systems) have been considered, and empirical explorations have remained in laboratory settings, potentially overlooking factors that impact human-AI relationships in the real world. In this paper, we argue for broadening the scope of studies addressing `trust in AI' by accounting for the complex and dynamic supply chains that AI systems result from. AI supply chains entail various technical artifacts that diverse individuals, organizations, and stakeholders interact with, in a variety of ways. We present insights from an in-situ, empirical study of LLM supply chains. Our work reveals additional types of trustors and trustees and new factors impacting their trust relationships. These relationships were found to be central to the development and adoption of LLMs, but they can also be the terrain for uncalibrated trust and reliance on untrustworthy LLMs. Based on these findings, we discuss the implications for research on `trust in AI'. We highlight new research opportunities and challenges concerning the appropriate study of inter-actor relationships across the supply chain and the development of calibrated trust and meaningful reliance behaviors. We also question the meaning of building trust in the LLM supply chain. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# Time-SSM: 時系列予測のための状態空間モデルの簡素化と統一
Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting ( http://arxiv.org/abs/2405.16312v1 ) ライセンス: Link先を確認 | Jiaxi Hu, Disen Lan, Ziyu Zhou, Qingsong Wen, Yuxuan Liang, | (参考訳) 状態空間モデル(SSM)は近年,シーケンスモデリングタスクにおいて強力なツールとして登場している。
これらのモデルは、一連の基底関数を用いて連続系を近似し、それらを離散化して入力データを処理し、連続系から特定の周波数で収集された時系列データをモデル化するのに適している。
その可能性にもかかわらず、時系列予測におけるSSMの適用は未定であり、既存のモデルでは、SSMを時間的またはチャネル依存性をキャプチャするためのブラックボックスとして扱う。
そこで本研究では,SSMを時系列データに適用するためのより直感的で汎用的なガイダンスを提供する,動的スペクトル演算子(Dynamic Spectral Operator)と呼ばれる新しい理論フレームワークを提案する。
この理論に基づいて,Mambaと比較してパラメータの7分の1しか持たない新しいSSM基盤モデルであるTime-SSMを紹介した。
様々な実験により、我々の理論的枠組みと Time-SSM の優れた性能が検証された。
State Space Models (SSMs) have emerged as a potent tool in sequence modeling tasks in recent years. These models approximate continuous systems using a set of basis functions and discretize them to handle input data, making them well-suited for modeling time series data collected at specific frequencies from continuous systems. Despite its potential, the application of SSMs in time series forecasting remains underexplored, with most existing models treating SSMs as a black box for capturing temporal or channel dependencies. To address this gap, this paper proposes a novel theoretical framework termed Dynamic Spectral Operator, offering more intuitive and general guidance on applying SSMs to time series data. Building upon our theory, we introduce Time-SSM, a novel SSM-based foundation model with only one-seventh of the parameters compared to Mamba. Various experiments validate both our theoretical framework and the superior performance of Time-SSM. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 産業用IoTデバイスの脅威分析
Threat Analysis of Industrial Internet of Things Devices ( http://arxiv.org/abs/2405.16314v1 ) ライセンス: Link先を確認 | Simon Liebl, Leah Lathrop, Ulrich Raithel, Matthias Söllner, Andreas Aßmuth, | (参考訳) Internet of Thingsの一部として、産業用デバイスもクラウドサービスに接続されている。
しかし,インターネット接続は産業制御システムのリスクを増大させる。
したがって、これらのデバイスには脅威分析が不可欠である。
本稿では,産業用インターネット・オブ・モノのデバイスについて検討し,異なる脅威源を特定し,ランク付けし,共通の脅威や脆弱性を記述した。
最後に、これらのデバイス上で脅威分析を行う手順を推奨する。
As part of the Internet of Things, industrial devices are now also connected to cloud services. However, the connection to the Internet increases the risks for Industrial Control Systems. Therefore, a threat analysis is essential for these devices. In this paper, we examine Industrial Internet of Things devices, identify and rank different sources of threats and describe common threats and vulnerabilities. Finally, we recommend a procedure to carry out a threat analysis on these devices. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 産業用IoTデバイスの攻撃面と脅威の解析
Analyzing the Attack Surface and Threats of Industrial Internet of Things Devices ( http://arxiv.org/abs/2405.16318v1 ) ライセンス: Link先を確認 | Simon Liebl, Leah Lathrop, Ulrich Raithel, Andreas Aßmuth, Ian Ferguson, Matthias Söllner, | (参考訳) モノのインターネット(Internet of Things)の結果として、産業機器の接続性が増大し、産業制御システムへのリスクが高まっている。
このようなデバイスに対する攻撃は人や機械にもダメージを与える可能性があるため、適切に確保する必要がある。
したがって、弱点を特定し、リスクを軽減するために脅威分析が必要である。
本稿では,産業用モノのインターネット機器の攻撃面と脅威を分析するための系統的,包括的手法を提案する。
私たちのアプローチは、製品ライフサイクル全体を通して、ハードウェア、ソフトウェア、データ、資産、脅威、攻撃を含むすべてのコンポーネントを検討することです。
The growing connectivity of industrial devices as a result of the Internet of Things is increasing the risks to Industrial Control Systems. Since attacks on such devices can also cause damage to people and machines, they must be properly secured. Therefore, a threat analysis is required in order to identify weaknesses and thus mitigate the risk. In this paper, we present a systematic and holistic procedure for analyzing the attack surface and threats of Industrial Internet of Things devices. Our approach is to consider all components including hardware, software and data, assets, threats and attacks throughout the entire product life cycle. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# 量子ウォークに基づくサーチ補完アルゴリズムの回路実装と解析
Circuit Implementation and Analysis of a Quantum-Walk Based Search Complement Algorithm ( http://arxiv.org/abs/2405.16322v1 ) ライセンス: Link先を確認 | Allan Wing-Bocanegra, Carlos E. Quintero-Narvaez, Salvador E. Venegas-Andraca, | (参考訳) 我々は、SKWアルゴリズムとしても知られるShenvi、Kempe、Whaleyによって作成された量子ウォークに基づく探索アルゴリズムの修正版を提案する。
このアルゴリズムでは,自己ループ付き2^n$完全グラフと,探索の託宣として機能するアダマール演算子に基づく摂動コイン演算子の積によって構成されるように,システムの進化演算子を変更した。
修正された進化作用素は、元のアルゴリズムのように反対の挙動、すなわちターゲット状態を測定する確率を減少させる。
この新しい振る舞いを $\textit{search complement}$ と呼びます。
多重グラフと行列法を用いて, 単一離散時間ウォークにおいて, 目標状態に関連付けられたノードへの経路が少なくなることにより, 新たなアルゴリズムが目標状態の確率を減少させることを示すことができた。
探索補完アルゴリズムは、IBM量子プロセッサ$\textit{ibmq_manila}$で実験的に実行され、統計距離$\ell_1\leq 0.0895$を得た。
We propose a modified version of the quantum walk-based search algorithm created by Shenvi, Kempe and Whaley, also known as the SKW algorithm. In our version of the algorithm, we modified the evolution operator of the system so that it is composed by the product of the shift operator associated to the $2^n$-complete graph with self-loops and a perturbed coin operator based on the Hadamard operator that works as an oracle for the search. The modified evolution operator leads the opposite behavior as in the original algorithm, that is, the probability to measure the target state is reduced. We call this new behavior the $\textit{search complement}$. Taking a multigraph and matrix approach, we were able to explain that the new algorithm decreases the probability of the target state given that there are less paths that lead towards the node that is associated to the target state in a Unitary Coined Discrete-Time Quantum Walk. The search complement algorithm was executed experimentally on IBM quantum processor $\textit{ibmq_manila}$ obtaining statistical distances $\ell_1\leq 0.0895$ when decreasing the probability of one state out of four. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# SLoPe:LDMの2段式スパースプラスラジローランドアダプタプレトレーニング
SLoPe: Double-Pruned Sparse Plus Lazy Low-Rank Adapter Pretraining of LLMs ( http://arxiv.org/abs/2405.16325v1 ) ライセンス: Link先を確認 | Mohammad Mozaffari, Amir Yazdanbakhsh, Zhao Zhang, Maryam Mehri Dehnavi, | (参考訳) SLoPeは,スパルスLLMの精度を向上し,プリトレーニングと推論の高速化とメモリフットプリントの削減を図る。
LLMのスパース事前トレーニングはモデルの精度を低下させ、これを克服するため、以前の作業では微調整中に高密度モデルを使用する。
SLoPeは、モデルの事前学習と推論にかなりのオーバーヘッドを加えることなく、最終1%の繰り返しに低ランクのアダプタを追加することで、疎い事前学習モデルの精度を向上させる。
さらに、SLoPeは、N:M空間構造を用いて重み付けされた重み付け行列をプーンし、加速されたスパース後方通過を可能にするダブルプルーニングされた後方通過定式化を使用する。
SLoPeは、数十億ドルのパラメータを持つモデルのトレーニングと推論をそれぞれ1.14\times$と1.34\times$(OPT-33BとOPT-66B)まで加速し、メモリ使用量を最大0.77\times$と0.51\times$に減らした。
We propose SLoPe, a Double-Pruned Sparse Plus Lazy Low-rank Adapter Pretraining method for LLMs that improves the accuracy of sparse LLMs while accelerating their pretraining and inference and reducing their memory footprint. Sparse pretraining of LLMs reduces the accuracy of the model, to overcome this, prior work uses dense models during fine-tuning. SLoPe improves the accuracy of sparsely pretrained models by adding low-rank adapters in the final 1% iterations of pretraining without adding significant overheads to the model pretraining and inference. In addition, SLoPe uses a double-pruned backward pass formulation that prunes the transposed weight matrix using N:M sparsity structures to enable an accelerated sparse backward pass. SLoPe accelerates the training and inference of models with billions of parameters up to $1.14\times$ and $1.34\times$ respectively (OPT-33B and OPT-66B) while reducing their memory usage by up to $0.77\times$ and $0.51\times$ for training and inference respectively. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# スケーラブルな医用画像分割のための分類自由増分学習フレームワーク
A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation ( http://arxiv.org/abs/2405.16328v1 ) ライセンス: Link先を確認 | Xiaoyang Chen, Hao Zheng, Yifang Xie, Yuncong Ma, Tengfei Li, | (参考訳) 医用画像セグメンテーションの基礎モデルを開発するための現在の手法は、固定されたクラスのセットと、実質的で多様なトレーニングデータセットの即時利用という2つの前提に依存している。
しかし、画像技術や患者の人口統計学の進化と労働集約的なデータキュレーションにより、実用性やスケーラビリティが制限されるため、これは現実的ではない可能性がある。
これらの課題に対処するために、クラス番号に依存しないアーキテクチャを特徴とする、単一分類器のないネットワークにおいて、可変数のクラスをセグメント化できる新しいセグメンテーションパラダイムを導入する。
このネットワークは、コントラスト学習を用いて訓練され、簡単な解釈を容易にする識別的特徴表現を生成する。
さらに,この戦略を知識蒸留に基づく漸進的学習フレームワークに統合し,非定常データストリームからの新たな情報の段階的同化を容易にするとともに,破滅的な忘れ込みを回避する。
このアプローチは、クラスとドメインインクリメンタルな学習シナリオの両方を扱うための統一的なソリューションを提供します。
統合ネットワーク内での様々なクラス数処理における本手法の柔軟性とその漸進学習能力について述べる。
医用画像セグメンテーションのための不完全な注釈付きマルチモーダル・マルチソースデータセットの実験結果は、最先端の代替手法よりも優位性を示している。
Current methods for developing foundation models in medical image segmentation rely on two primary assumptions: a fixed set of classes and the immediate availability of a substantial and diverse training dataset. However, this can be impractical due to the evolving nature of imaging technology and patient demographics, as well as labor-intensive data curation, limiting their practical applicability and scalability. To address these challenges, we introduce a novel segmentation paradigm enabling the segmentation of a variable number of classes within a single classifier-free network, featuring an architecture independent of class number. This network is trained using contrastive learning and produces discriminative feature representations that facilitate straightforward interpretation. Additionally, we integrate this strategy into a knowledge distillation-based incremental learning framework, facilitating the gradual assimilation of new information from non-stationary data streams while avoiding catastrophic forgetting. Our approach provides a unified solution for tackling both class- and domain-incremental learning scenarios. We demonstrate the flexibility of our method in handling varying class numbers within a unified network and its capacity for incremental learning. Experimental results on an incompletely annotated, multi-modal, multi-source dataset for medical image segmentation underscore its superiority over state-of-the-art alternative approaches. | 翻訳日:2024-05-28 21:57:23 公開日:2024-05-25 |
# LEAST: "ローカル" テキスト条件の画像スタイル転送
LEAST: "Local" text-conditioned image style transfer ( http://arxiv.org/abs/2405.16330v1 ) ライセンス: Link先を確認 | Silky Singh, Surgan Jandial, Simra Shahid, Abhinav Java, | (参考訳) テキスト条件付きスタイル転送により、ユーザーはテキスト記述を通じて、希望する芸術スタイルをコミュニケーションでき、スタイリゼーションを実現するための新しい表現力のある手段を提供する。
本研究では,テキスト条件付き画像編集とスタイル転送技術について,ユーザプロンプトのきめ細かい理解に基づいて評価する。
画像中の特定の領域へのスタイル転送のローカライズに失敗したり、入力画像の内容や構造を歪ませたりするなど、現在の手法では局所化スタイル転送を効果的に達成できなかった。
この目的のために,ユーザの意図に応じて局所的なスタイル転送を保証するエンドツーエンドパイプラインを慎重に設計する。
さらに,定量的および定性的分析により,本手法の有効性を検証した。
プロジェクトのコードは、https://github.com/silky1708/local-style-transfer.comで公開されている。
Text-conditioned style transfer enables users to communicate their desired artistic styles through text descriptions, offering a new and expressive means of achieving stylization. In this work, we evaluate the text-conditioned image editing and style transfer techniques on their fine-grained understanding of user prompts for precise "local" style transfer. We find that current methods fail to accomplish localized style transfers effectively, either failing to localize style transfer to certain regions in the image, or distorting the content and structure of the input image. To this end, we carefully design an end-to-end pipeline that guarantees local style transfer according to users' intent. Further, we substantiate the effectiveness of our approach through quantitative and qualitative analysis. The project code is available at: https://github.com/silky1708/local-style-transfer. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# Devil's Advocate: LLMエージェントの予測反射
Devil's Advocate: Anticipatory Reflection for LLM Agents ( http://arxiv.org/abs/2405.16334v1 ) ライセンス: Link先を確認 | Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li, | (参考訳) 本研究では,LLMエージェントにイントロスペクションを付与し,複雑なタスクを解く上での一貫性と適応性を向上する手法を提案する。
我々のアプローチは, LLMエージェントに対して, あるタスクを管理可能なサブタスク(つまり計画の作成)に分解し, それらの動作の適合性や結果について継続的に検査するように促す。
イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(intro
1) 行動実行前の潜在的な失敗及び代替策の予見
2 計画実行における最大限の努力を確保するため、サブタスク目標との事後調整及び救済の事後追跡
3)今後の戦略改善に向けた計画完了に関する総合的な見直し。
Web環境での実践的なタスクのためにWebArena内で,この手法をデプロイし,実験することにより,既存のゼロショット手法よりも優れた性能を示す。
実験結果から,我々のイントロスペクション駆動型アプローチは,計画実行の堅牢なメカニズムを通じて,予期せぬ課題をナビゲートするエージェントの能力を向上するだけでなく,課題達成に必要な試行回数や計画修正を削減して効率を向上させることが示唆された。
In this work, we introduce a novel approach that equips LLM agents with introspection, enhancing consistency and adaptability in solving complex tasks. Our approach prompts LLM agents to decompose a given task into manageable subtasks (i.e., to make a plan), and to continuously introspect upon the suitability and results of their actions. We implement a three-fold introspective intervention: 1) anticipatory reflection on potential failures and alternative remedy before action execution, 2) post-action alignment with subtask objectives and backtracking with remedy to ensure utmost effort in plan execution, and 3) comprehensive review upon plan completion for future strategy refinement. By deploying and experimenting with this methodology - a zero-shot approach - within WebArena for practical tasks in web environments, our agent demonstrates superior performance over existing zero-shot methods. The experimental results suggest that our introspection-driven approach not only enhances the agent's ability to navigate unanticipated challenges through a robust mechanism of plan execution, but also improves efficiency by reducing the number of trials and plan revisions needed to achieve a task. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# RoboArm-NMP:ニューラルモーションプランニングのための学習環境
RoboArm-NMP: a Learning Environment for Neural Motion Planning ( http://arxiv.org/abs/2405.16335v1 ) ライセンス: Link先を確認 | Tom Jurgenson, Matan Sudry, Gal Avineri, Aviv Tamar, | (参考訳) 本稿では,ロボットマニピュレータに着目したニューラルモーションプランニング(NMP)アルゴリズムの簡易かつ徹底的な評価を可能にする学習・評価環境であるRoboArm-NMPを提案する。
我々のPythonベースの環境は,学習制御ポリシ(教師付きあるいは強化学習ベース)のベースライン実装,PyBulletに基づくシミュレータ,古典的な動作計画解法を用いた解決インスタンスのデータ,障害物を符号化するさまざまな表現学習方法,学習と計画フレームワーク間のクリーンなインターフェースを提供する。
我々は,RoboArm-NMPを用いて,いくつかの顕著なNMP設計点を比較し,最適手法が固定障害物のあるシーンにおける未確認目標の一般化にほぼ成功しているが,未確認障害物構成の一般化には困難であり,今後の研究の焦点となることを示唆する。
We present RoboArm-NMP, a learning and evaluation environment that allows simple and thorough evaluations of Neural Motion Planning (NMP) algorithms, focused on robotic manipulators. Our Python-based environment provides baseline implementations for learning control policies (either supervised or reinforcement learning based), a simulator based on PyBullet, data of solved instances using a classical motion planning solver, various representation learning methods for encoding the obstacles, and a clean interface between the learning and planning frameworks. Using RoboArm-NMP, we compare several prominent NMP design points, and demonstrate that the best methods mostly succeed in generalizing to unseen goals in a scene with fixed obstacles, but have difficulty in generalizing to unseen obstacle configurations, suggesting focus points for future research. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# プログラム生成・エミュレーション・検索による推論学習
Learning to Reason via Program Generation, Emulation, and Search ( http://arxiv.org/abs/2405.16337v1 ) ライセンス: Link先を確認 | Nathaniel Weir, Muhammad Khalifa, Linlu Qiu, Orion Weller, Peter Clark, | (参考訳) 言語モデル(LM)によるプログラム合成は、様々な推論能力の集合を解き放ち、コードチューニングされたLMは、様々なアルゴリズム的記号操作タスク(例えば、単語の連結)を解くプログラムを生成することに長けていることが証明されている。
しかし、すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスク。
我々のゴールは、LMのプログラム合成スキルをそのようなタスクに拡張し、擬似プログラム、すなわちいくつかのリーフ関数呼び出しが未定義のままであるPythonプログラムを通じて結果を評価することである。
そのために、コード生成とエミュレートされた実行(CoGEX)を提案する。
CoGEX は(1) LM を訓練して独自の擬似プログラムを生成し、(2) それらの葉機能を含むプログラムの実行をエミュレートし、LM の知識が実行ギャップを埋めることを可能にする。
本稿では,CoGEXモデルを新しいタスクに適応させるため,与えられたデータセットのすべてのインスタンスに適用した場合に,擬似実行が最適な性能を示すプログラムを1つ探すプログラム探索を行う手法を提案する。
提案手法は,タスクのバッテリ上での標準的なコンテキスト内学習手法と比較して,アルゴリズム的推論とソフト推論の両方において大きな改善をもたらすことを示す。
この結果は、コード合成が以前考えられていたよりもはるかに幅広い問題に応用可能であることを証明している。
リリースしたデータセット、微調整されたモデル、実装は、 \url{https://github.com/nweir127/CoGEX}で確認できます。
Program synthesis with language models (LMs) has unlocked a large set of reasoning abilities; code-tuned LMs have proven adept at generating programs that solve a wide variety of algorithmic symbolic manipulation tasks (e.g. word concatenation). However, not all reasoning tasks are easily expressible as code, e.g. tasks involving commonsense reasoning, moral decision-making, and sarcasm understanding. Our goal is to extend an LM's program synthesis skills to such tasks and evaluate the results via pseudo-programs, namely Python programs where some leaf function calls are left undefined. To that end, we propose, Code Generation and Emulated EXecution (CoGEX). CoGEX works by (1) training LMs to generate their own pseudo-programs, (2) teaching them to emulate their generated program's execution, including those leaf functions, allowing the LM's knowledge to fill in the execution gaps; and (3) using them to search over many programs to find an optimal one. To adapt the CoGEX model to a new task, we introduce a method for performing program search to find a single program whose pseudo-execution yields optimal performance when applied to all the instances of a given dataset. We show that our approach yields large improvements compared to standard in-context learning approaches on a battery of tasks, both algorithmic and soft reasoning. This result thus demonstrates that code synthesis can be applied to a much broader class of problems than previously considered. Our released dataset, fine-tuned models, and implementation can be found at \url{https://github.com/nweir127/CoGEX}. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# BOLD: ブール論理ディープラーニング
BOLD: Boolean Logic Deep Learning ( http://arxiv.org/abs/2405.16339v1 ) ライセンス: Link先を確認 | Van Minh Nguyen, Cristian Ocampo, Aymen Askri, Louis Leconte, Ba-Hien Tran, | (参考訳) ディープラーニングは計算集約的であり、特にデータ移動に支配されるエネルギー消費に関して、算術的複雑性の低減に重点を置いている。
既存の文献では推論が重視されているが、トレーニングはリソース集約的である。
本稿では,ブール重みと入力からなるニューロンを,勾配勾配や実算術の代わりにブール論理を用いて,ブール領域で(初めて)効率的に訓練できるようなブール変動の概念を導入することで,新しい数学的原理を提案する。
我々は,その収束性を探究し,広範囲に実験的なベンチマークを行い,チップアーキテクチャ,メモリ階層,データフロー,演算精度を考慮した一貫した複雑性評価を行う。
提案手法は,イメージネット分類におけるベースライン完全精度を実現し,画像超解像における特徴的性能とトランスフォーマーモデルを用いた自然言語理解による意味的セグメンテーションの最先端結果を上回る。
さらに、トレーニングと推論の双方において、エネルギー消費を著しく削減する。
Deep learning is computationally intensive, with significant efforts focused on reducing arithmetic complexity, particularly regarding energy consumption dominated by data movement. While existing literature emphasizes inference, training is considerably more resource-intensive. This paper proposes a novel mathematical principle by introducing the notion of Boolean variation such that neurons made of Boolean weights and inputs can be trained -- for the first time -- efficiently in Boolean domain using Boolean logic instead of gradient descent and real arithmetic. We explore its convergence, conduct extensively experimental benchmarking, and provide consistent complexity evaluation by considering chip architecture, memory hierarchy, dataflow, and arithmetic precision. Our approach achieves baseline full-precision accuracy in ImageNet classification and surpasses state-of-the-art results in semantic segmentation, with notable performance in image super-resolution, and natural language understanding with transformer-based models. Moreover, it significantly reduces energy consumption during both training and inference. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# R.A.C.E.:セキュアテキスト・画像拡散モデルのためのロバスト対逆的概念消去
R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model ( http://arxiv.org/abs/2405.16341v1 ) ライセンス: Link先を確認 | Changhoon Kim, Kyle Min, Yezhou Yang, | (参考訳) テキスト・ツー・イメージ拡散モデル(T2I)の進化する展望において、テキスト記述から高品質な画像を生成する優れた能力は、センシティブなコンテンツを再現する潜在的な誤用に直面する。
この重要な問題に対処するために、我々は、T2Iモデルの概念消去法の堅牢性を高め、これらのリスクを軽減するために設計された新しいアプローチであるRobust Adversarial Concept Erase(RACE)を紹介する。
RACEは、高度な敵の訓練フレームワークを使用して、敵のテキスト埋め込みを特定し、軽減し、アタック成功率(ASR)を著しく低減する。
印象的なことに、RASは主要なホワイトボックス攻撃法に対して '`nudity'' という概念に対して、ASRの30パーセントの削減を実現している。
広範に評価したところ、RASはホワイトボックスとブラックボックスの両方の攻撃を防御する効果を示し、T2I拡散モデルが不適切な画像や誤解を招くことを防いでいる。
この研究は、急速に進行する敵の課題に適応する上で、積極的な防衛措置の必要性を浮き彫りにしている。
In the evolving landscape of text-to-image (T2I) diffusion models, the remarkable capability to generate high-quality images from textual descriptions faces challenges with the potential misuse of reproducing sensitive content. To address this critical issue, we introduce Robust Adversarial Concept Erase (RACE), a novel approach designed to mitigate these risks by enhancing the robustness of concept erasure method for T2I models. RACE utilizes a sophisticated adversarial training framework to identify and mitigate adversarial text embeddings, significantly reducing the Attack Success Rate (ASR). Impressively, RACE achieves a 30 percentage point reduction in ASR for the ``nudity'' concept against the leading white-box attack method. Our extensive evaluations demonstrate RACE's effectiveness in defending against both white-box and black-box attacks, marking a significant advancement in protecting T2I diffusion models from generating inappropriate or misleading imagery. This work underlines the essential need for proactive defense measures in adapting to the rapidly advancing field of adversarial challenges. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# 画像デコンボリューションのための学習点スプレッド関数の可逆性評価
Learning Point Spread Function Invertibility Assessment for Image Deconvolution ( http://arxiv.org/abs/2405.16343v1 ) ライセンス: Link先を確認 | Romario Gualdrón-Hurtado, Roman Jacome, Sergio Urrea, Henry Arguello, Luis Gonzalez, | (参考訳) ディープラーニング(DL)に基づく画像デコンボリューション(ID)は,従来の線形手法を超越した,顕著な回復性能を示した。
しかし、ポイントスプレッド関数(PSF)の分析的性質に依存する従来のIDアプローチとは異なり、畳み込み行列における特定のスペクトル特性や小さな条件数など、高い回復性能を実現するために、DL技術は、DL支援回復のためのPSF適合性を評価するための定量的な指標を欠いている。
畳み込み品質を向上させるために,ニューラルネットワークを用いて任意のPSFの可逆性を学ぶために非線形アプローチを用いたメトリクスを提案する。
マッピングされたPSFとユニットインパルスとの差は、DLネットワークによるインバージョンの成功率が高いことを示している。
以上の結果から,本尺度はDL法および従来の手法の回復性能と相関し,デコンボリューションタスクにおいて有効な正規化器として機能することが判明した。
このアプローチは、従来の条件数評価よりも計算の複雑さを減らし、微分可能なプロセスである。
これらの有用な性質は、エンド・ツー・エンド(E2E)最適化による回折光学素子の設計、可逆PSFの実現、E2Eベースラインフレームワークの性能向上に有効である。
Deep-learning (DL)-based image deconvolution (ID) has exhibited remarkable recovery performance, surpassing traditional linear methods. However, unlike traditional ID approaches that rely on analytical properties of the point spread function (PSF) to achieve high recovery performance - such as specific spectrum properties or small conditional numbers in the convolution matrix - DL techniques lack quantifiable metrics for evaluating PSF suitability for DL-assisted recovery. Aiming to enhance deconvolution quality, we propose a metric that employs a non-linear approach to learn the invertibility of an arbitrary PSF using a neural network by mapping it to a unit impulse. A lower discrepancy between the mapped PSF and a unit impulse indicates a higher likelihood of successful inversion by a DL network. Our findings reveal that this metric correlates with high recovery performance in DL and traditional methods, thereby serving as an effective regularizer in deconvolution tasks. This approach reduces the computational complexity over conventional condition number assessments and is a differentiable process. These useful properties allow its application in designing diffractive optical elements through end-to-end (E2E) optimization, achieving invertible PSFs, and outperforming the E2E baseline framework. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# 構成性とインクリメンタルラーニングの2次的視点
A Second-Order perspective on Compositionality and Incremental Learning ( http://arxiv.org/abs/2405.16350v1 ) ライセンス: Link先を確認 | Angelo Porrello, Lorenzo Bonicelli, Pietro Buzzega, Monica Millunzi, Simone Calderara, Rita Cucchiara, | (参考訳) 深部事前学習モデルの微調整により, 合成特性が明らかになった。
これにより、複数の特殊モジュールの任意の構成を単一のマルチタスクモデルにすることができる。
しかし、構成性を促進する条件の特定は依然として未解決の問題であり、近年の取り組みは主に線形化ネットワークに焦点を当てている。
損失関数の2階Taylor近似を用いて、標準非線形ネットワークにおける構成性をデミスティフィケートしようとする理論的研究を行う。
提案した定式化は、構成可能なモジュールを達成するための事前訓練盆地内に留まることの重要性を強調している。
さらに、このアルゴリズムは2つの二重インクリメンタルトレーニングアルゴリズムの基礎を提供する: 1つは個別に訓練された複数のモデルの観点から、もう1つは合成されたモデルを全体として最適化することを目的としている。
それらの応用を漸進的な分類タスクで調査し、いくつかの重要なスキルを強調します。
実際、インクリメンタルに学習されたモジュールのプールは、効果的なマルチタスクモデルの作成をサポートするだけでなく、特定のタスクの未学習と特殊化を可能にする。
The fine-tuning of deep pre-trained models has recently revealed compositional properties. This enables the arbitrary composition of multiple specialized modules into a single, multi-task model. However, identifying the conditions that promote compositionality remains an open issue, with recent efforts concentrating mainly on linearized networks. We conduct a theoretical study that attempts to demystify compositionality in standard non-linear networks through the second-order Taylor approximation of the loss function. The proposed formulation highlights the importance of staying within the pre-training basin for achieving composable modules. Moreover, it provides the basis for two dual incremental training algorithms: the one from the perspective of multiple models trained individually, while the other aims to optimize the composed model as a whole. We probe their application in incremental classification tasks and highlight some valuable skills. In fact, the pool of incrementally learned modules not only supports the creation of an effective multi-task model but also enables unlearning and specialization in specific tasks. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# ワッサーシュタイン GAN の微分方程式による解法
A Differential Equation Approach for Wasserstein GANs and Beyond ( http://arxiv.org/abs/2405.16351v1 ) ライセンス: Link先を確認 | Zachariah Malik, Yu-Jui Huang, | (参考訳) 本稿では,WGAN(Warsserstein Generative Adversarial Network)を視認する理論レンズを提案する。
本フレームワークでは,分布依存常微分方程式(ODE)に着想を得た離散化を定義する。
このような離散化が収束していることを示し、W1フォワード・オイラー (W1-FE) と呼ぶこの離散化を実装するための対戦訓練手法を提案する。
特に、ODEフレームワークは、ODE解釈なしでは一般的なWGANアルゴリズムには適用できない、新しいトレーニング技術である永続的なトレーニングを実装することができる。
注意すべきは、永続的トレーニングを実装しない場合、我々のアルゴリズムが既存のWGANアルゴリズムに単純化されることを証明し、永続的トレーニングのレベルを適切に引き上げると、我々のアルゴリズムは、低次元と高次元の両方の例において既存のWGANアルゴリズムより優れていることである。
We propose a new theoretical lens to view Wasserstein generative adversarial networks (WGANs). In our framework, we define a discretization inspired by a distribution-dependent ordinary differential equation (ODE). We show that such a discretization is convergent and propose a viable class of adversarial training methods to implement this discretization, which we call W1 Forward Euler (W1-FE). In particular, the ODE framework allows us to implement persistent training, a novel training technique that cannot be applied to typical WGAN algorithms without the ODE interpretation. Remarkably, when we do not implement persistent training, we prove that our algorithms simplify to existing WGAN algorithms; when we increase the level of persistent training appropriately, our algorithms outperform existing WGAN algorithms in both low- and high-dimensional examples. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# AIの誤りをナビゲートする: 人格誤表現の後に人々の反応とAIの認識を調べる
Navigating AI Fallibility: Examining People's Reactions and Perceptions of AI after Encountering Personality Misrepresentations ( http://arxiv.org/abs/2405.16355v1 ) ライセンス: Link先を確認 | Qiaosi Wang, Chidimma L. Anyi, Vedant Das Swain, Ashok K. Goel, | (参考訳) パーソナライズされたAIシステムの多くは、パーソナライズされたレコメンデーションを提供するために、人々の特性(例えば人格の特徴)をプロファイルしている。
これらのシステムは、チームメイトレコメンデーションの提供など、人々間の対話を促進するために、ますます使われています。
精度が向上したにもかかわらず、これらのシステムは人々の最も個人的な特性を推測する際にエラーに免疫がない。
これらのエラーはAIの誤表現として現れました。
しかし、このようなAIの誤表現の反響は、特に人々の反応やAIに対する認識に不明瞭である。
本研究は,AIに精通したチームマッチングにおける人格の誤表現に遭遇した後,人々がどのように反応し,AIを知覚するかを検討するための2つの研究である。
半構造化インタビュー(n=20)と調査実験(n=198)を通じて、AIの誤表現に遭遇した後、人々の既存の知識と新たに獲得したAI知識が、AIの認識と反応をいかに形作るかを見極める。
具体的には、AI(ミス)表現から取得した知識を通じて人々が採用した3つの理論的根拠を特定しました。
これらの合理性は、過信、合理化、AIの誤表現の否定といった人々の反応と強く結びついている。
最後に、人々の既存のAI知識、すなわち、AIリテラシーは、AIの誤った表現に遭遇した後、人々のAIに対する信頼の変化を緩めることができるが、人々のAIに対する社会的認識の変化にはならないことを発見した。
我々は、AIの誤認に直面する際の人々のAI知識の役割と、責任ある緩和と修復戦略を設計する上での意義について論じる。
Many hyper-personalized AI systems profile people's characteristics (e.g., personality traits) to provide personalized recommendations. These systems are increasingly used to facilitate interactions among people, such as providing teammate recommendations. Despite improved accuracy, such systems are not immune to errors when making inferences about people's most personal traits. These errors manifested as AI misrepresentations. However, the repercussions of such AI misrepresentations are unclear, especially on people's reactions and perceptions of the AI. We present two studies to examine how people react and perceive the AI after encountering personality misrepresentations in AI-facilitated team matching in a higher education context. Through semi-structured interviews (n=20) and a survey experiment (n=198), we pinpoint how people's existing and newly acquired AI knowledge could shape their perceptions and reactions of the AI after encountering AI misrepresentations. Specifically, we identified three rationales that people adopted through knowledge acquired from AI (mis)representations: AI works like a machine, human, and/or magic. These rationales are highly connected to people's reactions of over-trusting, rationalizing, and forgiving of AI misrepresentations. Finally, we found that people's existing AI knowledge, i.e., AI literacy, could moderate people's changes in their trust in AI after encountering AI misrepresentations, but not changes in people's social perceptions of AI. We discuss the role of people's AI knowledge when facing AI fallibility and implications for designing responsible mitigation and repair strategies. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# LDPKiT:騒音による学習によるLDPスキームの実用性回復(第2報)
LDPKiT: Recovering Utility in LDP Schemes by Training with Noise^2 ( http://arxiv.org/abs/2405.16361v1 ) ライセンス: Link先を確認 | Kexin Li, Yang Xi, Aastha Mehta, David Lie, | (参考訳) 大規模クラウドベースの推論モデルの採用は、エンドユーザデータのプライバシー漏洩に関する懸念から妨げられている。
このリークを緩和する1つの方法は、クラウドに送信する前にクエリに局所的に微分プライベートノイズを追加することだが、副作用として実用性は低下する。
我々の重要な洞察は、ノイズの入力に対する推論から返されるノイズのラベルから得られる知識を集約し、正しいラベルを復元できるということである。
この知見は,LDPKiTにおいて実装されている。
LDPKiTは、ノイズ入力の集合をクエリして返されるノイズラベルを使用して、ローカルモデル(ノイズ^2)をトレーニングし、元の入力セットの推論に使用される。
CIFAR-10, Fashion-MNIST, SVHN, CARER NLPデータセットを用いた実験により, LDPKiTはプライバシーを損なうことなく実用性を向上させることができることを示した。
例えば、CIFAR-10では、標準の$\epsilon$-LDPスキームが$\epsilon=15$で、プライバシー保証が弱いのに対して、LDPKiTは$\epsilon=7$でほぼ同じ精度(1%の低下で)を達成でき、プライバシー保証が強化されている。
さらに、LDPKiTを使用することの利点は、より高いプライバシー保護ノイズレベルにおいて増加する。
Fashion-MNISTとCARERにとって、LDPKiTの精度は、$\epsilon=7$が標準の$\epsilon$-LDPスキームの平均精度を超えるだけでなく、$\epsilon=7$が約20%、9%、標準の$\epsilon$-LDPスキームが$\epsilon=15$を上回る。
また, LDPKiTによる蒸留の種類がモデル抽出攻撃と異なることを示すため, Zest 距離測定を行った。
The adoption of large cloud-based models for inference has been hampered by concerns about the privacy leakage of end-user data. One method to mitigate this leakage is to add local differentially private noise to queries before sending them to the cloud, but this degrades utility as a side effect. Our key insight is that knowledge available in the noisy labels returned from performing inference on noisy inputs can be aggregated and used to recover the correct labels. We implement this insight in LDPKiT, which stands for Local Differentially-Private and Utility-Preserving Inference via Knowledge Transfer. LDPKiT uses the noisy labels returned from querying a set of noised inputs to train a local model (noise^2), which is then used to perform inference on the original set of inputs. Our experiments on CIFAR-10, Fashion-MNIST, SVHN, and CARER NLP datasets demonstrate that LDPKiT can improve utility without compromising privacy. For instance, on CIFAR-10, compared to a standard $\epsilon$-LDP scheme with $\epsilon=15$, which provides a weak privacy guarantee, LDPKiT can achieve nearly the same accuracy (within 1% drop) with $\epsilon=7$, offering an enhanced privacy guarantee. Moreover, the benefits of using LDPKiT increase at higher, more privacy-protective noise levels. For Fashion-MNIST and CARER, LDPKiT's accuracy on the sensitive dataset with $\epsilon=7$ not only exceeds the average accuracy of the standard $\epsilon$-LDP scheme with $\epsilon=7$ by roughly 20% and 9% but also outperforms the standard $\epsilon$-LDP scheme with $\epsilon=15$, a scenario with less noise and minimal privacy protection. We also perform Zest distance measurements to demonstrate that the type of distillation performed by LDPKiT is different from a model extraction attack. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# LLMs for User Interest Exploration: A Hybrid Approach
LLMs for User Interest Exploration: A Hybrid Approach ( http://arxiv.org/abs/2405.16363v1 ) ライセンス: Link先を確認 | Jianling Wang, Haokai Lu, Yifan Liu, He Ma, Yueqi Wang, Yang Gu, Shuzhou Zhang, Ningren, Han, Shuchao Bi, Lexi Baugher, Ed Chi, Minmin Chen, | (参考訳) 従来のレコメンデーションシステムは、過去のユーザとイテムのインタラクションから学び、強化することで、強いフィードバックループの対象となり、それによって新しいユーザ関心の発見が制限される。
そこで本稿では,Large Language Models (LLM) と古典的レコメンデーションモデルを組み合わせたハイブリッド階層型フレームワークを提案する。
このフレームワークは、アルゴリズム設計者によって明確に決定できる「関心クラスタ」を通じて、LLMと古典的なレコメンデーションモデルとのインターフェイスを制御する。
言語を用いて「興味あるクラスタ」を表現することで次の新しい関心を推し進めており、あらかじめ定義されたクラスタ内で厳密な新しい関心記述を生成するために微調整のLLMを使用している。
低レベルでは、これらの生成された関心は、古典的なレコメンデーションモデルを制限することでアイテムレベルのポリシーに向けられ、この場合、トランスフォーマーベースのシーケンスレコメンデータは、高レベルで生成された新しいクラスタに該当するアイテムを返すことを推奨する。
数十億のユーザを対象とする産業規模の商用プラットフォーム上で,このアプローチの有効性を実証する。
ライブ実験は、新しい興味の探索とプラットフォーム全体のユーザ満足度の両方において、顕著な増加を示している。
Traditional recommendation systems are subject to a strong feedback loop by learning from and reinforcing past user-item interactions, which in turn limits the discovery of novel user interests. To address this, we introduce a hybrid hierarchical framework combining Large Language Models (LLMs) and classic recommendation models for user interest exploration. The framework controls the interfacing between the LLMs and the classic recommendation models through "interest clusters", the granularity of which can be explicitly determined by algorithm designers. It recommends the next novel interests by first representing "interest clusters" using language, and employs a fine-tuned LLM to generate novel interest descriptions that are strictly within these predefined clusters. At the low level, it grounds these generated interests to an item-level policy by restricting classic recommendation models, in this case a transformer-based sequence recommender to return items that fall within the novel clusters generated at the high level. We showcase the efficacy of this approach on an industrial-scale commercial platform serving billions of users. Live experiments show a significant increase in both exploration of novel interests and overall user enjoyment of the platform. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# Josephson bifurcation readout: than the monochromatic approximation
Josephson bifurcation readout: beyond the monochromatic approximation ( http://arxiv.org/abs/2405.16366v1 ) ライセンス: Link先を確認 | Yuriy Makhlin, Alexander B. Zorin, | (参考訳) 弱非線形超伝導共振回路を用いた分岐量子検出器の特性解析と量子リードアウトへの応用について述べる。
発達した量的記述は、高調波がそれらの特性に強い影響を示す。
この効果は、従来のジョセフソン分岐増幅器やパラメトリック駆動回路など様々な回路に関係するが、第1に、力駆動下での周期拡散分岐に着目する。
この種の分岐は、名目上2次非線形性によるもので、ほぼ二重共振周波数で駆動信号が基本モードにパラメトリックのダウンコンバージョンを可能にする。
非線形回路に固有の基本モードの力学に及ぼす高調波の影響を解析し, 正弦波電流-位相関係を持つジョセフソン接合を非線形性の起源とする。
単色近似を超える効果は、素体特性を著しく変化させ、それらの寄与を評価することを実証した。
この回路の小さなパラメータに対する感度が高いため、超伝導量子ビットの量子状態の効率的な検出器として機能することができる。
We analyze properties of bifurcation quantum detectors based on weakly nonlinear superconducting resonance circuits, in particular, with application to quantum readout. The developed quantitative description demonstrates strong influence of higher harmonics on their characteristics. While this effect is relevant for various circuits, including the conventional Josephson bifurcation amplifier and the parametrically driven circuit, we first focus on the period-doubling bifurcation under a force driving. This kind of bifurcation is due to nominally quadratic nonlinearity, which enables parametric down-conversion of the driving signal at nearly double resonance frequency to the basic mode. We analyze the effect of higher harmonics on the dynamics of the basic mode, inherent in a nonlinear circuit, which in our case is based on a Josephson junction with a sinusoidal current-phase relation as the origin of nonlinearity. We demonstrate that effects beyond the monochromatic approximation significantly modify the bare characteristics and evaluate their contribution. Due to high sensitivity of this circuit to small variations of parameters, it can serve as an efficient detector of the quantum state of superconducting qubits. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# Qsco: オープンセット監視異常検出のための量子スコーリングモジュール
Qsco: A Quantum Scoring Module for Open-set Supervised Anomaly Detection ( http://arxiv.org/abs/2405.16368v1 ) ライセンス: Link先を確認 | Yifeng Peng, Xinyi Li, Zhiding Liang, Ying Wang, | (参考訳) オープンセット異常検出(OSAD)は、特にトレーニング中に観察された異常が全ての可能な異常のクラスを表現していない場合に、データセット内の異常パターンや行動を特定することを目的とした重要なタスクである。
複雑なデータ構造を扱う量子コンピューティングの最近の進歩と機械学習モデルの改善は、異常検出手法におけるパラダイムシフトを先導している。
本研究では、量子変動回路をニューラルネットワークに埋め込み、不確実性やラベルなしデータを扱う際のモデルの処理能力を向上する量子スコーリングモジュール(Qsco)を提案する。
8つの実世界の異常検出データセットで実施された大規模な実験は、様々な設定で異常を検出する上で、我々のモデルの優れた性能を示し、量子シミュレータの統合は禁忌な時間複雑さをもたらすものではないことを示した。
本研究は,量子化異常検出手法の実用化の可能性を検証するものである。
Open set anomaly detection (OSAD) is a crucial task that aims to identify abnormal patterns or behaviors in data sets, especially when the anomalies observed during training do not represent all possible classes of anomalies. The recent advances in quantum computing in handling complex data structures and improving machine learning models herald a paradigm shift in anomaly detection methodologies. This study proposes a Quantum Scoring Module (Qsco), embedding quantum variational circuits into neural networks to enhance the model's processing capabilities in handling uncertainty and unlabeled data. Extensive experiments conducted across eight real-world anomaly detection datasets demonstrate our model's superior performance in detecting anomalies across varied settings and reveal that integrating quantum simulators does not result in prohibitive time complexities. Our study validates the feasibility of quantum-enhanced anomaly detection methods in practical applications. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# パスワイズ脆弱性軽減
Path-wise Vulnerability Mitigation ( http://arxiv.org/abs/2405.16372v1 ) ライセンス: Link先を確認 | Zhen Huang, Hristina Dokic, | (参考訳) ソフトウェアの脆弱性は多いが、ソフトウェアの脆弱性を修正することは簡単ではない。
ソフトウェアベンダーが脆弱性を修正するのに数週間または数ヶ月かかることが多いため、かなりのプレパッチウィンドウが存在することが研究で示されている。
既存のアプローチは、脆弱性を修正するのではなく、敵が脆弱性を悪用することを防ぐための緩和パッチの生成と適用によって、パッチ前のウィンドウを削減することを目的としている。
緩和パッチは典型的には関数レベルでの脆弱性追跡プログラムパスの実行を終了するので、大きな副作用が生じる可能性がある。
本稿では,プログラムパスのレベル,すなわちパスワイド脆弱性軽減パッチの生成と挿入を行うPAVERという手法について述べる。
PAVERは、脆弱性につながるパスとこれらのパスに対する制御依存性を含むプログラムパスグラフを生成し、プログラムパスグラフに基づいて、候補パッチ位置を特定する。
各候補パッチ位置について、PAVERは緩和パッチを生成して挿入し、パッチの副作用を評価するためにパッチプログラムをテストする。
パッチは副作用の程度でランク付けする。
実世界の脆弱性に対するPAVERのプロトタイプを評価し,我々のパスワイド脆弱性軽減パッチが副作用を最小限に抑えることを示す。
Software vulnerabilities are prevalent but fixing software vulnerabilities is not trivial. Studies have shown that a considerable prepatch window exists because it often takes weeks or months for software vendors to fix a vulnerability. Existing approaches aim to reduce the pre-patch window by generating and applying mitigation patches that prevent adversaries from exploiting vulnerabilities rather than fix vulnerabilities. Because mitigation patches typically terminate the execution of vulnerability-triggering program paths at the level of functions, they can have significant side-effects. This paper describes an approach called PAVER that generates and inserts mitigation patches at the level of program paths, i.e. path-wise vulnerability mitigation patches, in order to reduce their side-effects. PAVER generates a program path graph that includes the paths leading to vulnerabilities and the control dependencies on these paths, then identifies candidate patch locations based on the program path graph. For each candidate patch location, PAVER generates and inserts a mitigation patch, and tests the patched program to assess the side-effect of the patch. It ranks the patches by the extent of their side-effects. We evaluates the prototype of PAVER on real world vulnerabilities and the evaluation shows that our path-wise vulnerability mitigation patches can achieve minimum side-effects. | 翻訳日:2024-05-28 21:47:39 公開日:2024-05-25 |
# ハイブリッド量子ダウンサンプリングネットワーク
Hybrid Quantum Downsampling Networks ( http://arxiv.org/abs/2405.16375v1 ) ライセンス: Link先を確認 | Yifeng Peng, Xinyi Li, Zhiding Liang, Ying Wang, | (参考訳) 古典的な最大プーリングは、様々なよく知られたディープラーニングモデルにおいて、データの次元を減少させる上で重要な役割を担っている。
我々はノイズ耐性アルゴリズムである新しいハイブリッド量子サンプリングモジュール(HQD)を提案した。
かなりの数の量子ビット(量子ビット)を統合することで、我々のアプローチは、元の画像のキー特性が局所受容領域内で最大に保存されることを保証する。
さらにHQDは、ノイズの多い中間スケール量子(NISQ)時代のコンテキストにおいて、ユニークな利点を提供する。
我々は、RX、RY、RZゲート、制御NOT(CNOT)ゲートなどの回転ゲートを利用して、非線形特性を探索するユニークな量子変動回路を設計に導入する。
その結果、HQDモジュールを組み込んだネットワークアーキテクチャは、CIFAR-10とCIFAR-100データセットの最大プールにより、古典的な構造よりも大幅に優れていた。
全ての試験モデルの精度は平均3%向上し、様々な量子ノイズ条件下では最大ゆらぎはわずか0.4%であった。
Classical max pooling plays a crucial role in reducing data dimensionality among various well-known deep learning models, yet it often leads to the loss of vital information. We proposed a novel hybrid quantum downsampling module (HQD), which is a noise-resilient algorithm. By integrating a substantial number of quantum bits (qubits), our approach ensures the key characteristics of the original image are maximally preserved within the local receptive field. Moreover, HQD provides unique advantages in the context of the noisy intermediate-scale quantum (NISQ) era. We introduce a unique quantum variational circuit in our design, utilizing rotating gates including RX, RY, RZ gates, and the controlled-NOT (CNOT) gate to explore nonlinear characteristics. The results indicate that the network architectures incorporating the HQD module significantly outperform the classical structures with max pooling in CIFAR-10 and CIFAR-100 datasets. The accuracy of all tested models improved by an average of approximately 3%, with a maximum fluctuation of only 0.4% under various quantum noise conditions. | 翻訳日:2024-05-28 21:37:49 公開日:2024-05-25 |
# STRIDE: 戦略的かつインタラクティブな意思決定のためのツール支援LDMエージェントフレームワーク
STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making ( http://arxiv.org/abs/2405.16376v1 ) ライセンス: Link先を確認 | Chuanhao Li, Runhan Yang, Tiankai Li, Milad Bafarassat, Kourosh Sharifi, Dirk Bergemann, Zhuoran Yang, | (参考訳) GPT-4のような大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。
しかし, 戦略的マルチエージェント意思決定環境への応用は, 数学的推論の貧弱さ, 後続命令の難しさ, 誤った情報を生成する傾向など, 重大な制約によって妨げられている。
これらの欠陥は、曖昧なゲームルール、長期計画、未知の環境での探索、敵の動きを期待する戦略的かつ対話的なタスクにおけるパフォーマンスを妨げる。
本稿では,これらの障害を克服するために,メモリと特殊なツールを備えた新たなLLMエージェントフレームワークを提案する。
我々は,このツールを経済的に重要な環境,特に二国間交渉とマルチエージェントおよび動的メカニズム設計に展開する。
さまざまな戦略的意思決定問題におけるフレームワークのパフォーマンスを評価するために,定量的な指標を用いている。
以上の結果から,LLMの戦略的意思決定能力を大幅に向上する可能性が示唆された。
我々は、現在のLLMモデルの本質的な制限を強調しながら、ターゲットとなる拡張による改善を実証し、対話型環境のためのLLMアプリケーションの将来的な開発に向けて有望な方向性を示唆する。
Large Language Models (LLMs) like GPT-4 have revolutionized natural language processing, showing remarkable linguistic proficiency and reasoning capabilities. However, their application in strategic multi-agent decision-making environments is hampered by significant limitations including poor mathematical reasoning, difficulty in following instructions, and a tendency to generate incorrect information. These deficiencies hinder their performance in strategic and interactive tasks that demand adherence to nuanced game rules, long-term planning, exploration in unknown environments, and anticipation of opponents' moves. To overcome these obstacles, this paper presents a novel LLM agent framework equipped with memory and specialized tools to enhance their strategic decision-making capabilities. We deploy the tools in a number of economically important environments, in particular bilateral bargaining and multi-agent and dynamic mechanism design. We employ quantitative metrics to assess the framework's performance in various strategic decision-making problems. Our findings establish that our enhanced framework significantly improves the strategic decision-making capability of LLMs. While we highlight the inherent limitations of current LLM models, we demonstrate the improvements through targeted enhancements, suggesting a promising direction for future developments in LLM applications for interactive environments. | 翻訳日:2024-05-28 21:37:49 公開日:2024-05-25 |
# 強化学習を用いた動的不均一量子資源スケジューリング
Dynamic Inhomogeneous Quantum Resource Scheduling with Reinforcement Learning ( http://arxiv.org/abs/2405.16380v1 ) ライセンス: Link先を確認 | Linsen Li, Pratyush Anand, Kaiming He, Dirk Englund, | (参考訳) 量子情報科学と技術における中心的な課題は、量子システムのリアルタイム推定とフィードフォワード制御の実現である。
この挑戦は、キュービットの性質や制御のような量子資源の固有の不均一性と、本質的に確率的な性質によって複雑化されている。
このことは、リモートの絡み合いのようなプロセスにおけるエラー検出と確率的結果の確率的挑戦につながります。
これらの複雑さを考えると、量子資源状態の構成を最適化することはNPハード問題である。
本稿では,この問題を定式化し,デジタル化された環境でシミュレートすることで,エージェントベースの最適化戦略の探索と開発を可能にすることで,量子リソーススケジューリング問題に対処する。
この確率的設定に強化学習エージェントを採用し、量子ビット対の自己保持機構を強調するTransformerモデルを用いた新しいフレームワークを導入する。
このアプローチは、リアルタイムで次のステップのガイダンスを提供することで、動的スケジューリングを容易にする。
提案手法は, 量子システムの性能を著しく向上させ, 規則に基づくエージェントよりも3$\times$以上の改善を実現し, 通信, ネットワーク, コンピューティングにおける量子アプリケーションのための物理・制御システムの共同設計を改善する革新的な枠組みを確立する。
A central challenge in quantum information science and technology is achieving real-time estimation and feedforward control of quantum systems. This challenge is compounded by the inherent inhomogeneity of quantum resources, such as qubit properties and controls, and their intrinsically probabilistic nature. This leads to stochastic challenges in error detection and probabilistic outcomes in processes such as heralded remote entanglement. Given these complexities, optimizing the construction of quantum resource states is an NP-hard problem. In this paper, we address the quantum resource scheduling issue by formulating the problem and simulating it within a digitized environment, allowing the exploration and development of agent-based optimization strategies. We employ reinforcement learning agents within this probabilistic setting and introduce a new framework utilizing a Transformer model that emphasizes self-attention mechanisms for pairs of qubits. This approach facilitates dynamic scheduling by providing real-time, next-step guidance. Our method significantly improves the performance of quantum systems, achieving more than a 3$\times$ improvement over rule-based agents, and establishes an innovative framework that improves the joint design of physical and control systems for quantum applications in communication, networking, and computing. | 翻訳日:2024-05-28 21:37:49 公開日:2024-05-25 |
# 自由化モーメントファシリテートによるリー群上の拡散生成モデル
Trivialized Momentum Facilitates Diffusion Generative Modeling on Lie Groups ( http://arxiv.org/abs/2405.16381v1 ) ライセンス: Link先を確認 | Yuchen Zhu, Tianrong Chen, Lingkai Kong, Evangelos A. Theodorou, Molei Tao, | (参考訳) 多様体上のデータの生成的モデリングは重要なタスクであり、平坦空間における拡散モデルは通常非自明な適応を必要とする。
本稿では,「自明化」と呼ばれる手法がユークリッド空間における拡散モデルの有効性をリー群に伝達する方法を示す。
特に、データ分布と固定されたサンプル分布の間の位置変数の輸送を支援するために、補助運動量変数がアルゴリズムによって導入された。
通常は、運動量は位置によって変化する空間に存在しているので、多様体データにとってさらに困難になる。
しかし、我々の自明化技法は、単純な$\textbf{fixed vector space}$に留まる新しい運動量変数を生み出す。
この設計は、積分器を保存する多様体と共に、実装を単純化し、接空間や多様体への射影などの近似によって生じる不正確さを回避している。
得られた方法は、タンパク質およびRNAのねじれ角の生成および洗練されたトーラスデータセットに対する最先端の性能を達成する。
また、量子問題に欠かせない高次元の特殊直交群やユニタリ群に関するデータ生成にも、間違いなく初めて取り組む。
The generative modeling of data on manifold is an important task, for which diffusion models in flat spaces typically need nontrivial adaptations. This article demonstrates how a technique called `trivialization' can transfer the effectiveness of diffusion models in Euclidean spaces to Lie groups. In particular, an auxiliary momentum variable was algorithmically introduced to help transport the position variable between data distribution and a fixed, easy-to-sample distribution. Normally, this would incur further difficulty for manifold data because momentum lives in a space that changes with the position. However, our trivialization technique creates to a new momentum variable that stays in a simple $\textbf{fixed vector space}$. This design, together with a manifold preserving integrator, simplifies implementation and avoids inaccuracies created by approximations such as projections to tangent space and manifold, which were typically used in prior work, hence facilitating generation with high-fidelity and efficiency. The resulting method achieves state-of-the-art performance on protein and RNA torsion angle generation and sophisticated torus datasets. We also, arguably for the first time, tackle the generation of data on high-dimensional Special Orthogonal and Unitary groups, the latter essential for quantum problems. | 翻訳日:2024-05-28 21:37:49 公開日:2024-05-25 |
# 一般的なビジュアルエンコーダとしての映像予測モデル
Video Prediction Models as General Visual Encoders ( http://arxiv.org/abs/2405.16382v1 ) ライセンス: Link先を確認 | James Maier, Nishanth Mohankumar, | (参考訳) 本研究では,BAIR Robot Pushing Datasetを用いたインスタンスセグメンテーションに着目し,下流タスクのエンコーダとして,オープンソースのビデオ条件生成モデルの可能性を検討する。
研究者らは、ビデオ予測モデルを一般的なビジュアルエンコーダとして使用し、インスタンスセグメンテーションのようなタスクに不可欠な重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究、特にゲシュタルツの共通運命原理にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発し、背景情報から効果的に前景を識別することを目的としている。
研究者らは3次元ベクトル量子変分オートエンコーダ3次元VQVAEビデオ生成エンコーダモデルを用いて、下流セグメンテーションタスクと組み合わせた。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
この結果は、下流タスクに生成前文学習を活用でき、コンピュータビジョンアプリケーションにおけるシーン分析とセグメンテーションの強化に寄与することを示す。
This study explores the potential of open-source video conditional generation models as encoders for downstream tasks, focusing on instance segmentation using the BAIR Robot Pushing Dataset. The researchers propose using video prediction models as general visual encoders, leveraging their ability to capture critical spatial and temporal information which is essential for tasks such as instance segmentation. Inspired by human vision studies, particularly Gestalts principle of common fate, the approach aims to develop a latent space representative of motion from images to effectively discern foreground from background information. The researchers utilize a 3D Vector-Quantized Variational Autoencoder 3D VQVAE video generative encoder model conditioned on an input frame, coupled with downstream segmentation tasks. Experiments involve adapting pre-trained video generative models, analyzing their latent spaces, and training custom decoders for foreground-background segmentation. The findings demonstrate promising results in leveraging generative pretext learning for downstream tasks, working towards enhanced scene analysis and segmentation in computer vision applications. | 翻訳日:2024-05-28 21:37:49 公開日:2024-05-25 |
# Bad Part: ピクセルワイド回帰タスクに対する一貫したブラックボックス対応パッチ攻撃
BadPart: Unified Black-box Adversarial Patch Attacks against Pixel-wise Regression Tasks ( http://arxiv.org/abs/2404.00924v3 ) ライセンス: Link先を確認 | Zhiyuan Cheng, Zhaoyi Liu, Tengda Guo, Shiwei Feng, Dongfang Liu, Mingjie Tang, Xiangyu Zhang, | (参考訳) 自動走行、拡張現実、ビデオ合成などの応用において、画素単位の回帰タスク(例えば、単眼深度推定(MDE)と光フロー推定(OFE))は我々の日常生活に広く関わっている。
特定の応用は、セキュリティに批判的か社会的重要性を持つが、特にブラックボックスのシナリオにおいて、そのようなモデルの敵対的堅牢性は十分に研究されていない。
本研究では,クエリベースのブラックボックスアタックにおいて,これらのモデルの脆弱性を特定することを目的とした,画素単位の回帰タスクに対する最初の統合ブラックボックス対逆パッチアタックフレームワークを提案する。
そこで我々は,従来のブラックボックスパッチ攻撃のスケーラビリティ問題を克服し,確率的正方形サンプリングとスコアベース勾配推定手法を用いて,このパッチを効果的かつ効率的に生成する新しい正方形逆パッチ最適化フレームワークを提案する。
攻撃プロトタイプであるBadPartは,MDEタスクとOFEタスクの両方で,合計7つのモデルを用いて評価される。
BadPartは攻撃性能と効率の両面で3つのベースラインメソッドを上回っている。
また、GoogleのオンラインサービスBadPartをポートレート深度推定に応用し、50Kクエリに対して43.5%の相対誤差を発生させた。
最先端のSOTA(State-of-the-art)対策は、我々の攻撃を効果的に防御することはできない。
Pixel-wise regression tasks (e.g., monocular depth estimation (MDE) and optical flow estimation (OFE)) have been widely involved in our daily life in applications like autonomous driving, augmented reality and video composition. Although certain applications are security-critical or bear societal significance, the adversarial robustness of such models are not sufficiently studied, especially in the black-box scenario. In this work, we introduce the first unified black-box adversarial patch attack framework against pixel-wise regression tasks, aiming to identify the vulnerabilities of these models under query-based black-box attacks. We propose a novel square-based adversarial patch optimization framework and employ probabilistic square sampling and score-based gradient estimation techniques to generate the patch effectively and efficiently, overcoming the scalability problem of previous black-box patch attacks. Our attack prototype, named BadPart, is evaluated on both MDE and OFE tasks, utilizing a total of 7 models. BadPart surpasses 3 baseline methods in terms of both attack performance and efficiency. We also apply BadPart on the Google online service for portrait depth estimation, causing 43.5% relative distance error with 50K queries. State-of-the-art (SOTA) countermeasures cannot defend our attack effectively. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# ベースレス予測から不十分な文脈と不確実なマルチモーダル状況の検出
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions ( http://arxiv.org/abs/2405.11145v3 ) ライセンス: Link先を確認 | Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas, Rui Sun, Shih-Fu Chang, Kai-Wei Chang, | (参考訳) VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG、VisualCOMETなどのVLUベンチマークが広く採用されているにもかかわらず、我々の分析は、その完全性に影響を与える広範囲な問題を明らかにしている。
このようなデータのトレーニングモデルは、モデルが同様に不確実な仮定をする傾向があるため、バイアス付き学習と幻覚を促進する。
この問題に対処するために,各サンプルのコンテキストデータを収集し,エビデンスに基づくモデル予測を容易にするために,コンテキスト選択モジュールを訓練する。
複数のベンチマークによる強力な改善は、我々のアプローチの有効性を示しています。
さらに,十分なコンテキストを持たないサンプルを識別し,必要なコンテキストがない場合の応答を控えることによりモデル精度を向上させる汎用なコンテキスト・アワレ認識(CARA)検出器を開発した。
CARAは、トレーニングされていない新しいベンチマークを一般化し、サンプルを不適切なコンテキストで検出またはクリーニングする将来のVLUベンチマークの有用性を強調している。
最後に,コンテクスト・アンビグニティ・サフィシアンシー・アセスメント(CASE,Context Ambiguity and Sufficiency Evaluation, コンテキスト・アンビグニティ・アンド・サフィシアンシー・アセスメント)を用いて,不十分なコンテキスト・ディテクターの性能をベンチマークする。
全体として、我々の研究は、複雑な現実世界のシナリオにおいて、視覚言語モデルが信頼できるエビデンスベースのアウトプットを生成することを保証する重要な進歩を表している。
Despite the widespread adoption of Vision-Language Understanding (VLU) benchmarks such as VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, and VisualCOMET, our analysis reveals a pervasive issue affecting their integrity: these benchmarks contain samples where answers rely on assumptions unsupported by the provided context. Training models on such data foster biased learning and hallucinations as models tend to make similar unwarranted assumptions. To address this issue, we collect contextual data for each sample whenever available and train a context selection module to facilitate evidence-based model predictions. Strong improvements across multiple benchmarks demonstrate the effectiveness of our approach. Further, we develop a general-purpose Context-AwaRe Abstention (CARA) detector to identify samples lacking sufficient context and enhance model accuracy by abstaining from responding if the required context is absent. CARA exhibits generalization to new benchmarks it wasn't trained on, underscoring its utility for future VLU benchmarks in detecting or cleaning samples with inadequate context. Finally, we curate a Context Ambiguity and Sufficiency Evaluation (CASE) set to benchmark the performance of insufficient context detectors. Overall, our work represents a significant advancement in ensuring that vision-language models generate trustworthy and evidence-based outputs in complex real-world scenarios. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# テキスト・ツー・イメージモデルの改良のためのクラス・コンディショナル・セルフ・リワード機構
Class-Conditional self-reward mechanism for improved Text-to-Image models ( http://arxiv.org/abs/2405.13473v2 ) ライセンス: Link先を確認 | Safouane El Ghazouali, Arnaud Gucciardi, Umberto Michelucci, | (参考訳) 最近、自然言語処理(NLP)の分野で強力なツールとしてセルフリワードが登場し、トレーニング中に自分自身の報酬を提供することで、言語モデルが高品質な応答を生成できるようになった。
この革新的な技術は、人間の好みに依存する他の方法の限界に対処する。
本稿では,自己回帰モデルの概念に基づいて,テキスト・ツー・イメージ生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルで動作し、より自動化され、データ品質が向上する。
提案機構は,語彙ベースオブジェクト検出や画像キャプションなどの事前学習モデルを利用し,ユーザが生成したデータ品質を改善するために必要なオブジェクトセットによって条件付けされる。
このアプローチは安定拡散に基づいて実装され、微調整され、評価され、既存の商用および研究用テキスト・ツー・イメージモデルよりも少なくとも60%高い性能が評価されている。
さらに、構築された自己回帰機構により、画像の完全自動生成が可能となり、生成した画像の視覚的品質が向上し、プロンプト命令の追従性が向上した。
この作業で使用されるコードはhttps://github.com/safouaneelg/SRT2Iで無料で利用できる。
Self-rewarding have emerged recently as a powerful tool in the field of Natural Language Processing (NLP), allowing language models to generate high-quality relevant responses by providing their own rewards during training. This innovative technique addresses the limitations of other methods that rely on human preferences. In this paper, we build upon the concept of self-rewarding models and introduce its vision equivalent for Text-to-Image generative AI models. This approach works by fine-tuning diffusion model on a self-generated self-judged dataset, making the fine-tuning more automated and with better data quality. The proposed mechanism makes use of other pre-trained models such as vocabulary based-object detection, image captioning and is conditioned by the a set of object for which the user might need to improve generated data quality. The approach has been implemented, fine-tuned and evaluated on stable diffusion and has led to a performance that has been evaluated to be at least 60\% better than existing commercial and research Text-to-image models. Additionally, the built self-rewarding mechanism allowed a fully automated generation of images, while increasing the visual quality of the generated images and also more efficient following of prompt instructions. The code used in this work is freely available on https://github.com/safouaneelg/SRT2I. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# 意味密度:大規模言語モデルにおける意味空間の不確かさの定量化
Semantic Density: Uncertainty Quantification in Semantic Space for Large Language Models ( http://arxiv.org/abs/2405.13845v2 ) ライセンス: Link先を確認 | Xin Qiu, Risto Miikkulainen, | (参考訳) 大規模言語モデル(LLM)が様々な領域に広く適用されたことにより、安全上重要なシナリオにおけるLLMの信頼性に関する懸念が高まっている。
既存のLCMには、ユーザが生成するレスポンスごとに不確実なメトリックを提供する固有の機能がないため、信頼性を評価することは困難である。
LLMの不確実性定量化法の開発を目的としている研究は数多くあるが、それらは分類タスクに制限されていること、追加のトレーニングとデータを必要とすること、意味情報の代わりに語彙のみを考慮すること、即時的だが応答的ではないこと、といった基本的な制限がある。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ情報を抽出する。
タスクタイプに制限はなく、新しいモデルやタスクの“既定”である。
最新のLlama 3 と Mixtral-8x22B モデルを含む7つの最先端 LLM に対する4つの自由形式の質問応答ベンチマーク実験は、従来のアプローチと比較してセマンティック密度の優れた性能とロバスト性を示している。
With the widespread application of Large Language Models (LLMs) to various domains, concerns regarding the trustworthiness of LLMs in safety-critical scenarios have been raised, due to their unpredictable tendency to hallucinate and generate misinformation. Existing LLMs do not have an inherent functionality to provide the users with an uncertainty metric for each response it generates, making it difficult to evaluate trustworthiness. Although a number of works aim to develop uncertainty quantification methods for LLMs, they have fundamental limitations, such as being restricted to classification tasks, requiring additional training and data, considering only lexical instead of semantic information, and being prompt-wise but not response-wise. A new framework is proposed in this paper to address these issues. Semantic density extracts uncertainty information for each response from a probability distribution perspective in semantic space. It has no restriction on task types and is "off-the-shelf" for new models and tasks. Experiments on seven state-of-the-art LLMs, including the latest Llama 3 and Mixtral-8x22B models, on four free-form question-answering benchmarks demonstrate the superior performance and robustness of semantic density compared to prior approaches. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# 自然言語通信による不完全情報によるゲームにおける人間-エージェント協調
Human-Agent Cooperation in Games under Incomplete Information through Natural Language Communication ( http://arxiv.org/abs/2405.14173v2 ) ライセンス: Link先を確認 | Shenghui Chen, Daniel Fried, Ufuk Topcu, | (参考訳) 情報非対称性の下で人間と交渉し協力できる自律エージェントを開発することは、自然言語の効果的なコミュニケーションなしでは困難である。
不完全な情報の下で共通の目的を達成するために、2人のプレイヤーが交互にトークンを制御できる共有制御ゲームを導入する。
本ゲームでは,人間を相手とする自律エージェントのポリシー合成問題を定式化する。
そこで本研究では,言語モジュールと計画モジュールからなる通信方式を提案する。
言語モジュールは、自然言語メッセージを有限のフラグの集合、すなわちプレーヤーの意図をキャプチャするために定義されたコンパクトな表現に翻訳する。
計画モジュールはこれらのフラグを利用して,非対称情報集合モンテカルロ木探索とフラグ交換アルゴリズムを用いてポリシーを計算する。
探索型迷路ボードゲームGnomes at Nightをベースとしたテストベッドにおいて,本手法の有効性を検証した。
人体実験の結果、コミュニケーションはプレイヤー間の情報ギャップを狭め、より少ないターンで人間とエージェントの協調効率を高めることが示されている。
Developing autonomous agents that can strategize and cooperate with humans under information asymmetry is challenging without effective communication in natural language. We introduce a shared-control game, where two players collectively control a token in alternating turns to achieve a common objective under incomplete information. We formulate a policy synthesis problem for an autonomous agent in this game with a human as the other player. To solve this problem, we propose a communication-based approach comprising a language module and a planning module. The language module translates natural language messages into and from a finite set of flags, a compact representation defined to capture player intents. The planning module leverages these flags to compute a policy using an asymmetric information-set Monte Carlo tree search with flag exchange algorithm we present. We evaluate the effectiveness of this approach in a testbed based on Gnomes at Night, a search-and-find maze board game. Results of human subject experiments show that communication narrows the information gap between players and enhances human-agent cooperation efficiency with fewer turns. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# Time-FFM:時系列予測のためのLMを活用したフェデレーションモデルを目指して
Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting ( http://arxiv.org/abs/2405.14252v2 ) ライセンス: Link先を確認 | Qingxiang Liu, Xu Liu, Chenghao Liu, Qingsong Wen, Yuxuan Liang, | (参考訳) 自然言語処理やコンピュータビジョンとは異なり、時系列予測のためのファンデーションモデル(FM)の開発はデータ不足のためブロックされている。
近年、時系列解析のための言語モデル(LM)の可能性を解き放つことによるFMの構築に重点を置いているが、下流予測タスクの専用パラメータにはトレーニングが必要であるため、ドメイン間の共通知識の共有を妨げている。
さらに、データ所有者は、プライバシー上の懸念と著作権保護のために、ローカルデータへのアクセスを共有することをためらう可能性がある。
これらの課題に対処するために,予め訓練されたLMを利用して時系列予測を行うFederated Foundation Model for Time seriesを提案する。
具体的には、時系列をテキストトークンのモダリティに変換することから始める。
時系列推論のためのLMのブートストラップを行うために,ドメインカストマイズされたプロンプトを動的に決定するプロンプト適応モジュールを提案する。
ドメイン間のデータの均一性を考慮し、グローバルエンコーダとローカル予測ヘッドを学習することで、個人化された訓練戦略を設計する。
総合的な実験により、Time-FFMは最先端の予測よりも優れており、効果的に数発・ゼロショットの予測が可能であることが示唆された。
Unlike natural language processing and computer vision, the development of Foundation Models (FMs) for time series forecasting is blocked due to data scarcity. While recent efforts are focused on building such FMs by unlocking the potential of language models (LMs) for time series analysis, dedicated parameters for various downstream forecasting tasks need training, which hinders the common knowledge sharing across domains. Moreover, data owners may hesitate to share the access to local data due to privacy concerns and copyright protection, which makes it impossible to simply construct a FM on cross-domain training instances. To address these issues, we propose Time-FFM, a Federated Foundation Model for Time series forecasting by leveraging pretrained LMs. Specifically, we begin by transforming time series into the modality of text tokens. To bootstrap LMs for time series reasoning, we propose a prompt adaption module to determine domain-customized prompts dynamically instead of artificially. Given the data heterogeneity across domains, we design a personalized federated training strategy by learning global encoders and local prediction heads. Our comprehensive experiments indicate that Time-FFM outperforms state-of-the-arts and promises effective few-shot and zero-shot forecaster. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# サブストラクタ対策が必要なサブストラクタ:大規模言語モデルにおける代表的・親和性バイアスの評価のための2つの指標
Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models ( http://arxiv.org/abs/2405.14555v2 ) ライセンス: Link先を確認 | Abhishek Kumar, Sarfaroz Yunusov, Ali Emami, | (参考訳) LLM(Large Language Models)の研究は、しばしば微妙な偏見を無視している。
本研究は, LLM内の2つのバイアスに対処する: 代表バイアスは, LLMが特定のアイデンティティグループの経験を反映した出力を生成する傾向を示し, 特定の物語や視点に対するモデルの評価的嗜好を反映する親和性バイアスである。
本稿では,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を紹介した。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
さらに,親和性バイアスを調べた結果,各モデルに特徴的な評価パターンがみられた。
この傾向は人間の評価にも見られ、人間と機械の偏見の複雑な相互作用を浮き彫りにしている。
Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models' outputs toward particular social narratives. This study addresses two such biases within LLMs: representative bias, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and affinity bias, reflecting the models' evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints'. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |
# 連続テスト時間適応制御
Controllable Continual Test-Time Adaptation ( http://arxiv.org/abs/2405.14602v2 ) ライセンス: Link先を確認 | Ziqi Shi, Fan Lyu, Ye Liu, Fanhua Shang, Fuyuan Hu, Wei Feng, Zhang Zhang, Liang Wang, | (参考訳) 連続テスト時間適応(CTTA)は、ソースドメインでトレーニングされたモデルが元のソースデータにアクセスすることなく、テスト中に継続的に変化する条件に適応しなければならない、新しくて困難なタスクである。
CTTAは制御不能なドメインシフトによってエラーの蓄積が難しく、カテゴリ間の決定境界が曖昧になる。
既存のCTTA法は主にドメインシフトの抑制に重点を置いており、教師なしテストフェーズでは不十分であることが証明されている。
対照的に、これらのシフトを抑えるのではなく、ガイドする新しいアプローチを導入する。
具体的には、$\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA)を提案する。
さらに,本手法は,モデルのドメイン変換に対する感度を低減し,カテゴリシフトの規模を最小化する。
一方, t-SNEプロットなどの定性的解析により, 提案手法の理論的妥当性が検証された。
Continual Test-Time Adaptation (CTTA) is an emerging and challenging task where a model trained in a source domain must adapt to continuously changing conditions during testing, without access to the original source data. CTTA is prone to error accumulation due to uncontrollable domain shifts, leading to blurred decision boundaries between categories. Existing CTTA methods primarily focus on suppressing domain shifts, which proves inadequate during the unsupervised test phase. In contrast, we introduce a novel approach that guides rather than suppresses these shifts. Specifically, we propose $\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA), which explicitly prevents any single category from encroaching on others, thereby mitigating the mutual influence between categories caused by uncontrollable shifts. Moreover, our method reduces the sensitivity of model to domain transformations, thereby minimizing the magnitude of category shifts. Extensive quantitative experiments demonstrate the effectiveness of our method, while qualitative analyses, such as t-SNE plots, confirm the theoretical validity of our approach. | 翻訳日:2024-05-28 11:47:21 公開日:2024-05-25 |