このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240523となっている論文です。

PDF登録状況(公開日: 20240523)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像セグメンテーションのための変分形状コンパクト性に先立つ深部畳み込みニューラルネットワーク

Deep Convolutional Neural Networks Meet Variational Shape Compactness Priors for Image Segmentation ( http://arxiv.org/abs/2406.19400v1 )

ライセンス: Link先を確認
Kehui Zhang, Lingfeng Li, Hao Liu, Jing Yuan, Xue-Cheng Tai, (参考訳) 形状コンパクト性は、多くの画像分割タスクにおいて興味深い領域を記述するための重要な幾何学的性質である。 本稿では,従来の形状適合性を組み込んだ画像分割問題の解法として,新しい2つのアルゴリズムを提案する。 そのような問題の既存のアルゴリズムは、計算の非効率性、局所的な最小値に達することの難しさ、ハイパーパラメータを微調整する必要性に悩まされることが多い。 これらの問題に対処するために、等価な原始双対モデルと共に新しい最適化モデルを提案し、原始双対しきい値力学(PD-TD)に基づく新しい最適化アルゴリズムを提案する。 さらに、解の制約を緩和し、より優れた性能を実現するために、新しい原始二元ソフトしきい値力学アルゴリズム(PD-STD)を提案する。 シグモイド層の変動的説明に基づき,提案手法をディープニューラルネットワーク(DNN)に統合し,画像分割結果としてコンパクト領域を強制することができる。 既存のディープラーニング手法と比較して、提案アルゴリズムは数値効率と有効性において最先端のアルゴリズムよりも優れており、特に雑音の多いIrisデータセット上のIoU、ダイス、コンパクト度測定値の高いDeepLabV3とIrisParseNetの一般的なネットワークに適用されている。 特に、提案アルゴリズムは、ノイズの多い画像データセット上で20%のトレーニングをすることで、IoUを大幅に改善する。

Shape compactness is a key geometrical property to describe interesting regions in many image segmentation tasks. In this paper, we propose two novel algorithms to solve the introduced image segmentation problem that incorporates a shape-compactness prior. Existing algorithms for such a problem often suffer from computational inefficiency, difficulty in reaching a local minimum, and the need to fine-tune the hyperparameters. To address these issues, we propose a novel optimization model along with its equivalent primal-dual model and introduce a new optimization algorithm based on primal-dual threshold dynamics (PD-TD). Additionally, we relax the solution constraint and propose another novel primal-dual soft threshold-dynamics algorithm (PD-STD) to achieve superior performance. Based on the variational explanation of the sigmoid layer, the proposed PD-STD algorithm can be integrated into Deep Neural Networks (DNNs) to enforce compact regions as image segmentation results. Compared to existing deep learning methods, extensive experiments demonstrated that the proposed algorithms outperformed state-of-the-art algorithms in numerical efficiency and effectiveness, especially while applying to the popular networks of DeepLabV3 and IrisParseNet with higher IoU, dice, and compactness metrics on noisy Iris datasets. In particular, the proposed algorithms significantly improve IoU by 20% training on a highly noisy image dataset.
翻訳日:2024-07-22 22:48:25 公開日:2024-05-23
# 逆問題に対する埋設シュレーディンガー橋の測定

Measurement Embedded Schrödinger Bridge for Inverse Problems ( http://arxiv.org/abs/2407.04162v1 )

ライセンス: Link先を確認
Yuang Wang, Pengfei Jin, Siyeop Yoon, Matthew Tivnan, Quanzheng Li, Li Zhang, Dufan Wu, (参考訳) スコアベース拡散モデルはしばしば逆問題における構造的先行として用いられる。 しかし、ガウスノイズから始まる反復的雑音化過程は、しばしば推論速度を遅くする。 Image-to-Image Schr\"odinger Bridge (I$^2$SB) は、破損した画像から始まり、逆問題に対処する先駆者として有望な選択肢を示す。 本稿では,MESB(Message Embedded Schr\"odinger Bridge)について紹介する。 MESBは、劣化した画像の分布と観測されたクリーンな画像の分布の間のシュリンガーブリッジを確立する。 最適輸送理論に基づいて,MESBの前方・後方過程を導出する。 種々の逆問題に対する検証を通じて,提案手法は既存のSchr\"odinger Bridgeベースの逆問題解法と比較して,視覚的品質と定量的指標の両方において優れた性能を示す。

Score-based diffusion models are frequently employed as structural priors in inverse problems. However, their iterative denoising process, initiated from Gaussian noise, often results in slow inference speeds. The Image-to-Image Schr\"odinger Bridge (I$^2$SB), which begins with the corrupted image, presents a promising alternative as a prior for addressing inverse problems. In this work, we introduce the Measurement Embedded Schr\"odinger Bridge (MESB). MESB establishes Schr\"odinger Bridges between the distribution of corrupted images and the distribution of clean images given observed measurements. Based on optimal transport theory, we derive the forward and backward processes of MESB. Through validation on diverse inverse problems, our proposed approach exhibits superior performance compared to existing Schr\"odinger Bridge-based inverse problems solvers in both visual quality and quantitative metrics.
翻訳日:2024-07-22 22:09:04 公開日:2024-05-23
# ソーシャルAIとWittgensteinの言語使用者の方程式 : Calvinoの文学機械を用いて

Social AI and The Equation of Wittgenstein's Language User With Calvino's Literature Machine ( http://arxiv.org/abs/2407.09493v1 )

ライセンス: Link先を確認
W. J. T. Mollema, (参考訳) 大規模言語モデル(LLM)に基づいたチャットボットのようなAIシステムに心理的述語を登録するのは賢明か? 人々は直感的に感情や意識を社会的AI(「影響のある人工エージェント」)に説明し始めており、その結果は愛から自殺まで様々である。 このような記述が保証されているかどうかという哲学的な問題は非常に関係がある。 本稿では, LLMはルートヴィヒ・ヴィトゲンシュタインの意味で言語ユーザをインスタンス化するが, これらのシステムに対する心理的述語を記述することは, 機能主義的誘惑のままである,という議論を推し進める。 ソーシャルAIは完全な言語ユーザではなく、むしろItalo Calvinoの文学マシンに似ている。 ウィトゲンシュタイン語使用者やカルヴィノの文学作品作成機械としてのLLMの考え方が組み合わさっている。 これは、両者を同一視することから、心理学的述語の記述から社会AIへの移行に固有の、誤った機能主義的誘惑に光を当てる。 最後に、死の計算の枠組みは、社会AIが物語のfa\c{c}ons de parlerに必要な基本的なオートポエシスを欠いていること、そして人間の(相互作用)行動の感覚形成におけるそれらの役割を示すために用いられる。 このような心理的述語の記述は理にかなっている:「量から質への」遷移は起こりうるが、その経路は文学機械による感情的な人工物と感情の近似の間ではなく、生と死の間にある。

Is it sensical to ascribe psychological predicates to AI systems like chatbots based on large language models (LLMs)? People have intuitively started ascribing emotions or consciousness to social AI ('affective artificial agents'), with consequences that range from love to suicide. The philosophical question of whether such ascriptions are warranted is thus very relevant. This paper advances the argument that LLMs instantiate language users in Ludwig Wittgenstein's sense but that ascribing psychological predicates to these systems remains a functionalist temptation. Social AIs are not full-blown language users, but rather more like Italo Calvino's literature machines. The ideas of LLMs as Wittgensteinian language users and Calvino's literature-producing writing machine are combined. This sheds light on the misguided functionalist temptation inherent in moving from equating the two to the ascription of psychological predicates to social AI. Finally, the framework of mortal computation is used to show that social AIs lack the basic autopoiesis needed for narrative fa\c{c}ons de parler and their role in the sensemaking of human (inter)action. Such psychological predicate ascriptions could make sense: the transition 'from quantity to quality' can take place, but its route lies somewhere between life and death, not between affective artifacts and emotion approximation by literature machines.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-23
# サイリコ社会学:大規模言語モデルによる新型コロナウイルスの分極予測

In Silico Sociology: Forecasting COVID-19 Polarization with Large Language Models ( http://arxiv.org/abs/2407.11190v1 )

ライセンス: Link先を確認
Austin C. Kozlowski, Hyunku Kwon, James A. Evans, (参考訳) デジタル化されたテキストの膨大なアーカイブ上でディープニューラルネットワークをトレーニングすることにより、大きな言語モデル(LLM)は、歴史的および現代的な言説を構成する複雑な言語パターンを学習する。 LLMは, 特定の社会的・文化的文脈から, 回答者の正確なシミュレーションを行うことによって, 社会学的調査に有用なツールとして機能する, と論じる。 この能力にLLMを適用して、2019年の世論の展望を再構築し、既存の政治談話の中で、COVID-19に対する今後の偏極がどの程度予測されたかを調べる。 2019年までに出版されたテキストに基づいて訓練されたLCMを用いて、パンデミック関連の質問に対する米国のリベラル派や保守派の反応をシミュレートする。 その結果、シミュレートされた回答者は84%の患者において、新型コロナウイルスの態度のパルチザン的な違いを再現した。 シミュレーションされた回答者が回答を正当化すると、観察されたパルチザンのギャップの大部分は、自由、安全、制度的信頼に対する異なる魅力に対応していることがわかった。 以上の結果から、新型コロナウイルスの政治化は以前のイデオロギーの状況と大きく一致していることが示唆され、この前例のない出来事は、レールを変えるよりも、線路沿いの歴史を前進させるのに役立った。

By training deep neural networks on massive archives of digitized text, large language models (LLMs) learn the complex linguistic patterns that constitute historic and contemporary discourses. We argue that LLMs can serve as a valuable tool for sociological inquiry by enabling accurate simulation of respondents from specific social and cultural contexts. Applying LLMs in this capacity, we reconstruct the public opinion landscape of 2019 to examine the extent to which the future polarization over COVID-19 was prefigured in existing political discourse. Using an LLM trained on texts published through 2019, we simulate the responses of American liberals and conservatives to a battery of pandemic-related questions. We find that the simulated respondents reproduce observed partisan differences in COVID-19 attitudes in 84% of cases, significantly greater than chance. Prompting the simulated respondents to justify their responses, we find that much of the observed partisan gap corresponds to differing appeals to freedom, safety, and institutional trust. Our findings suggest that the politicization of COVID-19 was largely consistent with the prior ideological landscape, and this unprecedented event served to advance history along its track rather than change the rails.
翻訳日:2024-07-22 12:00:08 公開日:2024-05-23
# 母系保健プログラムにおけるAIによる介入が健康と行動に与える影響に関する予備的研究

Preliminary Study of the Impact of AI-Based Interventions on Health and Behavioral Outcomes in Maternal Health Programs ( http://arxiv.org/abs/2407.11973v1 )

ライセンス: Link先を確認
Arpan Dasgupta, Niclas Boehmer, Neha Madhiwalla, Aparna Hedge, Bryan Wilder, Milind Tambe, Aparna Taneja, (参考訳) 自動音声通話は、母子保健情報を保護されていない地域の母親に届ける効果的な方法である。 聴覚障害と闘う方法の1つは、医療従事者がライブ・サービス・コールを行う介入である。 これまでの研究は、AIを使って聞き取りが介入から最も大きく後押しされる受益者を特定できることを示している。 また、自動音声通話の聴取が、プログラムの受益者に対する健康改善につながることも示されている。 これらの2つの観察は、AIベースの介入スケジューリングが行動と健康の結果に与える影響を示唆している。 本研究は両者の関係を分析する。 具体的には,母親の出生後の健康に関する知識に興味を持ち,アンケート調査を行った。 我々は,AIによる介入による聴取能力の向上が,妊娠や乳児期の重要な健康問題をよりよく理解することにつながる証拠を提示する。 この理解の向上は、母親とその赤ちゃんの健康上の利益をもたらす可能性がある。

Automated voice calls are an effective method of delivering maternal and child health information to mothers in underserved communities. One method to fight dwindling listenership is through an intervention in which health workers make live service calls. Previous work has shown that we can use AI to identify beneficiaries whose listenership gets the greatest boost from an intervention. It has also been demonstrated that listening to the automated voice calls consistently leads to improved health outcomes for the beneficiaries of the program. These two observations combined suggest the positive effect of AI-based intervention scheduling on behavioral and health outcomes. This study analyzes the relationship between the two. Specifically, we are interested in mothers' health knowledge in the post-natal period, measured through survey questions. We present evidence that improved listenership through AI-scheduled interventions leads to a better understanding of key health issues during pregnancy and infancy. This improved understanding has the potential to benefit the health outcomes of mothers and their babies.
翻訳日:2024-07-22 11:50:18 公開日:2024-05-23
# デュアルインペラティブ:AI時代のイノベーションと規制

The Dual Imperative: Innovation and Regulation in the AI Era ( http://arxiv.org/abs/2407.12690v1 )

ライセンス: Link先を確認
Paulo Carvão, (参考訳) 本稿では,人工知能における規制の欠如に伴う社会的コストに対処し,イノベーションと規制を組み合わせた枠組みを提案する。 コンピューティングコストの低下とデータの拡散によって触媒された50年以上にわたるAI研究は、AIを主流にし、有望な経済的利益をもたらした。 しかし、この急速な採用は、偏見の増幅や労働の混乱から、自律システムによって引き起こされる現実的な脅威まで、リスクを浮き彫りにする。 この談話は、加速主義者と、未発の技術的進歩を提唱するドーマー、そしてディストピア的な結果を防ぐための減速を求めるドーマーの間で偏在している。 この記事では、技術革新とスマートレギュレーションを活用してAIのメリットを最大化しつつ、リスクを最小限に抑え、AI技術の責任ある進歩に対する実践的なアプローチを提供する中間経路を提唱する。 最も有能な基礎モデルを超える技術的発明は、破滅的なリスクを含むために必要である。 規制は、現在の問題に対処しながら、この研究のインセンティブを生み出すために必要である。

This article addresses the societal costs associated with the lack of regulation in Artificial Intelligence and proposes a framework combining innovation and regulation. Over fifty years of AI research, catalyzed by declining computing costs and the proliferation of data, have propelled AI into the mainstream, promising significant economic benefits. Yet, this rapid adoption underscores risks, from bias amplification and labor disruptions to existential threats posed by autonomous systems. The discourse is polarized between accelerationists, advocating for unfettered technological advancement, and doomers, calling for a slowdown to prevent dystopian outcomes. This piece advocates for a middle path that leverages technical innovation and smart regulation to maximize the benefits of AI while minimizing its risks, offering a pragmatic approach to the responsible progress of AI technology. Technical invention beyond the most capable foundation models is needed to contain catastrophic risks. Regulation is required to create incentives for this research while addressing current issues.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-23
# ディスクロージャーとしてのDecolonial AI

Decolonial AI as Disenclosure ( http://arxiv.org/abs/2407.13050v1 )

ライセンス: Link先を確認
W. J. T. Mollema, (参考訳) 機械学習とAIの開発と展開は、「AI植民地主義」という概念上は「データ植民地主義」と重なり合う言葉を不当な形にしている。 AIの植民地化には3つの理由がある。 政治的には、それはデジタル資本主義の覇権を強制するからである。 生態学的には、環境に悪影響を及ぼし、天然資源の抽出とエネルギーの消費を強化する。 認識論的には、AIが埋め込まれた社会システムは、デジタル・キャピタリズムの一形態であるときに、グローバル・サウスに西洋の植民地的価値を課すことによって、西洋の普遍主義を強化している。 これらの理由は、AIデコロン化の新たな概念化を必要とする。 まず、植民地主義と植民地化の概念に関する歴史的議論を引用する。 第二に、Achille Mbembeの非植民地化の概念は、AIの非植民地化は、その設計、生産、西部におけるAIの発展の段階において構築され強化された政治的、生態学的、疫学的な境界の廃止であり、世界の南からの知識から引き出されたものでなければならないと主張するために、非植民地化の概念として回収される。 結論として、デコロニアルAIを非開示の形で認識することで、AI開発とデプロイメントの植民地的インスタンス化について考え、介入する新たな方法が開き、AIが依存する持続不可能なエコロジーを再認識し、予測できないAIデプロイメントのリスクを抑えるために、どのようにしてデコロニアルAIが認識されるかについて議論する。

The development and deployment of machine learning and AI engender 'AI colonialism', a term that conceptually overlaps with 'data colonialism', as a form of injustice. AI colonialism is in need of decolonization for three reasons. Politically, because it enforces digital capitalism's hegemony. Ecologically, as it negatively impacts the environment and intensifies the extraction of natural resources and consumption of energy. Epistemically, since the social systems within which AI is embedded reinforce Western universalism by imposing Western colonial values on the global South when these manifest in the digital realm is a form of digital capitalism. These reasons require a new conceptualization of AI decolonization. First this paper draws from the historical debates on the concepts of colonialism and decolonization. Secondly it retrieves Achille Mbembe's notion of decolonization as disenclosure to argue that the decolonization of AI will have to be the abolishment of political, ecological and epistemic borders erected and reinforced in the phases of its design, production, development of AI in the West and drawing from the knowledge from the global South. In conclusion, it is discussed how conceiving of decolonial AI as form of disenclosure opens up new ways to think about and intervene in colonial instantiations of AI development and deployment, in order to empower 'the wretched of AI', re-ecologise the unsustainable ecologies AI depends on and to counter the colonial power structures unreflective AI deployment risks to reinforce.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-23
# インテリジェント医用画像解析におけるマルチスケール画像融合システムの探索

Exploration of Multi-Scale Image Fusion Systems in Intelligent Medical Image Analysis ( http://arxiv.org/abs/2406.18548v1 )

ライセンス: Link先を確認
Yuxiang Hu, Haowei Yang, Ting Xu, Shuyao He, Jiajie Yuan, Haozhang Deng, (参考訳) 脳腫瘍の診断は医療画像技術に大きく依存しており、MRIが最も一般的に用いられている。 MRI画像上で脳腫瘍の自動分離を行う必要がある。 このプロジェクトは、U-Netに基づいたMRIアルゴリズムを構築することを目的としている。 残余ネットワークと、コンテキスト情報を強化するために使用されるモジュールとを結合し、このネットワークに空空間畳み込みプールピラミッドを付加して処理する。 脳グリオーマMRI画像データセットは, 癌画像アーカイブにより実験的に検証された。 重み付き最小二乗フィルタを用いたマルチスケールセグメンテーション法を用いて脳腫瘍の3次元再構成を行った。 これにより、3次元再構成の精度がさらに向上する。 実験により,提案アルゴリズムにより得られた局所的なテクスチャ特性は,レーザースキャンにより得られたものと類似していることがわかった。 U-Net法を用いてアルゴリズムを改良し、精度0.9851を得る。 このアプローチは画像分割の精度を大幅に向上させ、画像分類の効率を高める。

The diagnosis of brain cancer relies heavily on medical imaging techniques, with MRI being the most commonly used. It is necessary to perform automatic segmentation of brain tumors on MRI images. This project intends to build an MRI algorithm based on U-Net. The residual network and the module used to enhance the context information are combined, and the void space convolution pooling pyramid is added to the network for processing. The brain glioma MRI image dataset provided by cancer imaging archives was experimentally verified. A multi-scale segmentation method based on a weighted least squares filter was used to complete the 3D reconstruction of brain tumors. Thus, the accuracy of three-dimensional reconstruction is further improved. Experiments show that the local texture features obtained by the proposed algorithm are similar to those obtained by laser scanning. The algorithm is improved by using the U-Net method and an accuracy of 0.9851 is obtained. This approach significantly enhances the precision of image segmentation and boosts the efficiency of image classification.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-23
# 深層学習による医用イメージングシステムの特徴抽出認識の進歩

Advancements in Feature Extraction Recognition of Medical Imaging Systems Through Deep Learning Technique ( http://arxiv.org/abs/2406.18549v1 )

ライセンス: Link先を確認
Qishi Zhan, Dan Sun, Erdi Gao, Yuhan Ma, Yaxin Liang, Haowei Yang, (参考訳) 本研究では,空間成層技術を用いた新しい医用画像特徴抽出手法を提案する。 高速な画像認識を実現するために,重みに基づく目的関数を提案する。 このアルゴリズムは画像のピクセルを複数のサブドメインに分割し、クワッドツリーを使用して画像にアクセスする。 単純なアルゴリズムを用いたしきい値最適化手法を提案する。 ハイパースペクトル画像の非線形特性に着目し,カーネル関数に基づく一般化判別分析アルゴリズムを提案する。 本稿では,超スペクトルリモートセンシング画像を対象とし,その数学的モデリング,解法,特徴抽出技術について検討する。 異なる種類のオブジェクトは互いに独立しており、画像処理においてコンパクトであることがわかった。 従来の線形判別法と比較すると,画像分割の結果の方がよい。 この方法は、光の影響を受けやすい従来の方法の欠点を克服するだけでなく、物体の特徴を迅速かつ正確に抽出する。 臨床診断において重要な基準となる。

This study introduces a novel unsupervised medical image feature extraction method that employs spatial stratification techniques. An objective function based on weight is proposed to achieve the purpose of fast image recognition. The algorithm divides the pixels of the image into multiple subdomains and uses a quadtree to access the image. A technique for threshold optimization utilizing a simplex algorithm is presented. Aiming at the nonlinear characteristics of hyperspectral images, a generalized discriminant analysis algorithm based on kernel function is proposed. In this project, a hyperspectral remote sensing image is taken as the object, and we investigate its mathematical modeling, solution methods, and feature extraction techniques. It is found that different types of objects are independent of each other and compact in image processing. Compared with the traditional linear discrimination method, the result of image segmentation is better. This method can not only overcome the disadvantage of the traditional method which is easy to be affected by light, but also extract the features of the object quickly and accurately. It has important reference significance for clinical diagnosis.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-23
# 部分アノテーションとしての事前学習型ビジョンランゲージモデル

Pre-Trained Vision-Language Models as Partial Annotators ( http://arxiv.org/abs/2406.18550v1 )

ライセンス: Link先を確認
Qian-Wei Wang, Yuqiu Xie, Letian Zhang, Zimo Liu, Shu-Tao Xia, (参考訳) 事前学習された視覚言語モデルは、大量のデータを学習し、画像と自然言語の統一表現をモデル化し、下流の機械学習タスクに広く適用することができる。 ゼロショット推論に加えて、訓練済みのモデルを下流タスクの要求に適応させるために、人々は通常、少数ショットやパラメータ効率の良い微調整や知識蒸留といった手法を使う。 しかし、注釈付きサンプルは困難であり、多数の未ラベルサンプルが容易に取得できる。 本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。 具体的には、CLIPに基づいて、複数のプロンプトテンプレートで画像サンプルにアノテートして、複数の候補ラベルを取得し、ノイズのある部分ラベルデータセットを作成し、この問題を解決するために協調一貫性正規化アルゴリズムを設計する。 提案手法は2つのニューラルネットワークを同時にトレーニングし,互いに協調的にラベルを浄化し,自己学習のための擬似ラベルを得る。 実験では,ラベル情報を導入することなく,ゼロショット推論をはるかに超越した性能を実現し,弱い教師付き学習や少数ショットの微調整手法よりも優れ,より小さな展開モデルが得られる。 我々のコードは以下の通りである。

Pre-trained vision-language models learn massive data to model unified representations of images and natural languages, which can be widely applied to downstream machine learning tasks. In addition to zero-shot inference, in order to better adapt pre-trained models to the requirements of downstream tasks, people usually use methods such as few-shot or parameter-efficient fine-tuning and knowledge distillation. However, annotating samples is laborious, while a large number of unlabeled samples can be easily obtained. In this paper, we investigate a novel "pre-trained annotating - weakly-supervised learning" paradigm for pre-trained model application and experiment on image classification tasks. Specifically, based on CLIP, we annotate image samples with multiple prompt templates to obtain multiple candidate labels to form the noisy partial label dataset, and design a collaborative consistency regularization algorithm to solve this problem. Our method simultaneously trains two neural networks, which collaboratively purify training labels for each other and obtain pseudo-labels for self-training, while adopting prototypical similarity alignment and noisy supervised contrastive learning to optimize model representation. In experiments, our method achieves performances far beyond zero-shot inference without introducing additional label information, and outperforms other weakly supervised learning and few-shot fine-tuning methods, and obtains smaller deployed models. Our code is available at: \url{https://anonymous.4open.science/r/Co-Reg-8CF9}.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-23
# GFFE:低遅延リアルタイムレンダリングのためのGバッファフリーフレーム外挿

GFFE: G-buffer Free Frame Extrapolation for Low-latency Real-time Rendering ( http://arxiv.org/abs/2406.18551v1 )

ライセンス: Link先を確認
Songyin Wu, Deepak Vembar, Anton Sochenov, Selvakumar Panneer, Sungye Kim, Anton Kaplanyan, Ling-Qi Yan, (参考訳) リアルタイムレンダリングは、レイトレーシングなど、オンデマンドのエフェクトを受け入れている。 しかし、そのような効果を高解像度で高フレームレートでレンダリングすることは依然として困難である。 DLSS 3 や FSR 3 のようなフレーム補間法とは対照的に,フレーム外挿法では,フレームの将来のフレームを生成することでフレームレートを向上する。 しかし,非閉塞領域の情報不足や,Gバッファを入力として必要とするため,最近の手法ではエンジン統合コストも高くなっているため,より困難な作業である。 本稿では,新しいヒューリスティックなフレームワークと効率的なニューラルネットワークを備えたGFFEというフレーム外挿法を提案する。 動的フラグメントと異なる種類の非閉塞の運動を分析し、それらを扱うために外挿ブロックの対応するモジュールを設計する。 排他物を充填した後、遮蔽補正網を用いて遮蔽を補正し、全体的な品質を改善する。 GFFEは、従来の補間法やGバッファ依存の補間法と比較して、より効率的なパフォーマンスとより簡単なゲーム統合を実現している。

Real-time rendering has been embracing ever-demanding effects, such as ray tracing. However, rendering such effects in high resolution and high frame rate remains challenging. Frame extrapolation methods, which don't introduce additional latency as opposed to frame interpolation methods such as DLSS 3 and FSR 3, boost the frame rate by generating future frames based on previous frames. However, it is a more challenging task because of the lack of information in the disocclusion regions, and recent methods also have a high engine integration cost due to requiring G-buffers as input. We propose a \emph{G-buffer free} frame extrapolation, GFFE, with a novel heuristic framework and an efficient neural network, to plausibly generate new frames in real-time without introducing additional latency. We analyze the motion of dynamic fragments and different types of disocclusions, and design the corresponding modules of the extrapolation block to handle them. After filling disocclusions, a light-weight shading correction network is used to correct shading and improve overall quality. GFFE achieves comparable or better results compared to previous interpolation as well as G-buffer-dependent extrapolation methods, with more efficient performance and easier game integration.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-23
# Decoding Decision Reasoning: 知識発見のための対実駆動モデル

Decoding Decision Reasoning: A Counterfactual-Powered Model for Knowledge Discovery ( http://arxiv.org/abs/2406.18552v1 )

ライセンス: Link先を確認
Yingying Fang, Zihao Jin, Xiaodan Xing, Simon Walsh, Guang Yang, (参考訳) 医学画像、特に早期疾患の検出と予後タスクにおいて、AIモデルの予測の背後にある根拠を明らかにすることは、その決定の信頼性を評価するために重要である。 従来の説明法は、識別的特徴が微妙であるか、すぐには明らかでない、医学的画像分類における識別可能な決定的特徴を識別する上で、課題に直面している。 このギャップを埋めるために,決定推論と特徴識別機能を備えた説明可能なモデルを提案する。 我々のアプローチは、影響のある画像パターンを検出するだけでなく、モデルの最終的な予測を駆動する決定的な特徴を明らかにする。 提案手法により,データ駆動モデルにより活用されるクラス固有の特徴を効果的に識別・可視化し,ディープラーニングモデルの意思決定プロセスに関する洞察を提供する。 我々は、医療予後タスクの要求領域における我々のモデルを検証し、医療におけるAIの信頼性を高め、予後の理解が限られている疾患における新たな知識の発見において、その効果と可能性を実証した。

In medical imaging, particularly in early disease detection and prognosis tasks, discerning the rationale behind an AI model's predictions is crucial for evaluating the reliability of its decisions. Conventional explanation methods face challenges in identifying discernible decisive features in medical image classifications, where discriminative features are subtle or not immediately apparent. To bridge this gap, we propose an explainable model that is equipped with both decision reasoning and feature identification capabilities. Our approach not only detects influential image patterns but also uncovers the decisive features that drive the model's final predictions. By implementing our method, we can efficiently identify and visualise class-specific features leveraged by the data-driven model, providing insights into the decision-making processes of deep learning models. We validated our model in the demanding realm of medical prognosis task, demonstrating its efficacy and potential in enhancing the reliability of AI in healthcare and in discovering new knowledge in diseases where prognostic understanding is limited.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-23
# アプリケーションインタラクションのための小さな言語モデル:ケーススタディ

Small Language Models for Application Interactions: A Case Study ( http://arxiv.org/abs/2405.20347v1 )

ライセンス: Link先を確認
Beibin Li, Yi Zhang, Sébastien Bubeck, Jeevan Pathuri, Ishai Menache, (参考訳) 本研究では,Small Language Models (SLM) の有効性について検討した。 ここでは、クラウドサプライチェーンのフルフィルメントにMicrosoftで使用される特定の内部アプリケーションに焦点を当てています。 我々の実験では、小さなデータセットを微調整しても、精度と実行時間の両方において、小さなモデルの方がはるかに大きなモデルより優れていることが示された。 これらの結果とともに,SLMに基づくシステム設計の考察も強調する。

We study the efficacy of Small Language Models (SLMs) in facilitating application usage through natural language interactions. Our focus here is on a particular internal application used in Microsoft for cloud supply chain fulfilment. Our experiments show that small models can outperform much larger ones in terms of both accuracy and running time, even when fine-tuned on small datasets. Alongside these results, we also highlight SLM-based system design considerations.
翻訳日:2024-06-09 16:28:54 公開日:2024-05-23
# 医用テキストデータのマイニングにおける注意機構強化深層学習モデルの探索

Exploration of Attention Mechanism-Enhanced Deep Learning Models in the Mining of Medical Textual Data ( http://arxiv.org/abs/2406.00016v1 )

ライセンス: Link先を確認
Lingxi Xiao, Muqing Li, Yinqiu Feng, Meiqi Wang, Ziyi Zhu, Zexi Chen, (参考訳) 本研究では,医療用テキストマイニングにおける注意機構を利用した深層学習モデルの利用について検討した。 これは、医療データ内の非構造化テキスト情報を分析するという課題をターゲットにしている。 本研究は,深層学習と注意機構を取り入れて,本質的な医療情報の同定能力を高めることを目的とする。 本稿では、注意機構の基本原理と典型的なモデルアーキテクチャを概説し、疾患予測、薬物副作用モニタリング、実体関係抽出のタスクにおけるそれらの応用の有効性について述べる。 医学テキストの特殊性に着目し,ドメイン知識を統合する適応的注意モデルを提案し,医療用語の理解と複雑なコンテキストの処理を最適化した。 この実験は、特に長いテキストを扱う場合のタスク精度と堅牢性を改善するためのモデルの有効性を検証する。 モデル解釈の強化、ドメイン間知識伝達の実現、低リソースシナリオへの適応といった今後の研究の道程を,研究の展望として論じるとともに,インテリジェントな医療情報処理と臨床意思決定支援のための新たな視点と方法支援を提供する。 最後に、低リソースシナリオにおけるクロスドメイン知識伝達と適応戦略について、インテリジェントな医療情報処理と臨床意思決定支援システムの開発を促進するための理論的基礎と技術的基準を提供する。

The research explores the utilization of a deep learning model employing an attention mechanism in medical text mining. It targets the challenge of analyzing unstructured text information within medical data. This research seeks to enhance the model's capability to identify essential medical information by incorporating deep learning and attention mechanisms. This paper reviews the basic principles and typical model architecture of attention mechanisms and shows the effectiveness of their application in the tasks of disease prediction, drug side effect monitoring, and entity relationship extraction. Aiming at the particularity of medical texts, an adaptive attention model integrating domain knowledge is proposed, and its ability to understand medical terms and process complex contexts is optimized. The experiment verifies the model's effectiveness in improving task accuracy and robustness, especially when dealing with long text. The future research path of enhancing model interpretation, realizing cross-domain knowledge transfer, and adapting to low-resource scenarios is discussed in the research outlook, which provides a new perspective and method support for intelligent medical information processing and clinical decision assistance. Finally, cross-domain knowledge transfer and adaptation strategies for low-resource scenarios, providing theoretical basis and technical reference for promoting the development of intelligent medical information processing and clinical decision support systems.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# PTA:パイプライン予測と翻訳に基づくアライメントによるマルチモーダル感性分析の強化

PTA: Enhancing Multimodal Sentiment Analysis through Pipelined Prediction and Translation-based Alignment ( http://arxiv.org/abs/2406.00017v1 )

ライセンス: Link先を確認
Shezheng Song, Shasha Li, Shan Zhao, Chengyu Wang, Xiaopeng Li, Jie Yu, Qian Wan, Jun Ma, Tianwei Yan, Wentao Ma, Xiaoguang Mao, (参考訳) マルチモーダル・アスペクトベース感情分析(MABSA)は,人間とコンピュータの相互作用や他の分野の理解を促進することを目的としている。 伝統的に、MABSA法は側面と感情を同時に識別するために共同予測手法を用いている。 しかし、関節モデルは必ずしも優れているとは限らない。 分析の結果,結合モデルは関連テキストトークンと画像パッチの整合に苦慮し,不整合や画像利用の非効率化につながることがわかった。 対照的に、パイプラインフレームワークはまずMATE(Multimodal Aspect Term extract)を通してアスペクトを特定し、そのアスペクトを感情分類のためのイメージパッチ(MASC: Multimodal Aspect-Oriented Sentiment Classification)と整合させる。 この方法は、効果的な画像利用が不可欠であるマルチモーダルシナリオに適している。 3つの重要な観察結果が提示される。 (a)MATEとMASCは異なる機能要件を持ち、MATEはトークンレベルの機能にフォーカスし、MASCはシーケンスレベルの機能にフォーカスする。 b)MATEで識別される側面は、画像の有効利用に不可欠である。 (c) 画像は, 従来のMABSA法ではノイズが大きいため, 簡単な役割を担っている。 これらの観測に基づいて、まずその側面を予測し、次に翻訳に基づくアライメント(TBA)を用いて、画像利用を改善するためのマルチモーダルなセマンティック一貫性を向上させるパイプラインフレームワークを提案する。 提案手法は,広く使用されているTwitter-15とTwitter-17のMABSAデータセット上でのSOTA(State-of-the-art)性能を実現する。 これはパイプラインアプローチの有効性と、将来のMABSA研究に価値ある洞察を提供する可能性を示している。 再現性のために、コードとチェックポイントがリリースされる。

Multimodal aspect-based sentiment analysis (MABSA) aims to understand opinions in a granular manner, advancing human-computer interaction and other fields. Traditionally, MABSA methods use a joint prediction approach to identify aspects and sentiments simultaneously. However, we argue that joint models are not always superior. Our analysis shows that joint models struggle to align relevant text tokens with image patches, leading to misalignment and ineffective image utilization. In contrast, a pipeline framework first identifies aspects through MATE (Multimodal Aspect Term Extraction) and then aligns these aspects with image patches for sentiment classification (MASC: Multimodal Aspect-Oriented Sentiment Classification). This method is better suited for multimodal scenarios where effective image use is crucial. We present three key observations: (a) MATE and MASC have different feature requirements, with MATE focusing on token-level features and MASC on sequence-level features; (b) the aspect identified by MATE is crucial for effective image utilization; and (c) images play a trivial role in previous MABSA methods due to high noise. Based on these observations, we propose a pipeline framework that first predicts the aspect and then uses translation-based alignment (TBA) to enhance multimodal semantic consistency for better image utilization. Our method achieves state-of-the-art (SOTA) performance on widely used MABSA datasets Twitter-15 and Twitter-17. This demonstrates the effectiveness of the pipeline approach and its potential to provide valuable insights for future MABSA research. For reproducibility, the code and checkpoint will be released.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# 新聞における大規模言語モデルによる政治的指向の検出

Large Language Models' Detection of Political Orientation in Newspapers ( http://arxiv.org/abs/2406.00018v1 )

ライセンス: Link先を確認
Alessio Buscemi, Daniele Proverbio, (参考訳) 民主党の世論形成は、新聞が政治的、経済的指向に整合していることが曖昧である場合、操作される可能性がある。 新聞の立場をよりよく理解するための様々な方法が開発されている。 近年、Large Language Models(LLM)の出現、特にChatGPTやGeminiのような事前訓練済みのLLMチャットボットは、研究者や市民を支援する破壊的な可能性を秘めている。 しかし、LSMの評価が信頼できるかどうかはほとんど分かっていない。単一のLSMは専門家の評価に同意し、異なるLSMは互いに一貫して回答するのか? 本稿では,特に第2の課題について論じる。 我々は,広く採用されている4つのLCMが新聞の位置づけを評価する方法を比較し,その回答が相互に一致しているかどうかを比較する。 私たちはそうではないことを観察する。 膨大なデータセットを通じて、新聞の記事は単一のLCMによって著しく異なる位置に配置され、アルゴリズムの一貫性のないトレーニングや過度なランダム性を示唆している。 そこで我々は、どのツールを使うかを決める際に警告を発し、より優れたトレーニングとアルゴリズム開発を求め、世界中の民主主義や社会にとって非常に敏感な問題において、このような大きなギャップをカバーできるようにします。 また、オープンイニシアティブであるnavai.proを通じて、ベンチマーク評価におけるコミュニティの関与も求めています。

Democratic opinion-forming may be manipulated if newspapers' alignment to political or economical orientation is ambiguous. Various methods have been developed to better understand newspapers' positioning. Recently, the advent of Large Language Models (LLM), and particularly the pre-trained LLM chatbots like ChatGPT or Gemini, hold disruptive potential to assist researchers and citizens alike. However, little is know on whether LLM assessment is trustworthy: do single LLM agrees with experts' assessment, and do different LLMs answer consistently with one another? In this paper, we address specifically the second challenge. We compare how four widely employed LLMs rate the positioning of newspapers, and compare if their answers align with one another. We observe that this is not the case. Over a woldwide dataset, articles in newspapers are positioned strikingly differently by single LLMs, hinting to inconsistent training or excessive randomness in the algorithms. We thus raise a warning when deciding which tools to use, and we call for better training and algorithm development, to cover such significant gap in a highly sensitive matter for democracy and societies worldwide. We also call for community engagement in benchmark evaluation, through our open initiative navai.pro.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# EHR-SeqSQL : 電子健康記録を相互に探索するシークエンシャルテキスト-SQLデータセット

EHR-SeqSQL : A Sequential Text-to-SQL Dataset For Interactively Exploring Electronic Health Records ( http://arxiv.org/abs/2406.00019v1 )

ライセンス: Link先を確認
Jaehee Ryu, Seonhee Cho, Gyubok Lee, Edward Choi, (参考訳) 本稿ではEHR(Electronic Health Record)データベースのための新しいシーケンシャルテキスト-SQLデータセットであるEHR-SeqSQLを紹介する。 EHR-SeqSQLは、対話性、構成性、効率性といった、テキストからSQLへのパースにおいて重要で未探索の側面に対処するように設計されている。 私たちの知る限りでは、EHR-SeqSQLは最大のだけでなく、シーケンシャルな質問や文脈的な質問を含む最初の医療用テキスト-SQLデータセットベンチマークです。 我々は、合成一般化能力を評価するために、データ分割と新しいテストセットを提供する。 本実験は,学習構成性において,単ターンアプローチよりも多ターンアプローチの方が優れていることを示す。 さらに、我々のデータセットは特別に作られたトークンをSQLクエリに統合し、実行効率を向上させる。 EHR-SeqSQLでは,テキストからSQLへの領域における実践的ニーズと学術研究のギャップを埋めることを目指しています。

In this paper, we introduce EHR-SeqSQL, a novel sequential text-to-SQL dataset for Electronic Health Record (EHR) databases. EHR-SeqSQL is designed to address critical yet underexplored aspects in text-to-SQL parsing: interactivity, compositionality, and efficiency. To the best of our knowledge, EHR-SeqSQL is not only the largest but also the first medical text-to-SQL dataset benchmark to include sequential and contextual questions. We provide a data split and the new test set designed to assess compositional generalization ability. Our experiments demonstrate the superiority of a multi-turn approach over a single-turn approach in learning compositionality. Additionally, our dataset integrates specially crafted tokens into SQL queries to improve execution efficiency. With EHR-SeqSQL, we aim to bridge the gap between practical needs and academic research in the text-to-SQL domain.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# 言語モデルによるジェンダー・クェア方言バイアスのハーモフ音声検出

Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias ( http://arxiv.org/abs/2406.00020v1 )

ライセンス: Link先を確認
Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman, (参考訳) ソーシャルメディアプラットフォーム上でのコンテンツモデレーションは、音声が増幅され、抑圧されるものに影響を与えるオンライン談話のダイナミクスを形成する。 近年の研究では、コンテンツモデレーションの実践の公正性、特にトランスジェンダーや非バイナリーの投稿を有害と積極的にフラグ付けすることへの懸念が高まっている。 本研究では,オンラインでのジェンダークェア方言の有害な音声分類におけるバイアスの存在について検討し,特に再生スラリーの治療に焦点をあてた。 LGBTQ+スラーの非退行的使用を実証する109のテンプレートに基づいて,新しいデータセットであるQueerReclaimLexを導入する。 データセットのインスタンスは、話者のアイデンティティに関する追加のコンテキストに応じて、性的なアノテータによって潜在的な害についてスコアされる。 筆者らは,これらのテキストの害評価において,5つの既成言語モデルの性能を体系的に評価し,著者のアイデンティティ・コンテキストを活用するために,大規模言語モデル(LLM)の学習を促すチェーン・オブ・思想の有効性について検討した。 ジェンダークェアの個人によって書かれたテキストを有害として不正確なフラグを立てる傾向を明らかにした。 興味深いことに、全てのLLMにおいて、特徴のあるスラー(F1 <= 0.24)をターゲットとした個人によって書かれたことの兆候を示すテキストにとって、パフォーマンスは最も貧弱である。 コンテンツモデレーションシステムにおいて、公正性とインクリシティの緊急ニーズを強調します。 これらのバイアスを明らかにすることで、より公平なコンテンツモデレーションの実践の進展を知らせ、すべてのユーザに対する包括的オンラインスペースの作成に寄与することを目的としている。

Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1 <= 0.24). We highlight an urgent need for fairness and inclusivity in content moderation systems. By uncovering these biases, this work aims to inform the development of more equitable content moderation practices and contribute to the creation of inclusive online spaces for all users.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# CrossVoice:Transfer Learningを用いたCasscade-S2STの言語間韻律保存

CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning ( http://arxiv.org/abs/2406.00021v1 )

ライセンス: Link先を確認
Medha Hira, Arnav Goel, Anubha Gupta, (参考訳) ASR,MT,TS技術を用いた新しい音声合成システムであるCrossVoiceについて述べる。 我々は,CrossVoiceと直接S2STシステムを比較した総合的な実験を行い,Fisher Es-En,VoxPopuli Fr-EnなどのタスクにおけるBLEUスコアの改善と,ベンチマークデータセットCVSS-T,IndicTTSの韻律保存について検討した。 平均意見スコアは4点中3.75点で、CrossVoiceによって合成された音声は、そのベンチマークにおいて人間の音声と密接に競合し、カスケードベースのシステムの有効性と、韻律変換を伴う多言語S2STにおける伝達学習を強調している。

This paper presents CrossVoice, a novel cascade-based Speech-to-Speech Translation (S2ST) system employing advanced ASR, MT, and TTS technologies with cross-lingual prosody preservation through transfer learning. We conducted comprehensive experiments comparing CrossVoice with direct-S2ST systems, showing improved BLEU scores on tasks such as Fisher Es-En, VoxPopuli Fr-En and prosody preservation on benchmark datasets CVSS-T and IndicTTS. With an average mean opinion score of 3.75 out of 4, speech synthesized by CrossVoice closely rivals human speech on the benchmark, highlighting the efficacy of cascade-based systems and transfer learning in multilingual S2ST with prosody transfer.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-23
# 多言語韻律変換:教師付き・伝達学習の比較

Multilingual Prosody Transfer: Comparing Supervised & Transfer Learning ( http://arxiv.org/abs/2406.00022v1 )

ライセンス: Link先を確認
Arnav Goel, Medha Hira, Anubha Gupta, (参考訳) 音声合成システムにおける韻律伝達の分野は急速に進歩している。 本研究は,事前学習したモノリンガルテキスト音声(TTS)モデルを多言語条件,すなわちスーパービジョンファインチューニング(SFT)とトランスファーラーニング(TL)に適応させる学習手法の評価に焦点をあてる。 この比較では、平均オピニオンスコア(MOS)、認識精度(RA)、Mel Cepstral Distortion(MCD)の3つの異なる指標を利用する。 SFTと比較して、TLは性能が大幅に向上し、平均MOSは1.53ポイント、RAは37.5%、MCDは約7.8ポイント向上した。 これらの発見は、低リソース言語のためのTSモデルの構築を支援するのに役立ちます。

The field of prosody transfer in speech synthesis systems is rapidly advancing. This research is focused on evaluating learning methods for adapting pre-trained monolingual text-to-speech (TTS) models to multilingual conditions, i.e., Supervised Fine-Tuning (SFT) and Transfer Learning (TL). This comparison utilizes three distinct metrics: Mean Opinion Score (MOS), Recognition Accuracy (RA), and Mel Cepstral Distortion (MCD). Results demonstrate that, in comparison to SFT, TL leads to significantly enhanced performance, with an average MOS higher by 1.53 points, a 37.5% increase in RA, and approximately a 7.8-point improvement in MCD. These findings are instrumental in helping build TTS models for low-resource languages.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-23
# モーダル作用素をもつゲーデル代数の回転

Rotations of Gödel algebras with modal operators ( http://arxiv.org/abs/2405.19354v1 )

ライセンス: Link先を確認
Tommaso Flaminio, Lluis Godo, Paula Menchón, Ricardo O. Rodriguez, (参考訳) 本稿では,直微分可能構造に基づく作用素によるG\"odel環の連結かつ非連結な回転の効果について検討する。 この構成から得られる構造は、(回転が連結であるか切断されているかによっては、否定的不動点がなければ)零極小であり、直接分解不能代数上で定義される特別なモジュラー作用素を持つ。 本稿では、後者の構造の(準)等式的定義を示す。 主な結果は、モーダル作用素と直接分解不能な零極小代数(否定的不動点の有無にかかわらず)は、モーダル作用素で与えられる直接分解不能な G\"odel 代数の連結かつ非連結な回転として完全に特徴づけられることを示している。

The present paper is devoted to study the effect of connected and disconnected rotations of G\"odel algebras with operators grounded on directly indecomposable structures. The structures resulting from this construction we will present are nilpotent minimum (with or without negation fixpoint, depending on whether the rotation is connected or disconnected) with special modal operators defined on a directly indecomposable algebra. In this paper we will present a (quasi-)equational definition of these latter structures. Our main results show that directly indecomposable nilpotent minimum algebras (with or without negation fixpoint) with modal operators are fully characterized as connected and disconnected rotations of directly indecomposable G\"odel algebras endowed with modal operators.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-23
# 船体メタバースにおける信頼とセキュリティの強化--モラルハザードの参加者に対する評価に基づくメカニズム

Enhancing Trust and Security in the Vehicular Metaverse: A Reputation-Based Mechanism for Participants with Moral Hazard ( http://arxiv.org/abs/2405.19355v1 )

ライセンス: Link先を確認
Ismail Lotfi, Marwa Qaraqe, Ali Ghrayeb, Niyato Dusit, (参考訳) 本稿では,車体メタバースの領域におけるモラルハザードの問題に取り組む。 車両用メタバースの重要なファシリテータは、主にモノのインターネット(SIoT)デバイスを感知する市場要素の効果的なオーケストレーションである。 これらのSIoTデバイスは、仮想サービスプロバイダ(VSP)にリアルタイムセンシングデータを提供することで、仮想領域内の物理環境の忠実な複製を可能にする。 しかし、意図的な振る舞いを持つSIoTデバイスは、支払い後のシステムの抜け穴を特定し、偽装されたコンテンツを配信し、車体全体のMetaverseが崩壊する原因となる。 この重要な問題に対処するために、評価に基づく戦略を中心としたインセンティブメカニズムを提案する。 具体的には、VSPとの相互作用に基づいて参加者の評判スコアを維持する。 これらのスコアは、VSPが配信したコンテンツに関するMetaverseユーザからのフィードバックから得られ、主観論理モデルを用いて管理される。 それでも,“‘よい’SIoTデバイスがMetaverse市場を離れるのを防ぐために,VSPが最新かつ正確なデータに基づいて決定を下すことができるように,過去のレーティングの消滅のようなシステムを構築している。 最後に,提案手法を広範囲なシミュレーションにより検証する。 本研究の第一報は, 有害デバイスによる攻撃を効果的に防ぐことができることを示すものである。 同時に、過去のミス分類を持つ信頼できるSIoTデバイスは、市場から禁止されない。

In this paper, we tackle the issue of moral hazard within the realm of the vehicular Metaverse. A pivotal facilitator of the vehicular Metaverse is the effective orchestration of its market elements, primarily comprised of sensing internet of things (SIoT) devices. These SIoT devices play a critical role by furnishing the virtual service provider (VSP) with real-time sensing data, allowing for the faithful replication of the physical environment within the virtual realm. However, SIoT devices with intentional misbehavior can identify a loophole in the system post-payment and proceeds to deliver falsified content, which cause the whole vehicular Metaverse to collapse. To combat this significant problem, we propose an incentive mechanism centered around a reputation-based strategy. Specifically, the concept involves maintaining reputation scores for participants based on their interactions with the VSP. These scores are derived from feedback received by the VSP from Metaverse users regarding the content delivered by the VSP and are managed using a subjective logic model. Nevertheless, to prevent ``good" SIoT devices with false positive ratings to leave the Metaverse market, we build a vanishing-like system of previous ratings so that the VSP can make informed decisions based on the most recent and accurate data available. Finally, we validate our proposed model through extensive simulations. Our primary results show that our mechanism can efficiently prevent malicious devices from starting their poisoning attacks. At the same time, trustworthy SIoT devices that had a previous miss-classification are not banned from the market.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-23
# sEMG信号からの手の動き認識のためのLSTM特徴模擬ネットワーク

An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals ( http://arxiv.org/abs/2405.19356v1 )

ライセンス: Link先を確認
Chuheng Wu, S. Farokh Atashzar, Mohammad M. Ghassemi, Tuka Alhanai, (参考訳) 表面筋電図(SEMG)は、手の動きパターンの認識、疾患の診断、補綴物の堅牢な制御に使用される非侵襲的な信号である。 最近のエンドツーエンドのDeep Learningアプローチの顕著な成功にもかかわらず、大量のラベル付きデータを必要とするため、それらは依然として制限されている。 ビッグデータの要件を軽減するために、研究者は、sEMG信号を複数の空間的、時間的、周波数的特徴に分解する機能エンジニアリングを利用している。 本稿では,Ninapro DB2上の300ms信号ウィンドウ上でのクローズドフォーム時間特徴学習にFIN(Feature-imitating Network)を適用し,それを17手動認識のタスクに適用する。 我々は,4つの標準的な時間的特徴(エントロピー,ルート平均二乗,分散,単純二乗積分)を模倣する軽量LSTM-FINネットワークを実装した。 次に、下流手の動き認識タスクに事前学習したLSTM-FINを適用して、転送学習機能について検討する。 LSTM ネットワークは特徴再構成において最大 99 % R2 の精度、手の動き認識では 80 % の精度を達成できる。 また,本モデルが低遅延環境だけでなく,物体内および物体間移動認識にも頑健に適用可能であることを示した。 本研究は、SEMG信号処理のためのデータスカースシナリオにおけるFINモデリングパラダイムの可能性を示す。

Surface Electromyography (sEMG) is a non-invasive signal that is used in the recognition of hand movement patterns, the diagnosis of diseases, and the robust control of prostheses. Despite the remarkable success of recent end-to-end Deep Learning approaches, they are still limited by the need for large amounts of labeled data. To alleviate the requirement for big data, researchers utilize Feature Engineering, which involves decomposing the sEMG signal into several spatial, temporal, and frequency features. In this paper, we propose utilizing a feature-imitating network (FIN) for closed-form temporal feature learning over a 300ms signal window on Ninapro DB2, and applying it to the task of 17 hand movement recognition. We implement a lightweight LSTM-FIN network to imitate four standard temporal features (entropy, root mean square, variance, simple square integral). We then explore transfer learning capabilities by applying the pre-trained LSTM-FIN for tuning to a downstream hand movement recognition task. We observed that the LSTM network can achieve up to 99\% R2 accuracy in feature reconstruction and 80\% accuracy in hand movement recognition. Our results also showed that the model can be robustly applied for both within- and cross-subject movement recognition, as well as simulated low-latency environments. Overall, our work demonstrates the potential of the FIN modeling paradigm in data-scarce scenarios for sEMG signal processing.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-23
# 分類改善のための特徴融合:Dmpster-Shafer理論と複数CNNアーキテクチャの組み合わせ

Feature Fusion for Improved Classification: Combining Dempster-Shafer Theory and Multiple CNN Architectures ( http://arxiv.org/abs/2405.20230v1 )

ライセンス: Link先を確認
Ayyub Alzahem, Wadii Boulila, Maha Driss, Anis Koubaa, (参考訳) 深層学習(DL)における不確実性に対処することは、データが不完全あるいは曖昧であるような複雑な現実世界環境において、信頼性の高い予測と情報決定が可能なモデルの開発を可能にするため、不可欠である。 本稿では、DST(Dempster-Shafer Theory)を利用して、複数の事前学習モデルを統合し、より信頼性が高く拡張された分類を提供するアンサンブルを形成する新しいアルゴリズムを提案する。 提案手法の主なステップは,特徴抽出,質量関数計算,融合,実用性計算である。 CIFAR-10とCIFAR-100データセットでいくつかの実験が行われ、提案したDST手法の分類精度が向上し、それぞれ5.4%と8.4%の改善が達成された。 実際のシナリオでDLを適用する際に、データに関連する不確実性を管理するための堅牢なフレームワークとしてのDSTの可能性を強調した。

Addressing uncertainty in Deep Learning (DL) is essential, as it enables the development of models that can make reliable predictions and informed decisions in complex, real-world environments where data may be incomplete or ambiguous. This paper introduces a novel algorithm leveraging Dempster-Shafer Theory (DST) to integrate multiple pre-trained models to form an ensemble capable of providing more reliable and enhanced classifications. The main steps of the proposed method include feature extraction, mass function calculation, fusion, and expected utility calculation. Several experiments have been conducted on CIFAR-10 and CIFAR-100 datasets, demonstrating superior classification accuracy of the proposed DST-based method, achieving improvements of 5.4% and 8.4%, respectively, compared to the best individual pre-trained models. Results highlight the potential of DST as a robust framework for managing uncertainties related to data when applying DL in real-world scenarios.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-23
# 予め訓練した非現実的非現実的ニューラルネットワークによる血糖コントロール

Blood Glucose Control Via Pre-trained Counterfactual Invertible Neural Networks ( http://arxiv.org/abs/2405.17458v1 )

ライセンス: Link先を確認
Jingchi Jiang, Rujia Shen, Boran Wang, Yi Guan, (参考訳) 1型糖尿病(T1D)はインスリン欠乏症とBGコントロールの問題が特徴である。 連続BG制御のための最先端のソリューションは強化学習(RL)であり、エージェントはターゲット範囲内のBGレベルを維持するために、時間内に外因性インスリン投与量を動的に調整することができる。 しかしながら、アクションガイダンスが欠如しているため、エージェントは、外因性インスリン投与量とBGレベルの誤解を招く相関を理解するために、ランダム化試験から学ぶ必要があることが多い。 これらの課題に対処するために, 対実的可逆ニューラルネットワーク(CINN)に基づくイントロスペクティブRLを提案する。 事前学習したCINNをRLエージェントのフリーズイントロスペクティブブロックとして使用し、前方予測と逆ファクト推論を統合してポリシー更新をガイドし、より安定で安全なBG制御を促進する。 解釈可能な因果順序に基づいて構築されたCINNは、直交量正規化を用いて、アフィン結合層を持つ双方向エンコーダを用いて、トレーニング可能性を高め、ネットワークパラメータの双方向微分性を確保する。 本稿では,BG予測における事前学習CINNの精度と一般化能力を実験的に検証した。 さらに,より正確かつ安全なBG制御のためのRLポリシー更新の指導において,事前学習型CINNの有効性を強調した。

Type 1 diabetes mellitus (T1D) is characterized by insulin deficiency and blood glucose (BG) control issues. The state-of-the-art solution for continuous BG control is reinforcement learning (RL), where an agent can dynamically adjust exogenous insulin doses in time to maintain BG levels within the target range. However, due to the lack of action guidance, the agent often needs to learn from randomized trials to understand misleading correlations between exogenous insulin doses and BG levels, which can lead to instability and unsafety. To address these challenges, we propose an introspective RL based on Counterfactual Invertible Neural Networks (CINN). We use the pre-trained CINN as a frozen introspective block of the RL agent, which integrates forward prediction and counterfactual inference to guide the policy updates, promoting more stable and safer BG control. Constructed based on interpretable causal order, CINN employs bidirectional encoders with affine coupling layers to ensure invertibility while using orthogonal weight normalization to enhance the trainability, thereby ensuring the bidirectional differentiability of network parameters. We experimentally validate the accuracy and generalization ability of the pre-trained CINN in BG prediction and counterfactual inference for action. Furthermore, our experimental results highlight the effectiveness of pre-trained CINN in guiding RL policy updates for more accurate and safer BG control.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# マルチモーダルディープラーニングによる医用画像の統合と臨床報告

Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis ( http://arxiv.org/abs/2405.17459v1 )

ライセンス: Link先を確認
Ziyan Yao, Fei Lin, Sheng Chai, Weijie He, Lu Dai, Xinghui Fei, (参考訳) 本稿では,医用画像と臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。 まず、医用画像において、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、焦点情報、テクスチャ、空間分布などの重要な視覚情報をキャプチャした。 第2に、臨床報告テキストにおいて、注意機構と組み合わされた双方向長短期記憶ネットワークを用いて深い意味理解を行い、当該疾患に関する重要な声明を正確に取得する。 この2つの特徴は、画像とテキストの合同表現学習を実現するために、設計したマルチモーダル融合層を介して効果的に相互作用し、統合する。 本研究は, 各種疾患をカバーする大規模医用画像データベースと, モデルトレーニングと妥当性検証のための臨床報告を併用して選択した。 提案した多モード深層学習モデルは, 疾患分類, 病変局所化, 臨床記述生成の領域において, 有意な優位性を示した。

In this paper, an innovative multi-modal deep learning model is proposed to deeply integrate heterogeneous information from medical images and clinical reports. First, for medical images, convolutional neural networks were used to extract high-dimensional features and capture key visual information such as focal details, texture and spatial distribution. Secondly, for clinical report text, a two-way long and short-term memory network combined with an attention mechanism is used for deep semantic understanding, and key statements related to the disease are accurately captured. The two features interact and integrate effectively through the designed multi-modal fusion layer to realize the joint representation learning of image and text. In the empirical study, we selected a large medical image database covering a variety of diseases, combined with corresponding clinical reports for model training and validation. The proposed multimodal deep learning model demonstrated substantial superiority in the realms of disease classification, lesion localization, and clinical description generation, as evidenced by the experimental results.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# グラフニューラルネットワークを用いたカスタマイズ医療意思決定アルゴリズムの検討

Investigation of Customized Medical Decision Algorithms Utilizing Graph Neural Networks ( http://arxiv.org/abs/2405.17460v1 )

ライセンス: Link先を確認
Yafeng Yan, Shuyao He, Zhou Yu, Jiajie Yuan, Ziang Liu, Yan Chen, (参考訳) 大規模不均一な医療データを処理し、高度にパーソナライズされたレコメンデーションを実現するために、グラフニューラルネットワーク(GNN)を用いたパーソナライズされた医療決定アルゴリズムを提案する。 本研究は, 患者の臨床特性, 遺伝情報, 生活習慣の複雑な関係をマイニングすることにより, 患者の健康状態の高精度表現モデルを構築することを目的として, グラフニューラルネットワーク技術を医療・健康分野に革新的に組み入れている。 本研究では、医療データを前処理してグラフ構造に変換し、ノードが異なるデータエンティティ(患者、疾患、遺伝子など)を表現し、エッジが相互作用やエンティティ間の関係を表現する。 本アルゴリズムの核となるのは, 歴史的医療記録, 生理指標, および患者の遺伝的特徴を組み合わせた, 新規なマルチスケール融合機構を設計し, グラフニューラルネットワークの注意配分戦略を動的に調整し, 個々の症例の高度にカスタマイズされた分析を実現することである。 その結果, 従来の機械学習手法と単一グラフニューラルネットワークモデルと比較すると, 病状予測精度, 治療効果評価, 患者リスク階層化の点で, 個人化された医療決定アルゴリズムの方が有意に優れた性能を示した。

Aiming at the limitations of traditional medical decision system in processing large-scale heterogeneous medical data and realizing highly personalized recommendation, this paper introduces a personalized medical decision algorithm utilizing graph neural network (GNN). This research innovatively integrates graph neural network technology into the medical and health field, aiming to build a high-precision representation model of patient health status by mining the complex association between patients' clinical characteristics, genetic information, living habits. In this study, medical data is preprocessed to transform it into a graph structure, where nodes represent different data entities (such as patients, diseases, genes, etc.) and edges represent interactions or relationships between entities. The core of the algorithm is to design a novel multi-scale fusion mechanism, combining the historical medical records, physiological indicators and genetic characteristics of patients, to dynamically adjust the attention allocation strategy of the graph neural network, so as to achieve highly customized analysis of individual cases. In the experimental part, this study selected several publicly available medical data sets for validation, and the results showed that compared with traditional machine learning methods and a single graph neural network model, the proposed personalized medical decision algorithm showed significantly superior performance in terms of disease prediction accuracy, treatment effect evaluation and patient risk stratification.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# EMRマージング:チューニング不要な高性能モデルマージング

EMR-Merging: Tuning-Free High-Performance Model Merging ( http://arxiv.org/abs/2405.17461v1 )

ライセンス: Link先を確認
Chenyu Huang, Peng Ye, Tao Chen, Tong He, Xiangyu Yue, Wanli Ouyang, (参考訳) プレトレイン-ファインチューンパラダイムの成功は、多くのモデルウェイトのリリースをもたらす。 この場合、マルチタスク機能を持つ単一モデルを実現するために、異なるタスクで微調整されたモデルをマージすることは、その実行可能性に注目が集まっている。 既存のモデルマージ手法は通常、(1)重要なパフォーマンス劣化または(2)追加のデータやトレーニングによるチューニングを必要とする。 本稿では,既存のモデル統合パラダイムを再考し,分析する。 一つのモデルの重みを使用すれば、すべてのモデルの性能をシミュレートすることはほとんどできない。 この問題に対処するため、Elect, Mask & Rescale-Merging (EMR-Merging)を提案する。 はじめに (a)全てのモデル重みから統一モデルを選択し、 b) マスクとリスケーラを含む極めて軽量なタスク固有変調器を生成し、それぞれが統一されたモデルと各特定のモデルとの方向と大きさを整列させる。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。 EMR-Merging は、異なる視覚モデル(最大30まで)、NLPモデル、PEFTモデル、マルチモーダルモデルなど、異なる古典的および新しく確立された設定下での既存のマージ手法と比較して優れた性能を示す。

The success of pretrain-finetune paradigm brings about the release of numerous model weights. In this case, merging models finetuned on different tasks to enable a single model with multi-task capabilities is gaining increasing attention for its practicability. Existing model merging methods usually suffer from (1) significant performance degradation or (2) requiring tuning by additional data or training. In this paper, we rethink and analyze the existing model merging paradigm. We discover that using a single model's weights can hardly simulate all the models' performance. To tackle this issue, we propose Elect, Mask & Rescale-Merging (EMR-Merging). We first (a) elect a unified model from all the model weights and then (b) generate extremely lightweight task-specific modulators, including masks and rescalers, to align the direction and magnitude between the unified model and each specific model, respectively. EMR-Merging is tuning-free, thus requiring no data availability or any additional training while showing impressive performance. We find that EMR-Merging shows outstanding performance compared to existing merging methods under different classical and newly-established settings, including merging different numbers of vision models (up to 30), NLP models, PEFT models, and multi-modal models.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# Ferrari: 機能感度の最適化によるフェデレーション機能非学習

Ferrari: Federated Feature Unlearning via Optimizing Feature Sensitivity ( http://arxiv.org/abs/2405.17462v1 )

ライセンス: Link先を確認
Hanlin Gu, WinKent Ong, Chee Seng Chan, Lixin Fan, (参考訳) FL(Federated Learning)の出現は、すべてのクライアントが“忘れられる権利(right to be forget)”という現実的な必要性を強調し、機械学習モデルのサービスプロバイダからデータ削除を要求することを可能にする。 この必要性は、フェデレート・アンラーニング(FU)の需要を増大させた。 未学習のセンシティブな機能、バックドア機能、バイアス機能などに応用されているため、フィーチャーアンラーニングは大きな注目を集めている。 既存の手法では、非学習プロセスにおいて他のクライアントの参加を必要とするため、FLでは現実的ではない機能非学習を実現するために影響関数を採用している。 さらに、現在の研究では、特徴学習の有効性の評価が欠如している。 これらの制約に対処するため,Lipschitz連続性に基づく特徴未学習の評価において,特徴感度を定義する。 この計量は、入力特徴における摂動に対するモデル出力の変化率または感度を特徴づける。 次に、フェラーリと呼ばれる機能非学習フレームワークを提案し、機能感度を最小化する。 大規模な実験結果と理論的分析は、センシティブ、バックドア、バイアスのある特徴を含む、さまざまな非学習シナリオにおけるフェラーリの有効性を示している。

The advent of Federated Learning (FL) highlights the practical necessity for the 'right to be forgotten' for all clients, allowing them to request data deletion from the machine learning model's service provider. This necessity has spurred a growing demand for Federated Unlearning (FU). Feature unlearning has gained considerable attention due to its applications in unlearning sensitive features, backdoor features, and bias features. Existing methods employ the influence function to achieve feature unlearning, which is impractical for FL as it necessitates the participation of other clients in the unlearning process. Furthermore, current research lacks an evaluation of the effectiveness of feature unlearning. To address these limitations, we define feature sensitivity in the evaluation of feature unlearning according to Lipschitz continuity. This metric characterizes the rate of change or sensitivity of the model output to perturbations in the input feature. We then propose an effective federated feature unlearning framework called Ferrari, which minimizes feature sensitivity. Extensive experimental results and theoretical analysis demonstrate the effectiveness of Ferrari across various feature unlearning scenarios, including sensitive, backdoor, and biased features.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# トンプソンサンプリングによるBlindfoldedゲームにおけるアルゴリズムの衝突

No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling ( http://arxiv.org/abs/2405.17463v1 )

ライセンス: Link先を確認
Ningyuan Chen, Xuefeng Gao, Yi Xiong, (参考訳) 2人のプレーヤーが未知のペイオフ行列を持つ繰り返しゲームに従事している場合、両者はお互いの存在を全く認識せず、マルチアームのバンディットアルゴリズムを用いてアクションを選択し、この論文では「ブロードフォールドゲーム」と呼ばれる。 プレイヤーがトンプソンサンプリングを使用すると、ゲームダイナミクスはペイオフ行列の軽度な仮定の下でナッシュ平衡に収束することを示す。 したがって、プレイヤーが意図的に競争戦略を展開していないにもかかわらず、この場合、アルゴリズムによる共謀は発生しない。 収束結果を証明するため、確率近似で発達したフレームワークは、劣悪な作用の散発的かつ頻繁な更新とリプシッツ連続性の欠如により適用されない。 我々は,この収束を示す新しいサンプルパスワイドアプローチを開発した。

When two players are engaged in a repeated game with unknown payoff matrices, they may be completely unaware of the existence of each other and use multi-armed bandit algorithms to choose the actions, which is referred to as the ``blindfolded game'' in this paper. We show that when the players use Thompson sampling, the game dynamics converges to the Nash equilibrium under a mild assumption on the payoff matrices. Therefore, algorithmic collusion doesn't arise in this case despite the fact that the players do not intentionally deploy competitive strategies. To prove the convergence result, we find that the framework developed in stochastic approximation doesn't apply, because of the sporadic and infrequent updates of the inferior actions and the lack of Lipschitz continuity. We develop a novel sample-path-wise approach to show the convergence.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-23
# グローバル・地域統計情報を活用したデータ評価

Data Valuation by Leveraging Global and Local Statistical Information ( http://arxiv.org/abs/2405.17464v1 )

ライセンス: Link先を確認
Xiaoling Zhou, Ou Wu, Michael K. Ng, Hao Jiang, (参考訳) さまざまなアプリケーション、特に機械学習タスクにおける高品質なデータの重要性を考えると、データバリュエーションは近年注目を集めている。 コーパス内のデータの価値を定量化するさまざまな技術的方法がある。 シェープリー値に基づく手法は、理論の基礎が固いため、文献の中で最も広く使われている手法であるが、シェープリー値の正確な計算はしばしば難解であり、多くの近似計算法が提案されている。 大幅な進歩にもかかわらず、既存の手法のほとんど全てが、データコーパス内の値の分布情報の利用を見落としている。 本稿では,大域的および局所的な分布統計情報の両方が,機械学習の文脈におけるデータ評価に有意な可能性を秘めていることを示す。 まず,シミュレーションおよび実データコーパスにおけるグローバル値分布と局所値分布の特性について検討する。 有用な観察と手がかりが得られます。 第2に,探索された分布特性を既存手法であるAMEに組み込むことで,シェープ値の推定を行う新しいデータ評価手法を提案する。 第3に,グローバルおよびローカルの両方の値分布の情報を統合する最適化問題を定式化することにより,動的データ評価問題に対処する新たな経路を提案する。 Shapley値の推定、値ベースのデータ削除/追加、ラベルミス検出、インクリメンタル/デクリメンタルデータバリュエーションに関する大規模な実験が実施されている。 その結果,提案手法の有効性と有効性を示し,データ評価におけるグローバルおよびローカルな価値分布の有意な可能性を確認した。

Data valuation has garnered increasing attention in recent years, given the critical role of high-quality data in various applications, particularly in machine learning tasks. There are diverse technical avenues to quantify the value of data within a corpus. While Shapley value-based methods are among the most widely used techniques in the literature due to their solid theoretical foundation, the accurate calculation of Shapley values is often intractable, leading to the proposal of numerous approximated calculation methods. Despite significant progress, nearly all existing methods overlook the utilization of distribution information of values within a data corpus. In this paper, we demonstrate that both global and local statistical information of value distributions hold significant potential for data valuation within the context of machine learning. Firstly, we explore the characteristics of both global and local value distributions across several simulated and real data corpora. Useful observations and clues are obtained. Secondly, we propose a new data valuation method that estimates Shapley values by incorporating the explored distribution characteristics into an existing method, AME. Thirdly, we present a new path to address the dynamic data valuation problem by formulating an optimization problem that integrates information of both global and local value distributions. Extensive experiments are conducted on Shapley value estimation, value-based data removal/adding, mislabeled data detection, and incremental/decremental data valuation. The results showcase the effectiveness and efficiency of our proposed methodologies, affirming the significant potential of global and local value distributions in data valuation.
翻訳日:2024-05-30 00:10:19 公開日:2024-05-23
# 農業における機械学習の応用:最近の動向と今後の研究動向

Application of Machine Learning in Agriculture: Recent Trends and Future Research Avenues ( http://arxiv.org/abs/2405.17465v1 )

ライセンス: Link先を確認
Aashu, Kanchan Rajwar, Millie Pant, Kusum Deep, (参考訳) 食品生産は重要な世界的関心事であり、人工知能(AI)による農業革命の可能性はほとんど解明されていない。 本稿では,農業における機械学習(ML)の適用に焦点をあてた総合的なレビューを行い,農業実践におけるその変革的ポテンシャルと効率向上を探求する。 この分野での研究活動の程度を理解するため、統計データが収集され、近年の実質的な成長傾向が明らかになっている。 これは、最もダイナミックで活気ある研究領域の1つとして際立っていることを示している。 MLの概念を導入し、精密農業、スマートファーミング、デジタル農業、農業4.0といったスマート農業の領域に進出することにより、AIが作物の生産を最適化し、環境への影響を最小限にする方法を検討する。 我々は、農業データの分析と分類を行うMLの能力を強調し、農業における生産性と収益性の改善事例を提供する。 さらに、農業応用において有望な結果を示した著名なMLモデルとその特徴について論じる。 文献の体系的なレビューを通じて、農業におけるAIに関する既存の文献ギャップに対処し、新参者や研究者に貴重な情報を提供する。 この新興分野の未調査領域に光を当てることで、私たちの目標は、農業におけるAIの重要な貢献と潜在能力をより深く理解し、究極的には研究コミュニティに利益をもたらすことです。

Food production is a vital global concern and the potential for an agritech revolution through artificial intelligence (AI) remains largely unexplored. This paper presents a comprehensive review focused on the application of machine learning (ML) in agriculture, aiming to explore its transformative potential in farming practices and efficiency enhancement. To understand the extent of research activity in this field, statistical data have been gathered, revealing a substantial growth trend in recent years. This indicates that it stands out as one of the most dynamic and vibrant research domains. By introducing the concept of ML and delving into the realm of smart agriculture, including Precision Agriculture, Smart Farming, Digital Agriculture, and Agriculture 4.0, we investigate how AI can optimize crop output and minimize environmental impact. We highlight the capacity of ML to analyze and classify agricultural data, providing examples of improved productivity and profitability on farms. Furthermore, we discuss prominent ML models and their unique features that have shown promising results in agricultural applications. Through a systematic review of the literature, this paper addresses the existing literature gap on AI in agriculture and offers valuable information to newcomers and researchers. By shedding light on unexplored areas within this emerging field, our objective is to facilitate a deeper understanding of the significant contributions and potential of AI in agriculture, ultimately benefiting the research community.
翻訳日:2024-05-30 00:10:19 公開日:2024-05-23
# 分散継続的学習

Distributed Continual Learning ( http://arxiv.org/abs/2405.17466v1 )

ライセンス: Link先を確認
Long Le, Marcel Hussing, Eric Eaton, (参考訳) この研究は、独立したエージェントが環境の中でユニークなタスクに直面し、知識を段階的に発展させ共有する連続的および連合的な学習の交差点を研究する。 本稿では,エージェントモデルや統計的不均一性,連続分布シフト,ネットワークトポロジ,通信制約など,分散連続学習の本質的側面を捉える数学的枠組みを提案する。 分散連続学習は単一エージェント学習よりも個々のエージェントのパフォーマンスを向上させるという理論に基づいて,データインスタンス,フルモデルパラメータ,モジュール(部分)モデルパラメータという,情報交換の3つのモードを特定する。 共有モードごとにアルゴリズムを開発し、様々なデータセット、トポロジ構造、通信限界をまたいだ広範な実験的な調査を行う。 パラメータの共有はタスクが複雑化するにつれてデータを共有するよりも効率的である; モジュールパラメータの共有は通信コストを最小化しながら最高のパフォーマンスをもたらす; 共有モードの組み合わせは、累積的にパフォーマンスを向上させることができる。

This work studies the intersection of continual and federated learning, in which independent agents face unique tasks in their environments and incrementally develop and share knowledge. We introduce a mathematical framework capturing the essential aspects of distributed continual learning, including agent model and statistical heterogeneity, continual distribution shift, network topology, and communication constraints. Operating on the thesis that distributed continual learning enhances individual agent performance over single-agent learning, we identify three modes of information exchange: data instances, full model parameters, and modular (partial) model parameters. We develop algorithms for each sharing mode and conduct extensive empirical investigations across various datasets, topology structures, and communication limits. Our findings reveal three key insights: sharing parameters is more efficient than sharing data as tasks become more complex; modular parameter sharing yields the best performance while minimizing communication costs; and combining sharing modes can cumulatively improve performance.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-23
# スポーツセンターの顧客セグメンテーション--事例研究

Sports center customer segmentation: a case study ( http://arxiv.org/abs/2405.17467v1 )

ライセンス: Link先を確認
Juan Soto, Ramón Carmenaty, Miguel Lastra, Juan M. Fernández-Luna, José M. Benítez, (参考訳) 顧客セグメンテーションは、効果的なマーケティング戦略を開発し、顧客体験をパーソナライズし、維持と忠誠心を高めるための基本的なプロセスである。 この問題は科学文献で広く取り上げられているが、すべてのケースに対して決定的な解決策は得られていない。 本論文では,複数の個別化特徴を特徴とする特定のケーススタディを網羅的に分析し,考察する。 そのため、データ処理と分析プロセスの両方に対する堅牢で革新的なアプローチが必要である。 この調査は顧客セグメンテーションの健全な提案につながった。 この提案のハイライトは、問題を分解する便利なデータ分割、適応距離関数の定義、遺伝的アルゴリズムによる最適化である。 これらの包括的なデータ処理戦略は、セグメンテーション分析のデータセット信頼性を高めるだけでなく、スポーツセンターの運用効率とマーケティング戦略をサポートし、最終的には顧客エクスペリエンスを改善します。

Customer segmentation is a fundamental process to develop effective marketing strategies, personalize customer experience and boost their retention and loyalty. This problem has been widely addressed in the scientific literature, yet no definitive solution for every case is available. A specific case study characterized by several individualizing features is thoroughly analyzed and discussed in this paper. Because of the case properties a robust and innovative approach to both data handling and analytical processes is required. The study led to a sound proposal for customer segmentation. The highlights of the proposal include a convenient data partition to decompose the problem, an adaptive distance function definition and its optimization through genetic algorithms. These comprehensive data handling strategies not only enhance the dataset reliability for segmentation analysis but also support the operational efficiency and marketing strategies of sports centers, ultimately improving the customer experience.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-23
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v9 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-23
# ランダムなネットワークにおける量子カオス

Quantum Chaos in Random Ising Networks ( http://arxiv.org/abs/2405.14376v1 )

ライセンス: Link先を確認
András Grabarits, Kasturi Ranjan Swain, Mahsa Seyed Heydari, Pranav Chandarana, Fernando J. Gómez-Ruiz, Adolfo del Campo, (参考訳) 本稿では,Erd\H{o}s-R\enyiネットワーク上の横場イジングモデルにおける普遍量子カオスシグネチャの体系的研究について報告する。 これは、レベル間隔やレベル速度統計のような局所的なスペクトル測度を研究することで達成される。 任意のスペクトル距離でエネルギーレベルの相関を求める大域的測度としてスペクトル形状因子分析を行う。 以上の結果から, これらの指標は, 様々な体制における横フィールドの接続性や強度の変化によるカオス的行動の破壊を捉えていることが明らかとなった。 本研究は, 疎結合ネットワークにおいて, レベル間隔統計とスペクトル形状因子が, この分解を示唆することを示すものである。 速度統計は、スパース限界における生き残ったカオス的なシグネチャをキャプチャする。 しかし、これらの可積分的なレギュレーションは、完全な接続範囲において、消えるほど小さなセグメントを越えて拡張される。

We report a systematic investigation of universal quantum chaotic signatures in the transverse field Ising model on an Erd\H{o}s-R\'enyi network. This is achieved by studying local spectral measures such as the level spacing and the level velocity statistics. A spectral form factor analysis is also performed as a global measure, probing energy level correlations at arbitrary spectral distances. Our findings show that these measures capture the breakdown of chaotic behavior upon varying the connectivity and strength of the transverse field in various regimes. We demonstrate that the level spacing statistics and the spectral form factor signal this breakdown for sparsely and densely connected networks. The velocity statistics capture the surviving chaotic signatures in the sparse limit. However, these integrable-like regimes extend over a vanishingly small segment in the full range of connectivity.
翻訳日:2024-05-29 02:59:12 公開日:2024-05-23
# 単一画像デハージングのための基本機能融合の再考

Rethinking the Elementary Function Fusion for Single-Image Dehazing ( http://arxiv.org/abs/2405.15817v1 )

ライセンス: Link先を確認
Yesian Rohn, (参考訳) 本稿では、革新的なデハジングネットワーク(CL2S)を提案することにより、現在のデハジング領域における物理モデルの限界に対処する。 DM2Fモデルに基づいて、アブレーション実験の問題を識別し、元の対数関数モデルを三角(正弦)モデルに置き換える。 この置換は、ヘイズの複雑で変動的な分布をよりよく適合させることを目的としている。 この手法は大気散乱モデルとその他の基本関数を統合して脱ハージング性能を向上させる。 実験により、CL2Sは、特に画像の詳細と色認証の維持において、複数のデハージングデータセットにおいて優れた性能を発揮することが示された。 さらに,DM2Fを補助する系統的アブレーション実験は,DM2Fに関する懸念を検証し,提案したCL2Sモデルにおける機能成分の必要性と有効性を確認する。 私たちのコードは \url{https://github.com/YesianRohn/CL2S} で利用可能です。

This paper addresses the limitations of physical models in the current field of image dehazing by proposing an innovative dehazing network (CL2S). Building on the DM2F model, it identifies issues in its ablation experiments and replaces the original logarithmic function model with a trigonometric (sine) model. This substitution aims to better fit the complex and variable distribution of haze. The approach also integrates the atmospheric scattering model and other elementary functions to enhance dehazing performance. Experimental results demonstrate that CL2S achieves outstanding performance on multiple dehazing datasets, particularly in maintaining image details and color authenticity. Additionally, systematic ablation experiments supplementing DM2F validate the concerns raised about DM2F and confirm the necessity and effectiveness of the functional components in the proposed CL2S model. Our code is available at \url{https://github.com/YesianRohn/CL2S}, where the corresponding pre-trained models can also be accessed.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-23
# DuanzAI: 覚醒のためのプロンプト付きスラング強化LDM

DuanzAI: Slang-Enhanced LLM with Prompt for Humor Understanding ( http://arxiv.org/abs/2405.15818v1 )

ライセンス: Link先を確認
Yesian Rohn, (参考訳) 言語の複雑さはスラング表現の豊富なタペストリーで明らかであり、しばしばユーモアや文化的なニュアンスを伴う。 この言語現象は、特にデジタル通信において、ますます広まりつつある。 しかし、ChatGPT-3.5を含む既存のAIモデルは、特に中国のスラングにおいて、これらのニュアンスを理解する上で困難に直面している。 本研究では,中国語スラングを深く理解したLarge Language Models(LLM)の革新的アプローチであるDuanzAIを紹介する。 キュレートされたデータセットと高度な技術を活用して、DuanzAIは人間の表現とAI理解のギャップを埋め、文脈的に関連する応答を可能にする。 実験では,LLMの性能をPunchline Entity Recognition(PER)システムと対比し,音声マッチングとPinyin2hanzi技術を統合した。 これらの洞察を適用して、先進的なチャットボットであるChatDAIを開発し、 \url{https://github.com/YesianRohn/DuanzAI}でコードを公開しました。

Language's complexity is evident in the rich tapestry of slang expressions, often laden with humor and cultural nuances. This linguistic phenomenon has become increasingly prevalent, especially in digital communication. However, existing AI models, including ChatGPT-3.5, face challenges in comprehending these nuances, particularly in Chinese slang. In this study, we present DuanzAI, an innovative approach enhancing Large Language Models (LLMs) with deep Chinese slang comprehension. Leveraging curated datasets and advanced techniques, DuanzAI bridges the gap between human expression and AI comprehension, enabling contextually relevant responses. Our experiments contrast LLMs' performance with a custom Punchline Entity Recognition (PER) system, integrating phonetic matching and pinyin2hanzi techniques. Applying these insights, we developed ChatDAI, an advanced chatbot and released our code at \url{https://github.com/YesianRohn/DuanzAI}.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-23
# 行動分解を考慮した政策最適化による言語エージェントの強化

Reinforcing Language Agents via Policy Optimization with Action Decomposition ( http://arxiv.org/abs/2405.15821v1 )

ライセンス: Link先を確認
Muning Wen, Ziyu Wan, Weinan Zhang, Jun Wang, Ying Wen, (参考訳) 知的エージェントとしての言語モデルは、シーケンシャルな意思決定エージェントの境界を押し上げるが、環境力学や指数関数的に巨大な行動空間に関する限られた知識に苦慮する。 GLAMやTWOSOMEといった最近の取り組みは、手動で活動空間を制限されたサブセットに制限し、エージェントの知識を特定の環境に合わせるために強化学習を採用する。 しかし、効率的な言語エージェント最適化に不可欠であるアクション内トークンのきめ細かいクレジット代入を見落とし、アクション空間を制限するために人間の以前の知識に依存している。 本稿では,アクションレベルからトークンレベルへの言語エージェント最適化の分解について提案する。 すべてのアクションをフラット化することの単純化から始まり、アクションレベルの最適化とこの単純でトークンレベルの最適化との相違点を理論的に探求する。 次に、アクション分割(BAD)を用いてベルマンバックアップを導出し、アクション内トークンとアクション間トークンの両方にクレジット代入を統合することで、その相違を効果的に排除する。 PPO アルゴリズムに BAD を実装し,行動分解を伴う政策最適化(POAD)を導入する。 POADは、よりきめ細かいクレジット割り当てプロセスとより低い最適化複雑性の恩恵を受け、言語エージェントと対話的な環境との整合における学習効率と一般化能力の向上につながります。 我々は様々なテストベッドにまたがってPOADを検証し、その結果、我々のアプローチの利点と理論解析の正確性が確認された。

Language models as intelligent agents push the boundaries of sequential decision-making agents but struggle with limited knowledge of environmental dynamics and exponentially huge action space. Recent efforts like GLAM and TWOSOME manually constrain the action space to a restricted subset and employ reinforcement learning to align agents' knowledge with specific environments. However, they overlook fine-grained credit assignments for intra-action tokens, which is essential for efficient language agent optimization, and rely on human's prior knowledge to restrict action space. This paper proposes decomposing language agent optimization from the action level to the token level, offering finer supervision for each intra-action token and manageable optimization complexity in environments with unrestricted action spaces. Beginning with the simplification of flattening all actions, we theoretically explore the discrepancies between action-level optimization and this naive token-level optimization. We then derive the Bellman backup with Action Decomposition (BAD) to integrate credit assignments for both intra-action and inter-action tokens, effectively eliminating the discrepancies. Implementing BAD within the PPO algorithm, we introduce Policy Optimization with Action Decomposition (POAD). POAD benefits from a finer-grained credit assignment process and lower optimization complexity, leading to enhanced learning efficiency and generalization abilities in aligning language agents with interactive environments. We validate POAD across diverse testbeds, with results affirming the advantages of our approach and the correctness of our theoretical analysis.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-23
# セッタ型カリキュラム学習によるバスバンチの効率化

Efficient Mitigation of Bus Bunching through Setter-Based Curriculum Learning ( http://arxiv.org/abs/2405.15824v1 )

ライセンス: Link先を確認
Avidan Shah, Danny Tran, Yuhan Tang, (参考訳) 各種タスクの学習効率を向上させる手法として,強化学習分野においてカリキュラム学習が成長している。 エージェントがより最適なエージェントの振る舞いとより高い報酬状態を促進するために、エージェントが学習する環境の難しさ(無関係)を変更することを含む。 しかしながら、ほとんどのカリキュラム学習方法は、現在、プログラマによるカリキュラムや事前定義されたステップの離散的な遷移、あるいは、敵対者のみに限って小さなサブセットのトレーニングで自動カリキュラム学習を使用する。 本稿では,セッターモデルを用いて,行動空間,対向力,初期化,および束縛力を自動的に生成するカリキュラム学習手法を提案する。 交通と交通の最適化は、特に強化学習に基づくソリューションについて、よく知られた研究分野である。 本研究の背景として,バスの群れ問題に着目する。 問題の主な考え方は、バスシステムから発車する乗客の非効率なバスタイミングによる遅延を最小限に抑えることである。 この地域での激しい探検は、パフォーマンスの限界に関してイノベーションと改善を図っているが、同時に、新しい一般化された技術を開発するための効果的なベースラインを提供する。 本研究会は,カリキュラム学習とその学習効率および総合成績への影響について検討することに関心がある。 我々は、カリキュラムが固定的あるいは離散的に閾値づけられていないカリキュラム学習に対して、あまり知られていないアプローチを試みることに決めた。 自動カリキュラム学習の方法は,エージェントの学習の困難さを増すために,エージェントネットワークによって動的に選択・学習され,複数の入力形式によって定義されるカリキュラムを含む。 本論文の結果は以下の節に示す。

Curriculum learning has been growing in the domain of reinforcement learning as a method of improving training efficiency for various tasks. It involves modifying the difficulty (lessons) of the environment as the agent learns, in order to encourage more optimal agent behavior and higher reward states. However, most curriculum learning methods currently involve discrete transitions of the curriculum or predefined steps by the programmer or using automatic curriculum learning on only a small subset training such as only on an adversary. In this paper, we propose a novel approach to curriculum learning that uses a Setter Model to automatically generate an action space, adversary strength, initialization, and bunching strength. Transportation and traffic optimization is a well known area of study, especially for reinforcement learning based solutions. We specifically look at the bus bunching problem for the context of this study. The main idea of the problem is to minimize the delays caused by inefficient bus timings for passengers arriving and departing from a system of buses. While the heavy exploration in the area makes innovation and improvement with regards to performance marginal, it simultaneously provides an effective baseline for developing new generalized techniques. Our group is particularly interested in examining curriculum learning and its effect on training efficiency and overall performance. We decide to try a lesser known approach to curriculum learning, in which the curriculum is not fixed or discretely thresholded. Our method for automated curriculum learning involves a curriculum that is dynamically chosen and learned by an adversary network made to increase the difficulty of the agent's training, and defined by multiple forms of input. Our results are shown in the following sections of this paper.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-23
# LiDARポイントクラウドシーンセグメンテーションのための3次元学習型スーパートーケン変換器

3D Learnable Supertoken Transformer for LiDAR Point Cloud Scene Segmentation ( http://arxiv.org/abs/2405.15826v1 )

ライセンス: Link先を確認
Dening Lu, Jun Zhou, Kyle Gao, Linlin Xu, Jonathan Li, (参考訳) 3Dトランスフォーマーは、ポイントクラウドの理解と表現で大きな成功を収めています。 しかし、大規模なLiDARポイントクラウドシーンセグメンテーションのための効率的かつ効率的なトランスフォーマーの開発には、まだかなりの範囲がある。 本稿では,3D Learnable Supertoken Transformer (3DLST) という新しい3Dトランスフレームワークを提案する。 主な貢献は以下の通りである。 まず,高速なトークンクラスタリングとアグリゲーションのための動的スーパートークン最適化(DSO)ブロックを導入し,学習可能なスーパートークン定義は従来のスーパーポイント生成の処理に時間を要することを避ける。 学習可能なスーパートークンは、ネットワーク学習中に多段階の深い特徴によって動的に最適化できるため、セマンティック・ホモジニティ・アウェア・トークン・クラスタリングに適合する。 第2に、最適化されたスーパートークンからのトークン再構成のために、効率的なクロスアテンション誘導型アップサンプリング(CAU)ブロックを提案する。 第3に、3DLSTは共通のU-net設計ではなく、新しいW-netアーキテクチャを備えており、トランスフォーマーベースの特徴学習に適している。 3つの挑戦的LiDARデータセット(空中マルチスペクトルLiDAR(MS-LiDAR)、平均F1スコアの89.3%、DALES(80.2%、mIoU)、トロント3Dデータセット(80.4%、mIoU)のSOTAパフォーマンスは、3DLSTの優位性と様々なLiDARポイントクラウドデータ(空中MS-LiDAR、空中LiDAR、車載LiDARデータ)への強力な適応性を示している。 さらに、3DLSTはアルゴリズム効率の点で満足な結果を得ることができ、これは従来の最高の性能の手法よりも最大5倍高速である。

3D Transformers have achieved great success in point cloud understanding and representation. However, there is still considerable scope for further development in effective and efficient Transformers for large-scale LiDAR point cloud scene segmentation. This paper proposes a novel 3D Transformer framework, named 3D Learnable Supertoken Transformer (3DLST). The key contributions are summarized as follows. Firstly, we introduce the first Dynamic Supertoken Optimization (DSO) block for efficient token clustering and aggregating, where the learnable supertoken definition avoids the time-consuming pre-processing of traditional superpoint generation. Since the learnable supertokens can be dynamically optimized by multi-level deep features during network learning, they are tailored to the semantic homogeneity-aware token clustering. Secondly, an efficient Cross-Attention-guided Upsampling (CAU) block is proposed for token reconstruction from optimized supertokens. Thirdly, the 3DLST is equipped with a novel W-net architecture instead of the common U-net design, which is more suitable for Transformer-based feature learning. The SOTA performance on three challenging LiDAR datasets (airborne MultiSpectral LiDAR (MS-LiDAR) (89.3% of the average F1 score), DALES (80.2% of mIoU), and Toronto-3D dataset (80.4% of mIoU)) demonstrate the superiority of 3DLST and its strong adaptability to various LiDAR point cloud data (airborne MS-LiDAR, aerial LiDAR, and vehicle-mounted LiDAR data). Furthermore, 3DLST also achieves satisfactory results in terms of algorithm efficiency, which is up to 5x faster than previous best-performing methods.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-23
# ポイントクラウド処理のための動的トークン集約による効率的な点変換器

Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing ( http://arxiv.org/abs/2405.15827v1 )

ライセンス: Link先を確認
Dening Lu, Jun Zhou, Kyle, Gao, Linlin Xu, Jonathan Li, (参考訳) 近年,3Dトランスの開発により,ポイントクラウド処理と解析が大きな進歩を遂げている。 しかし、既存の3Dトランスフォーマー法は、大きくて冗長なアテンションマップのため、計算に高価で非効率であることが多い。 また、時間を要するポイントクラウドのサンプリングとグループ化のプロセスを必要とするため、遅い傾向にある。 これらの問題に対処するために,ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。 まず,鍵トークンの適応選択のための局所的および大域的意味情報の両方を考慮した,効率的な学習可能なトークンスカラー化(LTS)ブロックを提案する。 第2に,スペーサー化トークンの特徴集約を実現するため,第1の動的トークン集約(DTA)ブロックを3Dトランスフォーマーパラダイムに提示し,情報損失を防止しつつ,強力な集約機能を実現する。 その後、デュアルアテンショントランスフォーマーベースのグローバル特徴拡張(GFE)ブロックを使用して、モデルの表現能力を向上する。 LTS, DTA, GFEブロックを備えたDTA-Formerは階層的特徴学習により優れた分類結果が得られる。 最後に、トークンの意味的特徴とそれらの意味的関係が、反復的再構成中に徐々に最適化されるように、新しい反復的トークン再構成(ITR)ブロックを導入している。 ITRに基づく新しいW-netアーキテクチャを提案する。これは一般的なU-net設計よりもTransformerベースの特徴学習に適している。 大規模な実験により,本手法の優位性を実証した。 ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセットの事前ポイントトランスフォーマーよりも最大30$\times$高速なSOTAパフォーマンスを実現している。

Recently, point cloud processing and analysis have made great progress due to the development of 3D Transformers. However, existing 3D Transformer methods usually are computationally expensive and inefficient due to their huge and redundant attention maps. They also tend to be slow due to requiring time-consuming point cloud sampling and grouping processes. To address these issues, we propose an efficient point TransFormer with Dynamic Token Aggregating (DTA-Former) for point cloud representation and processing. Firstly, we propose an efficient Learnable Token Sparsification (LTS) block, which considers both local and global semantic information for the adaptive selection of key tokens. Secondly, to achieve the feature aggregation for sparsified tokens, we present the first Dynamic Token Aggregating (DTA) block in the 3D Transformer paradigm, providing our model with strong aggregated features while preventing information loss. After that, a dual-attention Transformer-based Global Feature Enhancement (GFE) block is used to improve the representation capability of the model. Equipped with LTS, DTA, and GFE blocks, DTA-Former achieves excellent classification results via hierarchical feature learning. Lastly, a novel Iterative Token Reconstruction (ITR) block is introduced for dense prediction whereby the semantic features of tokens and their semantic relationships are gradually optimized during iterative reconstruction. Based on ITR, we propose a new W-net architecture, which is more suitable for Transformer-based feature learning than the common U-net design. Extensive experiments demonstrate the superiority of our method. It achieves SOTA performance with up to 30$\times$ faster than prior point Transformers on ModelNet40, ShapeNet, and airborne MultiSpectral LiDAR (MS-LiDAR) datasets.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-23
# 変圧器の物理 : 単純な高調波発振器の考察

How Do Transformers "Do" Physics? Investigating the Simple Harmonic Oscillator ( http://arxiv.org/abs/2405.17209v1 )

ライセンス: Link先を確認
Subhash Kantamneni, Ziming Liu, Max Tegmark, (参考訳) トランスフォーマーは物理をどうモデル化するか? トランスフォーマーは、解釈可能な解析解を持つシステムをモデル化するのか、それとも人間にとって解読が難しい「アリエン物理学」を作るのか? 我々は、単純な調和振動子(SHO)、$\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$、物理学における最も基本的なシステムの一つである。 我々のゴールは、変換器がSHOをモデル化するために使用する手法を特定し、これらの手法の中間体の符号化を解析することにより、可能な手法を仮説化し、評価することである。 線形回帰の単純なテストベッドでメソッドを使用するための4つの基準を開発し、そこではメソッドは$y = wx$、中間は$w$: (1) 隠れ状態から予測できるのか? 2)中間の符号化品質はモデル性能と相関しているか? (3)隠れ状態の分散の大部分は中間体で説明できるのか? (4)隠れた状態に介入して予測可能な結果が得られるか? これら2つの相関(1,2)、弱い因果関係((3))、強い因果関係((4))の基準により、変圧器は既知の数値法を用いて単純な調和振動子の軌道、特に行列指数法をモデル化する。 解析フレームワークは高次元線形系や非線形系に便利に拡張でき、変換器に隠された「世界モデル」を明らかにするのに役立ちたい。

How do transformers model physics? Do transformers model systems with interpretable analytical solutions, or do they create "alien physics" that are difficult for humans to decipher? We take a step in demystifying this larger puzzle by investigating the simple harmonic oscillator (SHO), $\ddot{x}+2\gamma \dot{x}+\omega_0^2x=0$, one of the most fundamental systems in physics. Our goal is to identify the methods transformers use to model the SHO, and to do so we hypothesize and evaluate possible methods by analyzing the encoding of these methods' intermediates. We develop four criteria for the use of a method within the simple testbed of linear regression, where our method is $y = wx$ and our intermediate is $w$: (1) Can the intermediate be predicted from hidden states? (2) Is the intermediate's encoding quality correlated with model performance? (3) Can the majority of variance in hidden states be explained by the intermediate? (4) Can we intervene on hidden states to produce predictable outcomes? Armed with these two correlational (1,2), weak causal (3) and strong causal (4) criteria, we determine that transformers use known numerical methods to model trajectories of the simple harmonic oscillator, specifically the matrix exponential method. Our analysis framework can conveniently extend to high-dimensional linear systems and nonlinear systems, which we hope will help reveal the "world model" hidden in transformers.
翻訳日:2024-05-28 15:03:23 公開日:2024-05-23
# GOTCHA:チャレンジ応答によるリアルタイムビデオディープフェイク検出

GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response ( http://arxiv.org/abs/2210.06186v4 )

ライセンス: Link先を確認
Govind Mittal, Chinmay Hegde, Nasir Memon, (参考訳) AI対応のリアルタイムディープフェイク(RTDF)の台頭により、オンラインビデオインタラクションの完全性が懸念されている。 RTDFは、ライブビデオのやりとりにおいて、偽造者の顔と被害者の顔を置き換えることを可能にした。 このようなディープフェイクの進歩は、検出をコックス化し、同じ基準に達する。 しかし、既存のディープフェイク検出技術は非同期であり、RTDFには適していない。 このギャップを埋めるため,ライブ環境での信頼性を確立するための課題応答アプローチを提案する。 本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。 本研究では,8つの課題からなる独自のデータセットを収集することにより,分類学における代表例を評価し,最先端のディープフェイクジェネレータの品質を継続的にかつ視覚的に劣化させる。 これらの結果は人間と新しい自動スコアリング機能の両方で相関しており、それぞれ88.6%と80.1%のAUCとなっている。 この結果は,現実的なシナリオにおいて,説明可能でスケーラブルなリアルタイムディープフェイク検出のための課題応答システムの有望な可能性を示している。 We provide access to data and code at \url{https://github.com/mittalgovind/GOTCHA-Deepfakes}。

With the rise of AI-enabled Real-Time Deepfakes (RTDFs), the integrity of online video interactions has become a growing concern. RTDFs have now made it feasible to replace an imposter's face with their victim in live video interactions. Such advancement in deepfakes also coaxes detection to rise to the same standard. However, existing deepfake detection techniques are asynchronous and hence ill-suited for RTDFs. To bridge this gap, we propose a challenge-response approach that establishes authenticity in live settings. We focus on talking-head style video interaction and present a taxonomy of challenges that specifically target inherent limitations of RTDF generation pipelines. We evaluate representative examples from the taxonomy by collecting a unique dataset comprising eight challenges, which consistently and visibly degrades the quality of state-of-the-art deepfake generators. These results are corroborated both by humans and a new automated scoring function, leading to 88.6% and 80.1% AUC, respectively. The findings underscore the promising potential of challenge-response systems for explainable and scalable real-time deepfake detection in practical scenarios. We provide access to data and code at \url{https://github.com/mittalgovind/GOTCHA-Deepfakes}.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-23
# 量子内点法とポートフォリオ最適化のためのエンドツーエンドの資源分析

End-to-end resource analysis for quantum interior point methods and portfolio optimization ( http://arxiv.org/abs/2211.12489v2 )

ライセンス: Link先を確認
Alexander M. Dalzell, B. David Clader, Grant Salton, Mario Berta, Cedric Yen-Yu Lin, David A. Bader, Nikitas Stamatopoulos, Martin J. A. Schuetz, Fernando G. S. L. Brandão, Helmut G. Katzgraber, William J. Zeng, (参考訳) 本稿では,2次コーンプログラミング(SOCP)のための量子内点法(QIPM)について,ポートフォリオ最適化(PO)の例を用いて検討する。 問題入力から問題出力までの完全な量子回路レベル記述を行い、QIPMの実装を改良する。 定数因子を含むアルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。 リソースの数は、問題内の特定の線形システムの条件数など、インスタンス固有のパラメータに依存する。 これらのパラメータのサイズを決定するため、我々は小さなPOインスタンスの数値シミュレーションを行い、POユースケースの具体的なリソース推定に繋がる。 我々の数値的な結果は、アルゴリズムの漸近的スケーリングに関する決定的なステートメントを作るのに十分なインスタンスサイズを探索しない。 しかし,この分析結果から,大容量の定常前要素,低条件線形系,高コストな量子状態トモグラフィによる基礎的依存などにより,QIPMの基本的な改良が求められている。

We study quantum interior point methods (QIPMs) for second-order cone programming (SOCP), guided by the example use case of portfolio optimization (PO). We provide a complete quantum circuit-level description of the algorithm from problem input to problem output, making several improvements to the implementation of the QIPM. We report the number of logical qubits and the quantity/depth of non-Clifford T-gates needed to run the algorithm, including constant factors. The resource counts we find depend on instance-specific parameters, such as the condition number of certain linear systems within the problem. To determine the size of these parameters, we perform numerical simulations of small PO instances, which lead to concrete resource estimates for the PO use case. Our numerical results do not probe large enough instance sizes to make conclusive statements about the asymptotic scaling of the algorithm. However, already at small instance sizes, our analysis suggests that, due primarily to large constant pre-factors, poorly conditioned linear systems, and a fundamental reliance on costly quantum state tomography, fundamental improvements to the QIPM are required for it to lead to practical quantum advantage.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-23
# サブフィールド距離と量子誤差補正への応用

The Subfield Metric and its Application to Quantum Error Correction ( http://arxiv.org/abs/2212.00431v2 )

ライセンス: Link先を確認
Markus Grassl, Anna-Lena Horlemann, Violetta Weger, (参考訳) 非対称誤差補正のための有限拡大体上の新しい重みと対応する計量を導入する。 重みは、基底場の要素と外部の要素を区別するが、これは非対称量子符号によって動機付けられる。 我々は、この重みと計量の理論的枠組みを、上下境界、乱符号の漸近的振る舞いを含む設定し、シングルトン型上界を達成する最適符号群の存在を示す。

We introduce a new weight and corresponding metric over finite extension fields for asymmetric error correction. The weight distinguishes between elements from the base field and the ones outside of it, which is motivated by asymmetric quantum codes. We set up the theoretic framework for this weight and metric, including upper and lower bounds, asymptotic behavior of random codes, and we show the existence of an optimal family of codes achieving the Singleton-type upper bound.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-23
# ExcelFormer: DNNはタブラル予測のための確実なベットか?

ExcelFormer: Can a DNN be a Sure Bet for Tabular Prediction? ( http://arxiv.org/abs/2301.02819v5 )

ライセンス: Link先を確認
Jintai Chen, Jiahuan Yan, Qiyuan Chen, Danny Ziyi Chen, Jian Wu, Jimeng Sun, (参考訳) 表形式で整理されたデータは、現実世界のアプリケーションではユビキタスであり、ユーザーはしばしば、バイアスのある特徴定義を持つテーブルを作成し、自分の興味の予測ターゲットを柔軟に設定する。 したがって、堅牢で、効果的で、データセットに反し、ユーザフレンドリな表型予測アプローチの急速な開発が望まれている。 グラディエントブースティング決定木(GBDT)と既存のディープニューラルネットワーク(DNN)がプロのユーザによって広く利用されている一方で、彼らはカジュアルなユーザ、特にカジュアルなユーザに対していくつかの課題を提示している。 一 データセットの好みの違いによるモデル選択のジレンマ、及び (II)重度ハイパーパラメータ探索の必要性は,その性能が不十分であると考えられる。 本稿では,様々な表形式の予測タスクに対して,かつカジュアルなユーザにも親しみやすい「確実な賭け」ソリューションとして機能するディープラーニングモデルを開発することができるか,という課題を掘り下げる。 P1) 回転分散特性の欠如,(P2) 大規模データ需要,(P3) 過スムース解の3つの重要な欠点を考察した。 ExcelFormerは,DNNの回転不変性(P1の場合)を損なうような,情報の少ない特徴の影響を効果的に抑制する半透過型アテンションモジュール,表層データに適したデータ拡張アプローチ(P2),モデル適合性を高めるための注意型フィードフォワードネットワーク(P3の場合)を通じて,これらの課題に対処する。 これらの設計はExcelFormerを多種多様な表データセットの"確実な賭け"ソリューションにしている。 実世界のデータセットで実施された広範かつ階層化された実験により、我々のモデルは様々な表形式のデータ予測タスクにまたがって過去のアプローチよりも優れており、このフレームワークはカジュアルなユーザと親しみやすく、重いハイパーパラメータチューニングを使わずに使いやすくする。

Data organized in tabular format is ubiquitous in real-world applications, and users often craft tables with biased feature definitions and flexibly set prediction targets of their interests. Thus, a rapid development of a robust, effective, dataset-versatile, user-friendly tabular prediction approach is highly desired. While Gradient Boosting Decision Trees (GBDTs) and existing deep neural networks (DNNs) have been extensively utilized by professional users, they present several challenges for casual users, particularly: (i) the dilemma of model selection due to their different dataset preferences, and (ii) the need for heavy hyperparameter searching, failing which their performances are deemed inadequate. In this paper, we delve into this question: Can we develop a deep learning model that serves as a "sure bet" solution for a wide range of tabular prediction tasks, while also being user-friendly for casual users? We delve into three key drawbacks of deep tabular models, encompassing: (P1) lack of rotational variance property, (P2) large data demand, and (P3) over-smooth solution. We propose ExcelFormer, addressing these challenges through a semi-permeable attention module that effectively constrains the influence of less informative features to break the DNNs' rotational invariance property (for P1), data augmentation approaches tailored for tabular data (for P2), and attentive feedforward network to boost the model fitting capability (for P3). These designs collectively make ExcelFormer a "sure bet" solution for diverse tabular datasets. Extensive and stratified experiments conducted on real-world datasets demonstrate that our model outperforms previous approaches across diverse tabular data prediction tasks, and this framework can be friendly to casual users, offering ease of use without the heavy hyperparameter tuning.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-23
# 凸ハル構成問題に対する漸近的最適アルゴリズム

An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem ( http://arxiv.org/abs/2302.02033v3 )

ライセンス: Link先を確認
Gang Qiao, Ambuj Tewari, (参考訳) 有限分布集合の凸船体に所定の点が存在するかどうかを効率よく正確に判定する純粋探索環境における凸船体メンバシップ(CHM)問題について検討する。 一次元の場合、CHM問題のサンプル複雑性の完全な特徴づけを与える。 我々はThompson-CHMと呼ばれる漸近的に最適なアルゴリズムを提案し、そのモジュラー設計は停止規則とサンプリング規則から構成される。 さらに,本アルゴリズムを,マルチアームバンディット文学におけるいくつかの重要な問題を一般化する設定に拡張する。 さらに、トンプソン-CHMの高次元への拡張についても論じる。 最後に,実時間地平線の理論的結果とアルゴリズムの経験的挙動を一致させる数値実験を行った。

We study the convex hull membership (CHM) problem in the pure exploration setting where one aims to efficiently and accurately determine if a given point lies in the convex hull of means of a finite set of distributions. We give a complete characterization of the sample complexity of the CHM problem in the one-dimensional case. We present the first asymptotically optimal algorithm called Thompson-CHM, whose modular design consists of a stopping rule and a sampling rule. In addition, we extend the algorithm to settings that generalize several important problems in the multi-armed bandit literature. Furthermore, we discuss the extension of Thompson-CHM to higher dimensions. Finally, we provide numerical experiments to demonstrate the empirical behavior of the algorithm matches our theoretical results for realistic time horizons.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# ロボットの合成: 音と感情を誘導するAIペイント

Robot Synesthesia: A Sound and Emotion Guided AI Painter ( http://arxiv.org/abs/2302.04850v2 )

ライセンス: Link先を確認
Vihaan Misra, Peter Schaldenbrand, Jean Oh, (参考訳) 絵が千語を描けば、音は百万声になるかもしれない。 近年のロボット絵画や画像合成技術は、テキスト入力から視覚を生成する進歩を遂げているが、音のイメージへの変換は明らかにされていない。 一般に、音声インタフェースと音素相互作用は、ユーザーのアクセシビリティと制御を拡大し、複雑な感情や現実世界の動的な側面を伝達する手段を提供する。 本稿では,ロボット合成と呼ばれる,ロボットによる絵画プロセスの指導に音声と音声を用いる手法を提案する。 一般音に対しては、模擬絵画を符号化し、同じ潜在空間に入力する。 音声では、音声をその書き起こしテキストと音声のトーンに分離する。 テキストを使って内容を制御する一方で、トーンからの感情を推定し、絵のムードを導く。 提案手法はロボット絵画フレームワークであるFRIDAと完全に統合され,テキストやスタイルなど,FRIDAの既存の入力モダリティに音声と音声を付加する。 2つの調査では、被験者は与えられた絵画をランダムな確率の2倍以上の確率で生成するのに使用される感情や自然な音を正確に推測することができた。 音響誘導画像操作と音楽誘導絵画について,質的に検討した。

If a picture paints a thousand words, sound may voice a million. While recent robotic painting and image synthesis methods have achieved progress in generating visuals from text inputs, the translation of sound into images is vastly unexplored. Generally, sound-based interfaces and sonic interactions have the potential to expand accessibility and control for the user and provide a means to convey complex emotions and the dynamic aspects of the real world. In this paper, we propose an approach for using sound and speech to guide a robotic painting process, known here as robot synesthesia. For general sound, we encode the simulated paintings and input sounds into the same latent space. For speech, we decouple speech into its transcribed text and the tone of the speech. Whereas we use the text to control the content, we estimate the emotions from the tone to guide the mood of the painting. Our approach has been fully integrated with FRIDA, a robotic painting framework, adding sound and speech to FRIDA's existing input modalities, such as text and style. In two surveys, participants were able to correctly guess the emotion or natural sound used to generate a given painting more than twice as likely as random chance. On our sound-guided image manipulation and music-guided paintings, we discuss the results qualitatively.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# ワンウェイ関数によるタンパレジリエントな公開鍵を用いた量子公開鍵暗号

Quantum Public-Key Encryption with Tamper-Resilient Public Keys from One-Way Functions ( http://arxiv.org/abs/2304.01800v4 )

ライセンス: Link先を確認
Fuyuki Kitagawa, Tomoyuki Morimae, Ryo Nishimaki, Takashi Yamakawa, (参考訳) 我々は一方通行関数から量子公開鍵暗号を構築する。 私たちの構成では、公開鍵は量子だが、暗号文は古典的である。 ワンウェイ関数(または擬似ランダム関数のような弱いプリミティブ)からの量子公開鍵暗号も近年の著作(森前-山川, eprint:2022/1336, Coladangelo, eprint:2023/282, Barooti-Grilo-Malavolta-Sattath-Vu-Walter, eprint:2023/877)で提案されている。 しかし、それらには大きな欠点がある: 量子公開鍵が送信者(暗号化アルゴリズムを実行する)に送信され、相手に邪魔されることなく、セキュアな量子チャネルのような不満足な物理設定の仮定を必要とする場合にのみ、安全である。 暗号化されたメッセージが無認証の量子チャネルのみを仮定しても、秘密性が保証されるのです。 したがって、暗号化は逆向きに改ざんされた量子公開鍵によって行われる。 我々の構成は、古典的な公開鍵暗号のゴールを達成する最初の量子公開鍵暗号である。 さらに,選択された平文攻撃(CPAセキュリティ)に対するセキュリティを,一方の関数のみを使用して選択された暗号文攻撃(CCAセキュリティ)に対するセキュリティにアップグレードする汎用コンパイラを示す。 その結果,一方の関数のみに基づくCCAセキュアな量子公開鍵暗号が得られた。

We construct quantum public-key encryption from one-way functions. In our construction, public keys are quantum, but ciphertexts are classical. Quantum public-key encryption from one-way functions (or weaker primitives such as pseudorandom function-like states) are also proposed in some recent works [Morimae-Yamakawa, eprint:2022/1336; Coladangelo, eprint:2023/282; Barooti-Grilo-Malavolta-Sattath-Vu-Walter, eprint:2023/877]. However, they have a huge drawback: they are secure only when quantum public keys can be transmitted to the sender (who runs the encryption algorithm) without being tampered with by the adversary, which seems to require unsatisfactory physical setup assumptions such as secure quantum channels. Our construction is free from such a drawback: it guarantees the secrecy of the encrypted messages even if we assume only unauthenticated quantum channels. Thus, the encryption is done with adversarially tampered quantum public keys. Our construction is the first quantum public-key encryption that achieves the goal of classical public-key encryption, namely, to establish secure communication over insecure channels, based only on one-way functions. Moreover, we show a generic compiler to upgrade security against chosen plaintext attacks (CPA security) into security against chosen ciphertext attacks (CCA security) only using one-way functions. As a result, we obtain CCA secure quantum public-key encryption based only on one-way functions.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# 通信Cバンドにおける識別不能光子を放出する高出力量子フォトニックデバイス

High-throughput quantum photonic devices emitting indistinguishable photons in the telecom C-band ( http://arxiv.org/abs/2304.02515v2 )

ライセンス: Link先を確認
Paweł Holewa, Daniel A. Vajner, Emilia Zięba-Ostój, Maja Wasiluk, Benedek Gaál, Aurimas Sakanas, Marek Burakowski, Paweł Mrowiński, Bartosz Krajnik, Meng Xiong, Kresten Yvind, Niels Gregersen, Anna Musiał, Alexander Huck, Tobias Heindel, Marcin Syperek, Elizaveta Semenova, (参考訳) テレコムCバンド波長における単一識別不能光子は、量子ネットワークと将来の量子インターネットにとって不可欠である。 しかし、1550nmの単一光子生成のための高スループット技術は、現在の量子通信と情報技術の限界を克服するために欠落したビルディングブロックのままであった。 本稿では, エピタキシャル半導体量子ドットをベースとしたCバンド波長で動作する量子フォトニック集積デバイスの高スループット化を実証する。 本手法は, 1個のプリセレクト量子エミッタを円ブラッグ格子に基づくマイクロキャビティに決定論的に統合することを可能にする。 反射デバイスは、超高純度と記録高光子不識別性を持つ単一光子のトリガ生成を特徴とする。 収率とコヒーレンス特性のさらなる改善は、単一光子非線型デバイスと、テレコム波長で高度な量子ネットワークを実装するための道を開くだろう。

Single indistinguishable photons at telecom C-band wavelengths are essential for quantum networks and the future quantum internet. However, high-throughput technology for single-photon generation at 1550 nm remained a missing building block to overcome present limitations in quantum communication and information technologies. Here, we demonstrate the high-throughput fabrication of quantum-photonic integrated devices operating at C-band wavelengths based on epitaxial semiconductor quantum dots. Our technique enables the deterministic integration of single pre-selected quantum emitters into microcavities based on circular Bragg gratings. Respective devices feature the triggered generation of single photons with ultra-high purity and record-high photon indistinguishability. Further improvements in yield and coherence properties will pave the way for implementing single-photon non-linear devices and advanced quantum networks at telecom wavelengths.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# スパシティはニューラルネットワークのプライバシを改善するか?

Can sparsity improve the privacy of neural networks? ( http://arxiv.org/abs/2304.07234v2 )

ライセンス: Link先を確認
Antoine Gonon, Léon Zheng, Clément Lalanne, Quoc-Tung Le, Guillaume Lauga, Can Pouliquen, (参考訳) スパースニューラルネットワークは主に、高密度なパラメータよりも少ないパラメータを使用するが、いまだに同等の精度に達するため、リソース効率によって動機付けられている。 本稿は、ネットワークのトレーニングに使用されるデータのプライバシーも改善できるかどうかを実証的に検討する。 実験の結果,モデルの疎度,プライバシ,分類誤差との間には正の相関関係が認められた。 2つのモデルのプライバシを異なる疎度レベルと比較するだけで、分類エラーと追加の相関があるため、疎度の役割について誤解を招く結論を導き出すことができる。 この観点から、スパシティとプライバシを調査する以前の研究について、いくつかの注意事項が提起されている。

Sparse neural networks are mainly motivated by ressource efficiency since they use fewer parameters than their dense counterparts but still reach comparable accuracies. This article empirically investigates whether sparsity could also improve the privacy of the data used to train the networks. The experiments show positive correlations between the sparsity of the model, its privacy, and its classification error. Simply comparing the privacy of two models with different sparsity levels can yield misleading conclusions on the role of sparsity, because of the additional correlation with the classification error. From this perspective, some caveats are raised about previous works that investigate sparsity and privacy.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# リプロンプティング:ギブズサンプリングによるチェーン・オブ・サート・プロンプト推論の自動化

Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling ( http://arxiv.org/abs/2305.09993v2 )

ライセンス: Link先を確認
Weijia Xu, Andrzej Banburski-Fahey, Nebojsa Jojic, (参考訳) Repromptingは、人間の介入なしに与えられたタスクに対するCoT(Chain-of-Thought)レシピを自動的に学習する反復サンプリングアルゴリズムである。 Gibbsのサンプリングを通じて、Repromptingは、以前のサンプルレシピを親のプロンプトとして使用して新しいレシピを反復的にサンプリングすることで、一連のトレーニングサンプルに対して一貫して機能するCoTレシピを推論する。 我々は20の挑戦的推論タスクについて広範な実験を行った。 その結果、Repromptingは人間によるCoTのプロンプトを平均で+9.4ポイント上回っていることがわかった。 また、最先端のプロンプト最適化やデコードアルゴリズムよりも一貫してパフォーマンスが向上している。

We introduce Reprompting, an iterative sampling algorithm that automatically learns the Chain-of-Thought (CoT) recipes for a given task without human intervention. Through Gibbs sampling, Reprompting infers the CoT recipes that work consistently well for a set of training samples by iteratively sampling new recipes using previously sampled recipes as parent prompts to solve other training problems. We conduct extensive experiments on 20 challenging reasoning tasks. Results show that Reprompting outperforms human-written CoT prompts substantially by +9.4 points on average. It also achieves consistently better performance than the state-of-the-art prompt optimization and decoding algorithms.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-23
# ロスレス圧縮可能なパラメータへの近さ

Proximity to Losslessly Compressible Parameters ( http://arxiv.org/abs/2306.02834v2 )

ライセンス: Link先を確認
Matthew Farrugia-Roberts, (参考訳) ニューラルネットワークの複雑性をよりよく理解するために、損失のないネットワーク圧縮の理想的現象を理論的に検討し、同じ関数を隠れたユニットが少なく実装することができる。 単層双曲型タンジェントネットワークの設定において、パラメータのランクを同じ関数を実装するのに必要な隠れ単位の最小数として定義する。 我々は、最適ロスレス圧縮のための効率的な形式アルゴリズムを提供し、パラメータのランクを計算する。 ロスレス圧縮可能なパラメータは非典型的であるが、その存在は近隣のパラメータに影響を及ぼす。 パラメータの近位を、小さなL-無限近傍の最も圧縮性の高いパラメータのランクとして定義する。 パラメータの近位を束縛する効率的なグリーディアルゴリズムを提案し、近位を厳密に束縛する問題はNP完全であることを示す。 これらの結果は、損失のない圧縮可能なパラメータとその隣人に関する将来の理論的かつ経験的な研究の基礎を築いた。

To better understand complexity in neural networks, we theoretically investigate the idealised phenomenon of lossless network compressibility, whereby an identical function can be implemented with fewer hidden units. In the setting of single-hidden-layer hyperbolic tangent networks, we define the rank of a parameter as the minimum number of hidden units required to implement the same function. We give efficient formal algorithms for optimal lossless compression and computing the rank of a parameter. Losslessly compressible parameters are atypical, but their existence has implications for nearby parameters. We define the proximate rank of a parameter as the rank of the most compressible parameter within a small L-infinity neighbourhood. We give an efficient greedy algorithm for bounding the proximate rank of a parameter, and show that the problem of tightly bounding the proximate rank is NP-complete. These results lay a foundation for future theoretical and empirical work on losslessly compressible parameters and their neighbours.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-23
# 情報アクセスシステム評価のためのユーザシミュレーション

User Simulation for Evaluating Information Access Systems ( http://arxiv.org/abs/2306.08550v2 )

ライセンス: Link先を確認
Krisztian Balog, ChengXiang Zhai, (参考訳) 検索エンジンやレコメンデータシステム,会話アシスタントといった情報アクセスシステムは,情報ニーズを満たす上で,私たちの日常生活に不可欠なものになっています。 しかしながら、これらのシステムの有効性を評価することは、長年にわたる複雑な科学的課題である。 この課題は、ユーザが対話的なサポートを通じてタスクを完了するのを支援するシステム全体の効果を評価することの難しさと、ユーザの行動や嗜好のかなりの変化によってさらに悪化することの根底にある。 この課題に対処するために、ユーザシミュレーションは有望なソリューションとして現れます。 本書は,評価目的に特化して設計されたユーザシミュレーション技術について,徹底的に理解することに焦点を当てている。 情報アクセスシステム評価の背景から始まり,ユーザシミュレーションの多様な応用を探求する。 その後,ユーザシミュレータの設計,評価にユーザシミュレーションを利用する一般的なフレームワークと,検索エンジン,レコメンダシステム,会話アシスタントとのユーザインタラクションをシミュレートする特定のモデルとアルゴリズムの両方を網羅して,ユーザシミュレーションにおける主要な研究成果を体系的にレビューする。 ユーザシミュレーションが学際的な研究課題であることを認識し,機械学習,対話システム,ユーザモデリング,経済学などの関連分野との連携を確立する。 本書は,情報アクセスシステムの評価を超えて,対話型知的システム全般の評価方法に広範な影響を与えることが期待されている,今後の重要な研究方向性について,詳細な議論で締めくくっている。

Information access systems, such as search engines, recommender systems, and conversational assistants, have become integral to our daily lives as they help us satisfy our information needs. However, evaluating the effectiveness of these systems presents a long-standing and complex scientific challenge. This challenge is rooted in the difficulty of assessing a system's overall effectiveness in assisting users to complete tasks through interactive support, and further exacerbated by the substantial variation in user behaviour and preferences. To address this challenge, user simulation emerges as a promising solution. This book focuses on providing a thorough understanding of user simulation techniques designed specifically for evaluation purposes. We begin with a background of information access system evaluation and explore the diverse applications of user simulation. Subsequently, we systematically review the major research progress in user simulation, covering both general frameworks for designing user simulators, utilizing user simulation for evaluation, and specific models and algorithms for simulating user interactions with search engines, recommender systems, and conversational assistants. Realizing that user simulation is an interdisciplinary research topic, whenever possible, we attempt to establish connections with related fields, including machine learning, dialogue systems, user modeling, and economics. We end the book with a detailed discussion of important future research directions, many of which extend beyond the evaluation of information access systems and are expected to have broader impact on how to evaluate interactive intelligent systems in general.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-23
# Amortized Variational Inference: When and Why?

Amortized Variational Inference: When and Why? ( http://arxiv.org/abs/2307.11018v4 )

ライセンス: Link先を確認
Charles C. Margossian, David M. Blei, (参考訳) 確率潜在変数モデルでは、因子化(または平均場)変分推論(F-VI)は各潜時変数に対して別のパラメトリック分布に適合する。 償却変分推論(A-VI)は、代わりに共通の推論関数を学習し、各観測結果を対応する潜伏変数の近似後方にマッピングする。 通常、A-VIは変分オートエンコーダの訓練のステップとして使用されるが、A-VIがF-VIの一般的な代替品としても使えるのは理にかなっている。 本稿では,ベイズ近似にA-VIをいつ,なぜ利用できるのかを考察する。 A-VI が F-VI の最適解を得るために必要で十分かつ検証可能な潜在変数モデル上で条件を導出し,アモータイズギャップを閉じる。 これらの条件は、機械学習において多くのモデルを含む幅広いクラスである単純な階層モデルによって一意に検証されていることを証明している。 次に、より広範なモデルのクラスにおいて、AVIの推論関数の領域を拡張してその解を改善する方法を示し、例えば、アモート化ギャップを閉じることができない隠れマルコフモデルを提案する。

In a probabilistic latent variable model, factorized (or mean-field) variational inference (F-VI) fits a separate parametric distribution for each latent variable. Amortized variational inference (A-VI) instead learns a common inference function, which maps each observation to its corresponding latent variable's approximate posterior. Typically, A-VI is used as a step in the training of variational autoencoders, however it stands to reason that A-VI could also be used as a general alternative to F-VI. In this paper we study when and why A-VI can be used for approximate Bayesian inference. We derive conditions on a latent variable model which are necessary, sufficient, and verifiable under which A-VI can attain F-VI's optimal solution, thereby closing the amortization gap. We prove these conditions are uniquely verified by simple hierarchical models, a broad class that encompasses many models in machine learning. We then show, on a broader class of models, how to expand the domain of AVI's inference function to improve its solution, and we provide examples, e.g. hidden Markov models, where the amortization gap cannot be closed.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-23
# 階層型時間論理仕様に基づく複数ロボットの分解に基づく階層型タスク割当と計画

Decomposition-based Hierarchical Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2308.10393v3 )

ライセンス: Link先を確認
Xusheng Luo, Shaojun Xu, Ruixuan Liu, Changliu Liu, (参考訳) 時間論理仕様を用いたロボット計画に関する過去の研究、特に線形時間論理(LTL)は、主に個々のロボットやグループの単一の公式に基づいていた。 しかし、タスクの複雑さが増大するにつれて、LTLの公式は必然的に長大になり、解釈と仕様生成が複雑になり、プランナーの計算能力が低下する。 最近の開発は、複数の時間論理仕様を含むLTL~\cite{luo2024simultaneous}の階層的表現であり、より解釈可能なフレームワークを提供している。 しかし,提案した計画アルゴリズムでは,各仕様内でのロボットの独立性を仮定し,複雑な時間的制約を伴うマルチロボット協調に限定する。 本研究では,分解に基づく階層的枠組みを定式化した。 高いレベルでは、各仕様はまず原子サブタスクのセットに分解される。 さらに,タスクネットワークを構築するために,異なる仕様のサブタスク間の時間的関係を推測する。 その後、様々なロボットにサブタスクを割り当てるためにMixed Integer Linear Programが使用される。 下位レベルでは、サブタスクを実行するためにドメイン固有のコントローラが使用される。 本手法はナビゲーションと操作の領域に実験的に適用された。 シミュレーションにより、より少ないランタイムでより良いソリューションを見つけることができることを示した。

Past research into robotic planning with temporal logic specifications, notably Linear Temporal Logic (LTL), was largely based on a single formula for individual or groups of robots. But with increasing task complexity, LTL formulas unavoidably grow lengthy, complicating interpretation and specification generation, and straining the computational capacities of the planners. A recent development has been the hierarchical representation of LTL~\cite{luo2024simultaneous} that contains multiple temporal logic specifications, providing a more interpretable framework. However, the proposed planning algorithm assumes the independence of robots within each specification, limiting their application to multi-robot coordination with complex temporal constraints. In this work, we formulated a decomposition-based hierarchical framework. At the high level, each specification is first decomposed into a set of atomic sub-tasks. We further infer the temporal relations among the sub-tasks of different specifications to construct a task network. Subsequently, a Mixed Integer Linear Program is used to assign sub-tasks to various robots. At the lower level, domain-specific controllers are employed to execute sub-tasks. Our approach was experimentally applied to domains of navigation and manipulation. The simulation demonstrated that our approach can find better solutions using less runtimes.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-23
# 量子スピン鎖における非安定化剤性の臨界挙動

Critical behaviours of non-stabilizerness in quantum spin chains ( http://arxiv.org/abs/2309.00676v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, (参考訳) 非安定化器性(Non-stabilizerness、通称マジック)は、量子状態が安定状態から逸脱する程度を測り、普遍的な量子計算を達成するための基本的な資源である。 本研究では, 量子スピン鎖の臨界度に関する非安定化剤の挙動について検討する。 非安定度を定量化するために、離散ウィグナー関数の負性に基づいて、マナと呼ばれるモノトーンを用いる。 この尺度は、純粋な状態と混合状態の両方の非安定化剤性をキャプチャする。 マナのR'enyi一般化は、純粋な状態に対する非安定化性の尺度でもあり、大きな量子系におけるマナの計算に利用される。 我々は三状態ポッツモデルとその非可積分拡大を考察し、共形場理論において相互マナが共形場理論において距離で普遍対数スケーリングを示すという強い証拠を与える。

Non-stabilizerness - commonly known as magic - measures the extent to which a quantum state deviates from stabilizer states and is a fundamental resource for achieving universal quantum computation. In this work, we investigate the behavior of non-stabilizerness around criticality in quantum spin chains. To quantify non-stabilizerness, we employ a monotone called mana, based on the negativity of the discrete Wigner function. This measure captures non-stabilizerness for both pure and mixed states. We introduce R\'enyi generalizations of mana, which are also measures of non-stabilizerness for pure states, and utilize it to compute mana in large quantum systems. We consider the three-state Potts model and its non-integrable extension and we provide strong evidence that the mutual mana exhibits universal logarithmic scaling with distance in conformal field theory, as is the case for entanglement.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-23
# Des-q:決定木の再学習を確実に高速化する量子アルゴリズム

Des-q: a quantum algorithm to provably speedup retraining of decision trees ( http://arxiv.org/abs/2309.09976v4 )

ライセンス: Link先を確認
Niraj Kumar, Romina Yalovetzky, Changhao Li, Pierre Minssen, Marco Pistoia, (参考訳) 決定木はその単純さと説明可能性のために広く採用されている機械学習モデルである。 しかし、トレーニングデータのサイズが大きくなるにつれて、標準手法は徐々に遅くなり、トレーニング例の数とともに多項式的にスケールする。 本研究では、回帰および二分分類タスクのための決定木の構築と再学習を行う新しい量子アルゴリズムであるDes-qを紹介する。 データストリームが新しいトレーニング例の小さな周期的なインクリメントを生成すると仮定すると、Des-qは、新しいサンプルを量子アクセス可能なメモリにロードするのに必要な時間でさえも、古いサンプルと新しいサンプルの合計数の対数的複雑さを達成して、ツリー再トレーニング時間を著しく削減する。 木を任意のノードから成長させるアプローチは、複数の超平面を生成するために分割的に線形分割を行い、入力特徴空間を異なる領域に分割する。 これらの分割に適したアンカーポイントを決定するために,Kerenidis \etal氏が導入したq-meansアルゴリズムに基づく効率的な量子教師付きクラスタリング手法を開発した。

Decision trees are widely adopted machine learning models due to their simplicity and explainability. However, as training data size grows, standard methods become increasingly slow, scaling polynomially with the number of training examples. In this work, we introduce Des-q, a novel quantum algorithm to construct and retrain decision trees for regression and binary classification tasks. Assuming the data stream produces small, periodic increments of new training examples, Des-q significantly reduces the tree retraining time, achieving a logarithmic complexity in the combined total number of old and new examples, even accounting for the time needed to load the new samples into quantum-accessible memory. Our approach to grow the tree from any given node involves performing piecewise linear splits to generate multiple hyperplanes, thus partitioning the input feature space into distinct regions. To determine the suitable anchor points for these splits, we develop an efficient quantum-supervised clustering method, building upon the q-means algorithm introduced by Kerenidis \etal We benchmark the simulated version of Des-q against the state-of-the-art classical methods on multiple data sets and observe that our algorithm exhibits similar performance to the state-of-the-art decision trees while significantly speeding up the periodic tree retraining.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-23
# 犬皮膚乳腺腫瘍における核多型 : 予後と予後との関連性の比較 : 評価, 手動形態, アルゴリズム形態の比較

Nuclear Pleomorphism in Canine Cutaneous Mast Cell Tumors: Comparison of Reproducibility and Prognostic Relevance between Estimates, Manual Morphometry and Algorithmic Morphometry ( http://arxiv.org/abs/2309.15031v3 )

ライセンス: Link先を確認
Andreas Haghofer, Eda Parlak, Alexander Bartel, Taryn A. Donovan, Charles-Antoine Assenmacher, Pompei Bolfa, Michael J. Dark, Andrea Fuchs-Baumgartinger, Andrea Klang, Kathrin Jäger, Robert Klopfleisch, Sophie Merz, Barbara Richter, F. Yvonne Schulman, Hannah Janout, Jonathan Ganz, Josef Scharinger, Marc Aubreville, Stephan M. Winkler, Matti Kiupel, Christof A. Bertram, (参考訳) 核の大きさと形状の変化は多くの腫瘍の悪性度の重要な基準であるが、病理学者による分類学的評価は再現性に乏しい。 核特性の測定(モルフォメトリー)は再現性を向上させるが、手動の手法は時間を要する。 本研究の目的は,犬皮膚マスト細胞腫瘍 (ccMCT) に対する評価限界を調査し, 代替形態計測法を開発することである。 我々は, 測定精度, 再現性, 予測実用性について, 以下の核評価法を評価した。 1) 悪性黒色腫(カリオメガリー)は11名の病理医によって推定される。 2) 少なくとも100個の核の金標準手動形態計測 3)9人の病理医による12個の核の成層サンプリングによる手動形態計測 4)ディープラーニングベースセグメンテーションアルゴリズムを用いて自動形態計測を行った。 研究データセットは96 ccMCTからなり,結果情報が得られた。 研究データセットは96 ccMCTからなり,結果情報が得られた。 核の大きさの標準偏差(SD)の実用可能なモルフォメトリーにはICC = 0.654 が有効であったのに対し、カリオメガリー推定のラター間再現性は低い(\kappa$ = 0.226)。 金標準手形計(AUC = 0.839, 95% CI: 0.701 - 0.977)と比較して、練習可能な手形計(12核)の核領域のSDの予後値(腫瘍特異的生存率)は、それぞれ0.868(95% CI: 0.737 - 0.991)と0.943(95% CI: 0.889 - 0.996)の領域で高い値を示した。 本研究は,12個の原子核を成層的に採取した手動形態計測と,推定の再現性の低さを克服するためのアルゴリズム的形態計測を併用した手動形態計測の活用を支援する。

Variation in nuclear size and shape is an important criterion of malignancy for many tumor types; however, categorical estimates by pathologists have poor reproducibility. Measurements of nuclear characteristics (morphometry) can improve reproducibility, but manual methods are time consuming. The aim of this study was to explore the limitations of estimates and develop alternative morphometric solutions for canine cutaneous mast cell tumors (ccMCT). We assessed the following nuclear evaluation methods for measurement accuracy, reproducibility, and prognostic utility: 1) anisokaryosis (karyomegaly) estimates by 11 pathologists; 2) gold standard manual morphometry of at least 100 nuclei; 3) practicable manual morphometry with stratified sampling of 12 nuclei by 9 pathologists; and 4) automated morphometry using a deep learning-based segmentation algorithm. The study dataset comprised 96 ccMCT with available outcome information. The study dataset comprised 96 ccMCT with available outcome information. Inter-rater reproducibility of karyomegaly estimates was low ($\kappa$ = 0.226), while it was good (ICC = 0.654) for practicable morphometry of the standard deviation (SD) of nuclear size. As compared to gold standard manual morphometry (AUC = 0.839, 95% CI: 0.701 - 0.977), the prognostic value (tumor-specific survival) of SDs of nuclear area for practicable manual morphometry (12 nuclei) and automated morphometry were high with an area under the ROC curve (AUC) of 0.868 (95% CI: 0.737 - 0.991) and 0.943 (95% CI: 0.889 - 0.996), respectively. This study supports the use of manual morphometry with stratified sampling of 12 nuclei and algorithmic morphometry to overcome the poor reproducibility of estimates.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-23
# 潜時情報を用いた視覚的観察からの敵対的模倣学習

Adversarial Imitation Learning from Visual Observations using Latent Information ( http://arxiv.org/abs/2309.17371v3 )

ライセンス: Link先を確認
Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis, (参考訳) 視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。 この枠組みの課題は、専門家の行動の欠如と環境の部分的な観察可能性である。 この問題に対処するために、我々はまず部分的に観測可能な環境で模倣学習の理論解析を行う。 我々は、専門家とエージェントの潜伏状態遷移分布のばらつきに関して、学習エージェントの最適度に関する上限を確立する。 この分析に動機づけられて、我々は、非政治的敵対的模倣技法と、観察のシーケンスからエージェントの状態の学習された潜在表現を組み合わせた、Latent Adversarial Imitation from Observationsというアルゴリズムを導入した。 高次元連続ロボットタスクの実験では、潜在空間におけるモデルフリーアプローチが最先端の性能と一致していることが示されている。 さらに,本手法は,専門家ビデオを活用することにより,画素からの強化学習の効率向上に有効であることを示す。 再現性を確保するため、コードへの無料アクセスを提供しています。

We focus on the problem of imitation learning from visual observations, where the learning agent has access to videos of experts as its sole learning source. The challenges of this framework include the absence of expert actions and the partial observability of the environment, as the ground-truth states can only be inferred from pixels. To tackle this problem, we first conduct a theoretical analysis of imitation learning in partially observable environments. We establish upper bounds on the suboptimality of the learning agent with respect to the divergence between the expert and the agent latent state-transition distributions. Motivated by this analysis, we introduce an algorithm called Latent Adversarial Imitation from Observations, which combines off-policy adversarial imitation techniques with a learned latent representation of the agent's state from sequences of observations. In experiments on high-dimensional continuous robotic tasks, we show that our model-free approach in latent space matches state-of-the-art performance. Additionally, we show how our method can be used to improve the efficiency of reinforcement learning from pixels by leveraging expert videos. To ensure reproducibility, we provide free access to our code.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-23
# プライベート高次元モデル選択の計算複雑性について

On the Computational Complexity of Private High-dimensional Model Selection ( http://arxiv.org/abs/2310.07852v4 )

ライセンス: Link先を確認
Saptarshi Roy, Zehua Wang, Ambuj Tewari, (参考訳) プライバシー制約下での高次元疎線形回帰モデルにおけるモデル選択の問題点を考察する。 本稿では,モデル選択によく知られた指数的メカニズムを応用して,高い効用性を有する差分プライベートなベストサブセット選択法を提案する。 本稿では,効率的なメトロポリス・ハスティングスアルゴリズムを提案し,その定常分布に多項式混合時間を持つことを示す。 さらに、混合メトロポリス・ハスティングス連鎖の推定値に対して近似微分プライバシーを確立する。 最後に、我々のアルゴリズムの強力な有用性を示すいくつかの実証実験を行う。

We consider the problem of model selection in a high-dimensional sparse linear regression model under privacy constraints. We propose a differentially private best subset selection method with strong utility properties by adopting the well-known exponential mechanism for selecting the best model. We propose an efficient Metropolis-Hastings algorithm and establish that it enjoys polynomial mixing time to its stationary distribution. Furthermore, we also establish approximate differential privacy for the estimates of the mixed Metropolis-Hastings chain. Finally, we perform some illustrative experiments that show the strong utility of our algorithm.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-23
# エピソードPOMDPのための後方サンプリングに基づくオンライン学習

Posterior Sampling-based Online Learning for Episodic POMDPs ( http://arxiv.org/abs/2310.10107v3 )

ライセンス: Link先を確認
Dengwang Tang, Dongze Ye, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo, (参考訳) POMDPでの学習は、MDPよりもはるかに難しいことが知られている。 本稿では,未知の遷移モデルと観測モデルを持つエピソードPOMDPのオンライン学習問題について考察する。 本稿では,PS4POMDP(Posterior Sampling-based reinforcement learning algorithm for POMDPs)を提案する。 提案したアルゴリズムに対するベイズ的後悔は、各エピソードの平方根としてスケールし、下界と一致し、他のパラメータの多項式であることを示す。 一般的な設定では、その後悔は地平線長$H$で指数関数的にスケールする。 しかし、POMDPが不完全で弱露呈であるとき(最近の文献でよく見られる仮定)、多項式ベイズ的後悔境界を確立する。 最終的に, マルチエージェントPOMDPの後方サンプリングアルゴリズムを提案し, サブ線形後悔も示している。

Learning in POMDPs is known to be significantly harder than MDPs. In this paper, we consider the online learning problem for episodic POMDPs with unknown transition and observation models. We propose a Posterior Sampling-based reinforcement learning algorithm for POMDPs (PS4POMDPs), which is much simpler and more implementable compared to state-of-the-art optimism-based online learning algorithms for POMDPs. We show that the Bayesian regret of the proposed algorithm scales as the square root of the number of episodes, matching the lower bound, and is polynomial in the other parameters. In a general setting, its regret scales exponentially in the horizon length $H$, and we show that this is inevitable by providing a lower bound. However, when the POMDP is undercomplete and weakly revealing (a common assumption in the recent literature), we establish a polynomial Bayesian regret bound. We finally propose a posterior sampling algorithm for multi-agent POMDPs, and show it too has sublinear regret.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-23
# パワーハングリー処理:AIデプロイメントのコストを抑えるには?

Power Hungry Processing: Watts Driving the Cost of AI Deployment? ( http://arxiv.org/abs/2311.16863v2 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Yacine Jernite, Emma Strubell, (参考訳) 近年、生成可能な多目的AIシステムに基づく商用AI製品の人気が高まっており、機械学習モデル(ML)を技術に組み込む統一的なアプローチを約束している。 しかしながら、「一般性」というこの野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。 本研究では,MLシステムの様々なカテゴリにおいて進行中の推論コストについて,タスク特化モデル(単一タスクを実行する微調整モデル)と汎用モデル(複数タスクのために訓練されたモデル)の両方を対象として,最初の体系的比較を行った。 これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推測を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。 モデルパラメータ数を制御する場合であっても,多目的生成アーキテクチャはタスク固有のシステムよりも桁違いに高価であることがわかった。 本稿では,多目的MLシステムの展開動向について論じるとともに,エネルギとエミッションの面でコストの増大に対して,実用性をより意図的に配慮すべきだと警告する。 われわれの研究データはすべて、インタラクティブなデモを通じてアクセスでき、さらなる探索と分析を行うことができる。

Recent years have seen a surge in the popularity of commercial AI products based on generative, multi-purpose AI systems promising a unified approach to building machine learning (ML) models into technology. However, this ambition of ``generality'' comes at a steep cost to the environment, given the amount of energy these systems require and the amount of carbon that they emit. In this work, we propose the first systematic comparison of the ongoing inference cost of various categories of ML systems, covering both task-specific (i.e. finetuned models that carry out a single task) and `general-purpose' models, (i.e. those trained for multiple tasks). We measure deployment cost as the amount of energy and carbon required to perform 1,000 inferences on representative benchmark dataset using these models. We find that multi-purpose, generative architectures are orders of magnitude more expensive than task-specific systems for a variety of tasks, even when controlling for the number of model parameters. We conclude with a discussion around the current trend of deploying multi-purpose generative ML systems, and caution that their utility should be more intentionally weighed against increased costs in terms of energy and emissions. All the data from our study can be accessed via an interactive demo to carry out further exploration and analysis.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-23
# 最適分類器変数

Optimal Categorical Instrumental Variables ( http://arxiv.org/abs/2311.17021v2 )

ライセンス: Link先を確認
Thomas Wiemann, (参考訳) 本稿では,カテゴリごとの観測回数が少ない設定において,分類器変数を用いた推定について検討する。 提案した分類器変数推定器 (CIV) は、観測機器と同じ第1段階の適合を達成できる固定有限支持を有する潜在カテゴリー変数の存在を示唆する正規化仮定を利用する。 サンプルサイズと任意の小さな多項式速度でカテゴリごとの観測回数を増大させる漸近的状態において、最適楽器の支持の濃度が知られているとき、CIVは根n漸近的正規であり、最適楽器の知識を推定するオラクルIV推定器と同じ漸近的分散を達成し、半パラメトリック的にホモスケダスティック性の下で効率が良いことを示す。 サポートポイントの数を明確化することは効率を低下させるが、漸近的正規性を維持する。 判定固定効果を楽器として活用するアプリケーションにおいて、CIVは一般的なジャックニフェに基づく楽器変数推定器と比較して好意的に比較する。

This paper discusses estimation with a categorical instrumental variable in settings with potentially few observations per category. The proposed categorical instrumental variable estimator (CIV) leverages a regularization assumption that implies existence of a latent categorical variable with fixed finite support achieving the same first stage fit as the observed instrument. In asymptotic regimes that allow the number of observations per category to grow at arbitrary small polynomial rate with the sample size, I show that when the cardinality of the support of the optimal instrument is known, CIV is root-n asymptotically normal, achieves the same asymptotic variance as the oracle IV estimator that presumes knowledge of the optimal instrument, and is semiparametrically efficient under homoskedasticity. Under-specifying the number of support points reduces efficiency but maintains asymptotic normality. In an application that leverages judge fixed effects as instruments, CIV compares favorably to commonly used jackknife-based instrumental variable estimators.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-23
# グラフニューラルネットワークを用いたPM$_{2.5}$予測による予報火災の空気質への影響のシミュレーション

Simulating the Air Quality Impact of Prescribed Fires Using Graph Neural Network-Based PM$_{2.5}$ Forecasts ( http://arxiv.org/abs/2312.04291v2 )

ライセンス: Link先を確認
Kyleen Liao, Jatan Buch, Kara Lamb, Pierre Gentine, (参考訳) 米国西部の山火事の規模と深刻度は近年、PM$_{2.5}$濃度の危険なレベルを生み出している。 変化する気候では、所定の火災の利用を拡大することが最も堅牢な消火戦略であると考えられている。 しかし、特定火災による潜在的な大気質への影響を確実に予測することは、特定火災の位置と時刻を時間ごとから日毎のスケールで計画する上で重要な課題である。 本稿では,時空間グラフニューラルネットワーク(GNN)を用いた1時間PM$_{2.5}$予測モデルを提案する。 2段階のアプローチを用いて、予測モデルを用いて、山火事のPM$_{2.5}$寄与を推定する。 本稿では,GNNに基づくPM$_{2.5}$予測モデルと所定の火災シミュレーションを統合し,PM$_{2.5}$予測のための新しい枠組みを提案する。 この枠組みは、カリフォルニアで所定の火災を実施するのに最適な月として3月を決定するのに役立ち、火災シーズンの外でより所定の火災を行うのにかかわる潜在的な大気質のトレードオフを定量化する。

The increasing size and severity of wildfires across the western United States have generated dangerous levels of PM$_{2.5}$ concentrations in recent years. In a changing climate, expanding the use of prescribed fires is widely considered to be the most robust fire mitigation strategy. However, reliably forecasting the potential air quality impact from prescribed fires, which is critical in planning the prescribed fires' location and time, at hourly to daily time scales remains a challenging problem. In this paper, we introduce a spatial-temporal graph neural network (GNN) based forecasting model for hourly PM$_{2.5}$ predictions across California. Using a two-step approach, we leverage our forecasting model to estimate the PM$_{2.5}$ contribution of wildfires. Integrating the GNN-based PM$_{2.5}$ forecasting model with prescribed fire simulations, we propose a novel framework to forecast the PM$_{2.5}$ pollution of prescribed fires. This framework helps determine March as the optimal month for implementing prescribed fires in California and quantifies the potential air quality trade-offs involved in conducting more prescribed fires outside the fire season.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-23
# サドル支配スクランブルにおけるスプレッド複雑性

Spread complexity in saddle-dominated scrambling ( http://arxiv.org/abs/2312.12593v3 )

ライセンス: Link先を確認
Kyoung-Bum Huh, Hyun-Sik Jeong, Juan F. Pedraza, (参考訳) 近年、量子系の複雑性とカオス性の尺度として、拡散複雑性(状態に対するクリロフ複雑性)の概念が導入されている。 本稿では,サドルを支配下に置くサーモフィールド二重状態の拡散複雑性を<emph{integrable>系で検討する。 具体的には,サドルが支配するスクランブルを特徴とする量子力学系の代表的な例として,Lipkin-Meshkov-Glickモデルと逆調和振動子に着目した。 Lanczosアルゴリズムの適用により,これらのシステムにおける拡散複雑性は,特異なランプピーク・スロープ・プラトーパターンを呈する 'emph{chaotic} 系を連想させる特徴を示すことが明らかとなった。 我々の結果は、拡散複雑性は貴重なプローブとして機能するが、真の量子カオスを正確に診断することは、一般的に追加の物理入力を必要とすることを示唆している。 また、拡散複雑性、スペクトル形成係数、クリロフ空間内の遷移確率との関係についても検討する。 計算結果を解析的に確認し、Ehrenfestの複雑性定理を検証し、拡散複雑性の初期状態における2次的挙動を同定する。

Recently, the concept of spread complexity, Krylov complexity for states, has been introduced as a measure of the complexity and chaoticity of quantum systems. In this paper, we study the spread complexity of the thermofield double state within \emph{integrable} systems that exhibit saddle-dominated scrambling. Specifically, we focus on the Lipkin-Meshkov-Glick model and the inverted harmonic oscillator as representative examples of quantum mechanical systems featuring saddle-dominated scrambling. Applying the Lanczos algorithm, our numerical investigation reveals that the spread complexity in these systems exhibits features reminiscent of \emph{chaotic} systems, displaying a distinctive ramp-peak-slope-plateau pattern. Our results indicate that, although spread complexity serves as a valuable probe, accurately diagnosing true quantum chaos generally necessitates additional physical input. We also explore the relationship between spread complexity, the spectral form factor, and the transition probability within the Krylov space. We provide analytical confirmation of our numerical results, validating the Ehrenfest theorem of complexity and identifying a distinct quadratic behavior in the early-time regime of spread complexity.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-23
# AI生成合成画像の認識のためのハラスティング機械学習

Harnessing Machine Learning for Discerning AI-Generated Synthetic Images ( http://arxiv.org/abs/2401.07358v2 )

ライセンス: Link先を確認
Yuyang Wang, Yizhi Hao, Amando Xu Cong, (参考訳) デジタルメディアの領域では、AI生成合成画像の出現は、実物と製作された視覚コンテンツを区別する上で大きな課題をもたらしている。 これらの画像は、しばしば真偽とは区別できないが、デジタルメディアの信頼性への脅威となり、偽情報や詐欺に影響を及ぼす可能性がある。 我々の研究は、AI生成画像と実画像の識別に機械学習技術を活用することで、この課題に対処する。 私たちのアプローチの中心は、"Real"と"Fake"とラベル付けされた画像の包括的なコレクションであるCIFAKEデータセットです。 ResNet、VGGNet、DenseNetといった先進的なディープラーニングアーキテクチャを洗練・適応し、トランスファーラーニングを利用して合成画像の識別精度を向上させる。 また,これらを,バニラサポートベクトルマシン(SVM)と独自の畳み込みニューラルネットワーク(CNN)からなるベースラインモデルと比較した。 DenseNetは97.74%の精度で、私たちの最適化されたディープラーニングモデルは従来の手法より優れていることを示した。 我々の応用研究は、これらの高度なモデルを用いて合成画像の検出を最適化し、様々なメトリクスを用いて比較分析を行い、従来の機械学習技術よりもAI生成画像を識別する優れた能力を実証することで貢献する。 この研究は、デジタルメディアの整合性の分野を前進させるだけでなく、デジタルメディアにおけるAI生成コンテンツの倫理的・技術的側面を探求するための基盤となる。

In the realm of digital media, the advent of AI-generated synthetic images has introduced significant challenges in distinguishing between real and fabricated visual content. These images, often indistinguishable from authentic ones, pose a threat to the credibility of digital media, with potential implications for disinformation and fraud. Our research addresses this challenge by employing machine learning techniques to discern between AI-generated and genuine images. Central to our approach is the CIFAKE dataset, a comprehensive collection of images labeled as "Real" and "Fake". We refine and adapt advanced deep learning architectures like ResNet, VGGNet, and DenseNet, utilizing transfer learning to enhance their precision in identifying synthetic images. We also compare these with a baseline model comprising a vanilla Support Vector Machine (SVM) and a custom Convolutional Neural Network (CNN). The experimental results were significant, demonstrating that our optimized deep learning models outperform traditional methods, with DenseNet achieving an accuracy of 97.74%. Our application study contributes by applying and optimizing these advanced models for synthetic image detection, conducting a comparative analysis using various metrics, and demonstrating their superior capability in identifying AI-generated images over traditional machine learning techniques. This research not only advances the field of digital media integrity but also sets a foundation for future explorations into the ethical and technical dimensions of AI-generated content in digital media.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-23
# DiffClone: 拡散駆動型ポリシー学習によるロボットの行動クローンの強化

DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning ( http://arxiv.org/abs/2401.09243v3 )

ライセンス: Link先を確認
Sabariswaran Mani, Sreyas Venkataraman, Abhranil Chandra, Adyan Rizvi, Yash Sirvi, Soumojit Bhattacharya, Aritra Hazra, (参考訳) ロボット学習タスクは計算集約的でハードウェア固有のものだ。 このように、ロボット操作エージェントのトレーニングに使用できるオフラインデモの多様なデータセットを使用して、これらの課題に対処する道のりは、非常に魅力的である。 Train-Offline-Test-Online (TOTO) Benchmarkは、専門家データと、一般的なオフラインRLと行動クローンエージェントのベンチマークスコアで構成される、オフライントレーニングのための、よく訓練されたオープンソースデータセットを提供する。 本稿では,拡散型ポリシー学習を用いた拡張行動クローニングエージェントのオフラインアルゴリズムであるDiffCloneを紹介し,本手法の有効性を実時間で測定する。 これは、NeurIPS 2023で組織されたTrain-Offline-Test-Online (TOTO) Benchmark Challengeへの公式提出です。 事前学習した視覚表現とエージェントポリシーを実験した。 実験の結果,MOCOファインチューニングされたResNet50は,他のファインチューニングされた表現と比較して最高であることがわかった。 ゴール状態の条件付けとトランジションへのマッピングは、成功率と平均回帰をわずかに増加させた。 DiffCloneは, 条件付き拡散法により改良された行動クローニング剤である。

Robot learning tasks are extremely compute-intensive and hardware-specific. Thus the avenues of tackling these challenges, using a diverse dataset of offline demonstrations that can be used to train robot manipulation agents, is very appealing. The Train-Offline-Test-Online (TOTO) Benchmark provides a well-curated open-source dataset for offline training comprised mostly of expert data and also benchmark scores of the common offline-RL and behaviour cloning agents. In this paper, we introduce DiffClone, an offline algorithm of enhanced behaviour cloning agent with diffusion-based policy learning, and measured the efficacy of our method on real online physical robots at test time. This is also our official submission to the Train-Offline-Test-Online (TOTO) Benchmark Challenge organized at NeurIPS 2023. We experimented with both pre-trained visual representation and agent policies. In our experiments, we find that MOCO finetuned ResNet50 performs the best in comparison to other finetuned representations. Goal state conditioning and mapping to transitions resulted in a minute increase in the success rate and mean-reward. As for the agent policy, we developed DiffClone, a behaviour cloning agent improved using conditional diffusion.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-23
# MetaOptimize: ステップサイズや他のメタパラメータを最適化するためのフレームワーク

MetaOptimize: A Framework for Optimizing Step Sizes and Other Meta-parameters ( http://arxiv.org/abs/2402.02342v3 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Saber Salehkaleybar, Richard Sutton, (参考訳) 本稿では,機械学習アルゴリズムにおけるメタパラメータ(ハイパーパラメータ)の最適化という課題に対処する。 計算コストのかかる従来のメタパラメータ探索手法から離れ、トレーニング中にメタパラメータ、特にステップサイズ(学習率)を動的に調整するメタ最適化フレームワークを導入する。 より具体的に言えば、MetaOptimizeは任意の一階最適化アルゴリズムをラップし、ステップサイズを調整して、将来の損失の割引によって、トレーニングにおけるステップサイズが長期的な影響を考慮に入れている後悔の特定の形態を最小化することができる。 また,MetaOptimizeの低複雑性な変種を導入し,複数の最適化アルゴリズムへの適応性とともに,さまざまな機械学習アプリケーションにまたがる手作り学習率の最高のスケジュールに匹敵する性能を示す。

This paper addresses the challenge of optimizing meta-parameters (i.e., hyperparameters) in machine learning algorithms, a critical factor influencing training efficiency and model performance. Moving away from the computationally expensive traditional meta-parameter search methods, we introduce MetaOptimize framework that dynamically adjusts meta-parameters, particularly step sizes (also known as learning rates), during training. More specifically, MetaOptimize can wrap around any first-order optimization algorithm, tuning step sizes on the fly to minimize a specific form of regret that accounts for long-term effect of step sizes on training, through a discounted sum of future losses. We also introduce low complexity variants of MetaOptimize that, in conjunction with its adaptability to multiple optimization algorithms, demonstrate performance competitive to those of best hand-crafted learning rate schedules across various machine learning applications.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-23
# 空間設定における予測手法の一貫性検証

Consistent Validation for Predictive Methods in Spatial Settings ( http://arxiv.org/abs/2402.03527v2 )

ライセンス: Link先を確認
David R. Burt, Yunyi Shen, Tamara Broderick, (参考訳) 空間予測タスクは、天気予報、大気汚染の研究、その他の科学的取り組みの鍵となる。 統計的または物理的手法による予測をどの程度信頼するかを決定することは、科学的結論の信頼性に不可欠である。 残念ながら、バリデーションのための古典的なアプローチでは、バリデーションで利用可能な場所と、予測したい場所(テスト)との間のミスマッチを処理できません。 このミスマッチは、2つの分布の単位ではなく、検証とテストの場所が固定されている(例えば、格子上や選択点)ため、共変量シフトの例ではない(一般に形式化されている)。 本研究は,検証データが任意に密集するにつれて,任意に正確になる検証方法のチェックを形式化する。 古典的および共変量シフト法がこのチェックに失敗する可能性があることを示す。 その代わりに、共変量シフト文学における既存のアイデアから構築する手法を提案するが、それらを手元にある検証データに適応させる。 私たちは提案がチェックに合格したことを証明します。 そして、シミュレーションと実データにその利点を実証的に示す。

Spatial prediction tasks are key to weather forecasting, studying air pollution, and other scientific endeavors. Determining how much to trust predictions made by statistical or physical methods is essential for the credibility of scientific conclusions. Unfortunately, classical approaches for validation fail to handle mismatch between locations available for validation and (test) locations where we want to make predictions. This mismatch is often not an instance of covariate shift (as commonly formalized) because the validation and test locations are fixed (e.g., on a grid or at select points) rather than i.i.d. from two distributions. In the present work, we formalize a check on validation methods: that they become arbitrarily accurate as validation data becomes arbitrarily dense. We show that classical and covariate-shift methods can fail this check. We instead propose a method that builds from existing ideas in the covariate-shift literature, but adapts them to the validation data at hand. We prove that our proposal passes our check. And we demonstrate its advantages empirically on simulated and real data.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-23
# QGFN:アクション値によるコントロール可能なグレディネス

QGFN: Controllable Greediness with Action Values ( http://arxiv.org/abs/2402.05234v2 )

ライセンス: Link先を確認
Elaine Lau, Stephen Zhewen Lu, Ling Pan, Doina Precup, Emmanuel Bengio, (参考訳) Generative Flow Networks (GFlowNets; GFNs) は、複合オブジェクトに対する報酬/エネルギーベースの生成手法のファミリーであり、多種多様な高ユーティリティなサンプルを生成することができる。 しかし、GFNを高実用性サンプルに偏り付けることは簡単ではない。 本研究では、GFNと強化学習(RL)の接続を活用し、GFNポリシーをアクション値の推定値である$Q$と組み合わせて、混合パラメータで制御可能なグリーディエサンプリングポリシーを作成することを提案する。 提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。

Generative Flow Networks (GFlowNets; GFNs) are a family of reward/energy-based generative methods for combinatorial objects, capable of generating diverse and high-utility samples. However, biasing GFNs towards producing high-utility samples is non-trivial. In this work, we leverage connections between GFNs and reinforcement learning (RL) and propose to combine the GFN policy with an action-value estimate, $Q$, to create greedier sampling policies which can be controlled by a mixing parameter. We show that several variants of the proposed method, QGFN, are able to improve on the number of high-reward samples generated in a variety of tasks without sacrificing diversity.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-23
# 最後のダンス : 拡散モデルとベイズ的アプローチによるロバスト・バックドア攻撃

The last Dance : Robust backdoor attack via diffusion models and bayesian approach ( http://arxiv.org/abs/2402.05967v4 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 拡散モデル (diffusion model) は、ノイズや雑音の進行的な付加による前方および後方拡散過程の学習原理に基づいて訓練された最先端のディープラーニング生成モデルである。 本稿では,Hugging Faceフレームワークなどの音声ベースのDNNモデル,特に,時間を節約し,より効率的に結果を得る強力な機械学習モデルであるトランスフォーマーベースの人工知能モデルに焦点をあてる。 我々は、人工知能研究の世界で人気のあるフレームワークであるHugging Faceから派生したオーディオトランスフォーマーにおけるバックドア攻撃("BacKBayDiffMod`"と呼ばれる)の実現可能性を示す。 本研究で開発されたバックドアアタックは, バックドア拡散サンプリングとベイズ的アプローチを取り入れた有毒モデルトレーニングデータに基づく。

Diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we aim to fool audio-based DNN models, such as those from the Hugging Face framework, primarily those that focus on audio, in particular transformer-based artificial intelligence models, which are powerful machine learning models that save time and achieve results faster and more efficiently. We demonstrate the feasibility of backdoor attacks (called `BacKBayDiffMod`) on audio transformers derived from Hugging Face, a popular framework in the world of artificial intelligence research. The backdoor attack developed in this paper is based on poisoning model training data uniquely by incorporating backdoor diffusion sampling and a Bayesian approach to the distribution of poisoned data.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-23
# Premier-TACO : 時間的行動駆動型コントラスト損失によるマルチタスク表現の事前学習

Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss ( http://arxiv.org/abs/2402.06187v4 )

ライセンス: Link先を確認
Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang, (参考訳) 逐次意思決定タスクにおける数ショットのポリシー学習効率向上を目的としたマルチタスク特徴表現学習手法であるPremier-TACOを提案する。 Premier-TACOは、一般的な特徴表現を事前トレーニングするために、マルチタスクのオフラインデータセットのサブセットを活用する。 これは、新しいネガティブなサンプルサンプリング戦略を取り入れることで、最先端の視覚制御タスクで知られている時間的アクションコントラッシブラーニング(TACO)の目標を推し進める。 この戦略は、TACOの計算効率を大幅に向上させ、大規模なマルチタスクのオフライン事前訓練を可能にするために重要である。 Deepmind Control Suite, MetaWorld, LIBEROなど, 多様な連続制御ベンチマークにおいて, 視覚表現の事前訓練におけるPremier-TACOの有効性を実証し, 新規タスクの数発の模倣学習を著しく向上させた。 私たちのコード、事前トレーニングデータ、および事前トレーニングされたモデルチェックポイントはhttps://github.com/PremierTACO/premier-taco.comでリリースされます。 プロジェクトのWebページはhttps://premiertaco.github.io.comにある。

We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO's computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco. Our project webpage is at https://premiertaco.github.io.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-23
# スライド表現全体を学習するための自己教師型フレームワーク

A self-supervised framework for learning whole slide representations ( http://arxiv.org/abs/2402.06188v2 )

ライセンス: Link先を確認
Xinhai Hou, Cheng Jiang, Akhil Kondepudi, Yiwei Lyu, Asadur Chowdury, Honglak Lee, Todd C. Hollon, (参考訳) 全スライドイメージングは、生体顕微鏡と計算病理学の基礎となる。 これまで、ギガピクセルサイズのスライド画像(WSI)の学習表現は、様々な形態的特徴やWSIの空間的不均一性を注釈しない弱いラベルを持つ複数のインスタンス学習に依存してきた。 WSIの高品質な自己教師付き学習手法は、高密度アノテーションを必要とせず、下流の計算病理タスクに伝達可能な視覚表現を提供する。 ギガピクセル規模のWSIの自己スーパービジョンのためのSlide Pre-trained Transformer(SPT)を提案する。 WSIパッチをトークンとして扱うことで、SPTは言語とビジョンモデリングからのデータ変換戦略を総合的なフレームワークに統合し、自己監督型事前トレーニングのためのWSIのビューを生成する。 SPTは、WSI内の固有の地域的不均一性、組織学的特徴変数、および情報冗長性を活用して、高品質なスライド表現を学習する。 バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。 SPTは、病理組織学的診断、癌サブタイプ、遺伝子変異予測のベースラインを著しく上回る。 最後に、SPTは、オフザシェルフ、インドメイン、基礎的なパッチエンコーダを使用して、スライドの複数インスタンス学習全体に対して、スライド表現を一貫して改善することを示した。

Whole slide imaging is fundamental to biomedical microscopy and computational pathology. Previously, learning representations for gigapixel-sized whole slide images (WSIs) has relied on multiple instance learning with weak labels, which do not annotate the diverse morphologic features and spatial heterogeneity of WSIs. A high-quality self-supervised learning method for WSIs would provide transferable visual representations for downstream computational pathology tasks, without the need for dense annotations. We present Slide Pre-trained Transformers (SPT) for gigapixel-scale self-supervision of WSIs. Treating WSI patches as tokens, SPT combines data transformation strategies from language and vision modeling into a general and unified framework to generate views of WSIs for self-supervised pretraining. SPT leverages the inherent regional heterogeneity, histologic feature variability, and information redundancy within WSIs to learn high-quality whole slide representations. We benchmark SPT visual representations on five diagnostic tasks across three biomedical microscopy datasets. SPT significantly outperforms baselines for histopathologic diagnosis, cancer subtyping, and genetic mutation prediction. Finally, we demonstrate that SPT consistently improves whole slide representations when using off-the-shelf, in-domain, and foundational patch encoders for whole slide multiple instance learning.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-23
# プロンプティングを伴わないチェーン・オブ・サート推論

Chain-of-Thought Reasoning Without Prompting ( http://arxiv.org/abs/2402.10200v2 )

ライセンス: Link先を確認
Xuezhi Wang, Denny Zhou, (参考訳) 大規模言語モデル(LLM)の推論能力を高めるために、従来の研究は主に、少数ショットやゼロショット・チェーン・オブ・シークレット(CoT)プロンプトのような特定のプロンプト技術に焦点を当てていた。 これらの手法は効果的であるが、しばしば手動の急進的なエンジニアリングを伴っている。 我々の研究は、LLMがプロンプトなしで効果的に理性にかかわるかどうかを問うことによって、新しいアプローチを採っている。 以上の結果から, CoT 推論経路は, 単に \textit{decoding} プロセスを変更するだけで, 事前学習した LLM から引き出すことができることがわかった。 従来のgreedy復号法ではなく、上位$kの代替トークンを調査し、CoTパスがこれらのシーケンスにしばしば依存していることを明らかにする。 このアプローチは、プロンプトの共創者を追い越すだけでなく、LLMsの \textit{intrinsic} 推論能力を評価することもできる。 さらに、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関する。 この信頼度は、CoTと非CoT経路を効果的に区別する。 様々な推論ベンチマークに関する広範な実証研究により、提案されたCoT復号法は、以前は標準グリーディ復号法によって隠蔽されていた言語モデルから推論能力を効果的に引き出すことを示した。

In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-$k$ alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding effectively elicits reasoning capabilities from language models, which were previously obscured by standard greedy decoding.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-23
# 深部神経崩壊のメカニズムとしての平均勾配外積

Average gradient outer product as a mechanism for deep neural collapse ( http://arxiv.org/abs/2402.13728v2 )

ライセンス: Link先を確認
Daniel Beaglehole, Peter Súkeník, Marco Mondelli, Mikhail Belkin, (参考訳) ディープニューラルネットワーク(Deep Neural Collapse, DNC)とは、ディープニューラルネットワーク(Deep Neural Networks, DNN)の最終層におけるデータ表現の驚くほど厳格な構造を指す。 この現象は様々な環境で測定されてきたが、その出現はデータに依存しないアプローチ(例えば制約のない特徴モデル)によって説明されるのが一般的である。 本研究では,平均勾配外積(AGOP)による特徴学習によりDNCが形成されるデータ依存環境を提案する。 AGOPは学習した予測器に対して定義され、トレーニングデータセット上で平均される入出力勾配の非中心的共分散行列と等しい。 Deep Recursive Feature Machinesは、データをAGOPに反復的にマッピングし、トレーニングされていないランダムな特徴マップを適用することによって、ニューラルネットワークを構築する方法である。 本稿では,各層で計算されたAGOP行列による投影の結果,DNCがDeep Recursive Feature Machinesで発生することを理論的,実証的に実証する。 そして、このメカニズムがより一般的にニューラルネットワークに当てはまる証拠を提供する。 特徴学習体制下で訓練されたDNNにおいて,適切な特異ベクトルと重みの値がクラス内変動の崩壊の大部分の原因となることを示す。 最近の研究で見られるように、この特異構造はAGOPと非常に相関している。

Deep Neural Collapse (DNC) refers to the surprisingly rigid structure of the data representations in the final layers of Deep Neural Networks (DNNs). Though the phenomenon has been measured in a variety of settings, its emergence is typically explained via data-agnostic approaches, such as the unconstrained features model. In this work, we introduce a data-dependent setting where DNC forms due to feature learning through the average gradient outer product (AGOP). The AGOP is defined with respect to a learned predictor and is equal to the uncentered covariance matrix of its input-output gradients averaged over the training dataset. Deep Recursive Feature Machines are a method that constructs a neural network by iteratively mapping the data with the AGOP and applying an untrained random feature map. We demonstrate theoretically and empirically that DNC occurs in Deep Recursive Feature Machines as a consequence of the projection with the AGOP matrix computed at each layer. We then provide evidence that this mechanism holds for neural networks more generally. We show that the right singular vectors and values of the weights can be responsible for the majority of within-class variability collapse for DNNs trained in the feature learning regime. As observed in recent work, this singular structure is highly correlated with that of the AGOP.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-23
# SparseLLM: 事前学習型言語モデルのグローバルプルーニングに向けて

SparseLLM: Towards Global Pruning for Pre-trained Language Models ( http://arxiv.org/abs/2402.17946v3 )

ライセンス: Link先を確認
Guangji Bai, Yijiang Li, Chen Ling, Kibaek Kim, Liang Zhao, (参考訳) LLaMAやGPTのような大規模言語モデル(LLM)が自然言語処理に与える影響は、その禁止的な計算要求に反する。 プルーニングは重要な圧縮戦略として現れ、メモリと計算効率の両方を向上させるために空間性を導入している。 しかし、従来のグローバルプルーニングはスケーラビリティの問題によりLLMにとって実用的ではないが、ローカルプルーニングは効率性に拘わらず、最適以下のソリューションにつながる。 これらの課題に対処するために、我々は、グローバルプルーニングプロセスを管理可能で調整可能なサブプロブレムに再定義する新しいフレームワークであるSparseLLMを提案する。 SparseLLMのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題の分解に補助変数を利用する。

The transformative impact of large language models (LLMs) like LLaMA and GPT on natural language processing is countered by their prohibitive computational demands. Pruning has emerged as a pivotal compression strategy, introducing sparsity to enhance both memory and computational efficiency. Yet, traditional global pruning is impractical for LLMs due to scalability issues, while local pruning, despite its efficiency, leads to suboptimal solutions. Addressing these challenges, we propose SparseLLM, a novel framework that redefines the global pruning process into manageable, coordinated subproblems, allowing for resource-efficient optimization with global optimality. SparseLLM's approach, which conceptualizes LLMs as a chain of modular functions and leverages auxiliary variables for problem decomposition, not only facilitates a pragmatic application on LLMs but also demonstrates significant performance improvements, particularly in high-sparsity regimes where it surpasses current state-of-the-art methods.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-23
# Min-K%++:大規模言語モデルから事前学習データを検出するための改善されたベースライン

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models ( http://arxiv.org/abs/2404.02936v3 )

ライセンス: Link先を確認
Jingyang Zhang, Jingwei Sun, Eric Yeats, Yang Ouyang, Martin Kuo, Jianyi Zhang, Hao Frank Yang, Hai Li, (参考訳) 大規模言語モデル(LLM)に対する事前学習データ検出の問題は、著作権侵害やテストデータ汚染といった重要な問題に影響を及ぼすため、注目を集めている。 性能が向上したにもかかわらず、既存の手法(最先端のMin-K%を含む)は単純なヒューリスティックに基づいて開発され、しっかりとした、合理的な基礎が欠如している。 本研究では,Min-K%++という事前学習型データ検出手法を提案する。 具体的には,最大極大トレーニングにより,各入力次元に沿ったモデル分布の局所的最大値となる傾向が示唆された。 そこで我々は, LLMがモデル化した離散分布の下で動作し, その中核となる考え方は, 入力がモードを形成するか, あるいは条件カテゴリー分布の下で相対的に高い確率を持つかを決定することである。 提案手法は,複数の設定にまたがって新たなSOTA性能を実現する。 WikiMIAのベンチマークでは、Min-K%++が平均5モデル以上のAUROCの検出で6.2%から10.5%の成績を収めている。 より挑戦的なMIMIRベンチマークでは、参照不要なメソッドを継続的に改善し、参照モデルを必要とする参照ベースのメソッドと同等に実行する。

The problem of pre-training data detection for large language models (LLMs) has received growing attention due to its implications in critical issues like copyright violation and test data contamination. Despite improved performance, existing methods (including the state-of-the-art, Min-K%) are mostly developed upon simple heuristics and lack solid, reasonable foundations. In this work, we propose a novel and theoretically motivated methodology for pre-training data detection, named Min-K%++. Specifically, we present a key insight that training samples tend to be local maxima of the modeled distribution along each input dimension through maximum likelihood training, which in turn allow us to insightfully translate the problem into identification of local maxima. Then, we design our method accordingly that works under the discrete distribution modeled by LLMs, whose core idea is to determine whether the input forms a mode or has relatively high probability under the conditional categorical distribution. Empirically, the proposed method achieves new SOTA performance across multiple settings. On the WikiMIA benchmark, Min-K%++ outperforms the runner-up by 6.2% to 10.5% in detection AUROC averaged over five models. On the more challenging MIMIR benchmark, it consistently improves upon reference-free methods while performing on par with reference-based method that requires an extra reference model.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-23
# 為替レート予測におけるアルゴリズムの比較

Comparison of algorithms in Foreign Exchange Rate Prediction ( http://arxiv.org/abs/2404.04461v2 )

ライセンス: Link先を確認
Swagat Ranjit, (参考訳) 外国為替取引は金融市場における通貨の取引において重要な役割を担っている。 不安定な性質のため、外貨交換の予測は難しい課題である。 本稿では,ANN(Artificial Neural Network)やRNN(Recurrent Neural Network)といった機械学習技術を用いて,ネパールのルーペとユーロ,パウンドスターリング,USドルとの予測モデルを構築する。 リカレントニューラルネットワーク(Recurrent Neural Network)は、フィードバック接続を持つニューラルネットワークの一種である。 本稿では,異なるRNNアーキテクチャをベースとした予測モデルを用いて,バック伝搬アルゴリズムを用いてANNをフィードし,各モデルの精度を比較した。 Feed forward Neural Network、Simple Recurrent Neural Network (SRNN)、Gated Recurrent Unit (GRU)、Long Short Term Memory (LSTM)といった異なるANNアーキテクチャモデルが使用された。 入力パラメータは、各通貨のオープン、低い、高い、閉じた価格であった。 本研究では,LSTM ネットワークが SRNN や GRU ネットワークよりも優れた結果を示した。

Foreign currency exchange plays a vital role for trading of currency in the financial market. Due to its volatile nature, prediction of foreign currency exchange is a challenging task. This paper presents different machine learning techniques like Artificial Neural Network (ANN), Recurrent Neural Network (RNN) to develop prediction model between Nepalese Rupees against three major currencies Euro, Pound Sterling and US dollar. Recurrent Neural Network is a type of neural network that have feedback connections. In this paper, prediction model were based on different RNN architectures, feed forward ANN with back propagation algorithm and then compared the accuracy of each model. Different ANN architecture models like Feed forward neural network, Simple Recurrent Neural Network (SRNN), Gated Recurrent Unit (GRU) and Long Short Term Memory (LSTM) were used. Input parameters were open, low, high and closing prices for each currency. From this study, we have found that LSTM networks provided better results than SRNN and GRU networks.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-23
# ジェネレーティブ人工知能のための法的リスク分類法

A Legal Risk Taxonomy for Generative Artificial Intelligence ( http://arxiv.org/abs/2404.09479v3 )

ライセンス: Link先を確認
David Atkinson, Jacob Morrison, (参考訳) 本稿では,ジェネレーションAI(GenAI)にかかわる法的リスクの分類を,複雑な法的概念を分解し,GenAIモデルの開発と展開における潜在的な法的課題の共通理解を提供する。 本手法は,(1)既存の訴訟において提起された法的主張を検証し,(2)将来の訴訟において提起される合理的な法的主張を評価することに基づく。 まず、著名なGenAI企業に対する29件の訴訟を特定し、各訴訟の主張を一致させた。 そこから我々は、これらの訴訟で少なくとも4回引用される7つの主張を、今後のGenAI訴訟の最も可能性の高い主張として特定した。 これら7つのクレームそれぞれについて、クレームの要素(原告が証明しなければならないこと)を記述し、GenAIにどのように適用されるかの例を示す。 次に、我々は、より投機的と思われる他の30の主張を特定した。なぜなら、それは4件未満の訴訟に含まれているか、まだ提出されていないためである。 我々はさらに、30件の請求を、GenAIモデルの事前デプロイに関連する可能性が高い19件と、GenAIモデルの後デプロイに関連する可能性が高い11件に分けました。 これらのクレームのそれぞれについて、原告がGenAIの開発と展開における法的リスクを決定するのに役立てるであろう主張の要素と潜在的な改善について述べる。 最後に、GenAI技術の新規性に注目して論文を閉じ、さらなる研究を進めるための論文の分類学へのいくつかの応用を提案する。

For the first time, this paper presents a taxonomy of legal risks associated with generative AI (GenAI) by breaking down complex legal concepts to provide a common understanding of potential legal challenges for developing and deploying GenAI models. The methodology is based on (1) examining the legal claims that have been filed in existing lawsuits and (2) evaluating the reasonably foreseeable legal claims that may be filed in future lawsuits. First, we identified 29 lawsuits against prominent GenAI entities and tallied the claims of each lawsuit. From there, we identified seven claims that are cited at least four times across these lawsuits as the most likely claims for future GenAI lawsuits. For each of these seven claims, we describe the elements of the claim (what the plaintiff must prove to prevail) and provide an example of how it may apply to GenAI. Next, we identified 30 other potential claims that we consider to be more speculative, because they have been included in fewer than four lawsuits or have yet to be filed. We further separated those 30 claims into 19 that are most likely to be made in relation to pre-deployment of GenAI models and 11 that are more likely to be made in connection with post-deployment of GenAI models since the legal risks will vary between entities that create versus deploy them. For each of these claims, we describe the elements of the claim and the potential remedies that plaintiffs may seek to help entities determine their legal risks in developing or deploying GenAI. Lastly, we close the paper by noting the novelty of GenAI technology and propose some applications for the paper's taxonomy in driving further research.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-23
# 現代のサンドボックス環境に対する動的周波数ベースフィンガープリント攻撃

Dynamic Frequency-Based Fingerprinting Attacks against Modern Sandbox Environments ( http://arxiv.org/abs/2404.10715v3 )

ライセンス: Link先を確認
Debopriya Roy Dipta, Thore Tiemann, Berk Gulmezoglu, Eduard Marin, Thomas Eisenbarth, (参考訳) クラウドコンピューティングの展望は近年大きく進化し、現代のクラウドアプリケーションの多様な要求を満たすために、様々なサンドボックスを採用しています。 これらのサンドボックスには、DockerやgVisorといったコンテナベースのテクノロジ、FirecrackerのようなmicroVMベースのソリューション、Intel SGXやAMD SEVといったTrusted Execution Environment(TEE)に依存するセキュリティ中心のサンドボックスが含まれている。 しかし、複数のテナントを共有物理ハードウェアに配置するプラクティスは、セキュリティとプライバシの懸念を引き起こす。 本稿では,Intel および AMD CPU の CPU 周波数レポートセンサによる指紋認証の可能性について検討する。 私たちの攻撃の鍵となるのは、現在のCPU周波数情報がユーザ空間攻撃者によってアクセス可能であることです。 我々は、Dockerイメージがユニークな周波数シグネチャを示し、異なるコアで複数のコンテナが同時に実行されている場合でも、最大84.5%の精度で異なるコンテナを区別できることを示した。 さらに、GoogleのgVisor、AWSのFirecracker、Gramine(Intel SGXを活用する)やAMD SEVのようなTEEベースのプラットフォームなど、クラウド環境にデプロイされたいくつかのサンドボックスに対して実行された攻撃の有効性を評価します。 実験の結果、これらの攻撃は40秒未満で全てのサンドボックスに対して成功し、すべてのケースで70%以上の精度で実行可能であることが示された。 最後に,提案するクラウド環境に対する攻撃を軽減するため,ノイズ注入による対策を提案する。

The cloud computing landscape has evolved significantly in recent years, embracing various sandboxes to meet the diverse demands of modern cloud applications. These sandboxes encompass container-based technologies like Docker and gVisor, microVM-based solutions like Firecracker, and security-centric sandboxes relying on Trusted Execution Environments (TEEs) such as Intel SGX and AMD SEV. However, the practice of placing multiple tenants on shared physical hardware raises security and privacy concerns, most notably side-channel attacks. In this paper, we investigate the possibility of fingerprinting containers through CPU frequency reporting sensors in Intel and AMD CPUs. One key enabler of our attack is that the current CPU frequency information can be accessed by user-space attackers. We demonstrate that Docker images exhibit a unique frequency signature, enabling the distinction of different containers with up to 84.5% accuracy even when multiple containers are running simultaneously in different cores. Additionally, we assess the effectiveness of our attack when performed against several sandboxes deployed in cloud environments, including Google's gVisor, AWS' Firecracker, and TEE-based platforms like Gramine (utilizing Intel SGX) and AMD SEV. Our empirical results show that these attacks can also be carried out successfully against all of these sandboxes in less than 40 seconds, with an accuracy of over 70% in all cases. Finally, we propose a noise injection-based countermeasure to mitigate the proposed attack on cloud environments.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-23
# ガウススメッティングにおけるSFM点雲初期化代替策の評価

Evaluating Alternatives to SFM Point Cloud Initialization for Gaussian Splatting ( http://arxiv.org/abs/2404.12547v3 )

ライセンス: Link先を確認
Yalda Foroutan, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) 3Dガウススプラッティングは, 高品質な結果とハードウェアのラスタ化との整合性から, シーン再構成と新しいビュー合成の汎用的で効果的な手法として近年採用されている。 その利点にも拘わらず、Structure-from-Motion (SFM)アルゴリズムによる高品質の点雲初期化への依存は克服すべき重要な限界である。 そこで我々は, ニューラルレイディアンスフィールド(NeRF)からの体積再構成を用いて, SFMデータへの依存を回避し, ガウシアン・スティングの様々な初期化戦略について検討した。 提案手法は, 改良された初期化戦略と低コストNeRFモデルによる構造蒸留を組み合わせることで, SFMの初期化結果と同等, あるいはそれ以上に優れた結果が得られることを示した。 ソースコードはhttps://theialab.github.io/nerf-3dgs で公開されている。

3D Gaussian Splatting has recently been embraced as a versatile and effective method for scene reconstruction and novel view synthesis, owing to its high-quality results and compatibility with hardware rasterization. Despite its advantages, Gaussian Splatting's reliance on high-quality point cloud initialization by Structure-from-Motion (SFM) algorithms is a significant limitation to be overcome. To this end, we investigate various initialization strategies for Gaussian Splatting and delve into how volumetric reconstructions from Neural Radiance Fields (NeRF) can be utilized to bypass the dependency on SFM data. Our findings demonstrate that random initialization can perform much better if carefully designed and that by employing a combination of improved initialization strategies and structure distillation from low-cost NeRF models, it is possible to achieve equivalent results, or at times even superior, to those obtained from SFM initialization. Source code is available at https://theialab.github.io/nerf-3dgs .
翻訳日:2024-05-27 20:27:27 公開日:2024-05-23
# Phi-3テクニカルレポート:スマートフォンでローカルに高機能な言語モデル

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone ( http://arxiv.org/abs/2404.14219v3 )

ライセンス: Link先を確認
Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Qin Cai, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Yen-Chun Chen, Yi-Ling Chen, Parul Chopra, Xiyang Dai, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Victor Fragoso, Dan Iter, Mei Gao, Min Gao, Jianfeng Gao, Amit Garg, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Ce Liu, Mengchen Liu, Weishung Liu, Eric Lin, Zeqi Lin, Chong Luo, Piyush Madan, Matt Mazzola, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Xin Wang, Lijuan Wang, Chunyu Wang, Yu Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Haiping Wu, Michael Wyatt, Bin Xiao, Can Xu, Jiahang Xu, Weijian Xu, Sonali Yadav, Fan Yang, Jianwei Yang, Ziyi Yang, Yifan Yang, Donghan Yu, Lu Yuan, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou, (参考訳) 我々は、3.3兆のトークンでトレーニングされた3.8億のパラメータ言語モデルであるphi-3-miniを紹介し、その全体的な性能は、電話に展開できるほど小さいにもかかわらず、Mixtral 8x7BやGPT-3.5(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38)のようなモデルに匹敵する。 このイノベーションは、私たちのトレーニング用データセットに完全に含まれています。phi-2で使用されているもので、非常にフィルタされたWebデータと合成データで構成されています。 モデルはさらに堅牢性、安全性、チャットフォーマットに整合している。 また,4.8Tトークンに対して訓練された7Bおよび14Bモデルであるphi-3-smallおよびphi-3-mediumを,それぞれMMLUで75%,78%,MT-benchで8.7,8.9)よりも有意に高いパラメータスケーリング結果を示した。 さらに、画像とテキストのプロンプトに強い推論能力を持つphi-3-miniに基づく420億のパラメータモデルであるphi-3-visionを導入する。

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered publicly available web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench). Moreover, we also introduce phi-3-vision, a 4.2 billion parameter model based on phi-3-mini with strong reasoning capabilities for image and text prompts.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-23
# Make-it-Real:リアル素材で3Dオブジェクトを描くための大規模マルチモーダルモデル

Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials ( http://arxiv.org/abs/2404.16829v3 )

ライセンス: Link先を確認
Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin, (参考訳) 物理的に現実的な材料は、様々な用途や照明条件にまたがる3Dアセットの現実性を高める上で重要である。 しかし、既存の3Dアセットや生成モデルは、しばしば真の材料特性を欠いている。 グラフィックソフトウェアを用いた教材のマニュアル割り当ては面倒で時間を要する作業である。 本稿では,MLLM(Make-it-Real:Make-it-Real:)の進歩,特にGPT-4Vを利用した新しいアプローチを提案する。 1) GPT-4Vは, 資料を効果的に認識し, 記述し, 詳細な資料ライブラリの構築を可能にすることを実証する。 2)視覚的手がかりと階層的テキストプロンプトを組み合わせることで,GPT-4Vは材料を3Dオブジェクトの対応するコンポーネントと正確に識別・整合する。 3) 正マッチした材料は, 元のアルベドマップに従って新たなSVBRDF材料生成の基準として細心の注意を払って適用され, 視覚的信頼性が著しく向上した。 Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。

Physically realistic materials are pivotal in augmenting the realism of 3D assets across various applications and lighting conditions. However, existing 3D assets and generative models often lack authentic material properties. Manual assignment of materials using graphic software is a tedious and time-consuming task. In this paper, we exploit advancements in Multimodal Large Language Models (MLLMs), particularly GPT-4V, to present a novel approach, Make-it-Real: 1) We demonstrate that GPT-4V can effectively recognize and describe materials, allowing the construction of a detailed material library. 2) Utilizing a combination of visual cues and hierarchical text prompts, GPT-4V precisely identifies and aligns materials with the corresponding components of 3D objects. 3) The correctly matched materials are then meticulously applied as reference for the new SVBRDF material generation according to the original albedo map, significantly enhancing their visual authenticity. Make-it-Real offers a streamlined integration into the 3D content creation workflow, showcasing its utility as an essential tool for developers of 3D assets.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-23
# ソフトな選好最適化: 言語モデルをエキスパート分布に適応させる

Soft Preference Optimization: Aligning Language Models to Expert Distributions ( http://arxiv.org/abs/2405.00747v2 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Sina Ghiassian, Saber Salehkaleybar, Surya Kanoria, Dale Schuurmans, (参考訳) 本稿では,Large Language Models (LLMs) などの生成モデルと人間の好みを協調する手法であるSoft Preference Optimization (SPO) を提案する。 SPOは、選好データセットに制限するのではなく、モデル全体の出力分布をまたいだ正規化項に選好損失を統合する自然損失関数を通じて、選好データセット上でのモデル出力を直接最適化する。 SPO は既存の報酬モデルの仮定を必要としないが,Bradley-Terry (BT) モデルでは,アルゴリズムパラメータである Softmax Exponent を通じて分布の「ソフトネス」を調整可能なスケールされた報酬のソフトマックスに収束することを示した。 本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。

We propose Soft Preference Optimization (SPO), a method for aligning generative models, such as Large Language Models (LLMs), with human preferences, without the need for a reward model. SPO optimizes model outputs directly over a preference dataset through a natural loss function that integrates preference loss with a regularization term across the model's entire output distribution rather than limiting it to the preference dataset. Although SPO does not require the assumption of an existing underlying reward model, we demonstrate that, under the Bradley-Terry (BT) model assumption, it converges to a softmax of scaled rewards, with the distribution's "softness" adjustable via the softmax exponent, an algorithm parameter. We showcase SPO's methodology, its theoretical foundation, and its comparative advantages in simplicity, computational efficiency, and alignment precision.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-23
# MANTIS: インターリーブされたマルチイメージインストラクションチューニング

MANTIS: Interleaved Multi-Image Instruction Tuning ( http://arxiv.org/abs/2405.01483v2 )

ライセンス: Link先を確認
Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen, (参考訳) 大規模マルチモーダルモデル(LMM)は、単一イメージの視覚言語タスクにおいて大きな成果を上げている。 しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。 OpenFlamingo、Emu2、Ideficsといった既存のLMMは、数億ものノイズの多いインターリーブ画像テキストデータをWebから事前トレーニングすることで、マルチイメージの能力を得る。 本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。 そこで我々は,モデルマンティスのファミリーを訓練するために,721Kのマルチイメージ命令データを含むマンティス・インストラクトを慎重に構築する。 インストラクションチューニングは、コレファレンス、比較、推論、時間的理解といった異なるマルチイメージのスキルでマンティスに権限を与える。 5つのマルチイメージベンチマークと7つのシングルイメージベンチマークでMantisを評価する。 Mantis-SigLIPは、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均11の絶対点で破ることができる。 特に、Idefics2-8BはMantis-Instructの200倍の140Mインターリーブ多重画像データで事前訓練された。 We observed that Mantis are wellly well on the hold-in and hold-out benchmarks which showed its generalization ability。 特に,マルチイメージベンチマークにおいて,GPT-4Vの性能にマッチできることがわかった。 さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持していることを示す。 この結果から,マルチイメージ能力は大規模な事前学習によって必ずしも得られず,低コストな指導チューニングによって得られることが示唆された。 我々の研究は、LMMのマルチイメージ能力を改善するための新しい視点を提供する。

Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of models Mantis. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on five multi-image benchmarks and seven single-image benchmarks. Mantis-SigLIP can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 11 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. Notably, we found that Mantis can even match the performance of GPT-4V on multi-image benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, it can be gained by the low-cost instruction tuning. Our work provides new perspectives on how to improve LMMs' multi-image abilities.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-23
# MVP-Shot:Few-Shotアクション認識のためのマルチ速度プログレッシブアライメントフレームワーク

MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition ( http://arxiv.org/abs/2405.02077v3 )

ライセンス: Link先を確認
Hongyu Qu, Rui Yan, Xiangbo Shu, Hailiang Gao, Peng Huang, Guo-Sen Xie, (参考訳) 最近の数発のアクション認識(FSAR)法は、一般に学習した識別的特徴のセマンティックマッチングを行い、有望な性能を達成する。 しかしながら、ほとんどのFSARメソッドは単一スケール(例えば、フレームレベル、セグメントレベルなど)の機能アライメントに焦点を当てており、同じ意味を持つ人間のアクションが異なる速度で現れる可能性があることを無視している。 この目的のために我々は,多速度レベルで意味関連行動特徴を段階的に学習・調整する,新しいMVP-Shotフレームワークを開発した。 具体的には、MVFA(Multi-Velocity Feature Alignment)モジュールは、サポートビデオとクエリビデオの類似度を異なる速度スケールで測定し、すべての類似度スコアを残高な方法でマージするように設計されている。 提案するプログレッシブ・セマンティック・タイラード・インタラクション(PSTI)モジュールは,動作意味から逸脱する複数の速度特性を避けるため,異なる速度でチャネルと時間領域の機能相互作用を通じて,速度調整されたテキスト情報をビデオ特徴に注入する。 上記の2つのモジュールは相互に補償し、数ショット設定でより正確なクエリサンプル予測を行う。 実験結果から,本手法は複数の標準ショットベンチマーク(HMDB51, UCF101, Kinetics, SSv2-small)において,最先端の手法よりも優れていた。

Recent few-shot action recognition (FSAR) methods typically perform semantic matching on learned discriminative features to achieve promising performance. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to make more accurate query sample predictions under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).
翻訳日:2024-05-27 20:17:43 公開日:2024-05-23
# Lai Loss: グラディエントコントロールの新しい損失

Lai Loss: A Novel Loss for Gradient Control ( http://arxiv.org/abs/2405.07884v2 )

ライセンス: Link先を確認
YuFei Lai, (参考訳) 機械学習の分野では、伝統的な正規化法は損失関数に直接正規化項を追加する傾向がある。 本稿では,正規化項(特に勾配)を単純な幾何学的概念を通じて従来の損失関数に統合する新しい損失設計である「レイロス」を紹介する。 この設計は、損失自体の勾配をペナルティ化し、最大精度を確保しながら勾配の制御を可能にする。 この損失により、モデルの滑らかさと感度を効果的に制御することができ、モデルの一般化性能を改善し、特定の特徴に対する耐雑音性を高めるという2つの利点を提供する可能性がある。 さらに,本研究では,実用化における課題に対処するためのトレーニング手法を提案する。 我々はKaggleから公開されているデータセットを用いて予備実験を行い、モデル性能を維持しながら、レイ損失の設計がモデルの滑らかさと感度を制御できることを実証した。

In the field of machine learning, traditional regularization methods tend to directly add regularization terms to the loss function. This paper introduces the "Lai loss", a novel loss design that integrates the regularization terms (specifically, gradients) into the traditional loss function through straightforward geometric concepts. This design penalizes the gradients with the loss itself, allowing for control of the gradients while ensuring maximum accuracy. With this loss, we can effectively control the model's smoothness and sensitivity, potentially offering the dual benefits of improving the model's generalization performance and enhancing its noise resistance on specific features. Additionally, we proposed a training method that successfully addresses the challenges in practical applications. We conducted preliminary experiments using publicly available datasets from Kaggle, demonstrating that the design of Lai loss can control the model's smoothness and sensitivity while maintaining stable model performance.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-23
# Deep Blur Multi-Model (DeepBlurMM) -- 病理画像解析における画像ぼかしの深層学習モデル性能への影響を緩和するための戦略

Deep Blur Multi-Model (DeepBlurMM) -- a strategy to mitigate the impact of image blur on deep learning model performance in histopathology image analysis ( http://arxiv.org/abs/2405.09298v3 )

ライセンス: Link先を確認
Yujie Xiang, Bojing Liu, Mattias Rantalainen, (参考訳) 病理組織像全体(WSI)のAIによる解析は、計算病理学の中心である。 しかし、WSIの未シャープ領域を含む画質は、モデルの性能に影響を与えます。 本研究では,ぼかしの影響について検討し,非シャープ画像領域の負の影響を軽減するためのマルチモデルアプローチを提案する。 そこで本研究では,900以上のH&E陽性乳癌の画像タイルにガウスブラーを付加したモデル性能の評価を行った。 ブラーの影響を低減するために,ガウスブラーの変動量で訓練された複数のモデルを用いて,そのブラーレベルに基づいてタイルを予測する,新しいマルチモデル手法(DeepBlurMM)を提案する。 組織学的グレードを主な例として用いて, 軽度にぼやけたタイルで訓練したモデルでは, 中程度のぼやけたタイルが存在する場合, ベースモデルよりも性能が向上することがわかった。 DeepBlurMMは、全てのタイルに適度なぼかし(AUC:0.764 vs. 0.710)、タイルにまたがる低、適度で高いぼかし(AUC:0.821 vs. 0.789)の存在下でベースモデルより優れていた。 WSIの衝撃予測性能におけるアンシャープ画像タイル DeepBlurMMはいくつかの条件下で予測性能を改善し、研究と臨床の両方で品質を向上させる可能性がある。

AI-based analysis of histopathology whole slide images (WSIs) is central in computational pathology. However, image quality, including unsharp areas of WSIs, impacts model performance. We investigate the impact of blur and propose a multi-model approach to mitigate negative impact of unsharp image areas. In this study, we use a simulation approach, evaluating model performance under varying levels of added Gaussian blur to image tiles from >900 H&E-stained breast cancer WSIs. To reduce impact of blur, we propose a novel multi-model approach (DeepBlurMM) where multiple models trained on data with variable amounts of Gaussian blur are used to predict tiles based on their blur levels. Using histological grade as a principal example, we found that models trained with mildly blurred tiles improved performance over the base model when moderate-high blur was present. DeepBlurMM outperformed the base model in presence of moderate blur across all tiles (AUC:0.764 vs. 0.710), and in presence of a mix of low, moderate, and high blur across tiles (AUC:0.821 vs. 0.789). Unsharp image tiles in WSIs impact prediction performance. DeepBlurMM improved prediction performance under some conditions and has the potential to increase quality in both research and clinical applications.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-23
# CTおよびMRIによる頭頸部癌リスク臓器の自動分別

Automatic segmentation of Organs at Risk in Head and Neck cancer patients from CT and MRI scans ( http://arxiv.org/abs/2405.10833v2 )

ライセンス: Link先を確認
Sébastien Quetin, Andrew Heschl, Mauricio Murillo, Rohit Murali, Shirin A. Enger, Farhad Maleki, (参考訳) 背景と目的: 深層学習(DL)は、OAR(Organs at Risk)セグメンテーションのために広く研究されてきたが、ほとんどの研究は、CTとMRIの両方を同時に扱うのではなく、単一のモダリティに焦点を当てている。 本研究は,頭頸部癌(H&N)患者のMRIおよびCTによる30個のOARのセグメンテーションのための高性能DLパイプラインを提案する。 材料および方法: H&N OAR CT & MRセグメンテーション課題データセットから得られた30OARのアノテーションとともに,42H&N癌患者のペアCTとMRI-T1画像を用いてセグメンテーションパイプラインを構築した。 無関係領域の伐採後,CTおよびMRIボリュームの非厳格な登録を施行した。 軟部組織と骨解剖の2種類のCT容積をMRI容積に積み重ね, nnU-Netパイプラインへの入力として使用した。 モダリティ・ドロップアウト(Modality Dropout)は、トレーニング中に異なるモダリティからモデルを学習させるために使用された。 分離マスクは,14人の新規患者を対象としたトレーニングモデルを用いて予測した。 Dice Score (DS) と Hausdorff Distance (HD) を各OAR患者に対して算出し, パイプラインの評価を行った。 その結果、DSとHDの合計は0.777+-0.118と3.455+-1.679となり、提出時点ではSOTA(State-of-the-art)が確立した。 結論: 提案パイプラインはH&N OAR CTおよびMRセグメンテーションチャレンジの参加者の中で最高のDSとHDを達成し, H&N OARの自動セグメンテーションのための新しいSOTAを設定した。

Background and purpose: Deep Learning (DL) has been widely explored for Organs at Risk (OARs) segmentation; however, most studies have focused on a single modality, either CT or MRI, not both simultaneously. This study presents a high-performing DL pipeline for segmentation of 30 OARs from MRI and CT scans of Head and Neck (H&N) cancer patients. Materials and methods: Paired CT and MRI-T1 images from 42 H&N cancer patients alongside annotation for 30 OARs from the H&N OAR CT & MR segmentation challenge dataset were used to develop a segmentation pipeline. After cropping irrelevant regions, rigid followed by non-rigid registration of CT and MRI volumes was performed. Two versions of the CT volume, representing soft tissues and bone anatomy, were stacked with the MRI volume and used as input to an nnU-Net pipeline. Modality Dropout was used during the training to force the model to learn from the different modalities. Segmentation masks were predicted with the trained model for an independent set of 14 new patients. The mean Dice Score (DS) and Hausdorff Distance (HD) were calculated for each OAR across these patients to evaluate the pipeline. Results: This resulted in an overall mean DS and HD of 0.777 +- 0.118 and 3.455 +- 1.679, respectively, establishing the state-of-the-art (SOTA) for this challenge at the time of submission. Conclusion: The proposed pipeline achieved the best DS and HD among all participants of the H&N OAR CT and MR segmentation challenge and sets a new SOTA for automated segmentation of H&N OARs.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-23
# 拡散モデルを用いたフレキシブル・モーション・イン・ザ・ビートワイニング (特集 フレキシブル・モーション・イン・ザ・フュージョン)

Flexible Motion In-betweening with Diffusion Models ( http://arxiv.org/abs/2405.11126v2 )

ライセンス: Link先を確認
Setareh Cohan, Guy Tevet, Daniele Reda, Xue Bin Peng, Michiel van de Panne, (参考訳) キャラクターアニメーションの基本的なタスクであるMotion in-betweeningは、ユーザが提供するキーフレームの制約を確実に補間するモーションシーケンスを生成する。 それは長年、労働集約的で挑戦的なプロセスとして認識されてきた。 キーフレームによって誘導される多様な人間の動きを生成する際の拡散モデルの可能性について検討する。 従来のインベントワイニング手法と異なり,ユーザ指定空間制約の柔軟な範囲に適合する高精度かつ多種多様な動作を生成できるシンプルな統一モデルと,テキストコンディショニングを提案する。 そこで本研究では,任意の高密度あるいはスパースなキーフレーム配置と部分的キーフレーム制約を実現するための条件付きモーション拡散インベットワイニング(CondMDI)を提案する。 テキスト条件付きHumanML3Dデータセット上でのCondMDIの性能を評価し,キーフレーム間の拡散モデルの有効性と有効性を示す。 さらに、推論時キーフレーミングにおけるガイダンスと命令に基づくアプローチの利用について検討し、これらの手法と比較する。

Motion in-betweening, a fundamental task in character animation, consists of generating motion sequences that plausibly interpolate user-provided keyframe constraints. It has long been recognized as a labor-intensive and challenging process. We investigate the potential of diffusion models in generating diverse human motions guided by keyframes. Unlike previous inbetweening methods, we propose a simple unified model capable of generating precise and diverse motions that conform to a flexible range of user-specified spatial constraints, as well as text conditioning. To this end, we propose Conditional Motion Diffusion In-betweening (CondMDI) which allows for arbitrary dense-or-sparse keyframe placement and partial keyframe constraints while generating high-quality motions that are diverse and coherent with the given keyframes. We evaluate the performance of CondMDI on the text-conditioned HumanML3D dataset and demonstrate the versatility and efficacy of diffusion models for keyframe in-betweening. We further explore the use of guidance and imputation-based approaches for inference-time keyframing and compare CondMDI against these methods.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-23
# 胸部X線レポート生成のための構造物質抽出と患者表示

Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation ( http://arxiv.org/abs/2405.14905v1 )

ライセンス: Link先を確認
Kang Liu, Zhuoqi Ma, Xiaolu Kang, Zhusi Zhong, Zhicheng Jiao, Grayson Baird, Harrison Bai, Qiguang Miao, (参考訳) 画像の自動生成は、放射線技師の作業負荷を軽減するのに有益である。 臨床応用報告生成アルゴリズムは, 放射線学的所見を正確に記述し, 患者固有の徴候に適応する報告を作成する上で, その効果を実証すべきである。 本稿では,胸部X線レポート生成のための新しい方法である「textbf{S}tructural \textbf{E}ntities extract」と「textbf{I}ncorporation (SEI)」を提案する。 具体的には、構造化エンティティ抽出(SEE)アプローチを用いて、レポートにおけるプレゼンテーションスタイルの語彙を排除し、事実エンティティシーケンスの品質を向上させる。 これにより、レポート中のX線画像と実効的な実体列を整列することにより、次のクロスモーダルアライメントモジュールのノイズを低減することができ、これにより、クロスモーダルアライメントの精度が向上し、同様の歴史的ケースの勾配のない検索においてモデルを支援することができる。 その後,X線画像,類似の歴史的症例,患者固有の徴候からの情報を統合するクロスモーダル融合ネットワークを提案する。 このプロセスにより、テキストデコーダは、X線画像の識別的特徴に出席し、類似した症例からの過去の診断情報を同化し、患者の検査意図を理解することができる。 これはテキストデコーダを起動して高品質なレポートを生成するのに役立ちます。 MIMIC-CXRで行った実験は、自然言語の生成と臨床効果の指標に関する最先端アプローチよりもSEIの方が優れていることを実証した。

The automated generation of imaging reports proves invaluable in alleviating the workload of radiologists. A clinically applicable reports generation algorithm should demonstrate its effectiveness in producing reports that accurately describe radiology findings and attend to patient-specific indications. In this paper, we introduce a novel method, \textbf{S}tructural \textbf{E}ntities extraction and patient indications \textbf{I}ncorporation (SEI) for chest X-ray report generation. Specifically, we employ a structural entities extraction (SEE) approach to eliminate presentation-style vocabulary in reports and improve the quality of factual entity sequences. This reduces the noise in the following cross-modal alignment module by aligning X-ray images with factual entity sequences in reports, thereby enhancing the precision of cross-modal alignment and further aiding the model in gradient-free retrieval of similar historical cases. Subsequently, we propose a cross-modal fusion network to integrate information from X-ray images, similar historical cases, and patient-specific indications. This process allows the text decoder to attend to discriminative features of X-ray images, assimilate historical diagnostic information from similar cases, and understand the examination intention of patients. This, in turn, assists in triggering the text decoder to produce high-quality reports. Experiments conducted on MIMIC-CXR validate the superiority of SEI over state-of-the-art approaches on both natural language generation and clinical efficacy metrics.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# AutoCoder: \textsc{AIEV-Instruct}でコード大言語モデルを強化する

AutoCoder: Enhancing Code Large Language Model with \textsc{AIEV-Instruct} ( http://arxiv.org/abs/2405.14906v1 )

ライセンス: Link先を確認
Bin Lei, Yuchen Li, Qiuwu Chen, (参考訳) 我々は、Human Evalベンチマークテスト($\mathbf{90.9\%}$ vs. $\mathbf{90.2\%}$)で、GPT-4 Turbo(2024年4月)とGPT-4oを超える最初の大規模言語モデルであるAutoCoderを紹介します。 さらに、AutoCoder は GPT-4 Turbo や GPT-4o よりも汎用的なコードインタープリタを提供している。 インタプリタは、組み込みパッケージに制限されることなく、外部パッケージをインストールすることができる。 AutoCoderのトレーニングデータは、エージェントインタラクションと外部コード実行検証を組み合わせたシステムによって生成されたマルチターン対話データセットである。 従来の大規模コードデータセット生成方法と比較して,‘textsc{AIEV-Instruct} はプロプライエタリな大規模モデルへの依存を減らし,実行検証されたコードデータセットを提供する。 コードとデモビデオは \url{https://github.com/bin123apple/AutoCoder} で公開されている。

We introduce AutoCoder, the first Large Language Model to surpass GPT-4 Turbo (April 2024) and GPT-4o in pass@1 on the Human Eval benchmark test ($\mathbf{90.9\%}$ vs. $\mathbf{90.2\%}$). In addition, AutoCoder offers a more versatile code interpreter compared to GPT-4 Turbo and GPT-4o. It's code interpreter can install external packages instead of limiting to built-in packages. AutoCoder's training data is a multi-turn dialogue dataset created by a system combining agent interaction and external code execution verification, a method we term \textbf{\textsc{AIEV-Instruct}} (Instruction Tuning with Agent-Interaction and Execution-Verified). Compared to previous large-scale code dataset generation methods, \textsc{AIEV-Instruct} reduces dependence on proprietary large models and provides execution-validated code dataset. The code and the demo video is available in \url{https://github.com/bin123apple/AutoCoder}.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# データの混合が効率的になった: 言語モデルの事前学習のための二変量スケーリング法

Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining ( http://arxiv.org/abs/2405.14908v1 )

ライセンス: Link先を確認
Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding, (参考訳) 大規模言語モデルは、多種多様なソースデータの利用に起因して、例外的な一般化能力を示す。 しかし、これらの多様なデータを統合する慣習は、理論的なガイダンスを欠いたヒューリスティックなスキームに大きく依存している。 本研究は、データキュレーションを合理化してトレーニング効率を向上させることを目的として、データ混合物の低コストプロキシに基づく戦略を検証することにより、これらの制限に対処する。 具体的には、データ量と混合比の2変量スケーリング挙動を正確にモデル化する、BiMixと呼ばれる統一スケーリング法を提案する。 我々は,BiMixの予測力と基本原理について,系統的な実験を行い,実証的な証拠を提供する。 特に,エントロピー駆動のトレーニングフリーなデータ混合は,リソース集約的な手法に比べて,同等あるいはそれ以上のパフォーマンスを達成できることがわかった。 我々は、我々の定量的洞察が、コスト効率のよい言語モデリングにおけるさらなる司法研究と開発に光を当てることを願っている。

Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed BiMix, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of BiMix. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# 価格最適化における形状制約を考慮した解釈可能な価格境界推定

Interpretable Price Bounds Estimation with Shape Constraints in Price Optimization ( http://arxiv.org/abs/2405.14909v1 )

ライセンス: Link先を確認
Shunnosuke Ikeda, Naoki Nishimura, Shunji Umetani, (参考訳) 本稿では、価格最適化の文脈における価格境界の解釈可能な推定について述べる。 近年,収益と利益の最大化には価格最適化手法が不可欠である。 しかし、これらの手法を現実の価格操作に効果的に適用することは大きな課題である。 価格設定の責任者である事業者には、解釈可能なだけでなく許容可能な合理的な価格境界を利用することが不可欠である。 この必要性にもかかわらず、ほとんどの研究は、価格境界は一定の値が与えられると仮定し、これらの境界の合理的な決定を探求する研究はほとんどない。 そこで本研究では,価格境界の推定と調整を含む,価格境界を決定するための包括的枠組みを提案する。 具体的には、まず、歴史的価格データに基づく3つの異なるアプローチを用いて価格境界を推定する。 次に、形状制約を含む最適化問題を解くことにより、推定価格境界を調整する。 この方法では,現実のアプリケーションに適した,実用的で合理的な価格境界の下での価格最適化を実現することができる。 提案手法の有効性を,実サービスによる過去の価格データを用いた数値実験により報告する。

This paper addresses the interpretable estimation of price bounds within the context of price optimization. In recent years, price optimization methods have become indispensable for maximizing revenues and profits. However, effectively applying these methods to real-world pricing operations remains a significant challenge. It is crucial for operators, who are responsible for setting prices, to utilize reasonable price bounds that are not only interpretable but also acceptable. Despite this necessity, most studies assume that price bounds are given constant values, and few have explored the reasonable determination of these bounds. In response, we propose a comprehensive framework for determining price bounds, which includes both the estimation and adjustment of these bounds. Specifically, we first estimate the price bounds using three distinct approaches based on historical pricing data. We then adjust the estimated price bounds by solving an optimization problem that incorporates shape constraints. This method allows for the implementation of price optimization under practical and reasonable price bounds, suitable for real-world applications. We report the effectiveness of our proposed method through numerical experiments conducted with historical pricing data from actual services.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# 量子ナビゲーションに基づくRb冷原子干渉計の基本原理の短い紹介

A Short Introduction to Basic Principles of Quantum Navigation Based-on Rb Cold Atom Interferometry ( http://arxiv.org/abs/2405.14910v1 )

ライセンス: Link先を確認
Narges Kafaei, Ali Motazedifard, (参考訳) 低温原子干渉法、レーザー分光法の進歩により、機械的および光学的センサーでは起こらないより正確な加速度計やジャイロスコープを実現できる。 外部の変化に敏感すぎる原子レベルの固有かつ独立した性質のため、衛星を持たない自己校正航法システムを実現することができる。 本稿では,慣性低温原子ナビゲーションセンサの基本原理について概説する。

Due to advances in cold atom interferometry, laser spectroscopy it is possible to achieve more precise accelerometers and gyroscopes which never occurs in mechanical- and optical-based sensors. Because of the inherent and independent characteristics of atomic levels which are too sensitive respect to the external changes, a self-calibrated navigation system with no satellite can be achieved. Here, in this paper we very shortly review the basic principles of inertia cold atom navigation sensor.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# ルビジウム原子のD2遷移におけるDBRレーザーの飽和吸収分光と周波数ロック

Saturated absorption spectroscopy and frequency locking of DBR laser on the D2 transition of rubidium atoms ( http://arxiv.org/abs/2405.14911v1 )

ライセンス: Link先を確認
Davood Razzaghi, Ali MotazediFard, Marzieh Akbari, Seyed Ahmad Madani, Masoud Yousefi, Ali Allahi, Ghazal Mehrabanpajooh, Mohsen Shokrolahi, Hamid Asgari, Zafar Riazi, (参考訳) 本稿では,Rb原子のLD2遷移に0.5MHz線幅を有する狭帯域DBRレーザーの飽和吸収分光(SAS)と周波数同期(FL)を実験的に報告する。

In this paper, we experimentally report the saturated absorption spectroscopy (SAS) and frequency locking (FL) of a narrow-band DBR laser with 0.5MHz linewidth on the LD2-transition of Rb atoms.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# 高位パス開発 : 確率過程の濾過を学習するアプローチ

High Rank Path Development: an approach of learning the filtration of stochastic processes ( http://arxiv.org/abs/2405.14913v1 )

ライセンス: Link先を確認
Jiajie Tao, Hao Ni, Chong Liu, (参考訳) 確率過程の弱収束は、下層の濾過によって表される情報の増加を考慮しないので、弱位相におけるわずかに誤った確率モデルが、多周期決定問題において大きな損失をもたらす可能性がある。 このような不連続性に対処するため、Aldous は拡張弱収束を導入し、これは確率過程の濾過を含むすべての本質的な性質を完全に特徴づけることができたが、効率的な数値的な実装を見つけることは困難であった。 本稿では,高位PCF距離(HRPCFD, High Rank PCF Distance, HRPCFD, High Rank PCF Distance, HRPCFD, HRPCFD)と呼ばれる,高位パス展開法に基づく拡張弱収束法を提案する。 このようなHRPCFDは、データからHRPCFDを訓練するための効率的なアルゴリズムを設計し、HRPCFDを条件付き時系列生成の判別器として使用することで、HRPCF-GANを構築することができる、好意的な解析特性を多数備えていることを示す。 仮説テストと生成モデルの両方に関する数値実験により, 提案手法の有効性を実証し, 合成時系列生成の幅広い応用や, 最適停止問題や実用的最大化問題など, 古典的金融・経済問題への対処の可能性を明らかにした。

Since the weak convergence for stochastic processes does not account for the growth of information over time which is represented by the underlying filtration, a slightly erroneous stochastic model in weak topology may cause huge loss in multi-periods decision making problems. To address such discontinuities Aldous introduced the extended weak convergence, which can fully characterise all essential properties, including the filtration, of stochastic processes; however was considered to be hard to find efficient numerical implementations. In this paper, we introduce a novel metric called High Rank PCF Distance (HRPCFD) for extended weak convergence based on the high rank path development method from rough path theory, which also defines the characteristic function for measure-valued processes. We then show that such HRPCFD admits many favourable analytic properties which allows us to design an efficient algorithm for training HRPCFD from data and construct the HRPCF-GAN by using HRPCFD as the discriminator for conditional time series generation. Our numerical experiments on both hypothesis testing and generative modelling validate the out-performance of our approach compared with several state-of-the-art methods, highlighting its potential in broad applications of synthetic time series generation and in addressing classic financial and economic challenges, such as optimal stopping or utility maximisation problems.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# SliM-LLM:大規模言語モデルのためのサリエンス駆動混合精度量子化

SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models ( http://arxiv.org/abs/2405.14917v1 )

ライセンス: Link先を確認
Wei Huang, Haotong Qin, Yangdong Liu, Yawei Li, Xianglong Liu, Luca Benini, Michele Magno, Xiaojuan Qi, (参考訳) 大規模言語モデル(LLM)は、自然言語理解において顕著な性能を達成するが、かなりの計算量とメモリ資源を必要とする。 ポストトレーニング量子化(PTQ)はLLMで広く研究されている強力な圧縮技術である。 しかし、既存のPTQ法は、特に4ビット幅以下では、精度と効率の面ではまだ理想的ではない。 グループワイド量子化を用いた標準PTQ法は、LSMをそのような低ビットに正確に量子化するのに苦労するが、高精度な重みを残した先進的な手法は、その理論的なハードウェア効率を実現するのが困難である。 本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。 このスキームは重みの塩分分布を利用して最適ビット幅と量子化器を正確にLLM量子化するために決定し、ビット幅分割をコンパクトなメモリ使用と高速整数推論のためにグループに整列させる。 具体的には、SliM-LLMは、主に2つの新しい手法に依存している: 1) 分散分布のクラスタリング特性を利用して、各グループのビット幅を割り当て、量子化LSMの精度を高め、推論効率を向上する; (2) 量子化器のパラメータを、グループ内の要素的サリエンスを考慮して最適化し、サリエント情報の維持とエラーの最小化のバランスをとる。 総合的な実験により、SliM-LLMは超低ビットでのLLMの精度を著しく改善し、例えば、2ビットのLLaMA-7BはNVIDIA A800 GPUのオリジナルモデルよりも5.5倍のメモリ節約を実現し、最先端の勾配のないPTQ法に比べて48%のパープレキシティが低下した。 さらにSliM-LLM+は、SliM-LLMの拡張から勾配ベースの量子化器に統合され、さらにパープレキシティを35.1%削減する。

Large language models (LLMs) achieve remarkable performance in natural language understanding but require substantial computation and memory resources. Post-training quantization (PTQ) is a powerful compression technique extensively investigated in LLMs. However, existing PTQ methods are still not ideal in terms of accuracy and efficiency, especially with below 4 bit-widths. Standard PTQ methods using group-wise quantization suffer difficulties in quantizing LLMs accurately to such low-bit, but advanced methods remaining high-precision weights element-wisely are hard to realize their theoretical hardware efficiency. This paper presents a Salience-Driven Mixed-Precision Quantization scheme for LLMs, namely SliM-LLM. The scheme exploits the salience distribution of weights to determine optimal bit-width and quantizers for accurate LLM quantization, while aligning bit-width partition to groups for compact memory usage and fast integer inference. Specifically, the proposed SliM-LLM mainly relies on two novel techniques: (1) Salience-Determined Bit Allocation utilizes the clustering characteristics of salience distribution to allocate the bit-widths of each group, increasing the accuracy of quantized LLMs and maintaining the inference efficiency; (2) Salience-Weighted Quantizer Calibration optimizes the parameters of the quantizer by considering the element-wise salience within the group, balancing the maintenance of salient information and minimization of errors. Comprehensive experiments show that SliM-LLM significantly improves the accuracy of LLMs at ultra-low bits, e.g., 2-bit LLaMA-7B achieves a 5.5-times memory-saving than original model on NVIDIA A800 GPUs, and 48% decrease of perplexity compared to the state-of-the-art gradient-free PTQ method. Moreover, SliM-LLM+, which is integrated from the extension of SliM-LLM with gradient-based quantizers, further reduces perplexity by 35.1%.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# AnalogCoder: トレーニング不要コード生成によるアナログ回路設計

AnalogCoder: Analog Circuit Design via Training-Free Code Generation ( http://arxiv.org/abs/2405.14918v1 )

ライセンス: Link先を確認
Yao Lai, Sungyoung Lee, Guojin Chen, Souradip Poddar, Mengkang Hu, David Z. Pan, Ping Luo, (参考訳) アナログ回路設計は現代のチップ技術において重要な課題であり、適切な回路機能を確保するためにコンポーネントタイプ、接続性、パラメータの選択に焦点を当てている。 デジタル回路設計におけるLarge Language Models (LLM) の進歩にもかかわらず、アナログ回路におけるデータの複雑さと不足は大きな課題である。 これらの問題を緩和するために,Pythonコード生成によるアナログ回路設計のためのトレーニング不要 LLM エージェントである AnalogCoder を紹介した。 第一に、AnalogCoderは、フィードバック強化フローにドメイン固有のプロンプトを調整し、高い成功率でアナログ回路の自動的および自己修正設計を可能にする。 第2に、再利用可能なモジュールサブ回路として成功した設計をアーカイブし、複合回路の作成を簡素化する回路ツールライブラリを提案する。 第3に、アナログ回路タスクの幅広い範囲をカバーするために設計されたベンチマークに関する広範な実験は、AnalogCoderが他のLCMベースの手法よりも優れていることを示している。 20個の回路を設計し、標準のGPT-4oより5個多く設計した。 我々は、AnalogCoderが労働集約型チップ設計プロセスを大幅に改善し、非専門家がアナログ回路を効率的に設計できると考えている。 コードとベンチマークはhttps://github.com/anonyanalog/AnalogCoder.comで提供されている。

Analog circuit design is a significant task in modern chip technology, focusing on the selection of component types, connectivity, and parameters to ensure proper circuit functionality. Despite advances made by Large Language Models (LLMs) in digital circuit design, the complexity and scarcity of data in analog circuitry pose significant challenges. To mitigate these issues, we introduce AnalogCoder, the first training-free LLM agent for designing analog circuits through Python code generation. Firstly, AnalogCoder incorporates a feedback-enhanced flow with tailored domain-specific prompts, enabling the automated and self-correcting design of analog circuits with a high success rate. Secondly, it proposes a circuit tool library to archive successful designs as reusable modular sub-circuits, simplifying composite circuit creation. Thirdly, extensive experiments on a benchmark designed to cover a wide range of analog circuit tasks show that AnalogCoder outperforms other LLM-based methods. It has successfully designed 20 circuits, 5 more than standard GPT-4o. We believe AnalogCoder can significantly improve the labor-intensive chip design process, enabling non-experts to design analog circuits efficiently. Codes and the benchmark are provided at https://github.com/anonyanalog/AnalogCoder.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-23
# シリコン中の核スピン暗黒状態

The nuclear-spin dark state in silicon ( http://arxiv.org/abs/2405.14922v1 )

ライセンス: Link先を確認
Xinxin Cai, Habitamu Y. Walelign, John M. Nichol, (参考訳) ゲート定義シリコン二重量子ドットにおける核スピン暗黒状態の形成について報告する。 暗黒状態は、量子ドット中の電子が半導体中の核を解離状態に駆動するときに、動的核分極中に現われると予測されている。 予想通り、電子-核結合は暗黒状態において急速に減少し、この状態は、核スピンの同期前兆に依存することを示した。 さらに、暗黒状態は電子スピン状態の寿命を大幅に増加させる。 この核スピン暗黒状態は量子メモリや量子センシングの資源として利用することができ、さらに暗黒状態の研究は核スピンアンサンブルの分極増加への道を示す可能性がある。

We report the formation of a nuclear-spin dark state in a gate-defined silicon double quantum dot. The dark state has been predicted to emerge during dynamic nuclear polarization when the electrons in the quantum dot drive the nuclei in the semiconductor into a decoupled state. We show that, as expected, the electron-nuclear coupling rapidly diminishes in the dark state, and that this state depends on the synchronized precession of the nuclear spins. Moreover, the dark state significantly increases the lifetimes of electronic spin states. This nuclear-spin dark state could be used as a quantum memory or as a resource for quantum sensing, and further studies of the dark state may point the way toward increased polarization of nuclear spin ensembles.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# ベイズエラーはどのようにして確率論的ロバスト精度を制限するのか

How Does Bayes Error Limit Probabilistic Robust Accuracy ( http://arxiv.org/abs/2405.14923v1 )

ライセンス: Link先を確認
Ruihan Zhang, Jun Sun, (参考訳) 敵対的な例は、ニューラルネットワーク上に構築された多くのクリティカルシステムにセキュリティ上の脅威をもたらす。 決定論的ロバスト性は、しばしば大幅に精度が低下するので、確率的ロバスト性(つまり、近傍に同じラベルを持つ確率は$\ge 1-\kappa$)は、精度を維持しながらロバスト性を達成する有望な方法として提案されている。 しかし、確率的ロバスト性に関する既存の訓練手法は、未だに非自明な精度の損失を経験している。 確率的ロバスト性に向けて最適化する場合の精度に上限があるか、および$\kappa$とこの境界の間に一定の関係があるかどうかは不明である。 本研究はベイズ誤差の観点からこれらの問題を研究する。 ベイズの不確実性は確率的ロバスト性に影響を与えるが、決定論的ロバスト性への影響は決定論的ロバスト性よりも小さい。 このベイズの不確実性を減らすことで、確率的ロバスト精度の上限は決定論的ロバスト精度よりも高い。 さらに、最適確率的ロバスト性により、各確率論的ロバスト入力がより小さな近傍で決定論的ロバストであることを証明する。 また, 近傍での投票は確率的ロバストな精度を常に向上させ, 確率的ロバストな精度の上限は$\kappa$の成長とともに単調に増大することを示した。 実験結果も結果と一致しています。

Adversarial examples pose a security threat to many critical systems built on neural networks. Given that deterministic robustness often comes with significantly reduced accuracy, probabilistic robustness (i.e., the probability of having the same label with a vicinity is $\ge 1-\kappa$) has been proposed as a promising way of achieving robustness whilst maintaining accuracy. However, existing training methods for probabilistic robustness still experience non-trivial accuracy loss. It is unclear whether there is an upper bound on the accuracy when optimising towards probabilistic robustness, and whether there is a certain relationship between $\kappa$ and this bound. This work studies these problems from a Bayes error perspective. We find that while Bayes uncertainty does affect probabilistic robustness, its impact is smaller than that on deterministic robustness. This reduced Bayes uncertainty allows a higher upper bound on probabilistic robust accuracy than that on deterministic robust accuracy. Further, we prove that with optimal probabilistic robustness, each probabilistically robust input is also deterministically robust in a smaller vicinity. We also show that voting within the vicinity always improves probabilistic robust accuracy and the upper bound of probabilistic robust accuracy monotonically increases as $\kappa$ grows. Our empirical findings also align with our results.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# PILOT: 重要サンプリングによる多目的誘導によるポケットコンディショニングド・ノボ配位子生成の同変拡散

PILOT: Equivariant diffusion for pocket conditioned de novo ligand generation with multi-objective guidance via importance sampling ( http://arxiv.org/abs/2405.14925v1 )

ライセンス: Link先を確認
Julian Cremer, Tuan Le, Frank Noé, Djork-Arné Clevert, Kristof T. Schütt, (参考訳) どちらのリガンドも与えられたタンパク質ポケットに適合し、様々な化学的性質を示すリガンドの生成は、構造に基づく薬物設計において大きな課題である。 そこで本研究では,同変拡散モデル PILOT を用いた3次元リガンド構造の生成に,ポケットコンディショニングと大規模事前学習とプロパティガイダンスを組み合わせた,シリコン内アプローチを提案する。 その多目的軌道に基づく重要サンプリング戦略は、与えられたタンパク質ポケットへの結合親和性の増加など、所望の特性を示すだけでなく、高い合成アクセシビリティも維持できる分子にモデルを向けるよう設計されている。 これにより、サンプル分子の実用性が保証され、薬物発見パイプラインの可能性を最大化する。 PILOTは、共通のベンチマークデータセットであるCrossDocked2020において、さまざまなメトリクスで既存のメソッドよりも大幅に優れています。 さらに,PILOTを用いて,ヒトのキノームの大部分を包含するKinodata-3Dデータセットから,未知のタンパク質ポケットの新規リガンドを生成する。 生成された構造は、強力な生物活性を示すIC_{50}$の予測値を示しており、PILOTが構造に基づく薬物設計の強力なツールとしての可能性を強調している。

The generation of ligands that both are tailored to a given protein pocket and exhibit a range of desired chemical properties is a major challenge in structure-based drug design. Here, we propose an in-silico approach for the $\textit{de novo}$ generation of 3D ligand structures using the equivariant diffusion model PILOT, combining pocket conditioning with a large-scale pre-training and property guidance. Its multi-objective trajectory-based importance sampling strategy is designed to direct the model towards molecules that not only exhibit desired characteristics such as increased binding affinity for a given protein pocket but also maintains high synthetic accessibility. This ensures the practicality of sampled molecules, thus maximizing their potential for the drug discovery pipeline. PILOT significantly outperforms existing methods across various metrics on the common benchmark dataset CrossDocked2020. Moreover, we employ PILOT to generate novel ligands for unseen protein pockets from the Kinodata-3D dataset, which encompasses a substantial portion of the human kinome. The generated structures exhibit predicted $IC_{50}$ values indicative of potent biological activity, which highlights the potential of PILOT as a powerful tool for structure-based drug design.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# パウリ部分系符号における絡み合いのスロー計測のみのダイナミクス

Slow measurement-only dynamics of entanglement in Pauli subsystem codes ( http://arxiv.org/abs/2405.14927v1 )

ライセンス: Link先を確認
Benedikt Placke, S. A. Parameswaran, (参考訳) サブシステムにおける量子誤り訂正符号のチェック演算子(Bacon-Shor符号など)を統計的に測定し,量子回路の非ユニタリダイナミクスについて検討する。 私たちの焦点は、基盤となるコードのプロパティが測定のみのダイナミックスにどのように印字されるかにあります。 非局所安定化器生成器を持つ大規模コードでは、最近、サブシステムサイズに合わせてスケールするサブシステムエンタングルメントエントロピーへの非局所的な寄与が一般的である。 非局所安定化器ジェネレータは、競合する測定速度に依存すると、関連する自由度が指数関数的に長い(システムサイズ)ので、混合状態から始めると環境から離れて)、スクランブルする(製品状態から始めるとシステムの他の部分と絡み合う)。 具体的には、基礎となるサブシステム符号の非局所安定化器生成器がサブシステム対称性の形式をとる回路を考える。 本稿では,Calderbank-Shor-Steane (CSS) および非CSS符号の2次元および3次元における位相図と関連する時間スケールの体系的研究を行い,特に低速測定のみのダイナミクスとサブシステム対称性の幾何学との関係に着目した。 我々の研究の鍵となる発見は、緩やかに自由の度合いを清めるか、揺らぐかは、サブシステム対称性が非局所的に生成されるコードにのみ現れるように見え、その対称性が単に非局所的な部分集合である。 サブシステム符号に関する我々の結果と、それらの共有代数構造からヒルベルト空間の断片化現象との関係についてコメントする。

We study the non-unitary dynamics of a class of quantum circuits based on stochastically measuring check operators of subsystem quantum error-correcting codes, such as the Bacon-Shor code and its various generalizations. Our focus is on how properties of the underlying code are imprinted onto the measurement-only dynamics. We find that in a large class of codes with nonlocal stabilizer generators, at late times there is generically a nonlocal contribution to the subsystem entanglement entropy which scales with the subsystem size. The nonlocal stabilizer generators can also induce slow dynamics, since depending on the rate of competing measurements the associated degrees of freedom can take exponentially long (in system size) to purify (disentangle from the environment when starting from a mixed state) and to scramble (become entangled with the rest of the system when starting from a product state). Concretely, we consider circuits for which the nonlocal stabilizer generators of the underlying subsystem code take the form of subsystem symmetries. We present a systematic study of the phase diagrams and relevant time scales in two and three spatial dimensions for both Calderbank-Shor-Steane (CSS) and non-CSS codes, focusing in particular on the link between slow measurement-only dynamics and the geometry of the subsystem symmetry. A key finding of our work is that slowly purifying or scrambling degrees of freedom appear to emerge only in codes whose subsystem symmetries are nonlocally {\it generated}, a strict subset of those whose symmetries are simply nonlocal. We comment on the link between our results on subsystem codes and the phenomenon of Hilbert-space fragmentation in light of their shared algebraic structure.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 超トンク=ジラルドー系の長距離相互作用における非有界エントロピー生成と暴力的断片化

Unbounded entropy production and violent fragmentation in long-range interacting super-Tonks-Girardeau systems ( http://arxiv.org/abs/2405.14928v1 )

ライセンス: Link先を確認
P. Molignini, B. Chakrabarti, (参考訳) 長距離相互作用を持つ1次元ボース気体の非平衡ダイナミクスを、$(\frac{1}{r^{\alpha}})$(0.5 < \alpha <4.0$)として崩壊させる。 本稿では,Tonks-Girardeau (TG) からSuper-Tonks-Girardeau (STG) の極限に相互作用が突然遷移した際のシステムについて検討する。 緩和は、暴力的な断片化とカオス的な非局在化によって実証される複雑な中間力学によって達成される。 sTGガスは,非有界エントロピー生成に伴う古典的なガス特性と漸近状態を示すことが確認された。 相図は非熱的(量子)ガスと熱的(古典的)ガスの指数的境界を示す。 スピンレスフェルミオンの結果を提示することで、ダイナミクスの普遍性を示す。 ウィーカー・クエンチ・プロトコルは緩和過程をある程度制御し、中間準前熱状態を引き起こす。 我々の研究は、最先端の実験、例えば閉じ込められたイオンやリドバーグ原子において、調整可能な長距離相互作用系の複雑な緩和挙動を示す。

We study the non-equilibrium dynamics of a one-dimensional Bose gas with long-range interactions that decay as $(\frac{1}{r^{\alpha}})$ $(0.5 < \alpha <4.0$). We investigate the system when the interactions are suddenly switched from the Tonks-Girardeau (TG) to the super-Tonks-Girardeau (sTG) limit. We find that relaxation is achieved through a complex intermediate dynamics demonstrated by violent fragmentation and chaotic delocalization. We establish that the sTG gas exhibits classical gaseous characteristics and an asymptotic state associated with unbounded entropy production. The phase diagram shows an exponential boundary between the nonthermal (quantum) gas and the thermal (classical) gas. We show the universality of the dynamics by also presenting results for spinless fermions. Weaker quench protocols give a certain degree of control over the relaxation process and induce some intermediate quasi-prethermal states. Our study showcases the complex relaxation behavior of tunable long-range interacting systems that could be engineered in state-of-the-art experiments, e.g. in trapped ions or Rydberg atoms.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# リーブ・シュルツ・マティスの定理と長距離相互作用系における一般化

Lieb-Schultz-Mattis theorems and generalizations in long-range interacting systems ( http://arxiv.org/abs/2405.14929v1 )

ライセンス: Link先を確認
Ruizhi Liu, Jinmin Yi, Shiyu Zhou, Liujun Zou, (参考訳) 統一的な方法で、リーブ・シュルツ・マティス(LSM)の定理と、長距離相互作用を持つ系におけるそれらの一般化を確立する。 量子スピンチェインの場合、相互作用が距離が増加するほど早く崩壊し、ハミルトニアンが異常対称性を持つならば、ハミルトニアンは特異なギャップを持つ対称基底状態を持つことは不可能である。 もしハミルトニアンが2スピンの相互作用しか持たないなら、これらの定理は相互作用が1/r^2$よりも早く崩壊し、2つの相互作用するスピン間の距離が$r$であるときに成り立つ。 さらに、自然ハミルトニアンの基底状態ではないような異常対称性を持つ任意の純粋状態は、長距離絡み合わなければならない。 私たちが考慮する対称性は、オンサイト内部対称性と格子変換対称性を組み合わせたもので、純粋に内部的だが非オンサイト対称性にまで拡張することができる。 さらに、これらの内部対称性は離散的あるいは連続的である。 様々な例を通して定理の応用を探求する。

In a unified fashion, we establish Lieb-Schultz-Mattis (LSM) theorems and their generalizations in systems with long-range interactions. We show that, for a quantum spin chain, if the interactions decay fast enough as their ranges increase and the Hamiltonian has an anomalous symmetry, the Hamiltonian cannot have a unique gapped symmetric ground state. If the Hamiltonian contains only 2-spin interactions, these theorems hold when the interactions decay faster than $1/r^2$, with $r$ the distance between the two interacting spins. Moreover, any pure state with an anomalous symmetry, which may not be a ground state of any natural Hamiltonian, must be long-range entangled. The symmetries we consider include on-site internal symmetries combined with lattice translation symmetries, and they can also extend to purely internal but non-on-site symmetries. Moreover, these internal symmetries can be discrete or continuous. We explore the applications of the theorems through various examples.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# AstroPT: 天文学のための大規模観測モデルのスケーリング

AstroPT: Scaling Large Observation Models for Astronomy ( http://arxiv.org/abs/2405.14930v1 )

ライセンス: Link先を確認
Michael J. Smith, Ryan J. Roberts, Eirini Angeloudi, Marc Huertas-Company, (参考訳) この研究は、天文学的なユースケースを念頭に開発された自己回帰事前学習型トランスフォーマーであるAstroPTを提示する。 ここで提示された AstroPT モデルは、DESI Legacy Survey DR8 による 512 時間 512 ピクセル$grz$-band Galaxy Postage stamp で事前訓練されている。 我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。 また、線形探索によって測定された下流タスクにおけるモデルの性能は、モデルパラメータ飽和点までのモデルサイズで向上することがわかった。 私たちは、共同コミュニティ開発が、自然言語処理で見られる規模で観測科学から得られたデータに基づいて訓練された、オープンソースの‘大規模観測モデル’を実現するための最良の道のりを歩むと信じています。 この目的のために、私たちはMITライセンス下でAstroPTのソースコード、重み、データセットをリリースし、これらのモデルの構築と研究に協力する潜在的な協力者を招待します。

This work presents AstroPT, an autoregressive pretrained transformer developed with astronomical use-cases in mind. The AstroPT models presented here have been pretrained on 8.6 million $512 \times 512$ pixel $grz$-band galaxy postage stamp observations from the DESI Legacy Survey DR8. We train a selection of foundation models of increasing size from 1 million to 2.1 billion parameters, and find that AstroPT follows a similar saturating log-log scaling law to textual models. We also find that the models' performances on downstream tasks as measured by linear probing improves with model size up to the model parameter saturation point. We believe that collaborative community development paves the best route towards realising an open source `Large Observation Model' -- a model trained on data taken from the observational sciences at the scale seen in natural language processing. To this end, we release the source code, weights, and dataset for AstroPT under the MIT license, and invite potential collaborators to join us in collectively building and researching these models.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 粒子物理における自動微分とニューラルトランスポートを用いた高速推論

Fast Inference Using Automatic Differentiation and Neural Transport in Astroparticle Physics ( http://arxiv.org/abs/2405.14932v1 )

ライセンス: Link先を確認
Dorian W. P. Amaral, Shixiao Liang, Juehang Qin, Christopher Tunnell, (参考訳) 多次元パラメータ空間は、新しい現象を捉えようとする天体物理学理論でよく見られる。 しかし、地域社会に伝統ある技法を使って横断するのに高価な複雑な後部ジオメトリーをしばしば持っている。 これらの空間を効果的にサンプリングすることは、実験と理論の間のギャップを埋めるのに不可欠である。 この分野に進出し始めたばかりの最近のいくつかの革新は、そのような複雑な後部をナビゲートすることを可能にした。 その中には、GPUアクセラレーション、自動微分、ニューラルネットワーク誘導型パラメータ化などがある。 これらの進歩を、新しいニュートリノ物理学の文脈において、宇宙粒子物理学の実験結果に適用し、従来のネストサンプリング技術と比較して、それらの性能をベンチマークする。 ネストサンプリング単独と比較して、これらの手法はネストサンプリングとハミルトンモンテカルロの両方のパフォーマンスを高め、それぞれ$\sim 100$と$\sim 60$の因子による推論を加速させる。 ネストサンプリングはベイズ証拠も評価するので、これらの進歩は、自然科学で広く使われている既存の実装との互換性を維持しながら、モデル比較性能を向上させるために利用することができる。

Multi-dimensional parameter spaces are commonly encountered in astroparticle physics theories that attempt to capture novel phenomena. However, they often possess complicated posterior geometries that are expensive to traverse using techniques traditional to this community. Effectively sampling these spaces is crucial to bridge the gap between experiment and theory. Several recent innovations, which are only beginning to make their way into this field, have made navigating such complex posteriors possible. These include GPU acceleration, automatic differentiation, and neural-network-guided reparameterization. We apply these advancements to astroparticle physics experimental results in the context of novel neutrino physics and benchmark their performances against traditional nested sampling techniques. Compared to nested sampling alone, we find that these techniques increase performance for both nested sampling and Hamiltonian Monte Carlo, accelerating inference by factors of $\sim 100$ and $\sim 60$, respectively. As nested sampling also evaluates the Bayesian evidence, these advancements can be exploited to improve model comparison performance while retaining compatibility with existing implementations that are widely used in the natural sciences.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 実世界超解法における中間ランダム化平滑化による普遍ロバストネス

Universal Robustness via Median Randomized Smoothing for Real-World Super-Resolution ( http://arxiv.org/abs/2405.14934v1 )

ライセンス: Link先を確認
Zakariya Chaouai, Mohamed Tamaazousti, (参考訳) 画像超解法(SR)に関する最近の文献の多くは、2つの主要なアプローチに分類できる。 1つ目は、特定のデータセットに合わせて調整された汚職モデルを学ぶことであり、センサーノイズのような低解像度画像のノイズと腐敗を模倣することを目的としている。 しかし、このアプローチはデータ固有であり、適応性に欠ける傾向があり、その精度は目に見えない種類の画像破損に直面したときに低下する。 Robust Super-Resolution (RSR) と呼ばれる2番目のより最近のアプローチは、敵攻撃に対して堅牢にすることでモデルの一般化能力を活用することで現実世界のSRを改善することを提案する。 この2つ目のアプローチをさらに掘り下げるために、深層学習SRモデルの堅牢性を高めるための様々な手法の普遍性について検討する。 言い換えれば、我々は「強靭性法は、幅広い敵の攻撃に対処する際に、最も高い適応性を示すか?」と問う。 合成画像と実世界の画像の両方に対する広範な実験は、特定の種類の攻撃に焦点を絞る傾向にある対向学習技術と比較して、中央値ランダム化平滑化(MRS)がロバストネスの点でより一般的なことを実証的に示している。 さらに,本提案手法により,広義のロバスト手法により,ブラーやガウスノイズなどの標準汚職をより効果的に扱えるようになり,特に実世界の画像に自然に存在する汚損を解消できることを示す。 これらの結果は、現実世界のSR手法の開発において、特にMSSを通してRSRにパラダイムをシフトすることの重要性を裏付けるものである。

Most of the recent literature on image Super-Resolution (SR) can be classified into two main approaches. The first one involves learning a corruption model tailored to a specific dataset, aiming to mimic the noise and corruption in low-resolution images, such as sensor noise. However, this approach is data-specific, tends to lack adaptability, and its accuracy diminishes when faced with unseen types of image corruptions. A second and more recent approach, referred to as Robust Super-Resolution (RSR), proposes to improve real-world SR by harnessing the generalization capabilities of a model by making it robust to adversarial attacks. To delve further into this second approach, our paper explores the universality of various methods for enhancing the robustness of deep learning SR models. In other words, we inquire: "Which robustness method exhibits the highest degree of adaptability when dealing with a wide range of adversarial attacks ?". Our extensive experimentation on both synthetic and real-world images empirically demonstrates that median randomized smoothing (MRS) is more general in terms of robustness compared to adversarial learning techniques, which tend to focus on specific types of attacks. Furthermore, as expected, we also illustrate that the proposed universal robust method enables the SR model to handle standard corruptions more effectively, such as blur and Gaussian noise, and notably, corruptions naturally present in real-world images. These results support the significance of shifting the paradigm in the development of real-world SR methods towards RSR, especially via MRS.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 量子カオスの局所的および非局所的確率的制御--測定と制御による臨界

Local and nonlocal stochastic control of quantum chaos: Measurement- and control-induced criticality ( http://arxiv.org/abs/2405.14936v1 )

ライセンス: Link先を確認
Haining Pan, Sriram Ganeshan, Thomas Iadecola, Justin H. Wilson, J. H. Pixley, (参考訳) 古典ベルヌーイ写像から着想を得た量子モデルの族における位相図の位相について、理論的に研究する。 量子モデルは古典モデルから制御誘起相転移を継承し、量子設定に固有の絡み合い相転移を示す。 この測定誘起相転移は、制御遷移と一致するか、分離されるかの様々な条件で示されてきたが、この場合の2つの遷移に必要な十分条件の体系的理解は、今のところ不足している。 本研究では,制御マップを一般化し,局所的かつグローバルな制御動作を可能にする。 これはランダムウォークによって記述される制御遷移の古典的な側面には影響しないが、量子力学に大きな影響を与え、測定誘起遷移の普遍性クラスは制御操作の局所性に依存する。 大域的な制御マップの存在下では、2つの遷移が一致し、制御誘起相転移が測定誘起相転移を支配する。 対照的に、2つの遷移は局所的な制御写像や追加の射影測度の存在によって分裂し、異なる普遍性クラスを包含する。 局所制御のために、測定誘起相転移はフィードバックフリーモデルで見られるハール対数共形場理論の普遍性クラスを復元する。 しかし、グローバルコントロールでは、相関長指数$\nu \approx 0.7$の新たな普遍性クラスが制御と射影の測定の相互作用から生まれる。 この研究は、制御誘起相転移と測定誘起相転移の関係についてより洗練された理解を提供する。

We theoretically study the topology of the phase diagram of a family of quantum models inspired by the classical Bernoulli map under stochastic control. The quantum models inherit a control-induced phase transition from the classical model and also manifest an entanglement phase transition intrinsic to the quantum setting. This measurement-induced phase transition has been shown in various settings to either coincide or split off from the control transition, but a systematic understanding of the necessary and sufficient conditions for the two transitions to coincide in this case has so far been lacking. In this work, we generalize the control map to allow for either local or global control action. While this does not affect the classical aspects of the control transition that is described by a random walk, it significantly influences the quantum dynamics, leading to the universality class of the measurement-induced transition being dependent on the locality of the control operation. In the presence of a global control map, the two transitions coincide and the control-induced phase transition dominates the measurement-induced phase transition. Contrarily, the two transitions split in the presence of the local control map or additional projective measurements and generically take on distinct universality classes. For local control, the measurement-induced phase transition recovers the Haar logarithmic conformal field theory universality class found in feedback-free models. However, for global control, a novel universality class with correlation length exponent $\nu \approx 0.7$ emerges from the interplay of control and projective measurements. This work provides a more refined understanding of the relationship between the control- and measurement-induced phase transitions.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 1+1)d量子スピン系における格子ねじれゲージリングによる試行性と$p$-alityの実現

Realizing triality and $p$-ality by lattice twisted gauging in (1+1)d quantum spin systems ( http://arxiv.org/abs/2405.14939v1 )

ライセンス: Link先を確認
Da-Chuan Lu, Zhengdi Sun, Yi-Zhuang You, (参考訳) 本論文では, (1+1)d格子上のねじれガウイングについて検討し, 格子作用素上の様々な非局所写像を構成する。 具体的には、ねじれたガウス法則作用素を定義し、ゲージ群の第二コホモロジー群における非自明な要素のデータを含む共形場理論において、オービフォールディング法則によって動機付けられた格子上の有限群のねじれたガウイングを実装する。 SPTアンタングルを最初に適用し,その後に未操作のガウイングを行う2段階の手順と等価であることを示す。 ねじれたガウイングを用いて、$p$が素数であるような$\mathbb{Z}_p\times \mathbb{Z}_p$対称ハミルトニアンの公理性(位数3)と$p$-ality(位数$p$)の写像を構築する。 そのような新しい非局所写像は、クラマース=ワニエ双対性を一般化し、対称作用素の局所性を保存するが、荷電作用素を非局所作用素に写像する。 さらに、これらの非局所写像を実現するために量子過程を構築し、位相図上の誘導写像を解析する。 これらの非局所写像の下で不変な理論に対しては、対応する非可逆対称性が認められる。 非可逆対称性は、ギャップ付き位相の間の多臨界点において理論を制約する。 さらに、非可逆対称性が一意な基底状態を持つ対称的ギャップ位相を持つことができる状態を与える。

In this paper, we study the twisted gauging on the (1+1)d lattice and construct various non-local mappings on the lattice operators. To be specific, we define the twisted Gauss law operator and implement the twisted gauging of the finite group on the lattice motivated by the orbifolding procedure in the conformal field theory, which involves the data of non-trivial element in the second cohomology group of the gauge group. We show the twisted gauging is equivalent to the two-step procedure of first applying the SPT entangler and then untwisted gauging. We use the twisted gauging to construct the triality (order 3) and $p$-ality (order $p$) mapping on the $\mathbb{Z}_p\times \mathbb{Z}_p$ symmetric Hamiltonians, where $p$ is a prime. Such novel non-local mappings generalize Kramers-Wannier duality and they preserve the locality of symmetric operators but map charged operators to non-local ones. We further construct quantum process to realize these non-local mappings and analyze the induced mappings on the phase diagrams. For theories that are invariant under these non-local mappings, they admit the corresponding non-invertible symmetries. The non-invertible symmetry will constrain the theory at the multicritical point between the gapped phases. We further give the condition when the non-invertible symmetry can have symmetric gapped phase with a unique ground state.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 量子データベースのための演算フレームワーク

Operational Framework for a Quantum Database ( http://arxiv.org/abs/2405.14947v1 )

ライセンス: Link先を確認
Carla Rieger, Michele Grossi, Gian Giacomo Guerreschi, Sofia Vallecorsa, Martin Werner, (参考訳) データベースは現代のコンピューティング基盤の重要なコンポーネントであり、永続的に保存されたデータへの効率的なアクセスを可能にする。 それらの構造は、格納されたデータ要素のタイプと関係、およびアクセスパターンに依存します。 データベースの概念を量子領域に拡張することで、量子重ね合わせによるストレージ効率とアクセス並列性の両方が向上することが期待されている。 加えて、量子データベースは、必要に応じて量子アルゴリズムが使用する準備ができている事前状態の準備の結果と見なすことができる。 一方、制限因子は存在しており、絡み合いの生成、非閉定理による完全複写の不合理性、そしてコヒーレントに量子状態を消去する不合理性を含んでいる。 本研究では、古典的および量子的データとインデックスを用いた、データ構造のより広い文脈における量子データベースについて紹介する。 特に、我々は、重ね合わせ状態に格納されたデータの生成と操作に必要な基本的な操作の定義に焦点を当て、量子データベースの実践的実装とユーザビリティに興味を持っています。 具体的には、古典的データと組み合わせて量子インデックス化を行う。 このシナリオでは、データベースの準備、拡張、インデックスの削除、書き込み、データの読み出し、インデックスの置換の操作を定義します。 アルゴリズムの実装を示し、その利点と限界を強調します。 最後に、量子インデクシングと量子データのより一般的な文脈で同じ操作を定義する手順を紹介する。

Databases are an essential component of modern computing infrastructures and allow efficient access to data stored persistently. Their structure depends on the type and relationships of the stored data elements and on the access pattern. Extending the concept of databases to the quantum domain is expected to increase both the storage efficiency and the access parallelism through quantum superposition. In addition, quantum databases may be seen as the result of a prior state preparation ready to be used by quantum algorithms when needed. On the other hand, limiting factors exist and include entanglement creation, the impossibility of perfect copying due to the no-cloning theorem, and the impossibility of coherently erasing a quantum state. In this work, we introduce quantum databases within the broader context of data structures using classical and quantum data and indexing. In particular, we are interested in quantum databases practical implementation and usability, focusing on the definition of the basic operations needed to create and manipulate data stored in a superposition state. Specifically, we address the case of quantum indexing in combination with classical data. For this scenario, we define the operations for database preparation, extension, removal of indices, writing, and read-out of data, as well as index permutation. We present their algorithmic implementation and highlight their advantages and limitations. Finally, we introduce steps toward defining the same operations in the more general context of quantum indexing and quantum data.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 長距離相互作用を用いたリーブ・シュルツ・マティス理論

Lieb-Schultz-Mattis Theorem with Long-Range Interactions ( http://arxiv.org/abs/2405.14949v1 )

ライセンス: Link先を確認
Ruochen Ma, (参考訳) 我々は、$SO(3)$スピン回転と格子変換対称性を示す$d$次元スピン系におけるリーブ=シュルツ=マティスの定理を、距離$r$を持つ$\sim 1/r^\alpha$として崩壊する相互作用の存在下で証明する。 I型は長距離スピンスピン結合を持ち、II型は$SO(3)$対称局所作用素の間の長距離スピンスピン結合である。 スピン=$\frac{1}{2}$系の場合、I型は相互作用が十分に高速に崩壊した場合、すなわち$\alpha>\max(3d,4d-2)$のとき、非ゼロ励起ギャップを持つ特異基底状態を持たないことが示されている。 II型の場合、条件は$\alpha>\max(3d-1,4d-3)$となる。 $1d$では、この入力性条件をタイプIの$\alpha>2$とタイプIIの$\alpha>0$に改善し、均一な2\pi$ツイストで状態のエネルギーを調べる。 特に、2d$では、ファン・デル・ワールス相互作用を持つタイプIIハミルトニアンが定理の制約を受ける。

We prove the Lieb-Schultz-Mattis theorem in $d$-dimensional spin systems exhibiting $SO(3)$ spin rotation and lattice translation symmetries in the presence of interactions decaying as $\sim 1/r^\alpha$ with distance $r$. Two types of Hamiltonians are considered: Type I comprises long-range spin-spin couplings, while Type II features long-range couplings between $SO(3)$ symmetric local operators. For spin-$\frac{1}{2}$ systems, it is shown that Type I cannot have a unique ground state with a nonzero excitation gap when the interaction decays sufficiently fast, i.e., when $\alpha>\max(3d,4d-2)$. For Type II, the condition becomes $\alpha>\max(3d-1,4d-3)$. In $1d$, this ingappability condition is improved to $\alpha>2$ for Type I and $\alpha>0$ for Type II by examining the energy of a state with a uniform $2\pi$ twist. Notably, in $2d$, a Type II Hamiltonian with van der Waals interaction is subject to the constraint of the theorem.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# グラフ上の量子支援レンデブー:明示的アルゴリズムと量子コンピュータシミュレーション

Quantum-assisted Rendezvous on Graphs: Explicit Algorithms and Quantum Computer Simulations ( http://arxiv.org/abs/2405.14951v1 )

ライセンス: Link先を確認
J. Tucker, P. Strange, P. Mironowicz, J. Quintanilla, (参考訳) 我々は,単純なグラフ上での一段階のランデブーゲームにおいて,ノイズの多い中間スケール量子(NISQ)プロセッサを用いて量子優位性について検討した。 我々のプロトコルは、最近発見された(arXiv:2207.14404)小さなサイクルグラフと立方体グラフの最適境界を実現する。 サイクルグラフの場合、プロトコルを任意のグラフサイズに一般化する。 NISQ プロセッサの実験では、完全なグラフ K3 上でランデブーを行うための高い精度で期待される量子優位性を実現する。 対照的に、2つの非連結4頂点完全グラフからなるグラフ2K4では、NISQハードウェアの性能は、より深い回路と既知のキュービットのデコヒーレンスとゲートエラー率とに一致して、サブ古典的である。

We study quantum advantage in one-step rendezvous games on simple graphs analytically, numerically, and using noisy intermediate-scale quantum (NISQ) processors. Our protocols realise the recently discovered [arXiv:2207.14404] optimal bounds for small cycle graphs and cubic graphs. In the case of cycle graphs, we generalise the protocols to arbitrary graph size. The NISQ processor experiments realise the expected quantum advantage with high accuracy for rendezvous on the complete graph K3. In contrast, for the graph 2K4, formed by two disconnected 4-vertex complete graphs, the performance of the NISQ hardware is sub-classical, consistent with the deeper circuit and known qubit decoherence and gate error rates.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# Mallows-DPO: 好みの分散でLLMを微調整する

Mallows-DPO: Fine-Tune Your LLM with Preference Dispersions ( http://arxiv.org/abs/2405.14953v1 )

ライセンス: Link先を確認
Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang, (参考訳) 直接選好最適化(DPO)は、人間からのフィードバック(RLHF)による強化学習を改善するための一般的なアプローチとして最近登場し、大きな言語モデル(LLM)を微調整する技術の改善につながった。 しかし、DPOの弱点は、人間の好みの多様性を特徴づける能力の欠如にある。 Mallows の選好ランク理論に触発されて,新しいアプローチである Mallows-DPO を開発した。 このアプローチの際立った特徴は、人選好のプロンプトへの分散を反映する分散指標である。 我々は,既存のDPOモデルを,この分散指数の特別なケースに還元し,Mallows-DPOと統合できることを示す。 さらに、この分散指数を用いて、合成バンディットの選択から制御可能な世代や対話に至るまで、幅広いベンチマークタスクにおいて、DPOの性能を高めるとともに、優れた一般化能力を維持しながら、どのようにして(実際に)この分散指数を使用するかを実証する。

Direct Preference Optimization (DPO) has recently emerged as a popular approach to improve reinforcement learning with human feedback (RLHF), leading to better techniques to fine-tune large language models (LLM). A weakness of DPO, however, lies in its lack of capability to characterize the diversity of human preferences. Inspired by Mallows' theory of preference ranking, we develop in this paper a new approach, the Mallows-DPO. A distinct feature of this approach is a dispersion index, which reflects the dispersion of human preference to prompts. We show that existing DPO models can be reduced to special cases of this dispersion index, thus unified with Mallows-DPO. More importantly, we demonstrate (empirically) how to use this dispersion index to enhance the performance of DPO in a broad array of benchmark tasks, from synthetic bandit selection to controllable generations and dialogues, while maintaining great generalization capabilities.
翻訳日:2024-05-27 19:37:06 公開日:2024-05-23
# 強化学習のための解釈可能かつ編集可能なプログラム木ポリシー

Interpretable and Editable Programmatic Tree Policies for Reinforcement Learning ( http://arxiv.org/abs/2405.14956v1 )

ライセンス: Link先を確認
Hector Kohler, Quentin Delfosse, Riad Akrour, Kristian Kersting, Philippe Preux, (参考訳) 深い強化学習エージェントは、目標のミスアライメントを目標とする傾向があります。 それらのポリシーのブラックボックスの性質は、そのようなミスアライメントの検出と修正を妨げ、現実世界の展開に必要な信頼を妨げている。 これまでのところ、解釈可能なポリシを学習するソリューションは非効率的か、あるいは多くの人的優先事項を必要とする。 本稿では,INERpretable Editable tRee Programs for ReinforcEmenT lEaRning の高速蒸留法である InterPRETER を提案する。 実験により,InterPRETERのコンパクトツリープログラムは,様々な逐次決定課題にまたがるオーラクルと一致し,設計選択が解釈可能性や性能に与える影響を実証した。 我々は,アタリゲームにおける不正調整を正し,実際の農業戦略を説明するために,我々の方針を解釈し,編集することができることを示す。

Deep reinforcement learning agents are prone to goal misalignments. The black-box nature of their policies hinders the detection and correction of such misalignments, and the trust necessary for real-world deployment. So far, solutions learning interpretable policies are inefficient or require many human priors. We propose INTERPRETER, a fast distillation method producing INTerpretable Editable tRee Programs for ReinforcEmenT lEaRning. We empirically demonstrate that INTERPRETER compact tree programs match oracles across a diverse set of sequential decision tasks and evaluate the impact of our design choices on interpretability and performances. We show that our policies can be interpreted and edited to correct misalignments on Atari games and to explain real farming strategies.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# ニューラルネットワークにおける周波数バイアスのダイナミクスの理解

Understanding the dynamics of the frequency bias in neural networks ( http://arxiv.org/abs/2405.14957v1 )

ライセンス: Link先を確認
Juan Molina, Mircea Petrache, Francisco Sahli Costabal, Matías Courdurier, (参考訳) 近年の研究では、従来のニューラルネットワーク(NN)アーキテクチャは学習プロセスにおいて顕著な周波数バイアスを示すことが示されている。 つまり、NNはまず、高周波の特徴を学ぶ前に、低周波の特徴を学習する。 本研究では,ニューラル・タンジェント・カーネル・システムにおける2層NNの誤差の周波数ダイナミクスを明らかにする偏微分方程式(PDE)を厳格に開発する。 さらに, この知見を用いて, 初期化重みに対する分布の適切な選択が, 周波数バイアスを除去あるいは制御する方法を明確に示す。 本研究は,第1層が正弦および正弦の活性化機能を持つNNであるフーリエ特徴モデルに着目し,所定の分布から周波数をサンプリングする。 本稿では,この理論結果を実験的に検証し,有限要素法を用いてNN力学をPDEの解と比較する。 最後に、同じ原理が多層NNにまで拡張されていることを実証的に示す。

Recent works have shown that traditional Neural Network (NN) architectures display a marked frequency bias in the learning process. Namely, the NN first learns the low-frequency features before learning the high-frequency ones. In this study, we rigorously develop a partial differential equation (PDE) that unravels the frequency dynamics of the error for a 2-layer NN in the Neural Tangent Kernel regime. Furthermore, using this insight, we explicitly demonstrate how an appropriate choice of distributions for the initialization weights can eliminate or control the frequency bias. We focus our study on the Fourier Features model, an NN where the first layer has sine and cosine activation functions, with frequencies sampled from a prescribed distribution. In this setup, we experimentally validate our theoretical results and compare the NN dynamics to the solution of the PDE using the finite element method. Finally, we empirically show that the same principle extends to multi-layer NNs.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# EvGGS: イベントベースの一般化可能なガウススプレイティングのための協調学習フレームワーク

EvGGS: A Collaborative Learning Framework for Event-based Generalizable Gaussian Splatting ( http://arxiv.org/abs/2405.14959v1 )

ライセンス: Link先を確認
Jiaxu Wang, Junhao He, Ziyi Zhang, Mingyuan Sun, Jingkai Sun, Renjing Xu, (参考訳) イベントカメラは、高ダイナミックレンジや低レイテンシといった有望なメリットを提供する。 しかし、イベントデータが少なく、絶対的な色情報を持たないため、生のイベントストリームから3Dシーンを再構築することは困難である。 EvGGSは,3次元ガウシアンとしてシーンをフィードフォワード的にのみ入力することで,シーンを再構成することなく,見えないケースに一般化することができる。 このフレームワークは、深さ推定モジュール、強度再構成モジュール、ガウス回帰モジュールを含む。 これらの部分加群はカスケード方式で接続し、設計された共同損失で協調訓練し、相互に促進する。 関連研究を容易にするために,様々な材料オブジェクトとグレースケール画像,深度マップ,カメラポーズ,シルエットのキャリブレーションされたラベルを用いた,イベントベースの新しい3Dデータセットを構築した。 実験では、共同でトレーニングされたモデルは、個別にトレーニングされたモデルよりも大幅に優れています。 提案手法は, 再現性, 深度/強度の予測において, 良好なレンダリング速度で全てのベースラインより優れた性能を発揮する。

Event cameras offer promising advantages such as high dynamic range and low latency, making them well-suited for challenging lighting conditions and fast-moving scenarios. However, reconstructing 3D scenes from raw event streams is difficult because event data is sparse and does not carry absolute color information. To release its potential in 3D reconstruction, we propose the first event-based generalizable 3D reconstruction framework, called EvGGS, which reconstructs scenes as 3D Gaussians from only event input in a feedforward manner and can generalize to unseen cases without any retraining. This framework includes a depth estimation module, an intensity reconstruction module, and a Gaussian regression module. These submodules connect in a cascading manner, and we collaboratively train them with a designed joint loss to make them mutually promote. To facilitate related studies, we build a novel event-based 3D dataset with various material objects and calibrated labels of grayscale images, depth maps, camera poses, and silhouettes. Experiments show models that have jointly trained significantly outperform those trained individually. Our approach performs better than all baselines in reconstruction quality, and depth/intensity predictions with satisfactory rendering speed.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# SFDDM:拡散モデルのための単回蒸留

SFDDM: Single-fold Distillation for Diffusion models ( http://arxiv.org/abs/2405.14961v1 )

ライセンス: Link先を確認
Chi Hong, Jiyue Huang, Robert Birke, Dick Epema, Stefanie Roos, Lydia Y. Chen, (参考訳) 拡散モデルは顕著な合成画像を効果的に生成するが、重要な制限は推論の非効率性であり、多くのサンプリングステップを必要とする。 推論を加速し, 高品質な合成を維持するため, 教師留学生蒸留を用いて, 拡散モデルを段階的に2進的に圧縮し, 1024段モデルを3倍の128段モデルに還元した。 本稿では,教師モデルからの中間入力の再パラメータ化に基づいて,教師拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる単回蒸留アルゴリズムSFDDMを提案する。 学生の拡散を訓練するためには、出力距離だけでなく、教師と生徒のモデル間の隠れ変数の分布も最小化する。 4つのデータセットに対する大規模な実験により、提案したSFDDMによってトレーニングされた学生モデルが、約1%のステップで高品質なデータをサンプリングできることが示される。 我々の顕著な性能は、SFDDMが単一次元蒸留における知識を効果的に伝達し、セマンティック一貫性と有意義な画像補間を実現することである。

While diffusion models effectively generate remarkable synthetic images, a key limitation is the inference inefficiency, requiring numerous sampling steps. To accelerate inference and maintain high-quality synthesis, teacher-student distillation is applied to compress the diffusion models in a progressive and binary manner by retraining, e.g., reducing the 1024-step model to a 128-step model in 3 folds. In this paper, we propose a single-fold distillation algorithm, SFDDM, which can flexibly compress the teacher diffusion model into a student model of any desired step, based on reparameterization of the intermediate inputs from the teacher model. To train the student diffusion, we minimize not only the output distance but also the distribution of the hidden variables between the teacher and student model. Extensive experiments on four datasets demonstrate that our student model trained by the proposed SFDDM is able to sample high-quality data with steps reduced to as little as approximately 1%, thus, trading off inference time. Our remarkable performance highlights that SFDDM effectively transfers knowledge in single-fold distillation, achieving semantic consistency and meaningful image interpolation.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# 可変定義抽出のためのテンプレート文を利用したデータ拡張手法

Data Augmentation Method Utilizing Template Sentences for Variable Definition Extraction ( http://arxiv.org/abs/2405.14962v1 )

ライセンス: Link先を確認
Kotaro Nagayama, Shota Kato, Manabu Kano, (参考訳) 科学的および技術的論文から変数定義を抽出することは、これらの文書を理解するのに不可欠である。 しかし、定義を構成する長さや単語などの変数定義の特徴はフィールドによって異なり、既存の抽出手法の性能の違いをもたらす。 各分野固有のトレーニングデータを作成することで、手法の性能を向上させることができるが、高品質なトレーニングデータを作成するにはコストがかかる。 そこで本研究では,テンプレート文と変数定義ペアから新たな定義文を生成する手法を提案する。 提案手法は, 化学プロセスに関する論文で検証され, 提案手法によって生成された定義文で訓練されたモデルが, 既存のモデルを上回る89.6%の精度で得られた。

The extraction of variable definitions from scientific and technical papers is essential for understanding these documents. However, the characteristics of variable definitions, such as the length and the words that make up the definition, differ among fields, which leads to differences in the performance of existing extraction methods across fields. Although preparing training data specific to each field can improve the performance of the methods, it is costly to create high-quality training data. To address this challenge, this study proposes a new method that generates new definition sentences from template sentences and variable-definition pairs in the training data. The proposed method has been tested on papers about chemical processes, and the results show that the model trained with the definition sentences generated by the proposed method achieved a higher accuracy of 89.6%, surpassing existing models.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# 創造性とマルコフ決定過程

Creativity and Markov Decision Processes ( http://arxiv.org/abs/2405.14966v1 )

ライセンス: Link先を確認
Joonas Lahikainen, Nadia M. Ady, Christian Guckelsberger, (参考訳) 創造性はすでに、特別な計算クリエイティビティ(CC)コミュニティ以外のAIシステムによるものである。 しかし、AIにおける創造性の評価は、一般的に創造性理論の基盤を欠いているため、不適切な帰属を促進し、創造的行動の分析を制限することができる。 CCの研究者たちは心理学理論を形式モデルに翻訳しているが、これらのモデルの価値は一般的なAIフレームワークとのギャップによって制限されている。 この制限を緩和するために、ボデンの創造性プロセス理論とマルコフ決定プロセス(MDP)の間の公式なマッピングをCreative Systems Frameworkを使って同定する。 筆者らは, 創造プロセスの種類, 収差, 創造性への脅威(不呼吸)を, MDPで見ることができるかを理解するために, 11点中3点を詳細に調査した。 今後の作業やアプリケーションにおける,このようなマッピングの選択に関する品質基準について論じる。

Creativity is already regularly attributed to AI systems outside specialised computational creativity (CC) communities. However, the evaluation of creativity in AI at large typically lacks grounding in creativity theory, which can promote inappropriate attributions and limit the analysis of creative behaviour. While CC researchers have translated psychological theory into formal models, the value of these models is limited by a gap to common AI frameworks. To mitigate this limitation, we identify formal mappings between Boden's process theory of creativity and Markov Decision Processes (MDPs), using the Creative Systems Framework as a stepping stone. We study three out of eleven mappings in detail to understand which types of creative processes, opportunities for (aberrations), and threats to creativity (uninspiration) could be observed in an MDP. We conclude by discussing quality criteria for the selection of such mappings for future work and applications.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# P4Control:プログラマブルスイッチとeBPFによるネットワーク内情報フロー制御によるラインレートクロスホット攻撃防止

P4Control: Line-Rate Cross-Host Attack Prevention via In-Network Information Flow Control Enabled by Programmable Switches and eBPF ( http://arxiv.org/abs/2405.14970v1 )

ライセンス: Link先を確認
Osama Bajaber, Bo Ji, Peng Gao, (参考訳) Advanced Persistent Threatsのような現代の攻撃は、複数のホストをステッピングストーンとして使用し、ネットワークへのより深いアクセスを得るために横方向に移動する。 しかし、既存の防御では、ホスト間でのエンドツーエンドの情報フローの可視性が欠如し、ホスト間の攻撃トラフィックをリアルタイムでブロックすることはできない。 本稿では,P4Controlを提案する。P4Controlは,ネットワーク内のエンド・ツー・エンド情報の流れを正確に抑制し,ラインレートでのクロスホスト攻撃を防止するネットワークディフェンスシステムである。 P4Controlは、新しいネットワーク内分散情報フロー制御(DIFC)機構を導入し、ネットワーク線レートでDIFCをネットワークレベルで実施する最初の試みである。 1)ホスト間情報フローの追跡とラインレートDIFCポリシーの強制のためのプログラマブルスイッチに基づくネットワーク内プリミティブ,(2)ホスト内情報フローを追跡するためにホスト上にデプロイされた軽量eBPFベースのプリミティブ。 P4Controlはまた、異なる攻撃シナリオに対してDIFCポリシーを指定するための表現力のあるポリシーフレームワークも提供する。 我々は,P4Controlが回線レートネットワーク性能を維持しつつ,ネットワークとホストマシンのオーバーヘッドを最小限に抑えながら,ホスト間攻撃を効果的に防止できることを示すため,広範囲な評価を行った。 また、P4Controlはネットワークアクセス制御の微粒化によってゼロ信頼アーキテクチャの実現を促進できる点も注目に値する。

Modern targeted attacks such as Advanced Persistent Threats use multiple hosts as stepping stones and move laterally across them to gain deeper access to the network. However, existing defenses lack end-to-end information flow visibility across hosts and cannot block cross-host attack traffic in real time. In this paper, we propose P4Control, a network defense system that precisely confines end-to-end information flows in a network and prevents cross-host attacks at line rate. P4Control introduces a novel in-network decentralized information flow control (DIFC) mechanism and is the first work that enforces DIFC at the network level at network line rate. This is achieved through: (1) an in-network primitive based on programmable switches for tracking inter-host information flows and enforcing line-rate DIFC policies; (2) a lightweight eBPF-based primitive deployed on hosts for tracking intra-host information flows. P4Control also provides an expressive policy framework for specifying DIFC policies against different attack scenarios. We conduct extensive evaluations to show that P4Control can effectively prevent cross-host attacks in real time, while maintaining line-rate network performance and imposing minimal overhead on the network and host machines. It is also noteworthy that P4Control can facilitate the realization of a zero trust architecture through its fine-grained least-privilege network access control.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# 不確実性下における順序決定のための2段階ML誘導決定規則

Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty ( http://arxiv.org/abs/2405.14973v1 )

ライセンス: Link先を確認
Andrew Rosemberg, Alexandre Street, Davi M. Valladão, Pascal Van Hentenryck, (参考訳) SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。 いくつかのSDMUアプリケーションは、自然にマルチステージ確率最適化問題 (MSPs) としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。 不確実性の凸性と段階的な独立性の仮定の下で、結果の最適化は確率的デュアル・ダイナミック・プログラミング(SDDP)を用いて効率的に解ける。 2段階線形決定規則(TS-LDR)は、段階的な独立性の仮定なしでMSPを解くために提案されている。 TS-LDRは計算処理が可能であるが、過去の観測の線形関数であるポリシーを用いることは、例えばエネルギーシステムにおいて生じる非凸環境には適さない。 本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数以外の政策空間を一般化し,非凸環境に適合させる手法を提案する。 TS-GDRは、確率勾配勾配(SGD)を用いて非線形決定規則を訓練する自己教師付き学習アルゴリズムであり、その前方通過はポリシー実装最適化問題を解くとともに、後方通過は双対性理論を利用して閉形式勾配を得る。 TS-GDRの有効性は、TS-DDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。 この手法はディープラーニング手法の柔軟性と計算性能を継承し、大規模な最適化手法によって取り組んだSDMU問題を解く。 ボリビアの実際の電力システムデータを用いた長期熱水分散(LTHD)問題に適用すると、TS-DDRはソリューションの品質を向上するだけでなく、数桁の計算時間を著しく短縮する。

Sequential Decision Making under Uncertainty (SDMU) is ubiquitous in many domains such as energy, finance, and supply chains. Some SDMU applications are naturally modeled as Multistage Stochastic Optimization Problems (MSPs), but the resulting optimizations are notoriously challenging from a computational standpoint. Under assumptions of convexity and stage-wise independence of the uncertainty, the resulting optimization can be solved efficiently using Stochastic Dual Dynamic Programming (SDDP). Two-stage Linear Decision Rules (TS-LDRs) have been proposed to solve MSPs without the stage-wise independence assumption. TS-LDRs are computationally tractable, but using a policy that is a linear function of past observations is typically not suitable for non-convex environments arising, for example, in energy systems. This paper introduces a novel approach, Two-Stage General Decision Rules (TS-GDR), to generalize the policy space beyond linear functions, making them suitable for non-convex environments. TS-GDR is a self-supervised learning algorithm that trains the nonlinear decision rules using stochastic gradient descent (SGD); its forward passes solve the policy implementation optimization problems, and the backward passes leverage duality theory to obtain closed-form gradients. The effectiveness of TS-GDR is demonstrated through an instantiation using Deep Recurrent Neural Networks named Two-Stage Deep Decision Rules (TS-DDR). The method inherits the flexibility and computational performance of Deep Learning methodologies to solve SDMU problems generally tackled through large-scale optimization techniques. Applied to the Long-Term Hydrothermal Dispatch (LTHD) problem using actual power system data from Bolivia, the TS-DDR not only enhances solution quality but also significantly reduces computation times by several orders of magnitude.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# LOVA3: 視覚的な質問回答、質問、評価を学ぶ

LOVA3: Learning to Visual Question Answering, Asking and Assessment ( http://arxiv.org/abs/2405.14974v1 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Mike Zheng Shou, (参考訳) 質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。 これらの能力を強化することで、人間はデータをより効果的に活用し、より良い理解と学習結果をもたらす。 しかし、現在のMLLM(Multimodal Large Language Models)は、主に質問に対する回答に焦点を当てており、しばしば質問や評価スキルの可能性を無視している。 本研究では,MLLMにこれらの追加機能を持たせるために設計した,'Learning tO Visual Question Answering, Asking and Assessment' という,革新的なフレームワーク LOVA3 を紹介する。 我々のアプローチは、画像の文脈における質問と評価のスキルを育成することを目的として、GenQAとEvalQAの2つの補助訓練タスクを作成することである。 質問能力を向上させるために,我々は多モーダルな基礎課題の包括的集合をコンパイルする。 評価のために、EvalQABenchと呼ばれる新しいベンチマークを導入し、64,000のトレーニングサンプル(正と負のサンプルを均等に分けた)と5000のテストサンプルからなる。 MLLMの回答・質問・評価能力の向上によって,マルチモーダル理解が向上し,パフォーマンスの向上が期待できる。 LOVA3フレームワークを用いてMLLMをトレーニングし,それを10のマルチモーダルベンチマークでテストすることで,我々の仮説を検証する。 その結果,一貫した性能向上が示され,提案手法の有効性が確認された。

Question answering, asking, and assessment are three innate human traits crucial for understanding the world and acquiring knowledge. By enhancing these capabilities, humans can more effectively utilize data, leading to better comprehension and learning outcomes. However, current Multimodal Large Language Models (MLLMs) primarily focus on question answering, often neglecting the full potential of questioning and assessment skills. In this study, we introduce LOVA3, an innovative framework named ``Learning tO Visual Question Answering, Asking and Assessment,'' designed to equip MLLMs with these additional capabilities. Our approach involves the creation of two supplementary training tasks GenQA and EvalQA, aiming at fostering the skills of asking and assessing questions in the context of images. To develop the questioning ability, we compile a comprehensive set of multimodal foundational tasks. For assessment, we introduce a new benchmark called EvalQABench, comprising 64,000 training samples (split evenly between positive and negative samples) and 5,000 testing samples. We posit that enhancing MLLMs with the capabilities to answer, ask, and assess questions will improve their multimodal comprehension and lead to better performance. We validate our hypothesis by training an MLLM using the LOVA3 framework and testing it on 10 multimodal benchmarks. The results demonstrate consistent performance improvements, thereby confirming the efficacy of our approach.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# Wi-Fiベースの位置決めシステムによる質量調査

Surveilling the Masses with Wi-Fi-Based Positioning Systems ( http://arxiv.org/abs/2405.14975v1 )

ライセンス: Link先を確認
Erik Rye, Dave Levin, (参考訳) Wi-Fiベースの位置決めシステム(WPS)は、近距離Wi-Fiアクセスポイントをランドマークとして使用して位置を学習するために、現代のモバイルデバイスで使用されている。 この研究で、AppleのWPSが悪用され、世界規模でプライバシーを脅かす可能性があることを示します。 我々は、未保有の攻撃者が、わずか数日で世界中のWi-Fi BSSID位置情報のスナップショットを蓄積できる攻撃を提案する。 我々の攻撃は、MACアドレス空間に割り当てられた領域が比較的少ないという事実を生かして、ほとんど仮定をしていない。 この手法を1年かけて適用し、世界中の20億以上のBSSIDの正確な位置を調べた。 このような大規模なデータセットのプライバシー上の影響は、縦に撮るとより弱くなるため、攻撃者はデバイスの動きを追跡することができる。 ほとんどのWi-Fiアクセスポイントは長時間動作しないが、小型のトラベルルーターのような多くのデバイスは、モバイル用に特別に設計されている。 我々は、戦争ゾーン(特にウクライナとガザ)の内外を移動するデバイス、自然災害(特にマウイの火災)の影響、およびプロキシによるターゲット個人追跡の可能性 - すべてリモートで無線アクセスポイントを位置決めすることで、AppleのWPSがもたらすプライバシーに対する攻撃のタイプを示すいくつかのケーススタディを提示します。 我々はWPS事業者やWi-Fiアクセスポイントメーカーに対して、世界中の数億人のユーザーのプライバシーを強化するよう勧告する。 最後に、このプライバシーの脆弱性を責任を持って開示する当社の取り組みを詳述し、AppleとWi-Fiアクセスポイントメーカーが独立して、そして私たちの仕事の結果として実装した、いくつかの緩和策を概説する。

Wi-Fi-based Positioning Systems (WPSes) are used by modern mobile devices to learn their position using nearby Wi-Fi access points as landmarks. In this work, we show that Apple's WPS can be abused to create a privacy threat on a global scale. We present an attack that allows an unprivileged attacker to amass a worldwide snapshot of Wi-Fi BSSID geolocations in only a matter of days. Our attack makes few assumptions, merely exploiting the fact that there are relatively few dense regions of allocated MAC address space. Applying this technique over the course of a year, we learned the precise locations of over 2 billion BSSIDs around the world. The privacy implications of such massive datasets become more stark when taken longitudinally, allowing the attacker to track devices' movements. While most Wi-Fi access points do not move for long periods of time, many devices -- like compact travel routers -- are specifically designed to be mobile. We present several case studies that demonstrate the types of attacks on privacy that Apple's WPS enables: We track devices moving in and out of war zones (specifically Ukraine and Gaza), the effects of natural disasters (specifically the fires in Maui), and the possibility of targeted individual tracking by proxy -- all by remotely geolocating wireless access points. We provide recommendations to WPS operators and Wi-Fi access point manufacturers to enhance the privacy of hundreds of millions of users worldwide. Finally, we detail our efforts at responsibly disclosing this privacy vulnerability, and outline some mitigations that Apple and Wi-Fi access point manufacturers have implemented both independently and as a result of our work.
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# 視覚言語モデルにおける損失機会:視覚言語モデルに対するオンラインテスト時間適応の比較研究

A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models ( http://arxiv.org/abs/2405.14977v1 )

ライセンス: Link先を確認
Mario Döbler, Robert A. Marsden, Tobias Raichle, Bin Yang, (参考訳) ディープラーニングの領域では、分散シフトに対するモデル堅牢性を維持することが重要です。 本稿では,CLIPとその変種に着目した視覚言語モデルに対するテスト時適応戦略について検討する。 本研究は,プロンプトベース手法と既存のテスト時間適応手法の体系的な探索を通じて,様々な実世界のシナリオにおける視覚言語モデルの適応性と堅牢性を高めることを目的とする。 この調査には、手作りのプロンプト、即興のアンサンブル、即発的な学習技術など、迅速なエンジニアリング戦略の分析が含まれている。 本研究では,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを提案する。 さらに,画像分類タスク用に設計された既存のテスト時間適応手法を活用することを目的とした比較研究を行った。 各種データセットおよびモデルアーキテクチャにまたがる実験的評価は、異なる適応戦略の有効性を実証する。 さらに、ビジョンエンコーダの更新の重要性と、テキストエンコーダの更新が有益かどうかについて考察する。 コードはhttps://github.com/mariodoebler/test-time-adaptationで入手できる。

In the realm of deep learning, maintaining model robustness against distribution shifts is critical. This paper investigates test-time adaptation strategies for vision-language models, with a specific focus on CLIP and its variants. Through a systematic exploration of prompt-based techniques and existing test-time adaptation methods, the study aims to enhance the adaptability and robustness of vision-language models in diverse real-world scenarios. The investigation includes an analysis of prompt engineering strategies, such as hand-crafted prompts, prompt ensembles, and prompt learning techniques. We introduce a vision-text-space ensemble that significantly boosts the average performance compared to a text-space-only ensemble. Additionally, our comparative study delves into leveraging existing test-time adaptation methods originally designed for image classification tasks. Experimental evaluations conducted across various datasets and model architectures demonstrate the efficacy of different adaptation strategies. We further give insights into the importance of updating the vision encoder and whether it is beneficial to update the text encoder. Code is available at https://github.com/mariodoebler/test-time-adaptation
翻訳日:2024-05-27 19:27:22 公開日:2024-05-23
# CraftsMan: 3Dネイティブ生成とインタラクティブなジオメトリリファイナを備えた高忠実なメッシュ生成

CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner ( http://arxiv.org/abs/2405.14979v1 )

ライセンス: Link先を確認
Weiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long, (参考訳) 本稿では,多種多様な形状,規則メッシュトポロジ,詳細な表面を持つ高忠実な3次元ジオメトリを生成できるCraftsManという新しい3次元モデリングシステムについて述べる。 3D生成の大幅な進歩にもかかわらず、既存の手法は、長い最適化プロセス、不規則なメッシュトポロジ、ノイズの多い表面、ユーザの編集の調整の難しさに苦慮しており、3Dモデリングソフトウェアで広く採用され実装されることを妨げている。 私たちの作品は職人にインスピレーションを受けており、彼はまずその作品の全体像を大まかに描き、その後表面の詳細を詳しく説明している。 具体的には、3Dネイティブ拡散モデルを用いて、潜在集合に基づく3次元表現から学習した潜在空間を演算し、正規メッシュトポロジを持つ粗いジオメトリを数秒で生成する。 特に、このプロセスはテキストプロンプトや参照画像の入力として、強力なマルチビュー拡散モデルを利用して、粗い幾何学の複数のビューを生成し、3次元幾何を生成するためにMV条件の3D拡散モデルに入力し、ロバスト性と一般化性を大幅に向上させる。 その後、表面の細部を大幅に強化するために通常の幾何精細機が使用される。 このリファインメントは、自動的に、あるいはユーザーが提供する編集と対話的に行うことができる。 大規模な実験により,本手法は既存の手法に比べて高品質な3Dアセットの製作に有効であることが示された。 HomePage: https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsMan

We present a novel generative 3D modeling system, coined CraftsMan, which can generate high-fidelity 3D geometries with highly varied shapes, regular mesh topologies, and detailed surfaces, and, notably, allows for refining the geometry in an interactive manner. Despite the significant advancements in 3D generation, existing methods still struggle with lengthy optimization processes, irregular mesh topologies, noisy surfaces, and difficulties in accommodating user edits, consequently impeding their widespread adoption and implementation in 3D modeling software. Our work is inspired by the craftsman, who usually roughs out the holistic figure of the work first and elaborates the surface details subsequently. Specifically, we employ a 3D native diffusion model, which operates on latent space learned from latent set-based 3D representations, to generate coarse geometries with regular mesh topology in seconds. In particular, this process takes as input a text prompt or a reference image and leverages a powerful multi-view (MV) diffusion model to generate multiple views of the coarse geometry, which are fed into our MV-conditioned 3D diffusion model for generating the 3D geometry, significantly improving robustness and generalizability. Following that, a normal-based geometry refiner is used to significantly enhance the surface details. This refinement can be performed automatically, or interactively with user-supplied edits. Extensive experiments demonstrate that our method achieves high efficacy in producing superior-quality 3D assets compared to existing methods. HomePage: https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsMan
翻訳日:2024-05-27 19:27:21 公開日:2024-05-23
# MASS:情報理論から見た多属性選択型データ変換の抑制

MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective ( http://arxiv.org/abs/2405.14981v1 )

ライセンス: Link先を確認
Yizhuo Chen, Chun-Fu Chen, Hsiang Hsu, Shaohan Hu, Marco Pistoia, Tarek Abdelzaher, (参考訳) 大規模データセットの肥大化は、機械学習技術の急速な進歩と広範な採用を促進する上で極めて重要である。 しかし、大量のデータの収集と利用は、不注意な不正処理や悪意ある搾取のために、人々の個人的かつ機密性の高い情報に対するリスクが増大する。 立法ソリューション以外にも、データプライバシ保護に対する多くの技術的アプローチが提案されている。 しかし、データの可用性とユーティリティの低下、ヒューリスティックに依存し、しっかりとした理論的基盤を欠いているなど、さまざまな制限がある。 これらの制約を克服するために,このユーティリティ保護プライバシ保護問題に対する公式な情報理論的定義を提案し,データ駆動型学習可能なデータ変換フレームワークを設計する。 我々は,我々のフレームワークの運用範囲に関する厳密な理論的分析を行い,顔画像,音声クリップ,人間の活動運動センサ信号など,様々なモダリティのデータセットを用いて総合的な実験的評価を行う。 提案手法の有効性と一般化性について,様々な構成のタスクで検証した。

The growing richness of large-scale datasets has been crucial in driving the rapid advancement and wide adoption of machine learning technologies. The massive collection and usage of data, however, pose an increasing risk for people's private and sensitive information due to either inadvertent mishandling or malicious exploitation. Besides legislative solutions, many technical approaches have been proposed towards data privacy protection. However, they bear various limitations such as leading to degraded data availability and utility, or relying on heuristics and lacking solid theoretical bases. To overcome these limitations, we propose a formal information-theoretic definition for this utility-preserving privacy protection problem, and design a data-driven learnable data transformation framework that is capable of selectively suppressing sensitive attributes from target datasets while preserving the other useful attributes, regardless of whether or not they are known in advance or explicitly annotated for preservation. We provide rigorous theoretical analyses on the operational bounds for our framework, and carry out comprehensive experimental evaluations using datasets of a variety of modalities, including facial images, voice audio clips, and human activity motion sensor signals. Results demonstrate the effectiveness and generalizability of our method under various configurations on a multitude of tasks.
翻訳日:2024-05-27 19:27:21 公開日:2024-05-23
# 文脈内時系列予測器

In-context Time Series Predictor ( http://arxiv.org/abs/2405.14982v1 )

ライセンス: Link先を確認
Jiecheng Lu, Yan Sun, Shihao Yang, (参考訳) 近年の Transformer-based large language model (LLMs) では、モデルパラメータを更新することなく、提供されたコンテキストのみに基づいて様々な関数を実行することができる。 従来の Transformer-based や LLM-based の時系列予測手法とは異なり、TSF 問題におけるコンテキスト内機能を完全に活用するために、トークン内に一連の(振り返り、将来の)ペアを構築し、入力トークンとして「時系列予測タスク」を再構成する。 本手法は, 学習済みのLLMパラメータを必要とせずに, よりパラメータ効率が良く, コンテキスト内固有のメカニズムとより密に整合する。 さらに、既存のTransformerベースのTSFモデルの過度な適合、フルデータ、少数ショット、ゼロショット設定でのパフォーマンスの向上といった問題にも対処しています。

Recent Transformer-based large language models (LLMs) demonstrate in-context learning ability to perform various functions based solely on the provided context, without updating model parameters. To fully utilize the in-context capabilities in time series forecasting (TSF) problems, unlike previous Transformer-based or LLM-based time series forecasting methods, we reformulate "time series forecasting tasks" as input tokens by constructing a series of (lookback, future) pairs within the tokens. This method aligns more closely with the inherent in-context mechanisms, and is more parameter-efficient without the need of using pre-trained LLM parameters. Furthermore, it addresses issues such as overfitting in existing Transformer-based TSF models, consistently achieving better performance across full-data, few-shot, and zero-shot settings compared to previous architectures.
翻訳日:2024-05-27 19:27:21 公開日:2024-05-23
# 分割・征服戦略と軽量畳み込みニューラルネットワークを用いた手指骨年齢推定

Hand bone age estimation using divide and conquer strategy and lightweight convolutional neural networks ( http://arxiv.org/abs/2405.14986v1 )

ライセンス: Link先を確認
Amin Ahmadi Kasani, Hedieh Sajedi, (参考訳) 成長障害とその関連疾患の診断において, 子どもの骨年齢を推定することは, 成熟後の最終身長を推定する上で非常に重要である。 そのため、様々な国で広く使われている。 骨年齢を推定する従来の方法は、時間と誤差の少ない左手のアトラス画像とX線画像を比較して行う。 深層ニューラルネットワークモデルを用いて骨の年齢を推定するために,提案手法を用いて骨の精度と速度を改善するために多くの研究がなされている。 最初のモデルを作成して分析した後、私たちは前処理に集中し、インプットを小さくし、品質を向上しました。 手指のX線写真で 骨の年齢を推測しました これにより,骨の年齢推定精度は,必要な計算資源を増大させることなく,関連研究よりも向上した。 平均絶対誤差は0~20年で3.90カ月,MAEは1~18年で3.84カ月であった。

Estimating the Bone Age of children is very important for diagnosing growth defects, and related diseases, and estimating the final height that children reach after maturity. For this reason, it is widely used in different countries. Traditional methods for estimating bone age are performed by comparing atlas images and radiographic images of the left hand, which is time-consuming and error-prone. To estimate bone age using deep neural network models, a lot of research has been done, our effort has been to improve the accuracy and speed of this process by using the introduced approach. After creating and analyzing our initial model, we focused on preprocessing and made the inputs smaller, and increased their quality. we selected small regions of hand radiographs and estimated the age of the bone only according to these regions. by doing this we improved bone age estimation accuracy even further than what was achieved in related works, without increasing the required computational resource. We reached a Mean Absolute Error (MAE) of 3.90 months in the range of 0-20 years and an MAE of 3.84 months in the range of 1-18 years on the RSNA test set.
翻訳日:2024-05-27 19:27:21 公開日:2024-05-23
# 秘密鍵保存による絡み替えを利用した同時量子アイデンティティ認証方式

Simultaneous quantum identity authentication scheme utilizing entanglement swapping with secret key preservation ( http://arxiv.org/abs/2405.14987v1 )

ライセンス: Link先を確認
Arindam Dutta, Anirban Pathak, (参考訳) 量子鍵分布(QKD)における無条件セキュリティは、鍵分布に関わるユーザのアイデンティティの認証に依存する。 古典的なアイデンティティ認証スキームは、当初はQKD実装で利用されていたが、その脆弱性に関する懸念が量子ID認証(QIA)プロトコルの探索を促した。 本研究では,制御された直接量子通信の概念からQIAの新しいプロトコルを提案する。 提案手法は,AliceとBobという2人のユーザの同時認証を容易にする。 厳密なセキュリティ分析を通じて、提案プロトコルは、不正行為、傍受、再送、不正攻撃など、様々な既知の攻撃に耐えることを示した。 さらに,提案プロトコルと類似型の既存のプロトコルとの比較により,提案プロトコルの関連性を確立する。

Unconditional security in quantum key distribution (QKD) relies on authenticating the identities of users involved in key distribution. While classical identity authentication schemes were initially utilized in QKD implementations, concerns regarding their vulnerability have prompted the exploration of quantum identity authentication (QIA) protocols. In this study, we introduce a new protocol for QIA, derived from the concept of controlled secure direct quantum communication. Our proposed scheme facilitates simultaneous authentication between two users, Alice and Bob, leveraging Bell states with the assistance of a third party, Charlie. Through rigorous security analysis, we demonstrate that the proposed protocol withstands various known attacks, including impersonation, intercept and resend and impersonated fraudulent attacks. Additionally, we establish the relevance of the proposed protocol by comparing it with the existing protocols of similar type.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# 変換器における文脈内学習と人間のエピソード記憶のリンク

Linking In-context Learning in Transformers to Human Episodic Memory ( http://arxiv.org/abs/2405.14992v1 )

ライセンス: Link先を確認
Li Ji-An, Corey Y. Zhou, Marcus K. Benna, Marcelo G. Mattar, (参考訳) 人工知能システムと生物学的知能システムとのつながりを理解することは、汎用知能の基礎となる基本原理を明らかにすることができる。 多くの人工知能(AI)モデルには神経科学的な側面があるが、トランスフォーマーモデルや自己認識機構にはそのような関連性はほとんど欠けている。 ここでは,注目頭部とヒトのエピソード記憶との関係について検討する。 本稿では,Transformer-based large language model (LLMs) の文脈内学習能力に寄与する誘導ヘッドに着目した。 我々は、誘導頭部が人間のエピソード記憶の文脈的メンテナンスと検索(CMR)モデルと、行動的、機能的、機械的に類似していることを示した。 テキストデータから事前学習したLCMの分析から、CMRのような頭部が中間モデル層にしばしば出現し、その行動が人間の記憶バイアスを質的に反映していることが分かる。 この結果から,LLMの計算機構と人間の記憶の並列性が明らかとなり,両研究分野に有用な知見が得られた。

Understanding the connections between artificial and biological intelligent systems can reveal fundamental principles underlying general intelligence. While many artificial intelligence (AI) models have a neuroscience counterpart, such connections are largely missing in Transformer models and the self-attention mechanism. Here, we examine the relationship between attention heads and human episodic memory. We focus on the induction heads, which contribute to the in-context learning capabilities of Transformer-based large language models (LLMs). We demonstrate that induction heads are behaviorally, functionally, and mechanistically similar to the contextual maintenance and retrieval (CMR) model of human episodic memory. Our analyses of LLMs pre-trained on extensive text data show that CMR-like heads often emerge in the intermediate model layers and that their behavior qualitatively mirrors the memory biases seen in humans. Our findings uncover a parallel between the computational mechanisms of LLMs and human memory, offering valuable insights into both research fields.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# SoK: ソフトウェアサプライチェーンセキュリティの防衛指向評価

SoK: A Defense-Oriented Evaluation of Software Supply Chain Security ( http://arxiv.org/abs/2405.14993v1 )

ライセンス: Link先を確認
Eman Abu Ishgair, Marcela S. Melara, Santiago Torres-Arias, (参考訳) ソフトウェアサプライチェーンは、ソフトウェアの作成に関わる操作、プロセス、ツール、機関、ヒューマンファクターからなる。 この複雑な生態系の弱さを悪用する多くの顕著な攻撃は、サプライチェーン攻撃のクラスを特定する研究を刺激している。 しかし、実践者は、自分の安全姿勢を理解し、これらの攻撃に対して適切な防御を行うために必要な情報を欠いていることが多い。 ソフトウェアサプライチェーンのセキュリティ研究と開発の次の段階は、全体論的ボトムアップソリューションに焦点を当てた防衛指向のアプローチから大きな恩恵を受けるだろう、と私たちは主張する。 本稿では,ソフトウェアサプライチェーンの基本的な要素とその因果関係を表現するフレームワークであるAStRAモデルを紹介する。 このモデルを用いて、ソフトウェアサプライチェーンのセキュリティ目標を特定し、それらの目標を満たすために、最近の、確立されたセキュリティ技術に関する知識を体系化する。 我々は、事前の攻撃や分類に対して、我々のモデルを検証する。 最後に、創発的な研究ギャップを特定し、安全な新しいソフトウェア開発ツールやシステムを開発する機会を提案する。

The software supply chain comprises a highly complex set of operations, processes, tools, institutions and human factors involved in creating a piece of software. A number of high-profile attacks that exploit a weakness in this complex ecosystem have spurred research in identifying classes of supply chain attacks. Yet, practitioners often lack the necessary information to understand their security posture and implement suitable defenses against these attacks. We argue that the next stage of software supply chain security research and development will benefit greatly from a defense-oriented approach that focuses on holistic bottom-up solutions. To this end, this paper introduces the AStRA model, a framework for representing fundamental software supply chain elements and their causal relationships. Using this model, we identify software supply chain security objectives that are needed to mitigate common attacks and systematize knowledge on recent and well-established security techniques for their ability to meet these objectives. We validate our model against prior attacks and taxonomies. Finally, we identify emergent research gaps and propose opportunities to develop novel software development tools and systems that are secure-by-design.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# 適応的部分モジュラカバーのグリーディ近似比に対する下界

Lower Bound on the Greedy Approximation Ratio for Adaptive Submodular Cover ( http://arxiv.org/abs/2405.14995v1 )

ライセンス: Link先を確認
Blake Harris, Viswanath Nagarajan, (参考訳) 適応部分モジュラー被覆のグリーディアルゴリズムは、少なくとも1.3*(1+ln Q)の近似比を持つことを示す。 さらに、このギャップを示す例はQ=1である。 そのため、Golovin-Krause の論文 ‘Adaptive Submodularity: A New Approach to Active Learning and Stochastic Optimization' において、同じアルゴリズムの (1+ln Q)^2 近似比を主張する以前の結果を無効にしている。

We show that the greedy algorithm for adaptive-submodular cover has approximation ratio at least 1.3*(1+ln Q). Moreover, the instance demonstrating this gap has Q=1. So, it invalidates a prior result in the paper ``Adaptive Submodularity: A New Approach to Active Learning and Stochastic Optimization'' by Golovin-Krause, that claimed a (1+ln Q)^2 approximation ratio for the same algorithm.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# データ依存型統計摂動による私的回帰

Private Regression via Data-Dependent Sufficient Statistic Perturbation ( http://arxiv.org/abs/2405.15002v1 )

ライセンス: Link先を確認
Cecilia Ferrando, Daniel Sheldon, (参考訳) SSP(Sufficient statistic perturbation)は、偏微分線形回帰法として広く用いられている手法である。 SSPは、単純な分布からのプライバシーノイズを十分な統計量に加える、データ非依存のアプローチを採用する。 しかし、十分な統計は、しばしば線形クエリとして表現され、データ依存メカニズムによってよりよく近似される。 本稿では, 線形回帰のためのデータ依存型SSPを導入し, 最新データ非依存型SSPよりも優れていることを示す。 この結果は、十分な統計量で表現できる近似的な目的を発達させることにより、ロジスティック回帰に拡張され、結果として、ロジスティック回帰に対する新しい高い競争力を持つSSPアプローチがもたらされる。 十分な統計を持つモデルでは、合成データのトレーニングはデータ依存のSSPに対応し、そのメカニズムがこれらの線形クエリにどの程度うまく答えるかによって、全体的なユーティリティが決定される。

Sufficient statistic perturbation (SSP) is a widely used method for differentially private linear regression. SSP adopts a data-independent approach where privacy noise from a simple distribution is added to sufficient statistics. However, sufficient statistics can often be expressed as linear queries and better approximated by data-dependent mechanisms. In this paper we introduce data-dependent SSP for linear regression based on post-processing privately released marginals, and find that it outperforms state-of-the-art data-independent SSP. We extend this result to logistic regression by developing an approximate objective that can be expressed in terms of sufficient statistics, resulting in a novel and highly competitive SSP approach for logistic regression. We also make a connection to synthetic data for machine learning: for models with sufficient statistics, training on synthetic data corresponds to data-dependent SSP, with the overall utility determined by how well the mechanism answers these linear queries.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# パスメトリック、プルーニング、一般化

Path-metrics, pruning, and generalization ( http://arxiv.org/abs/2405.15006v1 )

ライセンス: Link先を確認
Antoine Gonon, Nicolas Brisebarre, Elisa Riccietti, Rémi Gribonval, (参考訳) ReLUニューラルネットワークの振る舞いを分析することは、しばしば、パラメータと実装する関数の関係を理解することに集中する。 本稿では,パラメータのパスメトリックス(path-metrics)という用語で関数距離の新たな境界を証明した。 この境界は、ネットワークの再スケーリング対称性に関して本質的に不変であるため、既知境界を鋭くする。 また、私たちの知る限りでは、ResNets、VGGs、U-netsなど、現代のネットワークに広く適用可能な、この種の最初の境界でもある。 ネットワークプルーニングや量子化のようなコンテキストでは、提案したパスメトリックは2つのフォワードパスのみを用いて効率的に計算できる。 その本質的な理論的関心に加えて、有界は新しい理論的一般化境界だけでなく、再スケーリング不変プルーニングの概念の有望な証明でもある。

Analyzing the behavior of ReLU neural networks often hinges on understanding the relationships between their parameters and the functions they implement. This paper proves a new bound on function distances in terms of the so-called path-metrics of the parameters. Since this bound is intrinsically invariant with respect to the rescaling symmetries of the networks, it sharpens previously known bounds. It is also, to the best of our knowledge, the first bound of its kind that is broadly applicable to modern networks such as ResNets, VGGs, U-nets, and many more. In contexts such as network pruning and quantization, the proposed path-metrics can be efficiently computed using only two forward passes. Besides its intrinsic theoretical interest, the bound yields not only novel theoretical generalization bounds, but also a promising proof of concept for rescaling-invariant pruning.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# Re-Adapt: 大規模言語モデルのリバースエンジニアリング適応

RE-Adapt: Reverse Engineered Adaptation of Large Language Models ( http://arxiv.org/abs/2405.15007v1 )

ライセンス: Link先を確認
William Fleshman, Benjamin Van Durme, (参考訳) 既存の命令チューニングを劣化させることなく、新しいドメイン上で大きな言語モデルを微調整するアプローチであるRE-Adaptを導入する。 我々は、命令チューニングされたモデルが学習したことを、対応する事前学習ベースモデルを超えて分離するアダプタをリバースエンジニアリングする。 重要なのは、追加のデータやトレーニングを必要としないことだ。 すると、新しいドメインのベースモデルを微調整して、リバースエンジニアリングされたアダプタで命令の順に読み込むことができます。 Re-Adaptと当社のローランク変種LoRE-Adaptは、検索強化世代と組み合わせてモデルを使用する場合であっても、複数の人気のあるLCMやデータセット間で、他の微調整方法よりも優れています。

We introduce RE-Adapt, an approach to fine-tuning large language models on new domains without degrading any pre-existing instruction-tuning. We reverse engineer an adapter which isolates what an instruction-tuned model has learned beyond its corresponding pretrained base model. Importantly, this requires no additional data or training. We can then fine-tune the base model on a new domain and readapt it to instruction following with the reverse engineered adapter. RE-Adapt and our low-rank variant LoRE-Adapt both outperform other methods of fine-tuning, across multiple popular LLMs and datasets, even when the models are used in conjunction with retrieval-augmented generation.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# Javaアプリケーションにおけるデータベースアクセスバグの特性に関する実証的研究

An Empirical Study on the Characteristics of Database Access Bugs in Java Applications ( http://arxiv.org/abs/2405.15008v1 )

ライセンス: Link先を確認
Wei Liu, Shouvick Mondal, Tse-Hsun Chen, (参考訳) データベースを基盤とするアプリケーションはデータベースアクセスコードに依存し、基盤となるデータベース管理システム(DBMS)と相互作用する。 多くの先行研究は、SQLアンチパターンやSQLコードの臭いといったデータベースアクセスの問題を目的としているが、データベースが支援するアプリケーションのメンテナンス中に、データベースアクセスのバグについての研究が不足している。 本稿では,リレーショナルデータベース管理システム(MySQLやPostgreSQLなど)を使用する7つの大規模Javaオープンソースアプリケーションから収集された423のデータベースアクセスバグを実証的に調査する。 バグレポートを手作業で調べ,履歴をコミットすることで,バグの特徴(例,発生原因,根本原因)を調査する。 報告されたデータベースとデータベース以外のアクセスバグの数は同様の傾向にあるが、バグ修正コミットで修正されたファイルが異なる。 さらに、データベースアクセスバグの根本原因のカテゴリを一般化し、5つの主要なカテゴリ(SQLクエリ、スキーマ、API、設定、SQLクエリ結果)と25のユニークな根本原因を含む。 SQLクエリ、スキーマ、APIに関連するバグが、すべての研究対象アプリケーションに対して84.2%のデータベースアクセスバグをカバーしていることがわかった。 特にSQLクエリのバグ(54%)とAPIのバグ(38.7%)は、JDBCとHibernateを使用するときに最も頻繁に発生する問題である。 最後に、開発者や研究者にとっての発見の意味について論じる。

Database-backed applications rely on the database access code to interact with the underlying database management systems (DBMSs). Although many prior studies aim at database access issues like SQL anti-patterns or SQL code smells, there is a lack of study of database access bugs during the maintenance of database-backed applications. In this paper, we empirically investigate 423 database access bugs collected from seven large-scale Java open source applications that use relational database management systems (e.g., MySQL or PostgreSQL). We study the characteristics (e.g., occurrence and root causes) of the bugs by manually examining the bug reports and commit histories. We find that the number of reported database and non-database access bugs share a similar trend but their modified files in bug fixing commits are different. Additionally, we generalize categories of the root causes of database access bugs, containing five main categories (SQL queries, Schema, API, Configuration, SQL query result) and 25 unique root causes. We find that the bugs pertaining to SQL queries, Schema, and API cover 84.2% of database access bugs across all studied applications. In particular, SQL queries bug (54%) and API bug (38.7%) are the most frequent issues when using JDBC and Hibernate, respectively. Finally, we provide a discussion on the implications of our findings for developers and researchers.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# ヒルベルト$C^*$-加群の部分集合に対するスペクトル半径と正写像のスペクトル特性

Spectral radii for subsets of Hilbert $C^*$-modules and spectral properties of positive maps ( http://arxiv.org/abs/2405.15009v1 )

ライセンス: Link先を確認
B. V. Rajarama Bhat, Biswarup Saha, Prajakta Sahasrabuddhe, (参考訳) 合同および外スペクトル半径の概念はヒルベルト$C^*$-双加群の設定にまで拡張される。 Rota-Strang型の特徴付けは、関節のスペクトル半径に対して証明される。 この一般的な設定では、外周半径の観点からの関節放射半径の近似結果が確立されている。 この研究は、正の写像の半径半径に対するウィーランド=フリードランドの公式の新たな証明につながる。 J. E. Pascoe の考えに従い、最大部分と呼ばれる正の写像は、有限次元 $C^*$-代数上の非零スペクトル半径を持つ任意の正の写像に関連付けられている。 これはペロン・フロベニウスの定理の構成的扱いを与える。 完全正の写像の極大部分は非常に単純な構造を持ち、元の写像が既約であることと、元の写像が既約であることは同値である。 行列のタプルによって生成される代数は決定可能であり、それらの次元は容易に計算可能な完全正の写像のChoi-Kraus係数の線型スパンとして実現することで計算できる。

The notions of joint and outer spectral radii are extended to the setting of Hilbert $C^*$-bimodules. A Rota-Strang type characterisation is proved for the joint spectral radius. In this general setting, an approximation result for the joint spectral radius in terms of the outer spectral radius has been established. This work leads to a new proof of the Wielandt-Friedland's formula for the spectral radius of positive maps. Following an idea of J. E. Pascoe, a positive map called the maximal part has been associated to any positive map with non-zero spectral radius, on finite dimensional $C^*$-algebras. This provides a constructive treatment of the Perron-Frobenius theorem. It is seen that the maximal part of a completely positive map has a very simple structure and it is irreducible if and only if the original map is irreducible. It is observed that algebras generated by tuples of matrices can be determined and their dimensions can be computed by realizing them as linear span of Choi-Kraus coefficients of some easily computable completely positive maps.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# Polyakがパラメータフリーのクラッピンググラディエント染料を発売

Polyak Meets Parameter-free Clipped Gradient Descent ( http://arxiv.org/abs/2405.15010v1 )

ライセンス: Link先を確認
Yuki Takezawa, Han Bao, Ryoma Sato, Kenta Niwa, Makoto Yamada, (参考訳) 勾配降下とその変種は、機械学習モデルをトレーニングするためのデファクト標準アルゴリズムである。 勾配降下はそのハイパーパラメータに敏感であるので、グリッドサーチを用いて注意深くハイパーパラメータを調整する必要があるが、特に複数のハイパーパラメータが存在する場合、時間を要する。 近年,ハエのハイパーパラメータを調整するパラメータフリー手法が研究されている。 しかし、既存の研究は段階化のためのパラメータフリー法のみを研究しており、他のハイパーパラメーターに対するパラメータフリー法は検討されていない。 例えば、勾配のクリッピング閾値は、勾配の爆発問題を防ぐための段差に加えて重要なハイパーパラメーターでもあるが、既存の研究では、クリッピング勾配降下のパラメータフリー法は検討されていない。 本研究では,クリッピング勾配降下に対するパラメータフリー手法について検討する。 具体的には、過度パラメータチューニングなしで最適解に収束するInexact Polyak Stepsizeを提案し、その収束率はL-smooth と $(L_0, L_1)$-smooth の L-smooth の下で漸近的に独立である。 合成関数を用いて収束結果を数値的に検証し,LSTM,Nano-GPT,T5を用いて提案手法の有効性を実証した。

Gradient descent and its variants are de facto standard algorithms for training machine learning models. As gradient descent is sensitive to its hyperparameters, we need to tune the hyperparameters carefully using a grid search, but it is time-consuming, especially when multiple hyperparameters exist. Recently, parameter-free methods that adjust the hyperparameters on the fly have been studied. However, the existing work only studied parameter-free methods for the stepsize, and parameter-free methods for other hyperparameters have not been explored. For instance, the gradient clipping threshold is also a crucial hyperparameter in addition to the stepsize to prevent gradient explosion issues, but none of the existing studies investigated the parameter-free methods for clipped gradient descent. In this work, we study the parameter-free methods for clipped gradient descent. Specifically, we propose Inexact Polyak Stepsize, which converges to the optimal solution without any hyperparameters tuning, and its convergence rate is asymptotically independent of L under L-smooth and $(L_0, L_1)$-smooth assumptions of the loss function as that of clipped gradient descent with well-tuned hyperparameters. We numerically validated our convergence results using a synthetic function and demonstrated the effectiveness of our proposed methods using LSTM, Nano-GPT, and T5.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# 角運動量から見たベータ崩壊とその関連過程

Beta decay and related processes from an angular momentum perspective ( http://arxiv.org/abs/2405.15011v1 )

ライセンス: Link先を確認
Gordon Baym, Jen-Chieh Peng, C. J. Pethick, (参考訳) まず、質量を持たないニュートリノと電子の逆ベータ崩壊から始まり、入射ニュートリノと最終電子の両方がヘリシティ固有状態にある。 問題を解明するために、球状ディラック波の観点から最終電子状態を再放送する。 次にこれらの結果を巨大なニュートリノと電子に一般化し、最終的に同じレンズを通して電子-陽電子消滅過程を調べる。 これらすべての過程において、角運動量の明らかな非保存は、測定装置が当初明確に定義された量子状態ではなく、外界に結合している量子測定プロセスの結果である。

We ask the question of how angular momentum is conserved in weak interaction processes, beginning with inverse beta decay for massless neutrinos and electrons, in which both the incident neutrino and final electron are in helicity eigenstates with respect, however, to {\em different} directions. To elucidate the problem we recast the final electron state in terms of a spherical Dirac wave. We then generalize these results to massive neutrinos and electrons, and finally examine electron-positron annihilation processes through the same lens. In all these processes, the apparent non-conservation of angular momentum is a result of the quantum measurement process in which the measuring apparatus is not in an initially well-defined quantum state, but is coupled to the outside world; the measuring process, being outside the rules of elementary quantum mechanics, does not allow a satisfactory accounting of the angular momentum transfer.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# LLM出力の反転によるプロンプト抽出

Extracting Prompts by Inverting LLM Outputs ( http://arxiv.org/abs/2405.15012v1 )

ライセンス: Link先を確認
Collin Zhang, John X. Morris, Vitaly Shmatikov, (参考訳) 言語モデルのインバージョン:言語モデルの出力が与えられた場合、これらの出力を生成するプロンプトを抽出する。 我々は,モデルのロジットにアクセスすることなく,逆数やジェイルブレイクを行わずにプロンプトを抽出する新しいブラックボックス手法である output2prompt を開発した。 以前の作業とは対照的に、output2promptは通常のユーザクエリの出力のみを必要とする。 メモリ効率を向上させるため、output2promptは新しいスパース符号化技術を採用している。 本研究では,様々なユーザおよびシステムプロンプトに対するoutput2promptの有効性を測定し,異なるLLM間でゼロショット転送性を示す。

We consider the problem of language model inversion: given outputs of a language model, we seek to extract the prompt that generated these outputs. We develop a new black-box method, output2prompt, that learns to extract prompts without access to the model's logits and without adversarial or jailbreaking queries. In contrast to previous work, output2prompt only needs outputs of normal user queries. To improve memory efficiency, output2prompt employs a new sparse encoding techique. We measure the efficacy of output2prompt on a variety of user and system prompts and demonstrate zero-shot transferability across different LLMs.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# 推論の高速化:バタフライスパース行列乗算のための効率的なGPUメモリ管理

Make Inference Faster: Efficient GPU Memory Management for Butterfly Sparse Matrix Multiplication ( http://arxiv.org/abs/2405.15013v1 )

ライセンス: Link先を確認
Antoine Gonon, Léon Zheng, Pascal Carrivain, Quoc-Tung Le, (参考訳) 本稿では,バタフライ構造のためのGPU上での既存のスパース行列乗算アルゴリズムの状態を初めて評価した。 これは、新しい実装を追加するために簡単に修正できる包括的なベンチマークによって達成される。 目標は、ユーザが自分の設定に基づいて最適な実装を選択するためのシンプルなツールを提供することだ。 このベンチマークにより、既存の実装はメモリ書き換え操作に実行時の最大50%を費やしていることがわかった。 これらのメモリ操作は、GPUメモリの異なるレベル間の転送を最小限に抑える新しいCUDAカーネルを導入し、x1.4の中央値のスピードアップ係数を達成し、エネルギー消費量(x0.85の中間値)を減らすことで最適化可能であることを示す。 また、新しいカーネルがニューラルネットワークの推論をいかに高速化できるかを示すことで、結果のより広範な重要性を示す。

This paper is the first to assess the state of existing sparse matrix multiplication algorithms on GPU for the butterfly structure, a promising form of sparsity. This is achieved through a comprehensive benchmark that can be easily modified to add a new implementation. The goal is to provide a simple tool for users to select the optimal implementation based on their settings. Using this benchmark, we find that existing implementations spend up to 50% of their total runtime on memory rewriting operations. We show that these memory operations can be optimized by introducing a new CUDA kernel that minimizes the transfers between the different levels of GPU memory, achieving a median speed-up factor of x1.4 while also reducing energy consumption (median of x0.85). We also demonstrate the broader significance of our results by showing how the new kernel can speed up the inference of neural networks.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# 事前学習モデルにおける外部分布の一般化にどのような影響があるか?

What Variables Affect Out-Of-Distribution Generalization in Pretrained Models? ( http://arxiv.org/abs/2405.15018v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Kyungbok Lee, Jhair Gallardo, Giri Krishnan, Christopher Kanan, (参考訳) トレーニング済みのディープニューラルネットワーク(DNN)によって生成される埋め込みは広く使用されているが、下流タスクに対する効果は様々である。 トンネル効果仮説のレンズによるプレトレーニングDNN埋め込みのアウト・オブ・ディストリビューション(OOD)一般化に影響を与える要因について検討し,より深いDNN層が表現を圧縮し,OOD性能を妨げることを示唆した。 初期の研究とは対照的に、トンネル効果は普遍的ではない。 10,584個の線形プローブに基づいて,DNNアーキテクチャ,トレーニングデータセット,画像解像度,拡張によるトンネル効果を緩和する条件について検討した。 我々は,新しいSHAP解析を用いて各変数の影響を定量化する。 研究結果は,おもちゃのデータセットからより広い文脈への発見を一般化する危険性を強調した。

Embeddings produced by pre-trained deep neural networks (DNNs) are widely used; however, their efficacy for downstream tasks can vary widely. We study the factors influencing out-of-distribution (OOD) generalization of pre-trained DNN embeddings through the lens of the tunnel effect hypothesis, which suggests deeper DNN layers compress representations and hinder OOD performance. Contrary to earlier work, we find the tunnel effect is not universal. Based on 10,584 linear probes, we study the conditions that mitigate the tunnel effect by varying DNN architecture, training dataset, image resolution, and augmentations. We quantify each variable's impact using a novel SHAP analysis. Our results emphasize the danger of generalizing findings from toy datasets to broader contexts.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# エージェントスキル発見

Agentic Skill Discovery ( http://arxiv.org/abs/2405.15019v1 )

ライセンス: Link先を確認
Xufeng Zhao, Cornelius Weber, Stefan Wermter, (参考訳) 言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。 残る課題は、さまざまな基本的なスキルを取得することです。 既存のアプローチでは、複雑なタスクをトップダウン方式でアトミックなロボットアクションに手動で分解するか、ボトムアップ方式で可能な限り多くの組み合わせをブートストラップすることで、幅広いタスクの可能性をカバーする。 しかし、これらの分解や組み合わせは、初期スキルライブラリを必要とする。 例えば、"グラッピング"機能は、多様な"プッシュ"スキルのみを含むスキルライブラリから生まれない。 強化学習による既存の技術発見技術は、徹底的な探索によってスキルを獲得するが、しばしば無意味な振る舞いをもたらす。 本研究では,LLMによって完全に駆動される新しいスキル発見フレームワークを提案する。 このフレームワークは、提供されるシーン記述とロボットの構成に基づいて、LLM生成タスク提案から始まり、タスク完了時に新たなスキルを漸進的に獲得することを目的としている。 提案課題のそれぞれに対して,LLMがサンプリングした報酬と成功判定機能を利用して,一連の強化学習プロセスを開始し,対応する政策を開発する。 学習行動の信頼性と信頼性は、独立した視覚言語モデルによってさらに保証される。 ゼロスキルから始めて、ASDスキルライブラリが出現し、より有意義で信頼性の高いスキルへと拡張し、ロボットがより効率的に高度なタスクを提案、完成させることができることを示す。 プロジェクトページは、https://agentic-skill-discovery.github.io.comで公開されている。

Language-conditioned robotic skills make it possible to apply the high-level reasoning of Large Language Models (LLMs) to low-level robotic control. A remaining challenge is to acquire a diverse set of fundamental skills. Existing approaches either manually decompose a complex task into atomic robotic actions in a top-down fashion, or bootstrap as many combinations as possible in a bottom-up fashion to cover a wider range of task possibilities. These decompositions or combinations, however, require an initial skill library. For example, a "grasping" capability can never emerge from a skill library containing only diverse "pushing" skills. Existing skill discovery techniques with reinforcement learning acquire skills by an exhaustive exploration but often yield non-meaningful behaviors. In this study, we introduce a novel framework for skill discovery that is entirely driven by LLMs. The framework begins with an LLM generating task proposals based on the provided scene description and the robot's configurations, aiming to incrementally acquire new skills upon task completion. For each proposed task, a series of reinforcement learning processes are initiated, utilizing reward and success determination functions sampled by the LLM to develop the corresponding policy. The reliability and trustworthiness of learned behaviors are further ensured by an independent vision-language model. We show that starting with zero skill, the ASD skill library emerges and expands to more and more meaningful and reliable skills, enabling the robot to efficiently further propose and complete advanced tasks. The project page can be found at: https://agentic-skill-discovery.github.io.
翻訳日:2024-05-27 19:17:31 公開日:2024-05-23
# AdjointDEIS:拡散モデルのための効率的な勾配

AdjointDEIS: Efficient Gradients for Diffusion Models ( http://arxiv.org/abs/2405.15020v1 )

ライセンス: Link先を確認
Zander W. Blasingame, Chen Liu, (参考訳) モデルの出力で定義される微分可能な計量に関して、拡散モデルの潜在値とパラメータの最適化は困難で複雑な問題である。 拡散モデルのサンプリングは、ニューラルネットワークがスコア関数または関連量に近い確率フローODEまたは拡散SDEを解くことにより、数値ODE/SDEソルバを使用する。 しかし、na\\iveバックプロパゲーション技術はメモリ集約的であり、全ての中間状態の保存が必要であり、拡散SDEの拡散項から注入されたノイズを扱う際のさらなる複雑さに直面している。 拡散SDEの勾配を解き、初期雑音、条件情報、モデルパラメータに対する勾配を計算する確率的随伴感度法に基づく新しい手法を提案する。 我々は拡散SDEのユニークな構成を利用して、随伴拡散SDEの定式化をさらに単純化し、指数重み付き積分の解を単純化するために変数の変更を用いる。 この定式化を用いて、より単純な随伴ODEと同様に、随伴SDEのカスタムソルバを導出する。 提案した随伴拡散解法は, 確率フローODEの勾配と潜伏子とモデルのパラメータの拡散SDEの勾配を効率的に計算することができる。 最後に, 面変形問題に対する共役拡散解法の有効性を示す。

The optimization of the latents and parameters of diffusion models with respect to some differentiable metric defined on the output of the model is a challenging and complex problem. The sampling for diffusion models is done by solving either the probability flow ODE or diffusion SDE wherein a neural network approximates the score function or related quantity, allowing a numerical ODE/SDE solver to be used. However, na\"ive backpropagation techniques are memory intensive, requiring the storage of all intermediate states, and face additional complexity in handling the injected noise from the diffusion term of the diffusion SDE. We propose a novel method based on the stochastic adjoint sensitivity method to calculate the gradientwith respect to the initial noise, conditional information, and model parameters by solving an additional SDE whose solution is the gradient of the diffusion SDE. We exploit the unique construction of diffusion SDEs to further simplify the formulation of the adjoint diffusion SDE and use a change-of-variables to simplify the solution to an exponentially weighted integral. Using this formulation we derive a custom solver for the adjoint SDE as well as the simpler adjoint ODE. The proposed adjoint diffusion solvers can efficiently compute the gradients for both the probability flow ODE and diffusion SDE for latents and parameters of the model. Lastly, we demonstrate the effectiveness of the adjoint diffusion solvers onthe face morphing problem.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 高調波発生の量子光学的性質の証拠

Evidence of the quantum-optical nature of high-harmonic generation ( http://arxiv.org/abs/2405.15022v1 )

ライセンス: Link先を確認
David Theidel, Viviane Cotte, René Sondenheimer, Viktoriia Shiriaeva, Marie Froidevaux, Vladislav Severin, Philip Mosel, Adam Merdji-Larue, Sven Fröhlich, Kim-Alessandro Weber, Uwe Morgner, Milutin Kovacev, Jens Biegert, Hamed Merdji, (参考訳) 高調波発生(英: high-harmonic generation)は、強いレーザー場において発生する光のアップコンバージョン過程であり、極端に短波長のブロードバンド放射のコヒーレントバーストとなる[1]。 新しい視点として、高調波発生のような超高速の強磁場電子・フォトニックプロセスは、システムの非コヒーレンスが起こるよりもずっと前に、光の非古典的状態を生成する可能性があることを提案する。 これはスケーラビリティ、デコヒーレンス、および巨大な絡み合った状態の生成のような量子技術における根本的な課題に対処する可能性がある [4]。 ここでは、フェムト秒赤外レーザーによって励起される複数の半導体における非古典的な高調波放出の証拠を報告する。 シングルビーム強度とダブルビーム強度の相互相関 [5] を調べることにより、単一光子統計における特徴的、非古典的特徴を測定する。 我々は、超ポアソニアンからポアソニアン光子統計への遷移を管理するレーザー強度に依存する、発生した高調波放射における2モードのスクイージングを観察する。 コーシー=シュワルツの不等式の測定は、高調波発生における多粒子絡みの直接試験を実現する[6]。 この結果は、マルチモーダル検出の理論と、ハーモニクスの効果的なスクイーズモードを導出できるハミルトニアンによって支えられている [7, 8]。 この研究により、高調波発生は本質的には光の古典的状態を生成する新しい量子ボソニックプラットフォームであり、マルチパーティライトブロードバンドの絡み合いやマルチモードスクイーズのようなユニークな特徴を持つことを示す。 ソースは標準の半導体と標準の商用ファイバーレーザーを使用して室温で動作し、光量子コンピューティング、通信、イメージングなどの量子産業のための新しいルートを開く。

High-harmonic generation is a light up-conversion process occurring in a strong laser field, leading to coherent bursts of extreme ultrashort broadband radiation [1]. As a new perspective, we propose that ultrafast strong-field electronic or photonic processes such as high-harmonic generation can potentially generate non-classical states of light well before the decoherence of the system occurs [2, 3]. This could address fundamental challenges in quantum technology such as scalability, decoherence or the generation of massively entangled states [4]. Here, we report experimental evidence of the non-classical nature of the harmonic emission in several semiconductors excited by a femtosecond infrared laser. By investigating single- and double beam intensity cross-correlation [5], we measure characteristic, non-classical features in the single photon statistics. We observe two-mode squeezing in the generated harmonic radiation, which depends on the laser intensity that governs the transition from Super-Poissonian to Poissonian photon statistics. The measured violation of the Cauchy-Schwarz inequality realizes a direct test of multipartite entanglement in high-harmonic generation [6]. This result is supported by the theory of multimodal detection and the Hamiltonian from which the effective squeezing modes of the harmonics can be derived [7, 8]. With this work, we show experimentally that high-harmonic generation is a new quantum bosonic platform that intrinsically produces non-classical states of light with unique features such as multipartite broadband entanglement or multimode squeezing. The source operates at room temperature using standard semiconductors and a standard commercial fiber laser, opening new routes for the quantum industry, such as optical quantum computing, communication and imaging.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# OAC: 正確なポストトレーニング量子化のための出力適応校正

OAC: Output-adaptive Calibration for Accurate Post-training Quantization ( http://arxiv.org/abs/2405.15025v1 )

ライセンス: Link先を確認
Ali Edalati, Alireza Ghaffari, Masoud Asgharian, Lu Hou, Boxing Chen, Vahid Partovi Nia, (参考訳) LLM(Large Language Models)の展開には、その規模が急速に拡大しているため、大きな計算コストがかかる。 LLMの圧縮により、推論に必要なメモリフットプリント、レイテンシ、エネルギーが削減される。 ポストトレーニング量子化(PTQ)技術は、高価な再トレーニングを避けながらLLMを圧縮するために開発されている。 ほとんどのPTQは、モデル出力を無視して層単位で$\ell_2$損失に基づいて量子化誤差を定式化する。 次に、各層をその層ワイド・ヘッセンを用いて校正し、$\ell_2$量子化誤差を最小化するための重みを更新する。 ヘシアンは量子化の最も顕著な重量を検出するためにも用いられる。 このようなPTQアプローチは、低精度量子化の精度低下を招く。 キャリブレーションプロセスにモデル出力を組み込むための出力適応校正(OAC)を提案する。 出力のクロスエントロピー損失の歪みに基づいて量子化誤差を定式化する。 OACは計算複雑性を減らすために、各層に対する出力適応ヘッセンを合理的な仮定で近似する。 出力適応型ヘッセンは、重量行列を更新し、モデル出力の維持に向けた塩分重量を検出するために使用される。 提案手法は,SpQRやBiLLMのような最先端のベースライン,特に極低精度(2ビット,バイナリ)量子化において性能を向上する。

Deployment of Large Language Models (LLMs) has major computational costs, due to their rapidly expanding size. Compression of LLMs reduces the memory footprint, latency, and energy required for their inference. Post-training Quantization (PTQ) techniques have been developed to compress LLMs while avoiding expensive re-training. Most PTQ approaches formulate the quantization error based on a layer-wise $\ell_2$ loss, ignoring the model output. Then, each layer is calibrated using its layer-wise Hessian to update the weights towards minimizing the $\ell_2$ quantization error. The Hessian is also used for detecting the most salient weights to quantization. Such PTQ approaches are prone to accuracy drop in low-precision quantization. We propose Output-adaptive Calibration (OAC) to incorporate the model output in the calibration process. We formulate the quantization error based on the distortion of the output cross-entropy loss. OAC approximates the output-adaptive Hessian for each layer under reasonable assumptions to reduce the computational complexity. The output-adaptive Hessians are used to update the weight matrices and detect the salient weights towards maintaining the model output. Our proposed method outperforms the state-of-the-art baselines such as SpQR and BiLLM, especially, at extreme low-precision (2-bit and binary) quantization.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 視覚リテラシーコースにおける予測モデルを用いた学生のフィードバック向上

Enhancing Student Feedback Using Predictive Models in Visual Literacy Courses ( http://arxiv.org/abs/2405.15026v1 )

ライセンス: Link先を確認
Alon Friedman, Kevin Hawley, Paul Rosen, Md Dilshadur Rahman, (参考訳) ピアレビューは高等教育における一般的なフィードバックメカニズムであり、学生に積極的に関与し、研究者に学生のエンゲージメントを評価する手段を提供する。 しかし、特にデータ予測モデルを用いて学生のコメントを分析する場合、ピアレビューの耐久性に対する実証的な支援はほとんどない。 本研究では,5年以上にわたる大学生の視覚リテラシーコースから得られたピアレビューデータをNa\ive Bayesモデルを用いて分析した。 我々は,Friedman,Rosen,Beasleyらの研究を,学生の発言のNa\"ive Bayesモデルに焦点をあてて拡大する。 本研究は,特に,名詞が顕著なカテゴリーとして出現する言語の一部に基づく学生のコメントの分析において,Na\"ive Bayes"モデリングの有用性を強調した。 また,視覚的ピアレビュールーブリックを用いた学生のコメント調査では,嘘要因が主要因として浮上した。 Na\"ive Bayes" モデルと Beasley のアプローチを比較して,教師が授業の方向をマッピングするのに対して,Na\"ive Bayes" モデルは,コース内の中核トピックを特定するためのより詳細なフレームワークを用いて,より具体的な予測アウトラインを提供する。 Holdout Method と $\mathrm{k}$-fold cross-validation with continuity correct を応用することにより、モデルの予測精度を検証し、ピアレビューメカニズムに対する深い洞察を提供することの有効性を実証した。 本研究は,学生の視覚的ピアワークにおいて,予測モデルを用いて学生のコメントを評価することによって,生徒の教室でのコメントをより良く提供できることを示す。 これはコース内容の変更、コース内容の強化、プロジェクトの修正、ルーブリック自体の変更によってコースの恩恵を受けることができる。

Peer review is a popular feedback mechanism in higher education that actively engages students and provides researchers with a means to assess student engagement. However, there is little empirical support for the durability of peer review, particularly when using data predictive modeling to analyze student comments. This study uses Na\"ive Bayes modeling to analyze peer review data obtained from an undergraduate visual literacy course over five years. We expand on the research of Friedman and Rosen and Beasley et al. by focusing on the Na\"ive Bayes model of students' remarks. Our findings highlight the utility of Na\"ive Bayes modeling, particularly in the analysis of student comments based on parts of speech, where nouns emerged as the prominent category. Additionally, when examining students' comments using the visual peer review rubric, the lie factor emerged as the predominant factor. Comparing Na\"ive Bayes model to Beasley's approach, we found both help instructors map directions taken in the class, but the Na\"ive Bayes model provides a more specific outline for forecasting with a more detailed framework for identifying core topics within the course, enhancing the forecasting of educational directions. Through the application of the Holdout Method and $\mathrm{k}$-fold cross-validation with continuity correction, we have validated the model's predictive accuracy, underscoring its effectiveness in offering deep insights into peer review mechanisms. Our study findings suggest that using predictive modeling to assess student comments can provide a new way to better serve the students' classroom comments on their visual peer work. This can benefit courses by inspiring changes to course content, reinforcement of course content, modification of projects, or modifications to the rubric itself.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# AGRaME: マルチベクトル埋め込みによる任意の粒度ランキング

AGRaME: Any-Granularity Ranking with Multi-Vector Embeddings ( http://arxiv.org/abs/2405.15028v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Omar Attia, Yunyao Li, Heng Ji, Saloni Potdar, (参考訳) ランク付けは検索の基本的な問題であり、一般的な問題である。 しかし、既存のランキングアルゴリズムは通常、ランク付けの粒度をフルパスに制限するか、あるいは所望の粒度ごとに特定の密度インデックスを必要とする。 このような粒度の柔軟性の欠如は、オープンドメイン質問回答の文レベルランキングや属性の命題レベルランキングなど、より粒度の細かいランキングの恩恵を受ける多くのアプリケーションに悪影響を及ぼす。 本研究では,任意の粒度ランキングの考え方を紹介する。これは,複数ベクトル埋め込みを,単一(粗い)粒度のエンコーディングを維持しつつ,様々な粒度レベルにランク付けするものである。 マルチベクター・アプローチの訓練において,マルチグラニュラー・コントラッシブ・ロスを提案し,文と命題の両方をランキング単位として有効性を検証する。 最後に,検索強化生成におけるポストホック引用付加に対する提案レベルのランク付けの適用を実証し,プロンプト駆動励振生成の性能を上回った。

Ranking is a fundamental and popular problem in search. However, existing ranking algorithms usually restrict the granularity of ranking to full passages or require a specific dense index for each desired level of granularity. Such lack of flexibility in granularity negatively affects many applications that can benefit from more granular ranking, such as sentence-level ranking for open-domain question-answering, or proposition-level ranking for attribution. In this work, we introduce the idea of any-granularity ranking, which leverages multi-vector embeddings to rank at varying levels of granularity while maintaining encoding at a single (coarser) level of granularity. We propose a multi-granular contrastive loss for training multi-vector approaches, and validate its utility with both sentences and propositions as ranking units. Finally, we demonstrate the application of proposition-level ranking to post-hoc citation addition in retrieval-augmented generation, surpassing the performance of prompt-driven citation generation.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 原子光電離による渦電子の生成

Generation of vortex electrons by atomic photoionization ( http://arxiv.org/abs/2405.15030v1 )

ライセンス: Link先を確認
I. I. Pavlov, A. D. Chaikovskaia, D. V. Karlovets, (参考訳) 我々は、第1ボルン近似における原子イオン化において、ツイスト光線から電子への軌道角運動量(OAM)の移動過程を探求する。 放出電子の特性は検出方法にかかわらず研究される。 我々は、光子の伝播軸上に1つの原子が配置されている場合、出射電子がOAMの定射影を持つのに対し、電子波パケットのサイズは光子のエネルギーによって決定されるのに対し、その逆コヒーレンス長は光子のエネルギーによって決定される。 原子の位置をシフトすると、電子OAMの有限分散が得られる。 また、より実験的に実現可能なシナリオ(局所化有限サイズの原子標的)を研究し、光イオン化のコヒーレントかつ非コヒーレントな状態を記述するための代表的なアプローチを開発する。

We explore the process of orbital angular momentum (OAM) transfer from a twisted light beam to an electron in atomic ionization within the first Born approximation. The characteristics of the ejected electron are studied regardless of the detection scheme. We find that the outgoing electron possesses a definite projection of OAM when a single atom is located on the propagation axis of the photon, whereas the size of the electron wave packet is solely determined by the energy of the photon rather than by its transverse coherence length. Shifting the position of the atom yields a finite dispersion of the electron OAM. We also study a more experimentally feasible scenario -- a localized finite-sized atomic target -- and develop representative approaches to describing coherent and incoherent regimes of photoionization.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 深部模倣学習による不死化非筋活動探索

Amortized nonmyopic active search via deep imitation learning ( http://arxiv.org/abs/2405.15031v1 )

ライセンス: Link先を確認
Quan Nguyen, Anindya Sarkar, Roman Garnett, (参考訳) アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。 最先端のアルゴリズムは、予算に合った最適なベイズ政策を近似し、以前の研究で印象的な経験的性能を達成することが示されている。 しかし、この近似ポリシーでさえ、探索問題のサイズに関して超線形の計算複雑性を持ち、そのアプリケーションを大規模な空間や意思決定を迅速に行うリアルタイムシステムで非現実的にレンダリングする。 本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。 スクラッチから学ぶことの難しさを回避するため、我々は、専門家の費用対計算ポリシーの振る舞いを模倣する模倣学習技術に訴える。 我々の政策ネットワークは、合成データに基づいて訓練され、探索と搾取のバランスを慎重に調整する非神秘的決定をもたらす有益な探索戦略を学習する。 大規模な実験は、我々の政策が現実のタスクにおける競争性能を実証し、専門家のコストをわずかに近似すると同時に、より安価なベースラインを上回ります。

Active search formalizes a specialized active learning setting where the goal is to collect members of a rare, valuable class. The state-of-the-art algorithm approximates the optimal Bayesian policy in a budget-aware manner, and has been shown to achieve impressive empirical performance in previous work. However, even this approximate policy has a superlinear computational complexity with respect to the size of the search problem, rendering its application impractical in large spaces or in real-time systems where decisions must be made quickly. We study the amortization of this policy by training a neural network to learn to search. To circumvent the difficulty of learning from scratch, we appeal to imitation learning techniques to mimic the behavior of the expert, expensive-to-compute policy. Our policy network, trained on synthetic data, learns a beneficial search strategy that yields nonmyopic decisions carefully balancing exploration and exploitation. Extensive experiments demonstrate our policy achieves competitive performance at real-world tasks that closely approximates the expert's at a fraction of the cost, while outperforming cheaper baselines.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# Aya 23: オープンウェイトがリリース、さらに多言語対応へ

Aya 23: Open Weight Releases to Further Multilingual Progress ( http://arxiv.org/abs/2405.15032v1 )

ライセンス: Link先を確認
Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker, (参考訳) この技術的レポートでは、多言語言語モデルのファミリーであるAya 23を紹介します。 Aya 23は、Ayaモデルの最新リリース("Ust\"un et al , 2024)に基づいて構築されており、高性能で事前訓練されたモデルと、最近リリースされたAyaコレクション(Singh et al , 2024)とのペアリングに焦点を当てている。 その結果、23の言語を提供する強力な多言語大言語モデルとなり、最先端の言語モデリング能力を世界の人口の約半分にまで拡張した。 Ayaモデルは101言語をカバーし、Aya 23は深さ対幅の実験であり、事前トレーニング中に含まれるより少ない言語により多くのキャパシティを割り当てることの影響を探っている。 Aya 23は、Aya 101のような従来の多言語モデルと、Gemma、Mistral、Mixtralといった広く使われているモデルの両方を、差別的で生成的なタスクで上回っている。 8Bモデルと35Bモデルの両方のオープンウェイトは、多言語進行へのアクセスを拡大するための継続的なコミットメントの一部としてリリースします。

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 物理に基づく逆数例の類型としてのカメラ故障の生成

Generating camera failures as a class of physics-based adversarial examples ( http://arxiv.org/abs/2405.15033v1 )

ライセンス: Link先を確認
Manav Prabhakar, Jwalandhar Girnar, Arpan Kusari, (参考訳) 最近は、物理に基づく敵対的なサンプルを生成する研究が盛んに行われているが、そのようなサンプルの見落とされがちな分類は、カメラの物理的故障によるものである。 カメラの故障は、外部の物理的プロセス、すなわちストレスによるコンポーネントの破壊、または内部のコンポーネントの故障の結果起こる。 本研究は、物理に基づく対角レンズのクラスとして、破壊レンズを生成するためのシミュレーション物理プロセスを開発する。 メッシュに拘束された粒子を生成し、ランダムな点とランダムな角度で応力を適用することにより、応力に基づく物理シミュレーションを作成する。 メッシュを介して応力伝搬を行い、メッシュの最終的な結果は、壊れたレンズパターンをシミュレートする対応する画像である。 また,グラフとしてのメッシュと応力伝搬の非線形マッピングを制約付き伝搬設定を用いて学習するニューラルエミュレータを開発した。 次に, 実例と実例, シミュレーション例, シミュレーション例の差を, 異なるクラスの検出失敗率を用いて統計的に比較し, フレシェ・インセプション距離を用いてサンプル間で比較する。 この研究の目標は、反対サンプルを生成するための堅牢な物理ベースのプロセスを提供することです。

While there has been extensive work on generating physics-based adversarial samples recently, an overlooked class of such samples come from physical failures in the camera. Camera failures can occur as a result of an external physical process, i.e. breakdown of a component due to stress, or an internal component failure. In this work, we develop a simulated physical process for generating broken lens as a class of physics-based adversarial samples. We create a stress-based physical simulation by generating particles constrained in a mesh and apply stress at a random point and at a random angle. We perform stress propagation through the mesh and the end result of the mesh is a corresponding image which simulates the broken lens pattern. We also develop a neural emulator which learns the non-linear mapping between the mesh as a graph and the stress propagation using constrained propagation setup. We can then statistically compare the difference between the generated adversarial samples with real, simulated and emulated adversarial examples using the detection failure rate of the different classes and in between the samples using the Frechet Inception distance. Our goal through this work is to provide a robust physics based process for generating adversarial samples.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 臨界リカレントニューラルネットワークにおける入力駆動回路再構成 : Marcelo O. Magnasco

Input-driven circuit reconfiguration in critical recurrent neural networks.Marcelo O. Magnasco ( http://arxiv.org/abs/2405.15036v1 )

ライセンス: Link先を確認
Marcelo O. Magnasco, (参考訳) ハードウェア自体を実際に変更することなく、動的に回路を変更することは再構成(reconfiguration)と呼ばれ、その多様体技術の適用により非常に重要である。 回路再構成は大脳皮質の特徴のように見えるため、自己再構成の根底にある神経構造的・動的特徴を理解することは、脳機能の解明の鍵となるかもしれない。 信号経路を入力のみを用いて「オンザフライ」に再構成し、シナプス重みを変更することなく、非常に単純な単層リカレントネットワークを提案する。 入力の低時空間周波数を用いて、進行する活動の展望を行い、それによって進行波の伝播を許容または否定する。 このメカニズムは動的臨界系の固有特性を利用し、ユニタリ畳み込みカーネルを通して保証する。 このネットワークは、信号伝搬を各領域に沿ってのみ評価し、他の領域で禁止することにより、古典的な接続性問題を解決していることを示す。

Changing a circuit dynamically, without actually changing the hardware itself, is called reconfiguration, and is of great importance due to its manifold technological applications. Circuit reconfiguration appears to be a feature of the cerebral cortex, and hence understanding the neuroarchitectural and dynamical features underlying self-reconfiguration may prove key to elucidate brain function. We present a very simple single-layer recurrent network, whose signal pathways can be reconfigured "on the fly" using only its inputs, with no changes to its synaptic weights. We use the low spatio-temporal frequencies of the input to landscape the ongoing activity, which in turn permits or denies the propagation of traveling waves. This mechanism uses the inherent properties of dynamically-critical systems, which we guarantee through unitary convolution kernels. We show this network solves the classical connectedness problem, by allowing signal propagation only along the regions to be evaluated for connectedness and forbidding it elsewhere.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# CEEBERT:Early Exit BERTにおけるクロスドメイン推論

CEEBERT: Cross-Domain Inference in Early Exit BERT ( http://arxiv.org/abs/2405.15039v1 )

ライセンス: Link先を確認
Divya Jyoti Bajpai, Manjesh Kumar Hanawal, (参考訳) BERTのような自己超越目的を持つ事前訓練型言語モデル(PLM)は、様々なタスクにまたがる顕著なパフォーマンスと一般化を示す。 しかし、大きなサイズのため、推論遅延に悩まされる。 この問題に対処するため、サイドブランチは中間層にアタッチされ、すべてのレイヤを通過する必要なしに、サンプルを早期に推論できる。 しかし、どの層がサンプルを推論して退避するかを判断し、精度とレイテンシをバランスさせることが課題である。 さらに、推定されるサンプルの分布は、クロスドメイン適応に必要なトレーニングに使用されるものとは異なる場合がある。 本稿では,各出口点における信頼度に基づいて,サンプルの早期出口を動的に決定する,CeeBERT (CeeBERT) におけるクロスドメイン推論というオンライン学習アルゴリズムを提案する。 CeeBERTは、中間層で観測されたドメイン固有の信頼性から最適なしきい値を学び、ラベル付きデータを必要としない。 BERTとALBERTモデルを用いた5つの異なるデータセットの実験結果は、CeeBERTがパフォーマンスの低下を最小限に抑えて不要な計算を減らし、レイテンシを改善する能力を示している。 しきい値に適応することにより、CeeBERTはBERT/ALBERTモデルを2\times$ -3.5\times$で、最小限の精度でスピードアップすることができる。

Pre-trained Language Models (PLMs), like BERT, with self-supervision objectives exhibit remarkable performance and generalization across various tasks. However, they suffer in inference latency due to their large size. To address this issue, side branches are attached at intermediate layers, enabling early inference of samples without requiring them to pass through all layers. However, the challenge is to decide which layer to infer and exit each sample so that the accuracy and latency are balanced. Moreover, the distribution of the samples to be inferred may differ from that used for training necessitating cross-domain adaptation. We propose an online learning algorithm named Cross-Domain Inference in Early Exit BERT (CeeBERT) that dynamically determines early exits of samples based on the level of confidence at each exit point. CeeBERT learns optimal thresholds from domain-specific confidence observed at intermediate layers on the fly, eliminating the need for labeled data. Experimental results on five distinct datasets with BERT and ALBERT models demonstrate CeeBERT's ability to improve latency by reducing unnecessary computations with minimal drop in performance. By adapting to the threshold values, CeeBERT can speed up the BERT/ALBERT models by $2\times$ - $3.5\times$ with minimal drop in accuracy.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 外部分布検出における不確かさ推定のためのモデル平均化の致命的ラッパー

Credal Wrapper of Model Averaging for Uncertainty Estimation on Out-Of-Distribution Detection ( http://arxiv.org/abs/2405.15047v1 )

ライセンス: Link先を確認
Kaizheng Wang, Fabio Cuzzolin, Keivan Shariatmadar, David Moens, Hans Hallez, (参考訳) 本稿では,ベイズニューラルネットワーク(BNN)と深層アンサンブルのモデル平均化のクレダルセット表現を定式化し,分類作業における不確実性評価を改善するために,クレダルラッパー(redal wrapper)と呼ばれる革新的なアプローチを提案する。 提案手法は,BNNや深層アンサンブルから得られる単一分布の有限個のコレクションから,クラスごとの上限値と低い確率を抽出し,限られた量のサンプル予測分布が利用できることによるてんかんの不確実性を認識する。 このようなクラス上の確率区間は、凸集合の確率(「クレダル集合」)にマッピングでき、そこから「断続確率変換」と呼ばれる変換を用いて独自の予測が得られる。 本稿では、複数のアウト・オブ・ディストリビューション(OOD)検出ベンチマークについて、さまざまなデータセットペア(CIFAR10/100 vs SVHN/Tiny-ImageNet, CIFAR10 vs CIFAR10-C, CIFAR100-C and ImageNet vs ImageNet-O)を包含し、異なるネットワークアーキテクチャ(VGG16, Res18/50, EfficientNet B2, ViT Base)を用いて、広範な実験を行う。 BNNや深層アンサンブルのベースラインと比較して,提案手法は不確実性推定において優れた性能を示し,OOD試料のキャリブレーション誤差を低くする。

This paper presents an innovative approach, called credal wrapper, to formulating a credal set representation of model averaging for Bayesian neural networks (BNNs) and deep ensembles, capable of improving uncertainty estimation in classification tasks. Given a finite collection of single distributions derived from BNNs or deep ensembles, the proposed approach extracts an upper and a lower probability bound per class, acknowledging the epistemic uncertainty due to the availability of a limited amount of sampled predictive distributions. Such probability intervals over classes can be mapped on a convex set of probabilities (a 'credal set') from which, in turn, a unique prediction can be obtained using a transformation called 'intersection probability transformation'. In this article, we conduct extensive experiments on multiple out-of-distribution (OOD) detection benchmarks, encompassing various dataset pairs (CIFAR10/100 vs SVHN/Tiny-ImageNet, CIFAR10 vs CIFAR10-C, CIFAR100 vs CIFAR100-C and ImageNet vs ImageNet-O) and using different network architectures (such as VGG16, Res18/50, EfficientNet B2, and ViT Base). Compared to BNN and deep ensemble baselines, the proposed credal representation methodology exhibits superior performance in uncertainty estimation and achieves lower expected calibration error on OOD samples.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# 無限水平平均逆線形MDPの確率的強化学習

Provably Efficient Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs ( http://arxiv.org/abs/2405.15050v1 )

ライセンス: Link先を確認
Kihyuk Hong, Yufan Zhang, Ambuj Tewari, (参考訳) 無限水平平均逆線形マルコフ決定過程 (MDPs) に対する計算効率のよいアルゴリズムを設計するオープンな問題を$\widetilde{O}(\sqrt{T})$ regret で解決する。 これまでの$\widetilde{O}(\sqrt{T})$ regretのアプローチは、計算の非効率性に悩まされるか、エルゴディディティのような力学の強い仮定を必要とする。 本稿では、割引設定による平均回帰設定を近似し、割引設定を学習するための楽観的な値反復ベースのアルゴリズムの実行が、割引係数$\gamma$が適切に調整された場合に、後悔する$\widetilde{O}(\sqrt{T})を達成できることを示す。 近似アプローチの課題は、効果的な地平線に鋭い依存を持つ後悔を1 / (1 - \gamma)$ とすることである。 我々は、楽観的な状態値関数の推定値の範囲を制限する計算効率の良いクリッピング演算子を用いて、有効地平線の観点からシャープな後悔境界を達成し、$\widetilde{O}(\sqrt{T})$ regretとなる。

We resolve the open problem of designing a computationally efficient algorithm for infinite-horizon average-reward linear Markov Decision Processes (MDPs) with $\widetilde{O}(\sqrt{T})$ regret. Previous approaches with $\widetilde{O}(\sqrt{T})$ regret either suffer from computational inefficiency or require strong assumptions on dynamics, such as ergodicity. In this paper, we approximate the average-reward setting by the discounted setting and show that running an optimistic value iteration-based algorithm for learning the discounted setting achieves $\widetilde{O}(\sqrt{T})$ regret when the discounting factor $\gamma$ is tuned appropriately. The challenge in the approximation approach is to get a regret bound with a sharp dependency on the effective horizon $1 / (1 - \gamma)$. We use a computationally efficient clipping operator that constrains the span of the optimistic state value function estimate to achieve a sharp regret bound in terms of the effective horizon, which leads to $\widetilde{O}(\sqrt{T})$ regret.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# LLMトレーニングにおけるMoEとDense Speed-Accuracyの比較

Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training ( http://arxiv.org/abs/2405.15052v1 )

ライセンス: Link先を確認
Xianzhi Du, Tom Gunter, Xiang Kong, Mark Lee, Zirui Wang, Aonan Zhang, Nan Du, Ruoming Pang, (参考訳) Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。 MoEを高密度モデルと比較する場合、事前の作業は通常、以下の設定を採用する。 1) モデルの複雑さの尺度としてFLOPまたはアクティベートパラメータを使用する。 2) すべてのモデルを同じ数のトークンにトレーニングする。 この設定は、FLOPとしてMoEを好んでおり、活性化パラメータはスパース層における通信オーバーヘッドを正確に測定しないため、MoEの実際のトレーニング予算はより大きくなる。 本研究では,モデル複雑性のより正確な尺度として,ステップタイムを採用することで設定を再考し,Chinchillaの計算最適設定に基づいて計算予算を決定する。 現代の加速器でMoEを効率的に動作させるために、高密度から高密度のMoEステップタイムを健全な範囲で増加させる3Dシャーディング法を採用する。 我々は,9つの0ショットと2つの1ショットの英語タスクと,MMLU 5ショットとGSM8K 8ショットの3つのモデルスケールで6.4B,12.6B,29.6BでMoEと高密度LLMを評価した。 これらの条件下でも,MoEは,所望のギャップを有する速度精度トレードオフ曲線において,高密度LLMよりも常に優れていた。 私たちの完全なモデル実装とシャーディング戦略は、~\url{https://github.com/apple/axlearn} でリリースされます。

Mixture-of-Experts (MoE) enjoys performance gain by increasing model capacity while keeping computation cost constant. When comparing MoE to dense models, prior work typically adopt the following setting: 1) use FLOPs or activated parameters as a measure of model complexity; 2) train all models to the same number of tokens. We argue that this setting favors MoE as FLOPs and activated parameters do not accurately measure the communication overhead in sparse layers, leading to a larger actual training budget for MoE. In this work, we revisit the settings by adopting step time as a more accurate measure of model complexity, and by determining the total compute budget under the Chinchilla compute-optimal settings. To efficiently run MoE on modern accelerators, we adopt a 3D sharding method that keeps the dense-to-MoE step time increase within a healthy range. We evaluate MoE and dense LLMs on a set of nine 0-shot and two 1-shot English tasks, as well as MMLU 5-shot and GSM8K 8-shot across three model scales at 6.4B, 12.6B, and 29.6B. Experimental results show that even under these settings, MoE consistently outperform dense LLMs on the speed-accuracy trade-off curve with meaningful gaps. Our full model implementation and sharding strategy will be released at~\url{https://github.com/apple/axlearn}
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# マルチエージェント強化学習における行動多様性の制御

Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.15054v1 )

ライセンス: Link先を確認
Matteo Bettini, Ryan Kortvelesy, Amanda Prorok, (参考訳) MARL(Multi-Agent Reinforcement Learning)における行動多様性の研究は、未熟だが有望な分野である。 この文脈において、本研究はマルチエージェントシステムの多様性をどのように制御するかという問題を扱う。 設定値に対する多様性を制御する既存のアプローチがないため、現在のソリューションでは、本質的な報酬や追加の損失関数を通じてそれを盲目的に促進し、学習目標を効果的に変更し、それに対する原則的な尺度を欠くことに重点を置いている。 そこで本研究では,パラメータ共有コンポーネントの和としてポリシーを表現し,パラメータごとに動的に拡張することで,パラメータの正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を提案する。 ポリシーアーキテクチャに直接制約を適用することで、DiCoは学習目標をそのままにして、アクタークリティカルなMARLアルゴリズムに適用可能にする。 我々は,DiCoが望ましい多様性を達成できることを理論的に証明し,協調作業と競争作業の両方において,DiCoをMARLの性能向上とサンプル効率向上のための新しいパラダイムとして活用する方法を示すいくつかの実験を行った。 マルチメディアの結果は、この論文のWebサイト(https://sites.google.com/view/dico-marl)で見ることができる。

The study of behavioral diversity in Multi-Agent Reinforcement Learning (MARL) is a nascent yet promising field. In this context, the present work deals with the question of how to control the diversity of a multi-agent system. With no existing approaches to control diversity to a set value, current solutions focus on blindly promoting it via intrinsic rewards or additional loss functions, effectively changing the learning objective and lacking a principled measure for it. To address this, we introduce Diversity Control (DiCo), a method able to control diversity to an exact value of a given metric by representing policies as the sum of a parameter-shared component and dynamically scaled per-agent components. By applying constraints directly to the policy architecture, DiCo leaves the learning objective unchanged, enabling its applicability to any actor-critic MARL algorithm. We theoretically prove that DiCo achieves the desired diversity, and we provide several experiments, both in cooperative and competitive tasks, that show how DiCo can be employed as a novel paradigm to increase performance and sample efficiency in MARL. Multimedia results are available on the paper's website: https://sites.google.com/view/dico-marl.
翻訳日:2024-05-27 19:07:30 公開日:2024-05-23
# CCBNet: 機密協力型ベイズネットワーク推論

CCBNet: Confidential Collaborative Bayesian Networks Inference ( http://arxiv.org/abs/2405.15055v1 )

ライセンス: Link先を確認
Abele Mălan, Jérémie Decouchant, Thiago Guzella, Lydia Chen, (参考訳) 製造業における効率的な大規模プロセス最適化は、ベイズネットワークモデルとして関連するドメインの知識を符号化する異なる専門家の協力を必要とする。 例えば、リソグラフィー装置、プロセス、補助ツールなどの領域のベイズ的ネットワークは、半導体産業におけるプロセス最適化を効果的に識別するために結合的に使用される必要がある。 しかし、ドメイン間のビジネス機密性はそのようなコラボレーションを妨げ、集中型推論に代わるものを促進する。 我々は,最初の信頼度保存型協調ベイズネットワーク推論フレームワークであるCCBNetを提案する。 CCBNetは秘密の共有を活用し、2つの新しいサブプロトコールに参加することで、パーティーモデルの複合知識の分析を確実に行う。 一 正規化された組み合わせの秘密の共有にモデル化することにより、当事者間の特徴の確率分布を増大させるCABN (ii)SAVEは、分散変数除去を通じて、パーティ推論結果の共有を集約する。 我々はCCBNetを9つの公開ベイズネットワークを通じて広範囲に評価した。 以上の結果から,CCBNetはモデル機密性を保ちながら,集中型手法と類似した予測品質を達成できることが示唆された。 さらに、CCBNetは、223-1003の大規模ネットワークで16-128のパーティを巻き込み、平均的な計算オーバーヘッドを23%削減し、要求毎に71kの値を通信する製造ユースケースにスケールすることを示した。 最後に,2つのサブプロトコルにおけるパーティネットワークを部分的に再構築するための攻撃と緩和の可能性を示す。

Effective large-scale process optimization in manufacturing industries requires close cooperation between different human expert parties who encode their knowledge of related domains as Bayesian network models. For instance, Bayesian networks for domains such as lithography equipment, processes, and auxiliary tools must be conjointly used to effectively identify process optimizations in the semiconductor industry. However, business confidentiality across domains hinders such collaboration, and encourages alternatives to centralized inference. We propose CCBNet, the first Confidentiality-preserving Collaborative Bayesian Network inference framework. CCBNet leverages secret sharing to securely perform analysis on the combined knowledge of party models by joining two novel subprotocols: (i) CABN, which augments probability distributions for features across parties by modeling them into secret shares of their normalized combination; and (ii) SAVE, which aggregates party inference result shares through distributed variable elimination. We extensively evaluate CCBNet via 9 public Bayesian networks. Our results show that CCBNet achieves predictive quality that is similar to the ones of centralized methods while preserving model confidentiality. We further demonstrate that CCBNet scales to challenging manufacturing use cases that involve 16-128 parties in large networks of 223-1003 features, and decreases, on average, computational overhead by 23%, while communicating 71k values per request. Finally, we showcase possible attacks and mitigations for partially reconstructing party networks in the two subprotocols.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# ElastoGen: 4次元生成エラストダイナミクス

ElastoGen: 4D Generative Elastodynamics ( http://arxiv.org/abs/2405.15056v1 )

ライセンス: Link先を確認
Yutao Feng, Yintong Shang, Xiang Feng, Lei Lan, Shandian Zhe, Tianjia Shao, Hongzhi Wu, Kun Zhou, Hao Su, Chenfanfu Jiang, Yin Yang, (参考訳) 物理的に正確でコヒーレントな4次元エラストダイナミックスを生成する知識駆動モデルであるElastoGenを提案する。 ペタバイト規模のデータ駆動学習に頼る代わりに、ElastoGenは物理・イン・ザ・ループの原理を活用し、偏微分方程式や数値解などの確立した物理知識から学習する。 ElastoGenの中核的な考え方は、非線形エラストダイナミック方程式に対応する大域微分作用素を、現代のニューラルネットワークに自然に適合する反復的な局所畳み込みのような演算に変換することである。 各ネットワークモジュールはブラックボックスとして機能するのではなく、この目標をサポートするように設計されている。 結果として、ElastoGenはトレーニング要件とネットワークスケールの両方の観点から非常に軽量である。 さらに、ElastoGenは物理的手順との整合性のため、幅広い超弾性材料の正確なダイナミクスを効率よく生成し、上流および下流の深層モジュールと容易に統合してエンドツーエンドの4D生成を可能にする。

We present ElastoGen, a knowledge-driven model that generates physically accurate and coherent 4D elastodynamics. Instead of relying on petabyte-scale data-driven learning, ElastoGen leverages the principles of physics-in-the-loop and learns from established physical knowledge, such as partial differential equations and their numerical solutions. The core idea of ElastoGen is converting the global differential operator, corresponding to the nonlinear elastodynamic equations, into iterative local convolution-like operations, which naturally fit modern neural networks. Each network module is specifically designed to support this goal rather than functioning as a black box. As a result, ElastoGen is exceptionally lightweight in terms of both training requirements and network scale. Additionally, due to its alignment with physical procedures, ElastoGen efficiently generates accurate dynamics for a wide range of hyperelastic materials and can be easily integrated with upstream and downstream deep modules to enable end-to-end 4D generation.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 自己直交準ツイスト符号と関連する量子符号の特性評価

Characterization of Nearly Self-Orthogonal Quasi-Twisted Codes and Related Quantum Codes ( http://arxiv.org/abs/2405.15057v1 )

ライセンス: Link先を確認
Martianus Frederic Ezerman, Markus Grassl, San Ling, Ferruh Özbudak, Buket Özkaya, (参考訳) 準ツイスト符号は、量子エラー制御符号のためのコンストラクションXと呼ばれる古典的な材料としてここで用いられる。 この構造は、ほぼ自己直交符号を用いて量子安定化器符号を設計する。 内積の選択を拡大してシンプレクティックおよびトレースシンプレクティック内積をカバーし、元のエルミート内積もカバーする。 得られた量子符号の最小距離における洗練された下界を確立し、図示する。 更新されたオンラインデータベースに含められたランダムな検索から、多数の記録破りの量子コードを報告した。

Quasi-twisted codes are used here as the classical ingredients in the so-called Construction X for quantum error-control codes. The construction utilizes nearly self-orthogonal codes to design quantum stabilizer codes. We expand the choices of the inner product to also cover the symplectic and trace-symplectic inner products, in addition to the original Hermitian one. A refined lower bound on the minimum distance of the resulting quantum codes is established and illustrated. We report numerous record breaking quantum codes from our randomized search for inclusion in the updated online database.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# メッセージパッシングモンテカルロ:グラフニューラルネットワークによる低差分点集合の生成

Message-Passing Monte Carlo: Generating low-discrepancy point sets via Graph Neural Networks ( http://arxiv.org/abs/2405.15059v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Nathan Kirk, Michael M. Bronstein, Christiane Lemieux, Daniela Rus, (参考訳) 離散性は点集合の分布の不規則性に対するよく知られた測度である。 差分が小さい点集合は低差分集合と呼ばれ、一様に空間を効率よく満たすことが知られている。 低差点は、数値積分、コンピュータビジョン、機械認識、コンピュータグラフィックス、機械学習、シミュレーションなど、科学と工学における多くの問題において中心的な役割を果たす。 本研究では,Message-Passing Monte Carlo (MPMC) という低差点集合を新たに生成する機械学習手法を提案する。 低差分点集合を生成する幾何学的性質により、Geometric Deep Learningのツールを活用し、グラフニューラルネットワークに基づくモデルを構築する。 さらに、より高次元へのフレームワークの拡張も提供し、手元にある特定の問題に特に重要な特定の次元の均一性を強調するカスタムメイドポイントの生成を柔軟に可能にします。 最後に,提案手法が従来の手法よりも性能的に優れていることを示す。 実際、MPMCの点は、各次元の相違点と最適な相違点が決定できる点の数に関して、経験的に最適かほぼ最適であることが示される。

Discrepancy is a well-known measure for the irregularity of the distribution of a point set. Point sets with small discrepancy are called low-discrepancy and are known to efficiently fill the space in a uniform manner. Low-discrepancy points play a central role in many problems in science and engineering, including numerical integration, computer vision, machine perception, computer graphics, machine learning, and simulation. In this work, we present the first machine learning approach to generate a new class of low-discrepancy point sets named Message-Passing Monte Carlo (MPMC) points. Motivated by the geometric nature of generating low-discrepancy point sets, we leverage tools from Geometric Deep Learning and base our model on Graph Neural Networks. We further provide an extension of our framework to higher dimensions, which flexibly allows the generation of custom-made points that emphasize the uniformity in specific dimensions that are primarily important for the particular problem at hand. Finally, we demonstrate that our proposed model achieves state-of-the-art performance superior to previous methods by a significant margin. In fact, MPMC points are empirically shown to be either optimal or near-optimal with respect to the discrepancy for every dimension and the number of points for which the optimal discrepancy can be determined.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 熱平衡からの不均一物体の量子自己推進

Quantum Self-Propulsion of an Inhomogeneous Object out of Thermal Equilibrium ( http://arxiv.org/abs/2405.15061v1 )

ライセンス: Link先を確認
Kimball A. Milton, Nima Pourtolami, Gerard Kennedy, (参考訳) 先程の論文では、熱平衡から外れた体やナノ粒子が自然にトルクを経験する、量子真空のトルクがどのように生じるかについて検討した。 しかし、これは体が非相互物質からなり、磁場のような外部の影響が必要とされると考えられる。 すると、粒子の電気分極性は非対称な実部を持つ。 この効果は偏光性において一階に起こる。 そのため、自己推進力は生じない。 ここでは,2次効果を考慮し,エキゾチックな電磁特性を必要とせず,真空中で自発力が生じることを示す。 熱非平衡は依然として必要であるが、身体の電気感受性は不均一である必要がある。 そこで本研究では, 異なる半身からなる針, 球体と球体, それぞれの半球が異なる物質でできている針, 顔が異なる薄いスラブの4つの例について検討する。 その結果は過去の数値調査と一致している。 ここでは,金属表面の皮膚深度を考察する。 また、身体に終端速度を生じさせる摩擦力も考慮し、これは観測可能であるかもしれない。 より重要となるのは、熱平衡への緩和であり、それでも容易に観測可能な終端速度に繋がる可能性がある。 運動量空間で表される運動体上のそのような力の一般的な処理は、推進力と摩擦力の両方を包含する。 推進力の源は、体の異なる部分からの放射の非対称パターンであり、金属部分の高い反射率が重要な役割を果たす。

In an earlier paper, we explored how quantum vacuum torque can arise: a body or nanoparticle that is out of thermal equilibrium with its environment experiences a spontaneous torque. But this requires that the body be composed of nonreciprocal material, which seems to necessitate the presence of an external influence, such as a magnetic field. Then the electric polarizability of the particle has a real part that is nonsymmetric. This effect occurs to first order in the polarizability. To that order, no self-propulsive force can arise. Here, we consider second-order effects, and show that spontaneous forces can arise in vacuum, without requiring exotic electromagnetic properties. Thermal nonequilibrium is still necessary, but the electric susceptibility of the body need only be inhomogeneous. We investigate four examples of such a body: a needle composed of distinct halves; a sphere and a ball, each hemisphere being made of a different substance; and a thin slab, each face of which is different. The results found are consistent with previous numerical investigations. Here, we take into account the skin depth of metal surfaces. We also consider the frictional forces that would cause the body to acquire a terminal velocity, which might be observable. More likely to be important is relaxation to thermal equilibrium, which can still lead to a readily observable terminal velocity. A general treatment of such forces on a moving body, expressed in momentum space, is provided, which incorporates both propulsive and frictional forces. The source of the propulsive force is the nonsymmetric pattern of radiation from different parts of the body, the higher reflectivity of the metal portion playing a crucial role.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# モデルに依存しない実用性-生体情報匿名化

Model-Agnostic Utility-Preserving Biometric Information Anonymization ( http://arxiv.org/abs/2405.15062v1 )

ライセンス: Link先を確認
Chun-Fu Chen, Bill Moriarty, Shaohan Hu, Sean Moran, Marco Pistoia, Vincenzo Piuri, Pierangela Samarati, (参考訳) 最近のセンサー技術と機械学習技術の急速な進歩は、指紋、声、網膜/顔のスキャン、歩行/運動/ジェスチャーデータといった人々の生体認証の普遍的な収集と利用を生み出し、認証、健康モニタリング、より高度な分析など幅広い応用を可能にしている。 より良いユーザエクスペリエンスと深いビジネスインサイトを提供する一方で、バイオメトリックスの使用は、本質的なセンシティブな性質と、アイデンティティや医療状況などのセンシティブな情報を漏洩するリスクが伴うため、深刻なプライバシー上の懸念を提起している。 本稿では、その感度特性を抑え、研究とビジネス価値の下流機械学習に基づく分析に関係のある特徴を保ちながら、バイオメトリックスデータを匿名化できる新しいモダリティ非依存型データ変換フレームワークを提案する。 顔, 声, 動きのデータセットを公開し, 徹底的な実験を行った。 以上の結果から,本提案フレームワークは高輝度情報に対する高輝度抑圧レベルを達成できると同時に,匿名化バイオメトリックスデータの解析を引き続き行うことで,良好な精度が得られる可能性が示唆された。

The recent rapid advancements in both sensing and machine learning technologies have given rise to the universal collection and utilization of people's biometrics, such as fingerprints, voices, retina/facial scans, or gait/motion/gestures data, enabling a wide range of applications including authentication, health monitoring, or much more sophisticated analytics. While providing better user experiences and deeper business insights, the use of biometrics has raised serious privacy concerns due to their intrinsic sensitive nature and the accompanying high risk of leaking sensitive information such as identity or medical conditions. In this paper, we propose a novel modality-agnostic data transformation framework that is capable of anonymizing biometric data by suppressing its sensitive attributes and retaining features relevant to downstream machine learning-based analyses that are of research and business values. We carried out a thorough experimental evaluation using publicly available facial, voice, and motion datasets. Results show that our proposed framework can achieve a \highlight{high suppression level for sensitive information}, while at the same time retain underlying data utility such that subsequent analyses on the anonymized biometric data could still be carried out to yield satisfactory accuracy.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# ハイパーグラフの集団に基づく分類モデル

A classification model based on a population of hypergraphs ( http://arxiv.org/abs/2405.15063v1 )

ライセンス: Link先を確認
Samuel Barton, Adelle Coster, Diane Donovan, James Lefevre, (参考訳) 本稿では,新しいハイパーグラフ分類アルゴリズムを提案する。 この枠組みにおけるハイパーグラフの使用は広く研究されている。 過去の研究では、ハイパーグラフモデルは一般的に距離や属性に基づく手法を用いて構築されている。 すなわち、ハイパーエッジは、ある距離内にある、あるいは共通の属性を持つサンプルの集合を接続することによって生成される。 しかし、これらの手法は直接マルチウェイインタラクションに焦点を合わせないことが多い。 本稿では,任意の順序の多方向相互作用を探索するハイパーグラフを構築し,この問題に対処するアルゴリズムを提案する。 また,ハイパーグラフの集団を用いてアルゴリズムの性能とロバスト性を向上する。 このアルゴリズムは2つのデータセットで評価され、一般的なランダム森林分類アルゴリズムと比較して有望な性能を示す。

This paper introduces a novel hypergraph classification algorithm. The use of hypergraphs in this framework has been widely studied. In previous work, hypergraph models are typically constructed using distance or attribute based methods. That is, hyperedges are generated by connecting a set of samples which are within a certain distance or have a common attribute. These methods however, do not often focus on multi-way interactions directly. The algorithm provided in this paper looks to address this problem by constructing hypergraphs which explore multi-way interactions of any order. We also increase the performance and robustness of the algorithm by using a population of hypergraphs. The algorithm is evaluated on two datasets, demonstrating promising performance compared to a generic random forest classification algorithm.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 言語モデルにおける空間推論評価:質的推論のための実世界シミュレーションベンチマーク

Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning ( http://arxiv.org/abs/2405.15064v1 )

ライセンス: Link先を確認
Fangjun Li, David C. Hogg, Anthony G. Cohn, (参考訳) 空間推論は人間の認知とマシンインテリジェンスの両方において重要な役割を担い、この点において言語モデルの能力(LM)に関する新たな研究を促している。 しかし、既存のベンチマークでは質的空間推論(QSR)の評価の欠点が明らかになっている。 これらのベンチマークは通常、過度に単純化されたシナリオや不明瞭な自然言語の記述を示し、効果的な評価を妨げる。 本稿では,現実的な3次元シミュレーションデータに基づいて,様々なオブジェクトと空間的関係を持つ様々な部屋レイアウトを提供する,LMにおけるQSR評価のための新しいベンチマークを提案する。 このアプローチは、従来のトイタスク指向のシナリオから切り離された空間的推論評価のために、より詳細でコンテキストに富んだ物語を提供する。 我々のベンチマークは、位相的、方向的、距離的関係を含む、定性的空間関係の幅広いスペクトルを含んでいる。 これらは異なる視点、様々な粒度、および実世界の複雑さを模倣する関係制約の密度で示される。 鍵となる貢献は論理ベースの整合性チェックツールであり、空間的関係が解釈に開放されることの多い現実のシナリオと整合して、複数のプラウチブルなソリューションの評価を可能にする。 先進的なLMのベンチマーク評価により,空間的推論の強度と限界が明らかになった。 それらは、マルチホップ空間推論と様々なビュー記述の混合を解釈することの難しさに直面し、将来の改善の領域を指し示している。

Spatial reasoning plays a vital role in both human cognition and machine intelligence, prompting new research into language models' (LMs) capabilities in this regard. However, existing benchmarks reveal shortcomings in evaluating qualitative spatial reasoning (QSR). These benchmarks typically present oversimplified scenarios or unclear natural language descriptions, hindering effective evaluation. We present a novel benchmark for assessing QSR in LMs, which is grounded in realistic 3D simulation data, offering a series of diverse room layouts with various objects and their spatial relationships. This approach provides a more detailed and context-rich narrative for spatial reasoning evaluation, diverging from traditional, toy-task-oriented scenarios. Our benchmark encompasses a broad spectrum of qualitative spatial relationships, including topological, directional, and distance relations. These are presented with different viewing points, varied granularities, and density of relation constraints to mimic real-world complexities. A key contribution is our logic-based consistency-checking tool, which enables the assessment of multiple plausible solutions, aligning with real-world scenarios where spatial relationships are often open to interpretation. Our benchmark evaluation of advanced LMs reveals their strengths and limitations in spatial reasoning. They face difficulties with multi-hop spatial reasoning and interpreting a mix of different view descriptions, pointing to areas for future improvement.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 観測不能な選好不均一性を用いた直接選好最適化

Direct Preference Optimization With Unobserved Preference Heterogeneity ( http://arxiv.org/abs/2405.15065v1 )

ライセンス: Link先を確認
Keertana Chidambaram, Karthik Vinay Seetharaman, Vasilis Syrgkanis, (参考訳) RLHFは、言語モデルと人間の目的と価値を整合させる重要なステップとして登場した。 典型的には、人間の好みデータから報酬モデルを学び、強化学習を使用して生成モデルを更新する。 逆に、直接選好最適化(DPO)は、選好データを用いて生成モデルを直接最適化し、強化学習をスキップする。 しかし、RLHF と DPO はいずれも、多様なヒトのアノテーターの現実を見越して、均一な嗜好を前提としている。 本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。 そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。 次に、類似の潜伏因子を持つアノテータサブグループの中で最悪の後悔を最小化するために、単一の生成法を生成するために、min-max 後悔のアンサンブル学習モデルを導入する。 我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。 実験結果から, 同値な生成ポリシーを創出する上でのアプローチの有効性が検証された。

RLHF has emerged as a pivotal step in aligning language models with human objectives and values. It typically involves learning a reward model from human preference data and then using reinforcement learning to update the generative model accordingly. Conversely, Direct Preference Optimization (DPO) directly optimizes the generative model with preference data, skipping reinforcement learning. However, both RLHF and DPO assume uniform preferences, overlooking the reality of diverse human annotators. This paper presents a new method to align generative models with varied human preferences. We propose an Expectation-Maximization adaptation to DPO, generating a mixture of models based on latent preference types of the annotators. We then introduce a min-max regret ensemble learning model to produce a single generative method to minimize worst-case regret among annotator subgroups with similar latent factors. Our algorithms leverage the simplicity of DPO while accommodating diverse preferences. Experimental results validate the effectiveness of our approach in producing equitable generative policies.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# アジャイル文化の変革 - 組織におけるアジャイルマインドセットの育成における課題の展開

Agile Culture Clash: Unveiling Challenges in Cultivating an Agile Mindset in Organizations ( http://arxiv.org/abs/2405.15066v1 )

ライセンス: Link先を確認
Michael Neumann, Thorben Kuchel, Philipp Diebold, Eva-Maria Schön, (参考訳) コンテキスト: アジャイル変革には、アジャイルプラクティスと組織的な目標と戦略の整合性、作業の組織化と実行方法のシフトに関する問題など、多くの課題があります。 非常に重要な課題の1つは、アジャイルマインドセットに関連する文化的課題である。 文化的な衝突や組織的な変化に対する抵抗が、最も重要なアジャイル導入障壁のひとつであることを研究は示しています。 目的: アジャイル文化と組織文化の相互作用から生じる課題を特定します。 そこで我々は,この領域に取り組み,実践者が現在直面している問題について,さらなる研究を行うための重要な貢献を思いついた。 方法:これは混合メソッドの研究アプローチで行われます。 まず、私たちはアジャイル実践者のネットワークに質的なデータを集め、アジャイル文化に関する15の課題を導き出しました。 そこで,92名の被験者を対象に質問紙調査を行った。 結果: アジャイル文化に関する15の課題のうち7つの重要な課題を特定しました。 これらの重要な課題は、技術的なアジリティ(アジャイルを行うこと)と文化的なアジリティ(アジャイルであること)に言及します。 結果は、アジャイル文化チャレンジ(ACuCa)と呼ばれる概念モデルの種類で示されます。 結論: 私たちの結果に基づいて,ソフトウェア開発やそれ以上にアジャイルメソッドを移行あるいは使用しながら,文化的な課題のトピックについて,より詳細な調査を行うための,今後の作業面の導出に着手しました。

Context: In agile transformations, there are many challenges such as alignment between agile practices and the organizational goals and strategies or issues with shifts in how work is organized and executed. One very important challenge but less considered and treated in research are cultural challenges associated with an agile mindset. Although research shows that cultural clashes and general organizational resistance to change are part of the most significant agile adoption barriers. Objective: We identify challenges that arise from the interplay between agile culture and organizational culture. In doing so, we tackle this field and come up with important contributions for further research regarding a problem that practitioners face today. Method: This is done with a mixed-method research approach. First, we gathered qualitative data among our network of agile practitioners and derived in sum 15 challenges with agile culture. Then, we conducted quantitative data by means of a questionnaire study with 92 participants. Results: We identified 7 key challenges out of the 15 challenges with agile culture. These key challenges refer to the technical agility (doing agile) and the cultural agility (being agile). The results are presented in type of a conceptual model named the Agile Cultural Challenges (ACuCa). Conclusion: Based on our results, we started deriving future work aspects to do more detailed research on the topic of cultural challenges while transitioning or using agile methods in software development and beyond.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# コンストラクティブな熟考を促進する - 受容性のためのリフレーミング

Promoting Constructive Deliberation: Reframing for Receptiveness ( http://arxiv.org/abs/2405.15067v1 )

ライセンス: Link先を確認
Gauri Kambhatla, Matthew Lease, Ashwin Rajadesingan, (参考訳) 議論の的となっているトピックをオンラインで構築的に議論するために,意味を保ちながら信号の受容性に反する応答を自動的に再フレーミングする手法を提案する。 心理学、コミュニケーション、言語学の研究に基づいて、リフレーミングの6つの戦略を特定する。 Redditのコメントと返信のデータセットを使用して、各戦略に従って返信を自動的に再設定します。 人間中心の実験を通して、我々のフレームワークで生成された反応は、元の反応よりもはるかに受容性が高いと認識され、また、一般的な受容性ベースラインであることがわかった。 我々は、結果の意味を分析し、議論し、コンテンツモデレーションへの応用を強調します。 全体として、特定の社会科学構造である受容性(receptiveness)を計算フレームワークに変換することで、LLM世代をより人間の知覚に適合させる方法について説明する。

To promote constructive discussion of controversial topics online, we propose automatic reframing of disagreeing responses to signal receptiveness while preserving meaning. Drawing on research from psychology, communications, and linguistics, we identify six strategies for reframing. We automatically reframe replies according to each strategy, using a dataset of Reddit comments and replies. Through human-centered experiments, we find that the replies generated with our framework are perceived to be significantly more receptive than the original replies, as well as a generic receptiveness baseline. We analyze and discuss the implications of our results and highlight applications to content moderation. Overall, we illustrate how transforming receptiveness, a particular social science construct, into a computational framework, can make LLM generations more aligned with human perceptions.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# アンダーソン不純物モデルの多体状態と相関器のための動的・対称性保存・ハードウェア適応回路

Dynamic, Symmetry-Preserving, and Hardware-Adaptable Circuits for Quantum Computing Many-Body States and Correlators of the Anderson Impurity Model ( http://arxiv.org/abs/2405.15069v1 )

ライセンス: Link先を確認
Eric B. Jones, Cody James Winkleblack, Colin Campbell, Caleb Rotello, Edward D. Dahl, Matthew Reynolds, Peter Graf, Wesley Jones, (参考訳) N_q$-qubits 上のハードウェア再構成可能なアンサッツは、アンダーソン不純物モデル (AIM) の多体状態の変分準備に$N_{\text{imp}}+N_{\text{bath}}=N_q/2$ site を用い、各変分探索部分空間内で総電荷とスピンz成分を保存する。 AIMの多体基底状態は、O(N_q^2)$異なる電荷スピンセクターのすべての最小値として決定される。 ハミルトン予想値は $\omega(N_q) < N_{\text{meas を必要とする。 N_{\text{imp}}N_{\text{bath}})$ symmetric-serving, parallelizable measurement circuits, each amenable to post-selection。 一粒子不純物グリーン関数を得るには、初期クリロフベクトルが中間回路測定によってどのように計算され、また、対称性保存アンサッツを用いてランツォスの反復がどのように計算されるかを示す。 浴場数が1から6に増加する単一不純物アンダーソンモデルでは, 回路深さの線形スケーリングや, サブクアティックスケーリングによる最適化器の複雑さの増大が, 基底状態の変動の容易さを示唆する数値エミュレーションを用いて検討した。 したがって、グリーン関数計算の時間依存手法と組み合わせることで、初期のフォールトトレラントプロセッサ上での電子的相関を考慮に入れるのに有用なツールになると期待する。 最後に,磁気感受性や電子ホールプロパゲータなどの興味のある物質特性の計算をめざして,時間進化,中周期測定条件演算,アダマール試験の組み合わせを用いて,多体・時間依存相関関数を計算するための簡単な方法を提案する。

We present a hardware-reconfigurable ansatz on $N_q$-qubits for the variational preparation of many-body states of the Anderson impurity model (AIM) with $N_{\text{imp}}+N_{\text{bath}}=N_q/2$ sites, which conserves total charge and spin z-component within each variational search subspace. The many-body ground state of the AIM is determined as the minimum over all minima of $O(N_q^2)$ distinct charge-spin sectors. Hamiltonian expectation values are shown to require $\omega(N_q) < N_{\text{meas.}} \leq O(N_{\text{imp}}N_{\text{bath}})$ symmetry-preserving, parallelizable measurement circuits, each amenable to post-selection. To obtain the one-particle impurity Green's function we show how initial Krylov vectors can be computed via mid-circuit measurement and how Lanczos iterations can be computed using the symmetry-preserving ansatz. For a single-impurity Anderson model with a number of bath sites increasing from one to six, we show using numerical emulation that the ease of variational ground-state preparation is suggestive of linear scaling in circuit depth and sub-quartic scaling in optimizer complexity. We therefore expect that, combined with time-dependent methods for Green's function computation, our ansatz provides a useful tool to account for electronic correlations on early fault-tolerant processors. Finally, with a view towards computing real materials properties of interest like magnetic susceptibilities and electron-hole propagators, we provide a straightforward method to compute many-body, time-dependent correlation functions using a combination of time evolution, mid-circuit measurement-conditioned operations, and the Hadamard test.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 翻訳記憶を用いた検索強化機械翻訳におけるサンプル選択の最適化

Optimizing example selection for retrieval-augmented machine translation with translation memories ( http://arxiv.org/abs/2405.15070v1 )

ライセンス: Link先を確認
Maxime Bouthors, Josep Crego, François Yvon, (参考訳) Retrieval-augmented machine translationは、類似のインスタンスを検索することで、翻訳メモリからのサンプルを活用する。 これらの例は、ニューラルデコーダの予測を条件付けるために使用される。 我々は、上流検索のステップを改善し、下流編集ベースのモデルであるマルチLevenshtein Transformerを検討することを目指している。 このタスクは、ソース文の全体カバレッジを最大化する一連の例を見つけることで構成される。 この目的のために、我々は部分モジュラ函数の理論に頼り、このカバレッジを最適化するための新しいアルゴリズムを探索する。 機械翻訳作業における結果のパフォーマンス向上を評価する。

Retrieval-augmented machine translation leverages examples from a translation memory by retrieving similar instances. These examples are used to condition the predictions of a neural decoder. We aim to improve the upstream retrieval step and consider a fixed downstream edit-based model: the multi-Levenshtein Transformer. The task consists of finding a set of examples that maximizes the overall coverage of the source sentence. To this end, we rely on the theory of submodular functions and explore new algorithms to optimize this coverage. We evaluate the resulting performance gains for the machine translation task.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# Grokked Transformers is Implicit Reasoners: a Mechanistic Journey to the Edge of Generalization

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization ( http://arxiv.org/abs/2405.15071v1 )

ライセンス: Link先を確認
Boshi Wang, Xiang Yue, Yu Su, Huan Sun, (参考訳) トランスフォーマーがパラメトリックな知識よりも暗黙的に理屈を学べるかどうかは、最も有能な言語モデルでさえも苦戦するスキルである。 コンポジションと比較という2つの代表的な推論タイプに注目して、トランスフォーマーは暗黙の推論を学習できるが、グラクキングによって、すなわち過度な適合をはるかに超える訓練をすることができる。 一般化のレベルは推論の種類によって異なる: 分布外例に直面した場合、変換器は構成を体系的に一般化することができないが、比較で成功する。 トレーニングを通じてモデルの内部を掘り下げ、分析実験を行います。 1)一般化回路の形成及び一般化回路の相対効率との関係等のグラッキングのメカニズム 2) 系統性と一般化回路の構成の関連性 この結果から,暗黙的推論の促進と階層間知識共有の促進など,トランスフォーマーアーキテクチャの潜在的な改善が示唆された。 さらに,大規模な探索空間を持つ挑戦的推論タスクにおいて,非パラメトリックメモリに基づくGPT-4-TurboとGemini-1.5-Proは,入力スタイルや検索拡張によらず失敗することを示した。

We study whether transformers can learn to implicitly reason over parametric knowledge, a skill that even the most capable language models struggle with. Focusing on two representative reasoning types, composition and comparison, we consistently find that transformers can learn implicit reasoning, but only through grokking, i.e., extended training far beyond overfitting. The levels of generalization also vary across reasoning types: when faced with out-of-distribution examples, transformers fail to systematically generalize for composition but succeed for comparison. We delve into the model's internals throughout training, conducting analytical experiments that reveal: 1) the mechanism behind grokking, such as the formation of the generalizing circuit and its relation to the relative efficiency of generalizing and memorizing circuits, and 2) the connection between systematicity and the configuration of the generalizing circuit. Our findings guide data and training setup to better induce implicit reasoning and suggest potential improvements to the transformer architecture, such as encouraging cross-layer knowledge sharing. Furthermore, we demonstrate that for a challenging reasoning task with a large search space, GPT-4-Turbo and Gemini-1.5-Pro based on non-parametric memory fail badly regardless of prompting styles or retrieval augmentation, while a fully grokked transformer can achieve near-perfect accuracy, showcasing the power of parametric memory for complex reasoning.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# テンポラルスタンプ分類器:天文学的アラートの短いシーケンスを分類する

Temporal Stamp Classifier: Classifying Short Sequences of Astronomical Alerts ( http://arxiv.org/abs/2405.15073v1 )

ライセンス: Link先を確認
Daniel Neira O., Pablo A. Estévez, Francisco Förster, (参考訳) 本研究では,ZTF (Zwicky Transient Facility) 調査で報告された警報を用いて,天体の深層学習に基づく分類モデルを提案する。 このモデルは、各アラートに含まれるスタンプイメージとメタデータのシーケンスと、All-WISEカタログの特徴を入力として扱う。 提案したモデルは、時間スタンプ分類器と呼ばれ、2~5回の検出で約98%の精度で、アクティブ銀河核(AGN)、スーパーヌーバ(SNe)、可変星(VS)の3種類の天体を識別することができる。 その結果、モデルの性能は、より多くの検出を追加することで向上することが示された。 簡単な再帰モデルではLSTMのようなより複雑なモデルと競合する結果が得られるが、最初の検出のみを使用するオリジナルのスタンプ分類器モデルの変更も提案する。 後者のモデルの性能はアーキテクチャの変更とランダムな回転の追加によって改善され、テスト精度は1.46%向上した。

In this work, we propose a deep learning-based classification model of astronomical objects using alerts reported by the Zwicky Transient Facility (ZTF) survey. The model takes as inputs sequences of stamp images and metadata contained in each alert, as well as features from the All-WISE catalog. The proposed model, called temporal stamp classifier, is able to discriminate between three classes of astronomical objects: Active Galactic Nuclei (AGN), Super-Novae (SNe) and Variable Stars (VS), with an accuracy of approximately 98% in the test set, when using 2 to 5 detections. The results show that the model performance improves with the addition of more detections. Simple recurrence models obtain competitive results with those of more complex models such as LSTM.We also propose changes to the original stamp classifier model, which only uses the first detection. The performance of the latter model improves with changes in the architecture and the addition of random rotations, achieving a 1.46% increase in test accuracy.
翻訳日:2024-05-27 18:57:45 公開日:2024-05-23
# 計算最適ニューラルスケーリング法則の4+3相

4+3 Phases of Compute-Optimal Neural Scaling Laws ( http://arxiv.org/abs/2405.15074v1 )

ライセンス: Link先を確認
Elliot Paquette, Courtney Paquette, Lechao Xiao, Jeffrey Pennington, (参考訳) マロニー、ロバーツ、サリーによって導入された3つのパラメータ解決可能なニューラルスケーリングモデルを考える。 このモデルには、データ複雑性、ターゲット複雑性、モデルパラメータカウントの3つのパラメータがある。 我々はこのニューラルスケーリングモデルを用いて、計算制限付き無限データスケーリング法則に関する新しい予測を導出する。 ニューラルスケーリングモデルをトレーニングするために、平均二乗損失に対して1パス確率勾配降下を実行する。 モデルパラメータ数が増加するにつれて、全ての反復数を保持し、精度を向上させる損失曲線の表現を導出する。 次に,計算最適モデルパラメータ数を解析し,データ複雑/ターゲット複雑相平面の4相(+3相)を同定する。 位相境界は、モデルキャパシティの相対的重要性、最適化ノイズ、特徴の埋め込みによって決定される。 さらに,これらすべての位相におけるスケーリング則指数,特に浮動小数点演算予算の関数として最適モデルパラメータ数を計算することによって,数学的証明と広範な数値的証拠を導出する。

We consider the three parameter solvable neural scaling model introduced by Maloney, Roberts, and Sully. The model has three parameters: data complexity, target complexity, and model-parameter-count. We use this neural scaling model to derive new predictions about the compute-limited, infinite-data scaling law regime. To train the neural scaling model, we run one-pass stochastic gradient descent on a mean-squared loss. We derive a representation of the loss curves which holds over all iteration counts and improves in accuracy as the model parameter count grows. We then analyze the compute-optimal model-parameter-count, and identify 4 phases (+3 subphases) in the data-complexity/target-complexity phase-plane. The phase boundaries are determined by the relative importance of model capacity, optimizer noise, and embedding of the features. We furthermore derive, with mathematical proof and extensive numerical evidence, the scaling-law exponents in all of these phases, in particular computing the optimal model-parameter-count as a function of floating point operation budget.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 大規模言語モデルを用いたインフォーマティブテキスト評価の緩和

Eliciting Informative Text Evaluations with Large Language Models ( http://arxiv.org/abs/2405.15077v1 )

ライセンス: Link先を確認
Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck, (参考訳) ピア予測機構は、証明可能な保証で高品質なフィードバックを動機付ける。 しかし、現在の手法は、多重選択やスカラー数のような比較的単純なレポートにのみ適用される。 我々は,これらの手法をテキストベースレポートの大規模領域に拡張することを目指しており,近年の大規模言語モデルの発展を反映している。 これは、ピアレビュー、eコマースの顧客レビュー、ソーシャルメディアへのコメントなど、さまざまなフィードバックチャネルにおいて、テキストフィードバックが標準となっているため、ピア予測メカニズムの適用性を大幅に向上させる。 本稿では,GPPM(Generative Peer Prediction Mechanism)とGSPPM(Generative Synopsis Peer Prediction Mechanism)の2つのメカニズムを紹介する。 これらのメカニズムはLSMを予測因子として利用し、あるエージェントのレポートから仲間のレポートの予測にマッピングする。 理論的には、LLM予測が十分正確であれば、我々のメカニズムは(近似)ベイズナッシュ平衡として高い努力と真理を動機付けることができる。 実験により,Yelp レビューデータセットと ICLR OpenReview データセットという,2つの実際のデータセットで実施した実験を通じて,我々のメカニズムの有効性を確認した。 ICLRデータセットでは、人間によるレビュー、GPT-4生成レビュー、GPT-3.5生成レビューの3つの品質レベルを、期待されるスコアの観点から区別することが可能です。 さらに、GSPPMはLPM生成レビューをGPPMよりも効果的にペナルティ化する。

Peer prediction mechanisms motivate high-quality feedback with provable guarantees. However, current methods only apply to rather simple reports, like multiple-choice or scalar numbers. We aim to broaden these techniques to the larger domain of text-based reports, drawing on the recent developments in large language models. This vastly increases the applicability of peer prediction mechanisms as textual feedback is the norm in a large variety of feedback channels: peer reviews, e-commerce customer reviews, and comments on social media. We introduce two mechanisms, the Generative Peer Prediction Mechanism (GPPM) and the Generative Synopsis Peer Prediction Mechanism (GSPPM). These mechanisms utilize LLMs as predictors, mapping from one agent's report to a prediction of her peer's report. Theoretically, we show that when the LLM prediction is sufficiently accurate, our mechanisms can incentivize high effort and truth-telling as an (approximate) Bayesian Nash equilibrium. Empirically, we confirm the efficacy of our mechanisms through experiments conducted on two real datasets: the Yelp review dataset and the ICLR OpenReview dataset. We highlight the results that on the ICLR dataset, our mechanisms can differentiate three quality levels -- human-written reviews, GPT-4-generated reviews, and GPT-3.5-generated reviews in terms of expected scores. Additionally, GSPPM penalizes LLM-generated reviews more effectively than GPPM.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# クラウド,モバイル,エッジ設定における分散学習に関する調査

A Survey of Distributed Learning in Cloud, Mobile, and Edge Settings ( http://arxiv.org/abs/2405.15079v1 )

ライセンス: Link先を確認
Madison Threadgill, Andreas Gerstlauer, (参考訳) ディープラーニング(DL)や畳み込みニューラルネットワーク(CNN)、大規模言語モデル(LLM)の時代には、マシンラーニング(ML)モデルはますます複雑化しており、推論とトレーニング段階の両方において重要な計算資源を必要としている。 この課題に対処するため、分散学習は、さまざまなデバイスや環境に並列化を導入し、重要なアプローチとして登場した。 この調査では、クラウドとエッジ設定を含む分散学習の状況について調査する。 データとモデルの並列性という中核的な概念を掘り下げて、モデルをさまざまな次元と層に分割して、リソースの利用とパフォーマンスを最適化する方法を調べます。 計算効率,通信オーバヘッド,メモリ制約のトレードオフを浮き彫りにして,完全接続層,畳み込み層,繰り返し層など,さまざまなレイヤタイプに対するパーティショニング方式を解析する。 この調査は、様々な文脈で分散学習アプローチを比較し、対比することによって、この急速に発展する分野における将来の研究と開発に有用な洞察を提供する。

In the era of deep learning (DL), convolutional neural networks (CNNs), and large language models (LLMs), machine learning (ML) models are becoming increasingly complex, demanding significant computational resources for both inference and training stages. To address this challenge, distributed learning has emerged as a crucial approach, employing parallelization across various devices and environments. This survey explores the landscape of distributed learning, encompassing cloud and edge settings. We delve into the core concepts of data and model parallelism, examining how models are partitioned across different dimensions and layers to optimize resource utilization and performance. We analyze various partitioning schemes for different layer types, including fully connected, convolutional, and recurrent layers, highlighting the trade-offs between computational efficiency, communication overhead, and memory constraints. This survey provides valuable insights for future research and development in this rapidly evolving field by comparing and contrasting distributed learning approaches across diverse contexts.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 分散調和:フェデレートされたクラスタバッチ効果の調整と一般化

Distributed Harmonization: Federated Clustered Batch Effect Adjustment and Generalization ( http://arxiv.org/abs/2405.15081v1 )

ライセンス: Link先を確認
Bao Hoang, Yijiang Pang, Siqi Liang, Liang Zhan, Paul Thompson, Jiayu Zhou, (参考訳) 独立かつ同一に分散したデータ(d.d.)は多くのデータ分析とモデリング技術に不可欠である。 医療分野において、複数の施設や施設からデータを収集することは、医療データの分散性によって決定される十分な臨床多様性を保証する共通の戦略である。 しかし、各地のデータは、現地の環境や施設によって容易にバイアスを受け、従ってi.d.ルールに違反する。 一般的な戦略は、重要な生物学的情報を保持しながら、サイトのバイアスを調和させることである。 ComBatは最も人気のある調和方式の一つであり、最近分散サイトを扱うように拡張されている。 しかし、新しく加入したサイトが未知のサイトからデータをトレーニングしたり、評価したりする状況に直面している場合、ComBatは互換性に欠け、すべてのサイトからのデータで再トレーニングする必要がある。 再訓練は計算上のオーバーヘッドとロジスティックなオーバーヘッドをもたらし、通常は禁止される。 本研究では,異なるサイトのデータのクラスタパターンを活用し,ComBatのハーモニゼーションのユーザビリティを大幅に向上させる新しいクラスタ・コンバット・ハーモニゼーション・アルゴリズムを提案する。 提案手法の優位性を実証するために,ADNIによる広範囲なシミュレーションと実際の医用画像データを用いた。

Independent and identically distributed (i.i.d.) data is essential to many data analysis and modeling techniques. In the medical domain, collecting data from multiple sites or institutions is a common strategy that guarantees sufficient clinical diversity, determined by the decentralized nature of medical data. However, data from various sites are easily biased by the local environment or facilities, thereby violating the i.i.d. rule. A common strategy is to harmonize the site bias while retaining important biological information. The ComBat is among the most popular harmonization approaches and has recently been extended to handle distributed sites. However, when faced with situations involving newly joined sites in training or evaluating data from unknown/unseen sites, ComBat lacks compatibility and requires retraining with data from all the sites. The retraining leads to significant computational and logistic overhead that is usually prohibitive. In this work, we develop a novel Cluster ComBat harmonization algorithm, which leverages cluster patterns of the data in different sites and greatly advances the usability of ComBat harmonization. We use extensive simulation and real medical imaging data from ADNI to demonstrate the superiority of the proposed approach.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# MuDreamer: 再現性のない予測的世界モデルを学ぶ

MuDreamer: Learning Predictive World Models without Reconstruction ( http://arxiv.org/abs/2405.15083v1 )

ライセンス: Link先を確認
Maxime Burchi, Radu Timofte, (参考訳) DreamerV3エージェントは最近、さまざまな領域で最先端のパフォーマンスを示し、ピクセル再構成損失を使用して潜在空間における強力な世界モデルを学んだ。 しかし、再構築損失はドリーマーのパフォーマンスに不可欠であるが、不要な情報のモデリングも必要である。 その結果、ドリーマーは観察中に視覚的注意散らしが存在する場合、タスク解決に必要な重要な要素を認識できない場合があり、その潜在能力を著しく制限する。 本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。 ピクセル再構成に頼るのではなく、環境値関数と以前選択されたアクションを予測することで、隠れた表現が学習される。 画像の予測自己教師手法と同様に、バッチ正規化の使用は学習の崩壊を防ぐために不可欠である。 また,モデル後部と先行損失間のKLバランスが収束速度および学習安定性に及ぼす影響についても検討した。 我々は、一般的に使用されているDeepMind Visual Control Suite上でMuDreamerを評価し、DreamerV3や他の再構成不要なアプローチと比較して、視覚的邪魔に対して強い堅牢性を示し、環境背景をタスク非関連の実世界のビデオに置き換えた。 また,Atari100kベンチマークでは,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現している。

The DreamerV3 agent recently demonstrated state-of-the-art performance in diverse domains, learning powerful world models in latent space using a pixel reconstruction loss. However, while the reconstruction loss is essential to Dreamer's performance, it also necessitates modeling unnecessary information. Consequently, Dreamer sometimes fails to perceive crucial elements which are necessary for task-solving when visual distractions are present in the observation, significantly limiting its potential. In this paper, we present MuDreamer, a robust reinforcement learning agent that builds upon the DreamerV3 algorithm by learning a predictive world model without the need for reconstructing input signals. Rather than relying on pixel reconstruction, hidden representations are instead learned by predicting the environment value function and previously selected actions. Similar to predictive self-supervised methods for images, we find that the use of batch normalization is crucial to prevent learning collapse. We also study the effect of KL balancing between model posterior and prior losses on convergence speed and learning stability. We evaluate MuDreamer on the commonly used DeepMind Visual Control Suite and demonstrate stronger robustness to visual distractions compared to DreamerV3 and other reconstruction-free approaches, replacing the environment background with task-irrelevant real-world videos. Our method also achieves comparable performance on the Atari100k benchmark while benefiting from faster training.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# ガウシアンを超える抗濃度の有効証明書

Efficient Certificates of Anti-Concentration Beyond Gaussians ( http://arxiv.org/abs/2405.15084v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Pravesh Kothari, Goutham Rajendran, Madhur Tulsiani, Aravindan Vijayaraghavan, (参考訳) 等方的位置における高次元点の集合 $X=\{x_1, x_2,\ldots, x_n\} \subset R^d$ が、すべての方向 $v$ に対して、X$ の点分が $|\langle x_i,v \rangle |\leq \delta$ が少なくとも $O(\delta)$ であるとき、$\delta$-anti となる。 近年の研究では,ガウス分布のサンプルに対応する点の集合をX$とした場合に,平均的な場合において,効率の良い集中防止証明書を構築するという課題が検討されている。 彼らの証明は、リスト復調可能な学習に関するアルゴリズム的頑健な統計学においていくつかの重要な役割を担い、任意のガウス混合の頑健な学習性を定着させたが、それでも回転不変分布に限られていた。 この研究は、反濃縮のための新しい(そしておそらく最も自然な)定式化を提示する。 この定式化を用いて、反集中的有界積分布や$L_p$ボール(およびそれらのアフィン変換)上の一様分布を含む幅広い種類の非ガウス分布を保ち、正方形の反集中の証明を検証できる準多項式時間を与える。 その結果,提案手法はアルゴリズムによるロバストな統計量,例えばリストデコダブル学習,クラスタリングを,そのような分布にアップグレードし,拡張する。 提案手法は,意図された応用とは無関係に,正準2乗緩和の反集中と解析のための正準整数プログラムを構築する。 我々は双対性に依存し、ある方向に小さな値を取る入力点の大きい部分集合の擬似予想を分析する。 本分析では, 多項式再重み付け法を用いて, 解析的な高密度あるいはスパース方向のみの解析を行う。

A set of high dimensional points $X=\{x_1, x_2,\ldots, x_n\} \subset R^d$ in isotropic position is said to be $\delta$-anti concentrated if for every direction $v$, the fraction of points in $X$ satisfying $|\langle x_i,v \rangle |\leq \delta$ is at most $O(\delta)$. Motivated by applications to list-decodable learning and clustering, recent works have considered the problem of constructing efficient certificates of anti-concentration in the average case, when the set of points $X$ corresponds to samples from a Gaussian distribution. Their certificates played a crucial role in several subsequent works in algorithmic robust statistics on list-decodable learning and settling the robust learnability of arbitrary Gaussian mixtures, yet remain limited to rotationally invariant distributions. This work presents a new (and arguably the most natural) formulation for anti-concentration. Using this formulation, we give quasi-polynomial time verifiable sum-of-squares certificates of anti-concentration that hold for a wide class of non-Gaussian distributions including anti-concentrated bounded product distributions and uniform distributions over $L_p$ balls (and their affine transformations). Consequently, our method upgrades and extends results in algorithmic robust statistics e.g., list-decodable learning and clustering, to such distributions. Our approach constructs a canonical integer program for anti-concentration and analysis a sum-of-squares relaxation of it, independent of the intended application. We rely on duality and analyze a pseudo-expectation on large subsets of the input points that take a small value in some direction. Our analysis uses the method of polynomial reweightings to reduce the problem to analyzing only analytically dense or sparse directions.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 超伝導量子デバイスのためのパラメトリック制御キラル界面

Parametrically controlled chiral interface for superconducting quantum devices ( http://arxiv.org/abs/2405.15086v1 )

ライセンス: Link先を確認
Xi Cao, Abdullah Irfan, Michael Mollenhauer, Kaushik Singirikonda, Wolfgang Pfaff, (参考訳) 非相互マイクロ波ルーティングは、量子回路を測定する上で重要な役割を担い、非相互作用量子ビット間の絡み合いの生成と安定化のためのカスケード量子システムの実現を可能にする。 配向性を実装する最も一般的なツールはフェライト系循環器である。 これらのデバイスは汎用性があるが、過剰な損失、大きなフットプリント、固定方向性に悩まされている。 スケーラブルな量子回路における非相互性を利用するためには、低損失かつその場で制御可能な方向要素の効率的な統合を開発することが望ましい。 本稿では,超伝導量子ビットと直接統合される制御可能な指向性インタフェースの設計と実験的実現について報告する。 本発明では、干渉と位相制御パラメトリックポンプの組み合わせにより非相互性を実現する。 最大方向性は約30\,dBであり,独立キャリブレーション測定から装置の性能を定量的に予測した。 モデルと実験の優れた一致を用いて、回路は1パーセント以下で非効率なカイラル量子ビットインタフェースとして使用できると予測する。 我々の研究は、超伝導量子デバイスのオール・ツー・オール接続ネットワークにおいて、アイソレータフリーの量子ビット読み出し方式と高忠実な絡み合い発生への経路を提供する。

Nonreciprocal microwave routing plays a crucial role for measuring quantum circuits, and allows for realizing cascaded quantum systems for generating and stabilizing entanglement between non-interacting qubits. The most commonly used tools for implementing directionality are ferrite-based circulators. These devices are versatile, but suffer from excess loss, a large footprint, and fixed directionality. For utilizing nonreciprocity in scalable quantum circuits it is desirable to develop efficient integration of low-loss and in-situ controllable directional elements. Here, we report the design and experimental realization of a controllable directional interface that may be integrated directly with superconducting qubits. In the presented device, nonreciprocity is realized through a combination of interference and phase-controlled parametric pumping. We have achieved a maximum directionality of around 30\,dB, and the performance of the device is predicted quantitatively from independent calibration measurements. Using the excellent agreement of model and experiment, we predict that the circuit will be useable as a chiral qubit interface with inefficiencies at the one-percent level or below. Our work provides a route toward isolator-free qubit readout schemes and high-fidelity entanglement generation in all-to-all connected networks of superconducting quantum devices.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# ネットワークセキュリティとエネルギー消費のバランスをとるBitcoinプロトコル「Targeted Nakamoto」

Targeted Nakamoto: A Bitcoin Protocol to Balance Network Security and Energy Consumption ( http://arxiv.org/abs/2405.15089v1 )

ライセンス: Link先を確認
Daniel Aronoff, (参考訳) BitcoinマイニングのハッシュレートのようなProof-of-Workブロックチェーンでは、ブロック報酬が増加している。 ハッシュレートの増加は、ネットワークの脆弱性を攻撃(セキュリティコストの削減)し、炭素排出量と電気コスト(外部コストの増加)を増大させる。 これは、ハッシュレートの異なるレベルでの総コストのトレードオフと、総コストが最小となるハッシュレート間隔の存在を意味する。 ターゲットナカモト(Targeted Nakamoto)は、ターゲットのハッシュレート間隔で鉱山労働者を誘引するProof-of-Workプロトコル拡張である。 ハッシュレートが目標以上の場合には、採掘者が受け取ることができるブロック報酬に天井が置かれる。 ハッシュレートが目標より下にある場合、床は採掘者のブロック報酬の下に置かれる。 天井が作動したときの総ブロック報酬の減算と、床が束縛されているときの総ブロック報酬の増減とを一致させるために、UTXOを保有するアドレス間の支出ポテンシャルの比例的に増加させることにより、通貨中立性を維持する。

In a Proof-of-Work blockchain such as Bitcoin mining hashrate is increasing in the block reward. An increase in hashrate reduces network vulnerability to attack (a reduction in security cost) while increasing carbon emissions and electricity cost (an increase in externalities cost). This implies a tradeoff in total cost at different levels of hashrate and the existence of a hashrate interval where total cost is minimized. Targeted Nakamoto is a Proof-of-Work protocol augmentation that incentivizes miners to hone in on a target hashrate interval. When hashrate is above target a ceiling is placed on the block reward a miner can receive. When hashrate is below target a floor is placed underneath the miner's block reward. Monetary neutrality is maintained by a proportional increase in spending potential among addresses holding UTXO's to match a deduction from total block reward when the ceiling is operative and a proportional reduction in spending potential among addresses holding UTXO's to match an increase over the total block reward when the floor is binding.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 固定予算を用いた拘束型ベストミキシングアーム同定のための純粋探索

Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget ( http://arxiv.org/abs/2405.15090v1 )

ライセンス: Link先を確認
Dengwang Tang, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo, (参考訳) 本稿では,固定予算による制約付きベスト・ミックスアーム識別(CBMAI)問題を紹介する。 これは確率的有限武装バンディットモデルにおける純粋探索問題である。 各アームは報酬と未知の分布からの複数のコストに関連付けられている。 制約のないベストアーム識別問題とは異なり、CBMAI問題に対する最適解は、複数のアームのランダムな混合であるかもしれない。 そのための目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。 本稿では,古典的連続的拒否フレームワークと線形プログラミング理論に基づく新しいスコア関数に基づく拒絶基準を組み合わせた,スコア関数に基づく逐次回帰法(SFSR)アルゴリズムを提案する。 我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$と問題インスタンスの硬さを特徴づける定数で指数関数的に崩壊することを示す。 また、これらの定数が問題の難易度を適切に特徴付けることを示す誤り確率に基づく情報理論下界も開発する。 私たちはこれを、いくつかの平均とハードのインスタンスで実証的に検証します。

In this paper, we introduce the constrained best mixed arm identification (CBMAI) problem with a fixed budget. This is a pure exploration problem in a stochastic finite armed bandit model. Each arm is associated with a reward and multiple types of costs from unknown distributions. Unlike the unconstrained best arm identification problem, the optimal solution for the CBMAI problem may be a randomized mixture of multiple arms. The goal thus is to find the best mixed arm that maximizes the expected reward subject to constraints on the expected costs with a given learning budget $N$. We propose a novel, parameter-free algorithm, called the Score Function-based Successive Reject (SFSR) algorithm, that combines the classical successive reject framework with a novel score-function-based rejection criteria based on linear programming theory to identify the optimal support. We provide a theoretical upper bound on the mis-identification (of the the support of the best mixed arm) probability and show that it decays exponentially in the budget $N$ and some constants that characterize the hardness of the problem instance. We also develop an information theoretic lower bound on the error probability that shows that these constants appropriately characterize the problem difficulty. We validate this empirically on a number of average and hard instances.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# LLMにおける忠実で不誠実な推論の解離

Dissociation of Faithful and Unfaithful Reasoning in LLMs ( http://arxiv.org/abs/2405.15092v1 )

ライセンス: Link先を確認
Evelyn Yee, Alice Li, Chenyu Tang, Yeon Ho Jung, Ramamohan Paturi, Leon Bergen, (参考訳) 大規模言語モデル(LLM)は、回答を生成する前に思考の連鎖推論テキストを生成するとき、下流タスクのパフォーマンスを改善する。 本研究は,LLMが思考の連鎖の誤りからどのように回復するかを考察する。 これらの誤り回復行動の分析を通じて、思考の連鎖における不誠実性の証拠を見出すが、忠実な誤り回復行動の多くの明確な例も明らかにする。 LLMの回復行動を変える要因は, 明らかな誤りや, 正しい回答の証拠となる状況から, より頻繁に回復する。 しかし、不誠実な回復は逆の挙動を示し、より困難なエラー位置に対してより頻繁に起こる。 以上の結果から,不誠実かつ不誠実な誤り回復を誘発するメカニズムが明らかとなった。 LLM推論は一様で一貫性のあるプロセスである,という見解に反論する。

Large language models (LLMs) improve their performance in downstream tasks when they generate Chain of Thought reasoning text before producing an answer. Our research investigates how LLMs recover from errors in Chain of Thought, reaching the correct final answer despite mistakes in the reasoning text. Through analysis of these error recovery behaviors, we find evidence for unfaithfulness in Chain of Thought, but we also identify many clear examples of faithful error recovery behaviors. We identify factors that shift LLM recovery behavior: LLMs recover more frequently from obvious errors and in contexts that provide more evidence for the correct answer. However, unfaithful recoveries show the opposite behavior, occurring more frequently for more difficult error positions. Our results indicate that there are distinct mechanisms driving faithful and unfaithful error recoveries. Our results challenge the view that LLM reasoning is a uniform, coherent process.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# ULTRA-MC:ハッティングタイムによるマルコフ連鎖の混合学習のための統一的アプローチ

ULTRA-MC: A Unified Approach to Learning Mixtures of Markov Chains via Hitting Times ( http://arxiv.org/abs/2405.15094v1 )

ライセンス: Link先を確認
Fabian Spaeh, Konstantinos Sotiropoulos, Charalampos E. Tsourakakis, (参考訳) 本研究では,医療やWebユーザ分析など,さまざまな分野に適用可能な重要なプロセスであるマルコフ連鎖の混合を学習するための新しいアプローチを提案する。 既存の研究では、離散的および連続的なマルコフ連鎖の混合を学習するための方法論の明確な分割が特定されている。 本稿では,個別連鎖と連続連鎖の混合を学習するための統一戦略を紹介し,両タイプでよく定義された打点時間に焦点をあてる。 具体的には、推定ヒット時間を正確に反映し、ノイズに対する耐性を示す混合物を出力する再構成アルゴリズムを設計する。 具体的には,打時微分の計算に固有の計算複雑性と非対称特性の管理に特化して,効率的な勾配退化法を提案する。 提案手法は,Hoskins et al と Wittmann et al が以前に確立した方法論を,合成および実世界のデータセットで実施した実験で補完し,我々の方法論を総合的に評価するものである。

This study introduces a novel approach for learning mixtures of Markov chains, a critical process applicable to various fields, including healthcare and the analysis of web users. Existing research has identified a clear divide in methodologies for learning mixtures of discrete and continuous-time Markov chains, while the latter presents additional complexities for recovery accuracy and efficiency. We introduce a unifying strategy for learning mixtures of discrete and continuous-time Markov chains, focusing on hitting times, which are well defined for both types. Specifically, we design a reconstruction algorithm that outputs a mixture which accurately reflects the estimated hitting times and demonstrates resilience to noise. We introduce an efficient gradient-descent approach, specifically tailored to manage the computational complexity and non-symmetric characteristics inherent in the calculation of hitting time derivatives. Our approach is also of significant interest when applied to a single Markov chain, thus extending the methodologies previously established by Hoskins et al. and Wittmann et al. We complement our theoretical work with experiments conducted on synthetic and real-world datasets, providing a comprehensive evaluation of our methodology.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 高速で確率的に近い最適スケジューリングによる動的フィールド生成可能なクビットアレイのコンパイル

Compilation for Dynamically Field-Programmable Qubit Arrays with Efficient and Provably Near-Optimal Scheduling ( http://arxiv.org/abs/2405.15095v1 )

ライセンス: Link先を確認
Daniel Bochen Tan, Wan-Hsuan Lin, Jason Cong, (参考訳) 中性原子に基づく動的にプログラム可能な量子ビットアレイは、量子コンピューティングにおいて高い忠実度と高い並列ゲートを有する。 しかし、コンパイラーはその様々な制約を尊重しながら、そのようなハードウェアによって提供される新しい柔軟性を完全に活用することは困難である。 本研究では,このアーキテクチャのコンパイルをスケジューリング,配置,ルーティングの3つのタスクに分割する。 これら3つの問題を定式化し、効率的な解を提示する。 特に、グラフエッジのカラー化に基づくスケジューリングは、このプラットフォームの忠実度ボトルネックである2ビットゲートステージ数(最大よりも最大で1倍)において、確実にほぼ最適である。 その結果,OLSQ-DPQA(現在の最先端技術)のベンチマークセットにおいて,既存の3.7Xステージの削減や5.9Xの忠実度向上などに比べて高い忠実度が得られることがわかった。 さらに、Enolaは30分以内に1万キュービットの回路をコンパイルできるなど、高度にスケーラブルである。 Enolaがhttps://github.com/UCLA-VAST/Enolaでオープンソース化

Dynamically field-programmable qubit arrays based on neutral atoms have high fidelity and highly parallel gates for quantum computing. However, it is challenging for compilers to fully leverage the novel flexibility offered by such hardware while respecting its various constraints. In this study, we break down the compilation for this architecture into three tasks: scheduling, placement, and routing. We formulate these three problems and present efficient solutions to them. Notably, our scheduling based on graph edge coloring is provably near-optimal in terms of two-qubit gate stage count (at most one more than the optimum), the fidelity bottleneck of this platform. As a result, our compiler, Enola, produces higher fidelity results compared to existing works, e.g., 3.7X stage reduction and 5.9X fidelity improvement on the benchmark set used by OLSQ-DPQA, the current state of the art. Additionally, Enola is highly scalable, e.g., within 30 minutes, it can compile circuits with 10,000 qubits, a scale sufficient for the current era of quantum computing. Enola is open source at https://github.com/UCLA-VAST/Enola
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 音楽ジャンル分類:AIモデルのトレーニング

Music Genre Classification: Training an AI model ( http://arxiv.org/abs/2405.15096v1 )

ライセンス: Link先を確認
Keoikantse Mogonediwa, (参考訳) 音楽ジャンル分類は、音声信号の処理に機械学習モデルと技術を利用する分野であり、その分野はコンテンツレコメンデーションシステムから音楽レコメンデーションシステムまで様々である。 本研究では,音楽ジャンル分類のための機械学習アルゴリズムについて,音声信号から抽出した特徴を用いて検討する。そのシステムは,多層パーセプトロン(スクラッチから構築),k-Nearest Neighbours(スクラッチから構築),畳み込みニューラルネットワーク(畳み込みニューラルネットワーク),最後にランダムフォレスト広範モデルである。 音声信号を処理するために、ショートタイムフーリエ変換やメルケプストラル係数(MFCC)抽出などの特徴抽出を行う。 この広範な研究を通じて、ジャンル分類のための機械学習モデルの堅牢性を評価し、その結果を比較することを目的としている。

Music genre classification is an area that utilizes machine learning models and techniques for the processing of audio signals, in which applications range from content recommendation systems to music recommendation systems. In this research I explore various machine learning algorithms for the purpose of music genre classification, using features extracted from audio signals.The systems are namely, a Multilayer Perceptron (built from scratch), a k-Nearest Neighbours (also built from scratch), a Convolutional Neural Network and lastly a Random Forest wide model. In order to process the audio signals, feature extraction methods such as Short-Time Fourier Transform, and the extraction of Mel Cepstral Coefficients (MFCCs), is performed. Through this extensive research, I aim to asses the robustness of machine learning models for genre classification, and to compare their results.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 音声言語理解におけるニューラルノイズチャネルモデルのコントラスト学習と一貫性学習

Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding ( http://arxiv.org/abs/2405.15097v1 )

ライセンス: Link先を確認
Suyoung Kim, Jiyeon Hwang, Ho-Young Jung, (参考訳) 近年,Spoken Language Understanding (SLU) において,意図的分類のための深いエンドツーエンド学習が研究されている。 しかし、エンドツーエンドモデルは意図ラベルを持つ大量の音声データを必要とし、高度に最適化されたモデルは一般に訓練と評価条件の不整合に敏感である。 そこで,ASR(Automatic Speech Recognition)に基づく自然言語理解手法は,事前学習された汎用言語モデルを利用して,音声入力環境のミスマッチに適応できるため,依然として魅力的である。 このモジュールベースのアプローチを用いることで、ASRエラーによる転写の不整合を処理するため、ノイズチャネルモデルを改善する。 クリーンかつノイズの多いASRテキスト間のエラーパターンを相関付け,2つのテキストの潜在的特徴の一貫性を強調する2段階の手法であるContrastive and Consistency Learning (CCL)を提案する。 4つのベンチマークデータセットの実験により、CCLは既存の手法より優れ、様々なノイズ環境下でのASRロバスト性を改善することが示された。 コードはhttps://github.com/syoung7388/CCLで入手できる。

Recently, deep end-to-end learning has been studied for intent classification in Spoken Language Understanding (SLU). However, end-to-end models require a large amount of speech data with intent labels, and highly optimized models are generally sensitive to the inconsistency between the training and evaluation conditions. Therefore, a natural language understanding approach based on Automatic Speech Recognition (ASR) remains attractive because it can utilize a pre-trained general language model and adapt to the mismatch of the speech input environment. Using this module-based approach, we improve a noisy-channel model to handle transcription inconsistencies caused by ASR errors. We propose a two-stage method, Contrastive and Consistency Learning (CCL), that correlates error patterns between clean and noisy ASR transcripts and emphasizes the consistency of the latent features of the two transcripts. Experiments on four benchmark datasets show that CCL outperforms existing methods and improves the ASR robustness in various noisy environments. Code is available at https://github.com/syoung7388/CCL.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 一般再構成のための磁気共鳴画像処理変換器

Magnetic Resonance Image Processing Transformer for General Reconstruction ( http://arxiv.org/abs/2405.15098v1 )

ライセンス: Link先を確認
Guoyao Shen, Mengyu Li, Stephan Anderson, Chad W. Farris, Xin Zhang, (参考訳) 目的:全般的加速MRI再構成のための深層学習モデルの開発と評価。 Materials and Methods:本研究はMR-IPT(MR-IPT)を開発した。 MR-IPTモデルの設計をガイドするために, 変圧器構造が異なるMR-IPTの3つの変異を行った。 RadImageNetのMRIセットに、複数の解剖学的カテゴリを持つ672675画像を含む事前トレーニングを行い、このモデルをさらに移行し、下流再構築タスクのために25012画像の高速MRI膝データセットで評価した。 ゼロおよび少数ショット学習シナリオにおいて,従来の3つのCNNネットワークと比較検討を行った。 MR-IPTとCNNのネットワーク上で転送学習を行い,MR-IPTの一般化可能性をさらに検証した。 モデル性能の安定性について検討するために,10から2500画像まで,様々な下流データセットサイズでモデルを評価した。 結果: MR-IPTモデルは, 従来のCNNネットワークと比較して, 複数の下流タスクにおいて優れた性能を示した。 MR-IPTは、PSNR/SSIMは26.521/0.6102 (4倍)、24.861/0.4996 (8倍)で、UNet128を25.056/0.5832 (4倍)、22.984/0.4637 (8倍)で上回った。 同じ大規模な事前トレーニングで、MR-IPTは、8倍のゼロショット学習ではUNet128が3%、4倍のパフォーマンスを5%向上させた。 結論:MR-IPTフレームワークは、トランスフォーマーベースの構造と大規模な事前トレーニングの恩恵を受けており、ゼロショットと少数ショットの学習を伴う他の下流タスクの堅固なバックボーンとして機能する。

Purpose: To develop and evaluate a deep learning model for general accelerated MRI reconstruction. Materials and Methods: This retrospective study built a magnetic resonance image processing transformer (MR-IPT) which includes multi-head-tails and a single shared window transformer main body. Three mutations of MR-IPT with different transformer structures were implemented to guide the design of our MR-IPT model. Pre-trained on the MRI set of RadImageNet including 672675 images with multiple anatomy categories, the model was further migrated and evaluated on fastMRI knee dataset with 25012 images for downstream reconstruction tasks. We performed comparison studies with three CNN-based conventional networks in zero- and few-shot learning scenarios. Transfer learning process was conducted on both MR-IPT and CNN networks to further validate the generalizability of MR-IPT. To study the model performance stability, we evaluated our model with various downstream dataset sizes ranging from 10 to 2500 images. Result: The MR-IPT model provided superior performance in multiple downstream tasks compared to conventional CNN networks. MR-IPT achieved a PSNR/SSIM of 26.521/0.6102 (4-fold) and 24.861/0.4996 (8-fold) in 10-epoch learning, surpassing UNet128 at 25.056/0.5832 (4-fold) and 22.984/0.4637 (8-fold). With the same large-scale pre-training, MR-IPT provided a 5% performance boost compared to UNet128 in zero-shot learning in 8-fold and 3% in 4-fold. Conclusion: MR-IPT framework benefits from its transformer-based structure and large-scale pre-training and can serve as a solid backbone in other downstream tasks with zero- and few-shot learning.
翻訳日:2024-05-27 18:48:01 公開日:2024-05-23
# 可聴音発生空間における音楽音響信号の高密度化

The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation ( http://arxiv.org/abs/2405.15103v1 )

ライセンス: Link先を確認
Nick Collins, (参考訳) ホワイトノイズ信号は、可能な値の構成にアクセスできるが、統計学的に多くのサンプルが均一なスペクトル分布を呈し、知性のある音を発生させる可能性が極めて低い。 しかし、そうはならない。 白色雑音が時間差で音楽的な信号を生成する確率は,主に近位運動やゼロ交叉速度といった実音響信号で観測されるいくつかの必要な特徴に基づいて分析される。 数学的な結果を考えると、信号としての音楽の希少性は全体として考慮される。 本研究の適用性は、音楽が貴重な希少性を持つことを示すだけでなく、音声信号空間の全体サイズに対する音楽の大きさの検証によって、新しい世代のアルゴリズム音楽システム(現在ではしばしば音声信号生成を直接ベースとしており、拡散のような機械学習プロセスによるホワイトノイズと関連付けられている)を知らせる情報を提供する。 様々な物理空間や音楽空間の大きさに対する音楽の希少性に関する推定上界を比較検討し、結果の規模(プン意図)をよりよく理解する。 研究の根底にあるのは,「どの程度の音楽がまだ存在するのか」,「機械学習プロセスが実際にどれだけ音楽に到達できるのか?」といった問いである。

A white noise signal can access any possible configuration of values, though statistically over many samples tends to a uniform spectral distribution, and is highly unlikely to produce intelligible sound. But how unlikely? The probability that white noise generates a music-like signal over different durations is analyzed, based on some necessary features observed in real music audio signals such as mostly proximate movement and zero crossing rate. Given the mathematical results, the rarity of music as a signal is considered overall. The applicability of this study is not just to show that music has a precious rarity value, but that examination of the size of music relative to the overall size of audio signal space provides information to inform new generations of algorithmic music system (which are now often founded on audio signal generation directly, and may relate to white noise via such machine learning processes as diffusion). Estimated upper bounds on the rarity of music to the size of various physical and musical spaces are compared, to better understand the magnitude of the results (pun intended). Underlying the research are the questions `how much music is still out there?' and `how much music could a machine learning process actually reach?'.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-23
# 臨界資源の認証在庫管理

Certified Inventory Control of Critical Resources ( http://arxiv.org/abs/2405.15105v1 )

ライセンス: Link先を確認
Ludvig Hult, Dave Zachariah, Petre Stoica, (参考訳) 在庫管理は、未知の要求にもかかわらず十分な在庫水準を維持する必要があるサービスレベルの要件に従わなければならない。 我々は、未知の需要プロセスにおいて、最小限の仮定で所定のサービスレベルを認証するデータ駆動注文ポリシーを提案する。 この方針は、あらゆるオンライン学習手法と統合行動を用いてこれを達成している。 さらに,有限標本に適用可能な推論手法を提案する。 この手法の特性と理論的保証は、合成データと実世界のデータの両方を用いて説明される。

Inventory control is subject to service-level requirements, in which sufficient stock levels must be maintained despite an unknown demand. We propose a data-driven order policy that certifies any prescribed service level under minimal assumptions on the unknown demand process. The policy achieves this using any online learning method along with integral action. We further propose an inference method that is valid in finite samples. The properties and theoretical guarantees of the method are illustrated using both synthetic and real-world data.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-23
# 適応選択群に対する等化被覆を用いた等式分類

Conformal Classification with Equalized Coverage for Adaptively Selected Groups ( http://arxiv.org/abs/2405.15106v1 )

ライセンス: Link先を確認
Yanfei Zhou, Matteo Sesia, (参考訳) 本稿では、適応的に選択された特徴に対して有効なカバレッジ条件付き予測セットを生成することにより、分類の不確かさを評価するための共形推論手法を提案する。 これらの機能は、潜在的なモデル制限やバイアスを反映するように慎重に選択される。 これは、最も敏感なグループに対する平等なカバレッジを確保することで、効率性 -- 情報的予測 -- とアルゴリズム的公正性 -- の実践的な妥協を見つけるのに役立つ。 シミュレーションおよび実データに対して,本手法の有効性と有効性を示す。

This paper introduces a conformal inference method to evaluate uncertainty in classification by generating prediction sets with valid coverage conditional on adaptively chosen features. These features are carefully selected to reflect potential model limitations or biases. This can be useful to find a practical compromise between efficiency -- by providing informative predictions -- and algorithmic fairness -- by ensuring equalized coverage for the most sensitive groups. We demonstrate the validity and effectiveness of this method on simulated and real data sets.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-23
# アルゴリズム安定性はテスト可能か?計算制約下での一元化フレームワーク

Is Algorithmic Stability Testable? A Unified Framework under Computational Constraints ( http://arxiv.org/abs/2405.15107v1 )

ライセンス: Link先を確認
Yuetian Luo, Rina Foygel Barber, (参考訳) アルゴリズム安定性は、学習理論における中心的な概念であり、アルゴリズムの感度をトレーニングデータの小さな変化に定量化する。 学習アルゴリズムが一定の安定性特性を満たす場合、これは一般化、堅牢性、信頼性のある予測推論など、多くの重要な下流の影響をもたらす。 したがって、特定のアルゴリズムに対して安定性が成り立つことを検証することは重要かつ実践的な問題である。 しかし、近年の結果、ブラックボックスアルゴリズムの安定性をテストすることは、未知の分布から限られたデータを得ることができず、データが数えきれないほど無限の空間(実数値データなど)にあるような環境では不可能であることが証明されている。 この研究では、この質問を拡張して、任意の空間(例えばカテゴリデータ)にデータが配置されるような、より広い範囲の設定を調べます。 アルゴリズム安定性テストの難易度を定量化するための統一的なフレームワークを開発し,全ての設定において,利用可能なデータが制限されている場合,網羅的探索がアルゴリズム安定性を証明するための唯一の普遍的なメカニズムであることを示す。 実際には、安定性のテストは自然に計算上の制約を受けるため、徹底的な探索は不可能であり、ブラックボックスアルゴリズムの安定性特性をテストする能力に根本的な制限が課せられる。

Algorithmic stability is a central notion in learning theory that quantifies the sensitivity of an algorithm to small changes in the training data. If a learning algorithm satisfies certain stability properties, this leads to many important downstream implications, such as generalization, robustness, and reliable predictive inference. Verifying that stability holds for a particular algorithm is therefore an important and practical question. However, recent results establish that testing the stability of a black-box algorithm is impossible, given limited data from an unknown distribution, in settings where the data lies in an uncountably infinite space (such as real-valued data). In this work, we extend this question to examine a far broader range of settings, where the data may lie in any space -- for example, categorical data. We develop a unified framework for quantifying the hardness of testing algorithmic stability, which establishes that across all settings, if the available data is limited then exhaustive search is essentially the only universally valid mechanism for certifying algorithmic stability. Since in practice, any test of stability would naturally be subject to computational constraints, exhaustive search is impossible and so this implies fundamental limits on our ability to test the stability property for a black-box algorithm.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-23
# ヘマグルチニン配列を用いたインフルエンザウイルス感染予測のための機械学習アルゴリズムの開発

Dive into Machine Learning Algorithms for Influenza Virus Host Prediction with Hemagglutinin Sequences ( http://arxiv.org/abs/2207.13842v4 )

ライセンス: Link先を確認
Yanhua Xu, Dominik Wojtczak, (参考訳) インフルエンザウイルスは急速に変異し、公衆衛生、特に脆弱な集団に脅威をもたらす可能性がある。 歴史上、A型インフルエンザウイルスは異なる種の間でパンデミックを引き起こしている。 感染拡大を防ぐためには、ウイルスの起源を特定することが重要である。 近年,機械学習アルゴリズムによるウイルス配列の高速かつ正確な予測への関心が高まっている。 本研究では,さまざまな分類レベルで機械学習アルゴリズムを評価するために,実検定データセットと各種評価指標を用いた。 ヘマグルチニンは免疫応答の主要なタンパク質であるため、ヘマグルチニン配列のみが用いられ、位置特異的なスコアリングマトリックスと単語の埋め込みによって表現された。 結果は、5-grams-transformer ニューラルネットワークがウイルス配列の起源を予測する最も効果的なアルゴリズムであることが示唆され、AUCPR は約99.54%、98.01% F1 スコアは96.60%、AUCPR は約94.74%、87.41% F1 スコアは80.79% MCCである。

Influenza viruses mutate rapidly and can pose a threat to public health, especially to those in vulnerable groups. Throughout history, influenza A viruses have caused pandemics between different species. It is important to identify the origin of a virus in order to prevent the spread of an outbreak. Recently, there has been increasing interest in using machine learning algorithms to provide fast and accurate predictions for viral sequences. In this study, real testing data sets and a variety of evaluation metrics were used to evaluate machine learning algorithms at different taxonomic levels. As hemagglutinin is the major protein in the immune response, only hemagglutinin sequences were used and represented by position-specific scoring matrix and word embedding. The results suggest that the 5-grams-transformer neural network is the most effective algorithm for predicting viral sequence origins, with approximately 99.54% AUCPR, 98.01% F1 score and 96.60% MCC at a higher classification level, and approximately 94.74% AUCPR, 87.41% F1 score and 80.79% MCC at a lower classification level.
翻訳日:2024-05-27 03:32:54 公開日:2024-05-23
# 故障量子デバイスの同定

Identification of malfunctioning quantum devices ( http://arxiv.org/abs/1808.02729v2 )

ライセンス: Link先を確認
M. Skotiniotis, Santiago Llorens, R. Hotz, J. Calsamiglia, R. Muñoz-Tapia, (参考訳) 古典的異常検出の量子アナログと見なすことができる$N$等のネットワークの一部を構成する誤動作量子デバイスを正しく同定する問題を考察する。 問題となる装置が同一の量子純状態を作成すると仮定された場合, 異常発生源が異なる異常な純状態を生成する場合, 同定に最適な確率が大域的な量子測定を必要とすることを示す。 我々はまた、いくつかの局所的な測定戦略(適応性および非適応性の両方)を提案し、チェック対象のデバイス数が大きい限界において、同じ最適な成功確率を達成する。 故障装置が既知のユニタリ演算を行う場合、絡み合ったプローブを用いることで、一定の閾値を超えるユニタリパラメータの値の完全な識別が可能であることを示す。 最後に、故障デバイスが既知の量子ビットチャネルを実装した場合、ランク1とランク2のパウリチャネルの位置を検出する最適確率は、任意の大きさのネットワークに対して積状態入力と分離可能な測定によって達成できるが、ランク3と一般振幅減衰チャネルの最適同定には、Nの量子ビットアンシラとの絡み合いが必要である。

We consider the problem of correctly identifying a malfunctioning quantum device that forms part of a network of $N$ such devices, which can be considered as the quantum analogue of classical anomaly detection. In the case where the devices in question are sources assumed to prepare identical quantum pure states, with the faulty source producing a different anomalous pure state, we show that the optimal probability of successful identification requires a global quantum measurement. We also put forth several local measurement strategies -- both adaptive and non-adaptive, that achieve the same optimal probability of success in the limit where the number of devices to be checked are large. In the case where the faulty device performs a known unitary operation we show that the use of entangled probes provides an improvement that even allows perfect identification for values of the unitary parameter that surpass a certain threshold. Finally, if the faulty device implements a known qubit channel we find that the optimal probability for detecting the position of rank-one and rank-two Pauli channels can be achieved by product state inputs and separable measurements for any size of network, whereas for rank-three and general amplitude damping channels optimal identification requires entanglement with N qubit ancillas.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-23
# 回帰のための自由ガウス過程

Likelihood-Free Gaussian Process for Regression ( http://arxiv.org/abs/2006.13456v4 )

ライセンス: Link先を確認
Yuta Shikuri, (参考訳) ガウス過程回帰は、その可能性に関する十分な情報が与えられた利子パラメータの後方分布を柔軟に表現することができる。 しかし、いくつかのケースでは確率モデルについてはほとんど知識がない。 例えば、金融機器に投資する場合、キャッシュフローの確率モデルは一般的に不明である。 本稿では,確率自由ガウス過程(LFGP)と呼ばれる新しいフレームワークを提案する。これは,確率関数を直接設定することなく,拡張性のある問題に対する関心パラメータの後方分布を表現できる。 LFGPは、興味パラメータの値をほぼ同一とみなすことのできるクラスタを確立し、最大極大推定器の漸近正規性を用いて、各クラスタにおける関心パラメータの確率をガウスに近似する。 提案手法は,確率モデルに対する仮定と拡張性のある問題に対する計算コストを低減し,可能性のないモデリングに多大な貢献を期待する。

Gaussian process regression can flexibly represent the posterior distribution of an interest parameter given sufficient information on the likelihood. However, in some cases, we have little knowledge regarding the probability model. For example, when investing in a financial instrument, the probability model of cash flow is generally unknown. In this paper, we propose a novel framework called the likelihood-free Gaussian process (LFGP), which allows representation of the posterior distributions of interest parameters for scalable problems without directly setting their likelihood functions. The LFGP establishes clusters in which the value of the interest parameter can be considered approximately identical, and it approximates the likelihood of the interest parameter in each cluster to a Gaussian using the asymptotic normality of the maximum likelihood estimator. We expect that the proposed framework will contribute significantly to likelihood-free modeling, particularly by reducing the assumptions for the probability model and the computational costs for scalable problems.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-23
# ピタゴラスファジィセットのマトリックスによる距離と診断への応用

A Matrix-based Distance of Pythagorean Fuzzy Set and its Application in Medical Diagnosis ( http://arxiv.org/abs/2102.01538v2 )

ライセンス: Link先を確認
Yuanpeng He, Lijian Li, Tianxiang Zhan, (参考訳) 直観的ファジィ集合に基づいて開発されたピタゴラスファジィ集合 (PFS) は、不確定な状況における不確実性を解明・解決する上で、より効率的である。 2つのピタゴラスファジィ集合の間の距離を測る方法はまだ未解決の問題である。 過去の再試行において,この問題を提示するために,様々な方法が提案されている。 しかし、既存の方法のすべてがピタゴラスファジィ集合の違いを正確に示し、類似性の性質を満足するわけではない。 他にも、ピタゴラスファジィ集合の3つの変数間の関係を無視する方法もある。 プロペムを付加するため, 距離測定の公理の要件を満たし, PFSの区別の度合いをよく示す新しい距離測定法が提案されている。 そして、距離を測定する方法が、何らかの対策を回避できるかどうかを検証するために、いくつかの数値的な例を提示します。 直感的で不合理な結果が生成され、他の類似の方法よりも効果的で合理的で進歩している。 さらに,PFS間の距離を計測する手法を医学的診断である実環境に適用し,その優位性と効率性を示す他の方法と比較した。 また,本手法が実際に不確実性に対処可能であることも同時に証明した。

The pythagorean fuzzy set (PFS) which is developed based on intuitionistic fuzzy set, is more efficient in elaborating and disposing uncertainties in indeterminate situations, which is a very reason of that PFS is applied in various kinds of fields. How to measure the distance between two pythagorean fuzzy sets is still an open issue. Mnay kinds of methods have been proposed to present the of the question in former reaserches. However, not all of existing methods can accurately manifest differences among pythagorean fuzzy sets and satisfy the property of similarity. And some other kinds of methods neglect the relationship among three variables of pythagorean fuzzy set. To addrees the proplem, a new method of measuring distance is proposed which meets the requirements of axiom of distance measurement and is able to indicate the degree of distinction of PFSs well. Then some numerical examples are offered to to verify that the method of measuring distances can avoid the situation that some counter? intuitive and irrational results are produced and is more effective, reasonable and advanced than other similar methods. Besides, the proposed method of measuring distances between PFSs is applied in a real environment of application which is the medical diagnosis and is compared with other previous methods to demonstrate its superiority and efficiency. And the feasibility of the proposed method in handling uncertainties in practice is also proved at the same time.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-23
# 連接エンティティと関係抽出のためのカスケードデュアルデコーダモデル

A Cascade Dual-Decoder Model for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2106.14163v2 )

ライセンス: Link先を確認
Jian Cheng, Tian Zhang, Shuang Zhang, Huimin Ren, Guo Yu, Xiliang Zhang, Shangce Gao, Lianbo Ma, (参考訳) 知識グラフ構築において、挑戦的な問題は、少量の構造化されていない歴史的データから複雑な(例えば重なり合う)実体や関係を抽出する方法である。 従来のパイプライン方式では、抽出を2つのサブタスクに分割することで、2つのサブタスク間の潜在的な相互作用を見逃し、エラーの伝播につながる可能性がある。 本研究では,テキスト固有の関係デコーダと関係対応エンティティデコーダを含む重なり合う関係三重項を抽出する効果的なカスケード二重デコーダ法を提案する。 我々のアプローチは単純であり、テキスト固有の関係デコーダと関係対応エンティティデコーダを含んでいる。 テキスト固有関係復号器は、テキストレベルで文から関係を検出する。 つまり、文全体の意味情報に従ってこれを行う。 トレーニング可能な埋め込みを伴う抽出された関係について、関係対応エンティティデコーダは、スパンベースのタグ付け方式を用いて対応する頭と尾のエンティティを検出する。 このように、重なり合う三重問題に自然に取り組むことができる。 提案手法の一般化性を検証するために,実世界の露天採掘データセットと2つの公開データセットについて実験を行った。 実験の結果,提案手法の有効性と競争性を示し,厳密な評価基準の下でF1スコアを向上した。 実装はhttps://github.com/prastunlp/DualDec.comで公開しています。

In knowledge graph construction, a challenging issue is how to extract complex (e.g., overlapping) entities and relationships from a small amount of unstructured historical data. The traditional pipeline methods are to divide the extraction into two separate subtasks, which misses the potential interaction between the two subtasks and may lead to error propagation. In this work, we propose an effective cascade dual-decoder method to extract overlapping relational triples, which includes a text-specific relation decoder and a relation-corresponded entity decoder. Our approach is straightforward and it includes a text-specific relation decoder and a relation-corresponded entity decoder. The text-specific relation decoder detects relations from a sentence at the text level. That is, it does this according to the semantic information of the whole sentence. For each extracted relation, which is with trainable embedding, the relation-corresponded entity decoder detects the corresponding head and tail entities using a span-based tagging scheme. In this way, the overlapping triple problem can be tackled naturally. We conducted experiments on a real-world open-pit mine dataset and two public datasets to verify the method's generalizability. The experimental results demonstrate the effectiveness and competitiveness of our proposed method and achieve better F1 scores under strict evaluation metrics. Our implementation is available at https://github.com/prastunlp/DualDec.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# キックドカップリングトップにおける時間外順序付き相関器:混合位相空間における情報スクランブルと保存量の役割

Out-of-Time Ordered Correlators in Kicked Coupled Tops: Information Scrambling in Mixed Phase Space and the Role of Conserved Quantities ( http://arxiv.org/abs/2201.05789v4 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Vaibhav Madhok, (参考訳) カオス力学による「情報スクランブル」を定量化し、古典的なリャプノフ指数の量子的アナログとして機能する「情報スクランブル」を用いた二部蹴蹴り合わされたトップス(KCT)系の演算子成長を研究する。KCT系では、スピン間の超微細結合からカオスが発生する。保存法により、系のダイナミクスは異なる不変部分空間に分解される。最初は最大の部分空間に焦点をあてて、OTOC成長速度が古典的なリャプノフ指数と完全にカオス的力学によく一致することを数値的に検証する。これまでの研究では、混成空間における混成空間のスクランブリングに主眼を置いている。 「これらの状態を初期状態として、それらの平均位相空間がOTOCの成長と飽和にどのように影響するかを検討する。 最大の部分空間の他に、他のすべての小さな部分空間を含むシステム全体にわたるOTOCについて研究する。 ある種の初期作用素に対しては、ランダム行列理論(RMT)を用いてOTOC飽和を解析的に導出する。 初期作用素が単位不変なランダム行列アンサンブルからランダムに選択されると、平均されたOTOCは、以前の研究に見られるフロケ作用素の線形絡み合いエントロピーに関係する。 対角ガウスイニシャル作用素に対しては、OTOC に対して簡単な式を提供する。

We study operator growth in a bipartite kicked coupled tops (KCT) system using out-of-time ordered correlators (OTOCs), which quantify ``information scrambling" due to chaotic dynamics and serve as a quantum analog of classical Lyapunov exponents. In the KCT system, chaos arises from the hyper-fine coupling between the spins. Due to a conservation law, the system's dynamics decompose into distinct invariant subspaces. Focusing initially on the largest subspace, we numerically verify that the OTOC growth rate aligns well with the classical Lyapunov exponent for fully chaotic dynamics. While previous studies have largely focused on scrambling in fully chaotic dynamics, works on mixed-phase space scrambling are sparse. We explore scrambling behavior in both mixed-phase space and globally chaotic dynamics. In the mixed phase space, we use Percival's conjecture to partition the eigenstates of the Floquet map into ``regular" and ``chaotic." Using these states as the initial states, we examine how their mean phase space locations affect the growth and saturation of the OTOCs. Beyond the largest subspace, we study the OTOCs across the entire system, including all other smaller subspaces. For certain initial operators, we analytically derive the OTOC saturation using random matrix theory (RMT). When the initial operators are chosen randomly from the unitarily invariant random matrix ensembles, the averaged OTOC relates to the linear entanglement entropy of the Floquet operator, as found in earlier works. For the diagonal Gaussian initial operators, we provide a simple expression for the OTOC.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# 汎用ドメイン一般化法の限界について

On the Limitations of General Purpose Domain Generalisation Methods ( http://arxiv.org/abs/2202.00563v2 )

ライセンス: Link先を確認
Henry Gouk, Ondrej Bohdal, Da Li, Timothy Hospedales, (参考訳) 本稿では,いくつかのドメイン一般化(DG)設定における学習アルゴリズムの基本的な性能制限について検討する。 従来提案手法が経験的リスク最小化(ERM)を確実に上回っている難しさから,ERMの過大なリスクと最小限の過大なリスクの上限を導出する。 以上の結果から,すべてのDG設定において,ERMを著しく上回る結果が得られないことが示唆された。 私たちの結論は、標準の共変量シフト設定だけでなく、ドメインの相違に関する追加的な制限を伴う2つの他の設定に限られています。 第一に、すべての領域は、広い種類の積分確率測度によって測定されるような、ペアワイズ距離に非自明な境界を持つように制約する。 第2の代替設定では、すべてのドメインが同じ基盤となるサポートを持つような制限されたDG問題のクラスを考える。 また,これらのDG設定において,ERMの性能を最適化するために,異なる戦略が利用できることを示す。 また,理論解析によって示唆される仮説を実験的に検討した。

We investigate the fundamental performance limitations of learning algorithms in several Domain Generalisation (DG) settings. Motivated by the difficulty with which previously proposed methods have in reliably outperforming Empirical Risk Minimisation (ERM), we derive upper bounds on the excess risk of ERM, and lower bounds on the minimax excess risk. Our findings show that in all the DG settings we consider, it is not possible to significantly outperform ERM. Our conclusions are limited not only to the standard covariate shift setting, but also two other settings with additional restrictions on how domains can differ. The first constrains all domains to have a non-trivial bound on pairwise distances, as measured by a broad class of integral probability metrics. The second alternate setting considers a restricted class of DG problems where all domains have the same underlying support. Our analysis also suggests how different strategies can be used to optimise the performance of ERM in each of these DG setting. We also experimentally explore hypotheses suggested by our theoretical analysis.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# 電気自動車からの運転行動の受動的・能動的学習

Passive and Active Learning of Driver Behavior from Electric Vehicles ( http://arxiv.org/abs/2203.02179v2 )

ライセンス: Link先を確認
Federica Comuni, Christopher Mészáros, Niklas Åkerblom, Morteza Haghir Chehreghani, (参考訳) 運転者の振る舞いをモデル化することは、電気自動車のエネルギー消費の予測など、自動車業界にいくつかの利点をもたらす。 研究では、特定の運転シナリオにおいて、攻撃的な運転は適度な運転よりも最大30%のエネルギーを消費することができることが示されている。 しかし、機械学習手法はドライバーの行動分類に広く用いられているため、長時間のウィンドウ上でのシーケンスモデリングや、高価なアノテーションによるラベル付きデータの欠如など、いくつかの課題が生じる可能性がある。 運転者の振る舞いを受動的に学習する第一の課題に対処するために、自己注意モデルや共用反復プロット(JRP)を用いた畳み込みニューラルネットワークなどの非反復的アーキテクチャを調査し、それらを反復的モデルと比較する。 自己注意モデルでは良好な性能が得られたが,JRPでは大きな改善は得られなかった。 しかし,本研究で使用したウィンドウ長は5秒から10秒であり,再帰的でないモデルでは再帰的モデルよりも優れていなかった。 第2の課題に対処するために,異なる情報度尺度を用いたいくつかのアクティブラーニング手法について検討する。 我々は,不確実なサンプリングや,委員会によるクエリやアクティブな深層投棄など,より高度な手法を評価する。 実験の結果,いくつかのアクティブサンプリング手法はランダムサンプリングよりも優れており,アノテーションに必要な労力を削減できることがわかった。

Modeling driver behavior provides several advantages in the automotive industry, including prediction of electric vehicle energy consumption. Studies have shown that aggressive driving can consume up to 30% more energy than moderate driving, in certain driving scenarios. Machine learning methods are widely used for driver behavior classification, which, however, may yield some challenges such as sequence modeling on long time windows and lack of labeled data due to expensive annotation. To address the first challenge, passive learning of driver behavior, we investigate non-recurrent architectures such as self-attention models and convolutional neural networks with joint recurrence plots (JRP), and compare them with recurrent models. We find that self-attention models yield good performance, while JRP does not exhibit any significant improvement. However, with the window lengths of 5 and 10 seconds used in our study, none of the non-recurrent models outperform the recurrent models. To address the second challenge, we investigate several active learning methods with different informativeness measures. We evaluate uncertainty sampling, as well as more advanced methods, such as query by committee and active deep dropout. Our experiments demonstrate that some active sampling techniques can outperform random sampling, and therefore decrease the effort needed for annotation.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# クロスリンガル・トランスファー学習におけるMarvelous Agglutinative Languageの効果

Marvelous Agglutinative Language Effect on Cross Lingual Transfer Learning ( http://arxiv.org/abs/2204.03831v2 )

ライセンス: Link先を確認
Wooyoung Kim, Chaerin Jo, Minjung Kim, Wooju Kim, (参考訳) 多言語言語モデルについては、多言語性の呪いのため、訓練用言語を選択することが重要である。 類似言語構造を持つ言語を使用することは,言語間移動学習に有効であることが知られている。 しかし,韓国語などの凝集言語の使用は,言語間移動学習においてより効果的であることを示す。 これは、言語間移行学習のトレーニング戦略を変える素晴らしい発見です。

As for multilingual language models, it is important to select languages for training because of the curse of multilinguality. It is known that using languages with similar language structures is effective for cross lingual transfer learning. However, we demonstrate that using agglutinative languages such as Korean is more effective in cross lingual transfer learning. This is a great discovery that will change the training strategy of cross lingual transfer learning.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# ノードへのサブグラフの翻訳 - GNNを強力かつ効率的なサブグラフ表現学習を実現する

Translating Subgraphs to Nodes Makes Simple GNNs Strong and Efficient for Subgraph Representation Learning ( http://arxiv.org/abs/2204.04510v4 )

ライセンス: Link先を確認
Dongkwan Kim, Alice Oh, (参考訳) グラフ表現学習は重要な問題として現れてきたが、デフォルトでは大規模グローバルグラフ上の特殊なグラフニューラルネットワークによってアプローチされている。 これらのモデルは広範なメモリと計算資源を必要とするが、サブグラフの階層構造をモデル化するには挑戦する。 本稿では,サブグラフの表現を学習するための新しい定式化であるSubgraph-To-Node(S2N)変換を提案する。 具体的には、グローバルグラフのサブグラフの集合が与えられた場合、サブグラフをノードに粗く変換することで、新しいグラフを構築する。 理論的証拠と経験的証拠の両方を実証し、S2Nは最先端のモデルと比較してメモリと計算コストを著しく削減するだけでなく、サブグラフの局所構造と大域構造の両方をキャプチャすることでそれらを上回ります。 グラフの粗大化手法を利用することで,グラフが不十分なデータスカース設定においても,ベースラインの精度が向上する。 8つのベンチマーク実験により、S2N翻訳を用いた微調整モデルでは、最先端モデルよりも183~711倍のサブグラフサンプルを処理可能であることが示された。

Subgraph representation learning has emerged as an important problem, but it is by default approached with specialized graph neural networks on a large global graph. These models demand extensive memory and computational resources but challenge modeling hierarchical structures of subgraphs. In this paper, we propose Subgraph-To-Node (S2N) translation, a novel formulation for learning representations of subgraphs. Specifically, given a set of subgraphs in the global graph, we construct a new graph by coarsely transforming subgraphs into nodes. Demonstrating both theoretical and empirical evidence, S2N not only significantly reduces memory and computational costs compared to state-of-the-art models but also outperforms them by capturing both local and global structures of the subgraph. By leveraging graph coarsening methods, our method outperforms baselines even in a data-scarce setting with insufficient subgraphs. Our experiments on eight benchmarks demonstrate that fined-tuned models with S2N translation can process 183 -- 711 times more subgraph samples than state-of-the-art models at a better or similar performance level.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# 幾何学的視点:量子クレーマー・ラオ境界の実験評価

A geometric perspective: experimental evaluation of the quantum Cramer-Rao bound ( http://arxiv.org/abs/2204.13777v2 )

ライセンス: Link先を確認
Changhao Li, Mo Chen, Paola Cappellaro, (参考訳) 量子センシングのパワーは、量子クレーマー・ラオ境界(QCRB)によって量子化され、古典的境界を超えることができる。 マルチパラメータ推定において、QCRBは必ずしも飽和しているとは限らない。 本稿では、量子幾何学のレンズによるマルチパラメータ推定の精度限界について検討し、量子幾何学計測によるQCRBの実験的評価を可能にする。 2パラメータと3パラメータの推定に焦点をあて、量子不確実性原理が境界の飽和をいかに防ぐかを明らかにする。 系の幾何学的性質に「量子性」の計量を結びつけることにより、3パラメータ推定のための達成可能なQCRBを調査・実験的に抽出する。

The power of quantum sensing rests on its ultimate precision limit, quantified by the quantum Cramer-Rao bound (QCRB), which can surpass classical bounds. In multi-parameter estimation, the QCRB is not always saturated as the quantum nature of associated observables may lead to their incompatibility. Here we explore the precision limits of multi-parameter estimation through the lens of quantum geometry, enabling us to experimentally evaluate the QCRB via quantum geometry measurements. Focusing on two- and three-parameter estimation, we elucidate how fundamental quantum uncertainty principles prevent the saturation of the bound. By linking a metric of "quantumness" to the system geometric properties, we investigate and experimentally extract the attainable QCRB for three-parameter estimations.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-23
# マルチエージェント強化学習のための相互作用パターンの分離

Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.03902v4 )

ライセンス: Link先を確認
Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen, Zunlei Feng, Mingli Song, (参考訳) ディープ・コラボレーティブなマルチエージェント強化学習は、様々な複雑な制御タスクにおいて顕著な成功を収めた。 しかし、近年のマルチエージェント学習の進歩は、主に価値の分解に焦点が当てられ、エンティティ間の相互作用はいまだに絡み合っており、エンティティ間のノイズの多い相互作用に過度に適合する。 本研究では,対話型対話を対話型プロトタイプに切り離すための対話型パターンディスエンタング(OPT)手法を提案する。 OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。 具体的には、OPTは、発見された相互作用プロトタイプ間のスパースと多様性を促進するためのスパース不一致機構を導入している。 そして、モデルはこれらのプロトタイプを学習可能な重み付き集約器によってコンパクトな相互作用パターンに選択的に再構成する。 部分観測可能性によるトレーニング不安定性の問題を軽減するため,各エージェントの集約重みと履歴行動の相互情報の最大化を提案する。 単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。 私たちのコードはhttps://github.com/liushunyu/OPT.comで公開されています。

Deep cooperative multi-agent reinforcement learning has demonstrated its remarkable success over a wide spectrum of complex control tasks. However, recent advances in multi-agent learning mainly focus on value decomposition while leaving entity interactions still intertwined, which easily leads to over-fitting on noisy interactions between entities. In this work, we introduce a novel interactiOn Pattern disenTangling (OPT) method, to disentangle the entity interactions into interaction prototypes, each of which represents an underlying interaction pattern within a subgroup of the entities. OPT facilitates filtering the noisy interactions between irrelevant entities and thus significantly improves generalizability as well as interpretability. Specifically, OPT introduces a sparse disagreement mechanism to encourage sparsity and diversity among discovered interaction prototypes. Then the model selectively restructures these prototypes into a compact interaction pattern by an aggregator with learnable weights. To alleviate the training instability issue caused by partial observability, we propose to maximize the mutual information between the aggregation weights and the history behaviors of each agent. Experiments on single-task, multi-task and zero-shot benchmarks demonstrate that the proposed method yields results superior to the state-of-the-art counterparts. Our code is available at https://github.com/liushunyu/OPT.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# GeONet: ワッサーシュタイン測地学を学ぶ神経オペレータ

GeONet: a neural operator for learning the Wasserstein geodesic ( http://arxiv.org/abs/2209.14440v4 )

ライセンス: Link先を確認
Andrew Gracyk, Xiaohui Chen, (参考訳) 最適輸送(OT)は、幾何学的に意味のある方法で複雑なデータ分布を比較するための汎用的なフレームワークを提供する。 従来の確率測度間のワッサーシュタイン距離と測地線を計算する方法は、メッシュ固有の領域の離散化を必要とし、次元の呪いに苦しむ。 本稿では、初期分布と終端分布の入力対から2つのエンドポイント分布を接続するワッサーシュタイン測地線への非線形マッピングを学習するメッシュ不変なディープニューラルネットワークであるGeONetを提案する。 オフライントレーニング段階において、GeONetは、結合されたPDEシステムによって特徴づけられる原始空間と双対空間におけるOT問題の動的定式化のためのサドル点最適条件を学習する。 その後の推論段階は瞬時に行われ、オンライン学習環境でリアルタイムの予測にデプロイできる。 シミュレーション例では,GeONet が標準 OT ソルバと同等の精度で,MNIST データセットに比較して,予測段階の計算コストを桁違いに大幅に削減することを示した。

Optimal transport (OT) offers a versatile framework to compare complex data distributions in a geometrically meaningful way. Traditional methods for computing the Wasserstein distance and geodesic between probability measures require mesh-specific domain discretization and suffer from the curse-of-dimensionality. We present GeONet, a mesh-invariant deep neural operator network that learns the non-linear mapping from the input pair of initial and terminal distributions to the Wasserstein geodesic connecting the two endpoint distributions. In the offline training stage, GeONet learns the saddle point optimality conditions for the dynamic formulation of the OT problem in the primal and dual spaces that are characterized by a coupled PDE system. The subsequent inference stage is instantaneous and can be deployed for real-time predictions in the online learning setting. We demonstrate that GeONet achieves comparable testing accuracy to the standard OT solvers on simulation examples and the MNIST dataset with considerably reduced inference-stage computational cost by orders of magnitude.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# 2次元量子コンピュータベンチマークのためのAb-initiotree-tensor-networkデジタルツイン

Ab-initio tree-tensor-network digital twin for quantum computer benchmarking in 2D ( http://arxiv.org/abs/2210.03763v3 )

ライセンス: Link先を確認
Daniel Jaschke, Alice Pagano, Sebastian Weber, Simone Montangero, (参考訳) デジタルツインであるNISQ(Noisy Intermediate Scale Quantum)コンピュータのハミルトン力学の大規模数値シミュレーションは、特定のハードウェアに量子アルゴリズムをチューニングするための効率的でスケーラブルな戦略を開発する上で大きな役割を果たす可能性がある。 Rydberg原子量子コンピュータの2次元テンソルネットワークディジタル双対を用いて,そのようなプログラムの実現可能性を示す。 特に、リドベルク原子間のファンデルワールス相互作用によって引き起こされるゲートクロストークの効果を定量化する:8$\times$8デジタルツインシミュレーションによれば、5ビット反復符号の初期状態は、フォールトトレラント量子コンピューティングとの互換性を示す最初の指標である高い忠実度で作成することができる。 約700個のゲートを持つ64ビットのグリーンバーガー・ホーネ・ザイリンガー状態(GHZ)の調製により、クローズドシステムでは99.9 %のフィリティが得られ、並列化により35 %のスピードアップが達成される。

Large-scale numerical simulations of the Hamiltonian dynamics of a Noisy Intermediate Scale Quantum (NISQ) computer - a digital twin - could play a major role in developing efficient and scalable strategies for tuning quantum algorithms for specific hardware. Via a two-dimensional tensor network digital twin of a Rydberg atom quantum computer, we demonstrate the feasibility of such a program. In particular, we quantify the effects of gate crosstalks induced by the van der Waals interaction between Rydberg atoms: according to an 8$\times$8 digital twin simulation based on the current state-of-the-art experimental setups, the initial state of a five-qubit repetition code can be prepared with a high fidelity, a first indicator for a compatibility with fault-tolerant quantum computing. The preparation of a 64-qubit Greenberger-Horne-Zeilinger (GHZ) state with about 700 gates yields a $99.9\%$ fidelity in a closed system while achieving a speedup of $35\%$ via parallelization.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# 重み付きネットワークの形態が量子極端貯水池計算に及ぼす影響

Impact of the form of weighted networks on the quantum extreme reservoir computation ( http://arxiv.org/abs/2211.07841v2 )

ライセンス: Link先を確認
Aoi Hayashi, Akitada Sakurai, Shin Nishio, William J. Munro, Kae Nemoto, (参考訳) 量子極端貯水池計算(QERC)は、極端機械学習の概念と量子貯水池計算を組み合わせた汎用的な量子ニューラルネットワークモデルである。 QERCの鍵となるのは、異なる問題インスタンスに最適化する必要がない複雑な量子貯水池(機能空間)の生成である。 当初、周期駆動システムであるハミルトニアン力学が量子特徴写像として用いられた。 本研究では、重み付きネットワークの形でユニタリ行列を特徴づける手法により、力学の時間ステップの数が増えるにつれて量子特徴写像が生成される様子をとらえる。 さらに,十分に成長した特徴写像の鍵となる特性を同定するために,画像分類における量子貯水池に使用できる様々な重み付きネットワークモデルを用いて評価を行った。 最後に、乱れた離散時間結晶に基づく単純なハミルトンモデルが、量子プロセッサゲートのゲートによるプログラミングの必要性を排除しつつ、その簡単な実装経路によって、ほぼ最適性能を提供することを示す。

The quantum extreme reservoir computation (QERC) is a versatile quantum neural network model that combines the concepts of extreme machine learning with quantum reservoir computation. Key to QERC is the generation of a complex quantum reservoir (feature space) that does not need to be optimized for different problem instances. Originally, a periodically-driven system Hamiltonian dynamics was employed as the quantum feature map. In this work we capture how the quantum feature map is generated as the number of time-steps of the dynamics increases by a method to characterize unitary matrices in the form of weighted networks. Furthermore, to identify the key properties of the feature map that has sufficiently grown, we evaluate it with various weighted network models that could be used for the quantum reservoir in image classification situations. At last, we show how a simple Hamiltonian model based on a disordered discrete time crystal with its simple implementation route provides nearly-optimal performance while removing the necessity of programming of the quantum processor gate by gate.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# CSCD-NS:中国のネイティブスピーカー向けチェックデータセット

CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers ( http://arxiv.org/abs/2211.08788v3 )

ライセンス: Link先を確認
Yong Hu, Fandong Meng, Jie Zhou, (参考訳) 本稿では,中国語話者を対象とした最初の中国語スペルチェック(CSC)データセットであるCSCD-NSについて紹介する。 中国の学習者を対象とした既存のCSCデータセットと比較して、CSCD-NSはスケールが10倍大きく、単語レベルのエラーの割合が著しく高い、明確なエラー分布を示す。 データ資源をさらに強化するため,入力手法を用いて入力プロセスをシミュレートし,実際の誤差分布と密接な類似した大規模で高品質な擬似データを生成し,既存手法より優れた性能を示す新しい手法を提案する。 さらに,ChatGPT などの大規模言語モデル (LLM) など,このシナリオにおける各種モデルの性能について検討する。 その結果、生成モデルは、厳密な長さと発音制約によりBERTのような分類モデルに劣ることが示された。 単語レベルのエラーの頻度が高いため、ネイティブスピーカーのCSCも十分に困難であり、改善の余地は残されている。

In this paper, we present CSCD-NS, the first Chinese spelling check (CSC) dataset designed for native speakers, containing 40,000 samples from a Chinese social platform. Compared with existing CSC datasets aimed at Chinese learners, CSCD-NS is ten times larger in scale and exhibits a distinct error distribution, with a significantly higher proportion of word-level errors. To further enhance the data resource, we propose a novel method that simulates the input process through an input method, generating large-scale and high-quality pseudo data that closely resembles the actual error distribution and outperforms existing methods. Moreover, we investigate the performance of various models in this scenario, including large language models (LLMs), such as ChatGPT. The result indicates that generative models underperform BERT-like classification models due to strict length and pronunciation constraints. The high prevalence of word-level errors also makes CSC for native speakers challenging enough, leaving substantial room for improvement.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# 有効負質量マイクロ波モードを用いた光子露光

Photon-Pressure with an Effective Negative Mass Microwave Mode ( http://arxiv.org/abs/2212.07461v2 )

ライセンス: Link先を確認
Ines C. Rodrigues, Gary A. Steele, Daniel Bothner, (参考訳) 高調波発振器は物理学の最も基本的な概念に属し、回路QED、共振器光学、光子-圧力系といった多くの現在の研究分野の中心である。 ここでは、負の質量振動子のダイナミクスを模倣する超伝導LC回路のマイクロ波モードを設計し、光子圧により第2の低周波回路に結合する。 実効性負の質量ダイナミクスは, 負の質量振動子の反転エネルギーラグによって直感的に理解できるブルー変調ポンプ場により, 低周波回路の動的バックアクションの逆転とサイドバンド冷却に繋がることを示した。

Harmonic oscillators belong to the most fundamental concepts in physics and are central to many current research fields such as circuit QED, cavity optomechanics and photon-pressure systems. Here, we engineer a microwave mode in a superconducting LC circuit that mimics the dynamics of a negative mass oscillator, and couple it via photon-pressure to a second low-frequency circuit. We demonstrate that the effective negative mass dynamics lead to an inversion of dynamical backaction and to sideband-cooling of the low-frequency circuit by a blue-detuned pump field, which can be intuitively understood by the inverted energy ladder of a negative mass oscillator.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-23
# 一般物理理論のエントロピーとは?

Which entropy for general physical theories? ( http://arxiv.org/abs/2302.01651v3 )

ライセンス: Link先を確認
Paolo Perinotti, Alessandro Tosini, Leonardo Vaglini, (参考訳) 本稿では、情報内容が漸近的に達成可能な圧縮率で定義される任意の情報理論において、ソースの情報内容の定量化の問題に対処する。 古典的および量子論におけるこの問題を解決する関数は、それぞれシャノンのエントロピーとフォン・ノイマンのエントロピーである。 しかし、一般的な情報理論では、エントロピーの概念を拡張する3つの異なる関数が存在するため、いずれかが情報内容に対する量化器の役割を普遍的に果たせるかどうかという疑問が開かれている。 ここでは,双局所古典理論 (Bilocal Classical Theory) と呼ばれる玩具理論において,情報内容と様々なエントロピー関数を評価することによって,負の質問に答える。

We address the problem of quantifying the information content of a source for an arbitrary information theory, where the information content is defined in terms of the asymptotic achievable compression rate. The functions that solve this problem in classical and quantum theory are Shannon's and von Neumann's entropy, respectively. However, in a general information theory there are three different functions that extend the notion of entropy, and this opens the question as to whether any of them can universally play the role of the quantifier for the information content. Here we answer the question in the negative, by evaluating the information content as well as the various entropic functions in a toy theory called Bilocal Classical Theory.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-23
# CroCoSum: 言語間のコードスイッチによる要約のためのベンチマークデータセット

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization ( http://arxiv.org/abs/2303.04092v2 )

ライセンス: Link先を確認
Ruochen Zhang, Carsten Eickhoff, (参考訳) 言語間要約(CLS)は、大規模Webマイニングデータセットの可用性と多言語言語モデルの進歩により、近年、関心が高まりつつある。 しかし、自然に発生するCLS資源の希少さを考えると、ほとんどのデータセットは、過度に人工的なアーティファクトを含むことができる翻訳に頼らざるを得ない。 これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。 中間メッセージにおける言語間のこの変更は、多言語設定では一般的な現象であるが、データ不足のため、言語間コンテキストではほとんど見過ごされていない。 このギャップに対処するために、私たちはCroCoSumを紹介します。 24,000以上の英語のソース記事と18,000以上の中国語のニュースサマリーで構成されており、サマリーの92%以上がコード変更されたフレーズを含んでいる。 参考までに、パイプライン、エンドツーエンド、ゼロショットメソッドを含む既存のアプローチのパフォーマンスを評価する。 既存のCLSリソースを事前トレーニングのステップとして活用することは、CroCoSumの性能向上には至らず、現在のデータセットの限定的な一般化可能性を示している。 最後に,定性的誤り解析によるコードスイッチト生成における言語間要約器の評価の課題について論じる。

Cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets are forced to rely on translation which can contain overly literal artifacts. This restricts our ability to observe naturally occurring CLS pairs that capture organic diction, including instances of code-switching. This alteration between languages in mid-message is a common phenomenon in multilingual settings yet has been largely overlooked in cross-lingual contexts due to data scarcity. To address this gap, we introduce CroCoSum, a dataset of cross-lingual code-switched summarization of technology news. It consists of over 24,000 English source articles and 18,000 human-written Chinese news summaries, with more than 92% of the summaries containing code-switched phrases. For reference, we evaluate the performance of existing approaches including pipeline, end-to-end, and zero-shot methods. We show that leveraging existing CLS resources as a pretraining step does not improve performance on CroCoSum, indicating the limited generalizability of current datasets. Finally, we discuss the challenges of evaluating cross-lingual summarizers on code-switched generation through qualitative error analyses.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-23
# 自己重力系の無衝突ボルツマンシミュレーションのための量子アルゴリズム

Quantum algorithm for collisionless Boltzmann simulation of self-gravitating systems ( http://arxiv.org/abs/2303.16490v2 )

ライセンス: Link先を確認
Soichiro Yamazaki, Fumio Uchida, Kotaro Fujisawa, Koichi Miyamoto, Naoki Yoshida, (参考訳) 衝突のないボルツマン方程式(英: Collingless Boltzmann equation, CBE)は、宇宙プラズマから星団、銀河まで幅広い天体物理学系の力学を規定する基礎方程式である。 CBEを多次元位相空間に直接統合するのは計算コストがかかるため、現実的な天体物理学問題への応用は制限されている。 近年、Todorova & Steijl (2020) は計算複雑性を大幅に減らして CBE を解く効率的な量子アルゴリズムを提案した。 このアルゴリズムを拡張して自己重力系の量子シミュレーションを行い、解符号化量子状態から抽出した密度分布のフーリエモードで重力を計算する手法を取り入れた。 本手法は, 従来のシミュレーション法と比較して, Nv における時間と空間の複雑度, 速度座標の格子点数, の依存性を改善する。 次に,本手法の数値的な実演を行う。 まず,64*64グリッド上で,13個の擬似量子ビットを用いた1+1次元自由ストリーミング動作の数値計算を行い,本手法の有効性を検証した。 次に、ジャンス崩壊のシミュレーションを行い、解析的および線形理論計算と比較する。 これにより、将来の量子コンピュータ上で大規模なCBEシミュレーションを行うことができる。

The collisionless Boltzmann equation (CBE) is a fundamental equation that governs the dynamics of a broad range of astrophysical systems from space plasma to star clusters and galaxies. It is computationally expensive to integrate the CBE directly in a multi-dimensional phase space, and thus the applications to realistic astrophysical problems have been limited so far. Recently, Todorova & Steijl (2020) proposed an efficient quantum algorithm to solve the CBE with significantly reduced computational complexity. We extend the algorithm to perform quantum simulations of self-gravitating systems, incorporating the method to calculate gravity with the major Fourier modes of the density distribution extracted from the solution-encoding quantum state. Our method improves the dependency of time and space complexities on Nv , the number of grid points in each velocity coordinate, compared to the classical simulation methods. We then conduct some numerical demonstrations of our method. We first run a 1+1 dimensional test calculation of free streaming motion on 64*64 grids using 13 simulated qubits and validate our method. We then perform simulations of Jeans collapse, and compare the result with analytic and linear theory calculations. It will thus allow us to perform large-scale CBE simulations on future quantum computers.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-23
# 計算時間制約下におけるテスト時間適応の評価

Evaluation of Test-Time Adaptation Under Computational Time Constraints ( http://arxiv.org/abs/2304.04795v2 )

ライセンス: Link先を確認
Motasem Alfarra, Hani Itani, Alejandro Pardo, Shyma Alhuwaider, Merey Ramazanova, Juan C. Pérez, Zhipeng Cai, Matthias Müller, Bernard Ghanem, (参考訳) 本稿では,テスト時間適応法(TTA)のオンライン評価プロトコルを提案する。 TTAメソッドは、テスト時にラベルのないデータを活用して、分散シフトに適応する。 多くの効果的な手法が提案されているが、その優れた性能は計算予算を大幅に増加させるコストがかかるのが普通である。 現在の評価プロトコルは、この余分な計算コストの影響を見落とし、実際の適用性に影響を与える。 この問題に対処するため、我々はTTA方式のより現実的な評価プロトコルを提案し、定常速度のデータストリームからオンライン形式でデータを受信し、その手法の適応速度を考慮に入れた。 本稿では,提案プロトコルを用いて,複数のデータセットやシナリオ上でのTTA手法のベンチマークを行う。 広範囲な実験により、推論速度を考慮すると、単純で高速なアプローチはより洗練されているが遅い手法より優れていることが示されている。 例えば、2020年のSHOTは、2023年の最先端のSARよりも優れています。 提案手法は, 精度, 効率の両立した実用的TTA手法を開発することの重要性を明らかにするものである。

This paper proposes a novel online evaluation protocol for Test Time Adaptation (TTA) methods, which penalizes slower methods by providing them with fewer samples for adaptation. TTA methods leverage unlabeled data at test time to adapt to distribution shifts. Although many effective methods have been proposed, their impressive performance usually comes at the cost of significantly increased computation budgets. Current evaluation protocols overlook the effect of this extra computation cost, affecting their real-world applicability. To address this issue, we propose a more realistic evaluation protocol for TTA methods, where data is received in an online fashion from a constant-speed data stream, thereby accounting for the method's adaptation speed. We apply our proposed protocol to benchmark several TTA methods on multiple datasets and scenarios. Extensive experiments show that, when accounting for inference speed, simple and fast approaches can outperform more sophisticated but slower methods. For example, SHOT from 2020, outperforms the state-of-the-art method SAR from 2023 in this setting. Our results reveal the importance of developing practical TTA methods that are both accurate and efficient.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-23
# 強化学習における極小逆行非依存探索

Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning ( http://arxiv.org/abs/2304.07278v2 )

ライセンス: Link先を確認
Gen Li, Yuling Yan, Yuxin Chen, Jianqing Fan, (参考訳) 本稿では,強化学習における報酬非依存探索(RL)について考察する。これは,学習者が探索段階における報酬関数を知らないシナリオであり,最先端技術を改善するアルゴリズムを設計する。 より正確には、$S$状態、$A$作用、地平線長$H$の有限水平不均質マルコフ決定過程を考えて、与えられた利益関数の多項式数しか存在しないと仮定する。 報奨情報のガイダンスなしで, \begin{align*} \frac{SAH^3}{\varepsilon^2} \text{ sample episodes (Up to log factor)} \end{align*} の順序を収集することにより, これらの報奨関数に対して$\varepsilon$-optimal Policy を求めることができる。 これは、証明可能なミニマックス最適性を達成する、この文脈における最初の報酬に依存しない探索スキームを形成する。 さらに、サンプルサイズが$\frac{S^2AH^3}{\varepsilon^2}$のエピソード(ログファクタまで)を超えると、我々のアルゴリズムは任意の多くの報酬関数に対して$\varepsilon$の精度を得られる(逆フリー探索と呼ばれる)。 探索手法は,オフラインRLの性能を規定する重要な報酬非依存量を最大化しようとするが,政策学習パラダイムはサンプル最適オフラインRLパラダイムのアイデアを活用する。

This paper studies reward-agnostic exploration in reinforcement learning (RL) -- a scenario where the learner is unware of the reward functions during the exploration stage -- and designs an algorithm that improves over the state of the art. More precisely, consider a finite-horizon inhomogeneous Markov decision process with $S$ states, $A$ actions, and horizon length $H$, and suppose that there are no more than a polynomial number of given reward functions of interest. By collecting an order of \begin{align*} \frac{SAH^3}{\varepsilon^2} \text{ sample episodes (up to log factor)} \end{align*} without guidance of the reward information, our algorithm is able to find $\varepsilon$-optimal policies for all these reward functions, provided that $\varepsilon$ is sufficiently small. This forms the first reward-agnostic exploration scheme in this context that achieves provable minimax optimality. Furthermore, once the sample size exceeds $\frac{S^2AH^3}{\varepsilon^2}$ episodes (up to log factor), our algorithm is able to yield $\varepsilon$ accuracy for arbitrarily many reward functions (even when they are adversarially designed), a task commonly dubbed as ``reward-free exploration.'' The novelty of our algorithm design draws on insights from offline RL: the exploration scheme attempts to maximize a critical reward-agnostic quantity that dictates the performance of offline RL, while the policy learning paradigm leverages ideas from sample-optimal offline RL paradigms.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 360$^\circ$ 高分解能深さ推定における不確実性を考慮した構造的知識伝達

360$^\circ$ High-Resolution Depth Estimation via Uncertainty-aware Structural Knowledge Transfer ( http://arxiv.org/abs/2304.07967v3 )

ライセンス: Link先を確認
Zidong Cao, Hao Ai, Athanasios V. Vasilakos, Lin Wang, (参考訳) 高分解能(HR)全方位深度マップを予測するために、既存の手法では、完全に教師付き学習を通じて入力としてHR全方位画像(ODI)を利用するのが一般的である。 しかし、実際には、HR ODIを入力として扱うのは、リソース制約されたデバイスのため望ましくない。 さらに、深度マップはカラー画像よりも解像度が低いことが多い。 そこで本研究では,HR深度GTマップが存在しない場合に,低分解能(LR) ODIから直接HR全方位深度を推定する。 我々のキーとなる考え方は、HR画像のモダリティと対応するLR深度マップからシーン構造的知識を移譲し、余分な推論コストを伴わずにHR深度推定の目標を達成することである。 具体的には,ODIスーパーレゾリューション(SR)を補助タスクとして導入し,HR深度推定の性能を高めるために,両タスクを弱教師付きで協調的に訓練する。 ODI SRタスクは不確実性推定によってシーン構造的知識を抽出する。 これにより,シーン構造知識伝達 (SSKT) モジュールを2つのキーコンポーネントで提案する。 まず,疑似補間関数(CIIF)を用いて,2つのタスク間でCIIFのパラメータを共有する。 そこで本研究では,HR深度推定タスクがよりシーン構造的知識を学習するのを助けるために,付加的な構造正則化を提供する特徴蒸留(FD)損失を提案する。 大規模な実験により,本手法はベースライン法よりも優れており,完全教師付き手法と同等の性能を達成できることが示された。

To predict high-resolution (HR) omnidirectional depth map, existing methods typically leverage HR omnidirectional image (ODI) as the input via fully-supervised learning. However, in practice, taking HR ODI as input is undesired due to resource-constrained devices. In addition, depth maps are often with lower resolution than color images. Therefore, in this paper, we explore for the first time to estimate the HR omnidirectional depth directly from a low-resolution (LR) ODI, when no HR depth GT map is available. Our key idea is to transfer the scene structural knowledge from the HR image modality and the corresponding LR depth maps to achieve the goal of HR depth estimation without any extra inference cost. Specifically, we introduce ODI super-resolution (SR) as an auxiliary task and train both tasks collaboratively in a weakly supervised manner to boost the performance of HR depth estimation. The ODI SR task extracts the scene structural knowledge via uncertainty estimation. Buttressed by this, a scene structural knowledge transfer (SSKT) module is proposed with two key components. First, we employ a cylindrical implicit interpolation function (CIIF) to learn cylindrical neural interpolation weights for feature up-sampling and share the parameters of CIIFs between the two tasks. Then, we propose a feature distillation (FD) loss that provides extra structural regularization to help the HR depth estimation task learn more scene structural knowledge. Extensive experiments demonstrate that our weakly-supervised method outperforms baseline methods, and even achieves comparable performance with the fully-supervised methods.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# β$可変量子固有解器を用いた量子ボルツマンマシンの訓練

Training Quantum Boltzmann Machines with the $β$-Variational Quantum Eigensolver ( http://arxiv.org/abs/2304.08631v2 )

ライセンス: Link先を確認
Onno Huijgen, Luuk Coopmans, Peyman Najafi, Marcello Benedetti, Hilbert J. Kappen, (参考訳) 量子ボルツマンマシン(Quantum Boltzmann machine, QBM)は、古典的データと量子状態の両方に対する生成機械学習モデルである。 QBMのトレーニングは、モデルからターゲット状態への相対エントロピーの最小化である。 これはQBM期待値を必要とするが、これは一般に大きなモデルで計算的に計算可能である。 したがって、実際にうまく機能するヒューリスティックなトレーニング手法を開発することが重要である。 本研究では, ネストループを特徴とするヒューリスティックな手法について検討する: 内部ループは, Liu et al (2021 Mach., Sci. Technol.2 025011) による$\beta$-variational quantum eigensolver (\beta$-VQE) を訓練し, QBM期待値の近似を行い, 外ループはQBMを訓練して目標に対する相対エントロピーを最小化する。 我々は,$\beta$-VQEで得られた低ランク表現が,古典的データや低温量子トモグラフィなどの低ランク対象状態の学習に有効な方法であることを示す。 最大10キュービットの数値シミュレーションにより,古典的および量子的ターゲットデータの両方で本手法を検証した。 ここで考慮された場合、得られたQBMはターゲットを高忠実度にモデル化することができる。 物理量子デバイス上でのトレーニングモデルを実装した。 このアプローチは、短期量子デバイス上でQBMを変動的にトレーニングする上で、貴重なルートを提供する。

The quantum Boltzmann machine (QBM) is a generative machine learning model for both classical data and quantum states. Training the QBM consists of minimizing the relative entropy from the model to the target state. This requires QBM expectation values which are computationally intractable for large models in general. It is therefore important to develop heuristic training methods that work well in practice. In this work, we study a heuristic method characterized by a nested loop: the inner loop trains the $\beta$-variational quantum eigensolver ($\beta$-VQE) by Liu et al (2021 Mach. Learn.: Sci. Technol.2 025011) to approximate the QBM expectation values; the outer loop trains the QBM to minimize the relative entropy to the target. We show that low-rank representations obtained by $\beta$-VQE provide an efficient way to learn low-rank target states, such as classical data and low-temperature quantum tomography. We test the method on both classical and quantum target data with numerical simulations of up to 10 qubits. For the cases considered here, the obtained QBMs can model the target to high fidelity. We implement a trained model on a physical quantum device. The approach offers a valuable route towards variationally training QBMs on near-term quantum devices.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 分散ロバスト最適化による微分プライバシー

Differential Privacy via Distributionally Robust Optimization ( http://arxiv.org/abs/2304.12681v2 )

ライセンス: Link先を確認
Aras Selvi, Huikang Liu, Wolfram Wiesemann, (参考訳) 近年、データセットの統計を共有するためのデファクトスタンダードとして差分プライバシーが登場し、関連する個人に関する個人情報の開示が制限されている。 これは、公表される統計をランダムに摂動することで達成され、その結果、プライバシーの正確さのトレードオフにつながります。 したがって、特に興味を持つのは、選択されたプライバシーレベルに対して最も高い精度を提供する最適なメカニズムである。 現在までに、この分野の作業は、先天的な摂動の家族を特定することに集中し、その後、その漸近的および/またはクラス内最適性を証明することに重点を置いている。 本稿では,非漸近的かつ非条件的最適性保証を享受するメカニズムのクラスを開発する。 この目的のために、無限次元分布ロバストな最適化問題としてメカニズム設計問題を定式化する。 この問題には強い双対性があることを示し、この双対性を利用して有限次元上界および下界問題の収束階層を開発する。 上界 (primal) は実装可能な摂動に対応しており、その準最適性は下界 (dual) で有界である。 どちらの境界問題も、固有の問題構造を利用して平面を切断することで、数秒で解決できる。 数値実験により、我々の摂動は、人工的および標準ベンチマーク問題に関する文献から得られた最も優れた結果よりも優れていることが示された。

In recent years, differential privacy has emerged as the de facto standard for sharing statistics of datasets while limiting the disclosure of private information about the involved individuals. This is achieved by randomly perturbing the statistics to be published, which in turn leads to a privacy-accuracy trade-off: larger perturbations provide stronger privacy guarantees, but they result in less accurate statistics that offer lower utility to the recipients. Of particular interest are therefore optimal mechanisms that provide the highest accuracy for a pre-selected level of privacy. To date, work in this area has focused on specifying families of perturbations a priori and subsequently proving their asymptotic and/or best-in-class optimality. In this paper, we develop a class of mechanisms that enjoy non-asymptotic and unconditional optimality guarantees. To this end, we formulate the mechanism design problem as an infinite-dimensional distributionally robust optimization problem. We show that the problem affords a strong dual, and we exploit this duality to develop converging hierarchies of finite-dimensional upper and lower bounding problems. Our upper (primal) bounds correspond to implementable perturbations whose suboptimality can be bounded by our lower (dual) bounds. Both bounding problems can be solved within seconds via cutting plane techniques that exploit the inherent problem structure. Our numerical experiments demonstrate that our perturbations can outperform the previously best results from the literature on artificial as well as standard benchmark problems.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 微分プライベート言語モデルを用いたプライバシ保護深部検索システムのための合成クエリ生成

Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems using Differentially Private Language Models ( http://arxiv.org/abs/2305.05973v3 )

ライセンス: Link先を確認
Aldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr, (参考訳) 我々は、深層検索システムのトレーニングにおいて、差分プライバシー(DP)保証を保証するという課題に対処する。 これらのシステムのトレーニングには、典型的には例ごとの分解不可能なコントラスト型損失の使用が伴うことが多く、共通技術では例ごとの勾配を必要とするため、DP訓練を直接行うのが困難である。 この問題に対処するため,深層検索システムのトレーニングに先立って,クエリプライバシの確保を優先する手法を提案する。 提案手法では,DP言語モデル(LM)を用いて,元のデータを表すプライベートな合成クエリを生成する。 これらの合成クエリは、プライバシーを損なうことなく、下流検索システムのトレーニングに使用できる。 提案手法は,クエリレベルのプライバシ保証を維持しつつ,直接DPトレーニングと比較して,検索品質の大幅な向上を示す。 本研究は, 標準DP学習手法の限界を克服するために, LMを活用する可能性を強調した。

We address the challenge of ensuring differential privacy (DP) guarantees in training deep retrieval systems. Training these systems often involves the use of contrastive-style losses, which are typically non-per-example decomposable, making them difficult to directly DP-train with since common techniques require per-example gradients. To address this issue, we propose an approach that prioritizes ensuring query privacy prior to training a deep retrieval system. Our method employs DP language models (LMs) to generate private synthetic queries representative of the original data. These synthetic queries can be used in downstream retrieval system training without compromising privacy. Our approach demonstrates a significant enhancement in retrieval quality compared to direct DP-training, all while maintaining query-level privacy guarantees. This work highlights the potential of harnessing LMs to overcome limitations in standard DP-training methods.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 普遍近似のための語彙:マッピング構成の言語学的視点

Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions ( http://arxiv.org/abs/2305.12205v2 )

ライセンス: Link先を確認
Yongqiang Cai, (参考訳) 近年、言語モデルのようなディープラーニングに基づくシーケンスモデリングは、多くの注目を集め、成功している。 この考え方に従うと、ディープニューラルネットワークは、線形あるいは非線形な一連の写像の合成関数として表され、各合成は \emph{word} と見ることができる。 しかし、線形写像の重みは未決定であり、従って無限個の単語を必要とする。 本稿では、有限の場合を調査し、普遍近似に対して$n=O(d^2)$で有限 \emph{vocabulary} $V=\{\phi_i: \mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$の存在を建設的に証明する。 つまり、任意の連続写像 $f: \mathbb{R}^d \to \mathbb{R}^d$, compact domain $\Omega$ and $\varepsilon>0$ に対して、写像の列 $\phi_{i_1}, ..., \phi_{i_m} \in V, m \in \mathbb{Z}_+$ が存在して、合成 $\phi_{i_m} \circ ... \circ \phi_{i_1} $ が $\Omega$ 上の$f$ を誤差で近似する。 本研究は, 正規言語のための新たな構成モデルを構築し, 構成をマッピングする特異な近似能力を示すものである。

In recent years, deep learning-based sequence modelings, such as language models, have received much attention and success, which pushes researchers to explore the possibility of transforming non-sequential problems into a sequential form. Following this thought, deep neural networks can be represented as composite functions of a sequence of mappings, linear or nonlinear, where each composition can be viewed as a \emph{word}. However, the weights of linear mappings are undetermined and hence require an infinite number of words. In this article, we investigate the finite case and constructively prove the existence of a finite \emph{vocabulary} $V=\{\phi_i: \mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$ with $n=O(d^2)$ for the universal approximation. That is, for any continuous mapping $f: \mathbb{R}^d \to \mathbb{R}^d$, compact domain $\Omega$ and $\varepsilon>0$, there is a sequence of mappings $\phi_{i_1}, ..., \phi_{i_m} \in V, m \in \mathbb{Z}_+$, such that the composition $\phi_{i_m} \circ ... \circ \phi_{i_1} $ approximates $f$ on $\Omega$ with an error less than $\varepsilon$. Our results demonstrate an unusual approximation power of mapping compositions and motivate a novel compositional model for regular languages.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates

Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates ( http://arxiv.org/abs/2305.13082v3 )

ライセンス: Link先を確認
Slavomír Hanzely, (参考訳) 本稿では,高速な$\mathcal O(k^{-2})$大域収束率を持つスケッチアンドプロジェクトニュートン法を提案する。 我々の方法であるSGNは3つの方法で見ることができる。 一 ニュートン法の更新を投影するスケッチ・アンド・プロジェクト・アルゴリズムとして 二 スケッチした部分空間におけるニュートンエソドを立方正規化したものとして、及び 三 スケッチした部分空間における減衰ニュートン法 SGNは、スケッチ・アンド・プロジェクト方式の安価なイテレーションコスト、最先端の$\mathcal O(k^{-2})$フルランクニュートン方式のグローバル収束率、減衰ニュートン方式のアルゴリズム単純さの3つを継承している。 最後に、ベースラインアルゴリズムに匹敵する経験的性能を示す。

In this paper, we propose the first sketch-and-project Newton method with fast $\mathcal O(k^{-2})$ global convergence rate for self-concordant functions. Our method, SGN, can be viewed in three ways: i) as a sketch-and-project algorithm projecting updates of Newton method, ii) as a cubically regularized Newton ethod in sketched subspaces, and iii) as a damped Newton method in sketched subspaces. SGN inherits best of all three worlds: cheap iteration costs of sketch-and-project methods, state-of-the-art $\mathcal O(k^{-2})$ global convergence rate of full-rank Newton-like methods and the algorithm simplicity of damped Newton methods. Finally, we demonstrate its comparable empirical performance to baseline algorithms.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 次元還元型人間分類の合理的モデル

A Rational Model of Dimension-reduced Human Categorization ( http://arxiv.org/abs/2305.14383v3 )

ライセンス: Link先を確認
Yifan Hong, Chen Wang, (参考訳) 人間は、多くの特徴にもかかわらず、少数のサンプルで分類できる。 この能力を模倣するために,確率的主成分分析器(mPPCA)の混合を用いた新しい次元再現圏表現を提案する。 The ${\tt CIFAR-10H}$ data tests on the ${\tt CIFAR-10H}$ sets shows that mPPCA with one single principal component for each category is effective predicts human categorization of natural image。 我々はまた、新しいカテゴリーの一般化を考慮し、mPPCAに階層的事前を課す。 mPPCAは、簡単な大きさと色の組み合わせで画像上での人間の振る舞いを捉えます。 また、分類における次元の縮小が合理的である場合に、十分かつ必要な条件を提供する。

Humans can categorize with only a few samples despite the numerous features. To mimic this ability, we propose a novel dimension-reduced category representation using a mixture of probabilistic principal component analyzers (mPPCA). Tests on the ${\tt CIFAR-10H}$ dataset demonstrate that mPPCA with only a single principal component for each category effectively predicts human categorization of natural images. We further impose a hierarchical prior on mPPCA to account for new category generalization. mPPCA captures human behavior in our experiments on images with simple size-color combinations. We also provide sufficient and necessary conditions when reducing dimensions in categorization is rational.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# O$n$ Learning Deep O($n$)-同変超球面

O$n$ Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v6 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, Mårten Wadenbäck, Andreas Robinson, Cuong Le, (参考訳) 本稿では、超球面と正則$n$-プレプレックスを利用し、O$(n)$の強力な群に包含された$n$D反射と回転の変換の下で、深い特徴同変を学習するためのアプローチを提案する。 すなわち、O$(n)$-equivariant neuros with spherical decision surfaces that generalize to any dimension $n$, which we called Deep Equivariant Hyperspheres。 入力点を直接操作するネットワーク上でそれらを結合する方法を実証し、二つの点と球の関係に基づいて不変作用素を提案する。 提案手法はO$(n)$-equivariantベンチマークデータセット(分類と回帰)の競合手法よりも優れており、良好な速度/性能のトレードオフを示す。 コードはhttps://github.com/pavlo-melnyk/equivariant-hyperspheresで公開されている。

In this paper, we utilize hyperspheres and regular $n$-simplexes and propose an approach to learning deep features equivariant under the transformations of $n$D reflections and rotations, encompassed by the powerful group of O$(n)$. Namely, we propose O$(n)$-equivariant neurons with spherical decision surfaces that generalize to any dimension $n$, which we call Deep Equivariant Hyperspheres. We demonstrate how to combine them in a network that directly operates on the basis of the input points and propose an invariant operator based on the relation between two points and a sphere, which as we show, turns out to be a Gram matrix. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the competing methods for O$(n)$-equivariant benchmark datasets (classification and regression), demonstrating a favorable speed/performance trade-off. The code is available at https://github.com/pavlo-melnyk/equivariant-hyperspheres.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-23
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v7 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Mariana Sanchez-Montano, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru, (参考訳) 中枢神経系の小児腫瘍は、小児におけるがん関連死の最も一般的な原因である。 小児の高次グリオーマの生存率は20 %未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023は、小児脳腫瘍に焦点を当てた最初のBraTSチャレンジである。 BraTS-PEDs 2023の課題は、BraTS 2023のクラスタで使用されている標準的な定量的パフォーマンス評価指標を通じて、小児脳グリオーマのためのボリュームセグメンテーションアルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個のバリデーションと未確認試験mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 深部正規化ネットワークのウェイトダイナミクスについて

On the Weight Dynamics of Deep Normalized Networks ( http://arxiv.org/abs/2306.00700v2 )

ライセンス: Link先を確認
Christian H. X. Ali Mehmeti-Göpel, Michael Wand, (参考訳) 近年の研究では、ディープニューラルネットワークの層間での効果的な学習率(ELR)の差がトレーニング可能性に悪影響を及ぼすことが示されている。 正規化層を持つネットワークの重み力学(期待勾配と重みノルムの進化)をモデル化し、層ワイドELR比の進化を予測することにより、これらの相違が時間とともにどのように進化するかを定式化する。 一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。 ELRの格差が広がる「臨界学習率」は、現在のELRにのみ依存する。 そこで本研究では,ELRの拡散を迅速に抑えるための超パラメータフリーウォームアップ法を考案した。 実験では,ELRの拡散とトレーニング可能性の関係について検討した。

Recent studies have shown that high disparities in effective learning rates (ELRs) across layers in deep neural networks can negatively affect trainability. We formalize how these disparities evolve over time by modeling weight dynamics (evolution of expected gradient and weight norms) of networks with normalization layers, predicting the evolution of layer-wise ELR ratios. We prove that when training with any constant learning rate, ELR ratios converge to 1, despite initial gradient explosion. We identify a ``critical learning rate" beyond which ELR disparities widen, which only depends on current ELRs. To validate our findings, we devise a hyper-parameter-free warm-up method that successfully minimizes ELR spread quickly in theory and practice. Our experiments link ELR spread with trainability, a relationship that is most evident in very deep networks with significant gradient magnitude excursions.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 大規模言語モデルはコード生成時に人間プログラマと同様の注意を払うか?

Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? ( http://arxiv.org/abs/2306.01220v2 )

ライセンス: Link先を確認
Bonan Kou, Shengmai Chen, Zhijie Wang, Lei Ma, Tianyi Zhang, (参考訳) 大規模言語モデル(LLM)は、最近コード生成に広く使われている。 LLMの複雑さと不透明さのため、これらのモデルがどのようにコードを生成するかについてはほとんど分かっていない。 この知識ギャップを埋める最初の試みは、LLMがコード生成中に人間のプログラマと同じタスク記述のどの部分に参加するかを調べることでした。 GPT-4を含む6つのLLMを2つの人気のあるコード生成ベンチマークで解析した結果、LLMとプログラマの注意の相違が明らかとなった。 手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。 最後に、ユーザー研究により、摂動に基づく手法によって計算されたモデル注意が、しばしば人間のプログラマに好まれることを示した。 本研究は, より理解しやすく, プログラマの信頼度を高めるために, ヒューマンアライメント LLM の必要性を浮き彫りにした。

Large Language Models (LLMs) have recently been widely used for code generation. Due to the complexity and opacity of LLMs, little is known about how these models generate code. We made the first attempt to bridge this knowledge gap by investigating whether LLMs attend to the same parts of a task description as human programmers during code generation. An analysis of six LLMs, including GPT-4, on two popular code generation benchmarks revealed a consistent misalignment between LLMs' and programmers' attention. We manually analyzed 211 incorrect code snippets and found five attention patterns that can be used to explain many code generation errors. Finally, a user study showed that model attention computed by a perturbation-based method is often favored by human programmers. Our findings highlight the need for human-aligned LLMs for better interpretability and programmer trust.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# DeepfakeArt Challenge: 生成AIアート偽造とデータ中毒検出のためのベンチマークデータセット

DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection ( http://arxiv.org/abs/2306.01272v3 )

ライセンス: Link先を確認
Hossein Aboutalebi, Dayou Mao, Rongqi Fan, Carol Xu, Chris He, Alexander Wong, (参考訳) 生成人工知能技術の進歩は、会話エージェントやテキストコンテンツ生成から音声や視覚合成に至るまで、幅広い分野の応用において、大きな成功と約束をもたらしている。 生成AIの台頭と広く採用されている中、悪意のある目的のために生成AIを使用することに対する懸念が高まっている。 生成AIを用いた視覚コンテンツ合成の領域では、画像偽造(例えば、著作権コンテンツを含む画像の生成)とデータ中毒(すなわち、敵に汚染された画像の生成)が重要な関心事となっている。 DeepfakeArt Challengeは、生成AIアートの偽造とデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。 様々な生成フォージェリーとデータ中毒技術にまたがる32,000以上の記録で構成され、各エントリは、偽造または敵対的に汚染されるか否かのどちらかの対のイメージで構成されている。 DeepfakeArt Challengeベンチマークのデータセット \footnote{The link to the dataset: http://anon\_for\_review.com} で生成された各画像は、包括的な方法で品質チェックされている。

The tremendous recent advances in generative artificial intelligence techniques have led to significant successes and promise in a wide range of different applications ranging from conversational agents and textual content generation to voice and visual synthesis. Amid the rise in generative AI and its increasing widespread adoption, there has been significant growing concern over the use of generative AI for malicious purposes. In the realm of visual content synthesis using generative AI, key areas of significant concern has been image forgery (e.g., generation of images containing or derived from copyright content), and data poisoning (i.e., generation of adversarially contaminated images). Motivated to address these key concerns to encourage responsible generative AI, we introduce the DeepfakeArt Challenge, a large-scale challenge benchmark dataset designed specifically to aid in the building of machine learning algorithms for generative AI art forgery and data poisoning detection. Comprising of over 32,000 records across a variety of generative forgery and data poisoning techniques, each entry consists of a pair of images that are either forgeries / adversarially contaminated or not. Each of the generated images in the DeepfakeArt Challenge benchmark dataset \footnote{The link to the dataset: http://anon\_for\_review.com} has been quality checked in a comprehensive manner.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 逆行性学習と浄化が逆行性ロバスト性を改善する

Carefully Blending Adversarial Training and Purification Improves Adversarial Robustness ( http://arxiv.org/abs/2306.06081v4 )

ライセンス: Link先を確認
Emanuele Ballarin, Alessio Ansuini, Luca Bortolussi, (参考訳) 本研究では,画像分類のための新たな対角防御機構であるCARSOを提案する。 この手法は、逆向きに訓練された分類器の上に構築され、潜在的に摂動された入力に関連する内部表現を暫定的なクリーンな再構成の分布にマッピングすることを学ぶ。 このような分布から得られた複数のサンプルは、同じ逆向きに訓練されたモデルによって分類され、その出力の集約が最終的に関心の頑健な予測を構成する。 CARSOは、確率的防御のために考案された適応的なエンドツーエンドのホワイトボックス攻撃から自身を守ることができることを示している。 CIFAR-10, CIFAR-100, TinyImageNet-200 $\ell_\infty$ robust classification accuracy against AutoAttack。 トレーニング済みのモデルを取得するためのコードと命令はhttps://github.com/emaballarin/CARSO で公開されている。

In this work, we propose a novel adversarial defence mechanism for image classification - CARSO - blending the paradigms of adversarial training and adversarial purification in a synergistic robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the same adversarially-trained model, and an aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of strong adaptive attacks, across different image datasets, shows that CARSO is able to defend itself against adaptive end-to-end white-box attacks devised for stochastic defences. Paying a modest clean accuracy toll, our method improves by a significant margin the state-of-the-art for CIFAR-10, CIFAR-100, and TinyImageNet-200 $\ell_\infty$ robust classification accuracy against AutoAttack. Code, and instructions to obtain pre-trained models are available at https://github.com/emaballarin/CARSO .
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 無バイアスガウスプロセスハイパーパラメータ推定によるベイズ最適化の可能性

Provably Efficient Bayesian Optimization with Unbiased Gaussian Process Hyperparameter Estimation ( http://arxiv.org/abs/2306.06844v2 )

ライセンス: Link先を確認
Huong Ha, Vu Nguyen, Hung Tran-The, Hongyu Zhang, Xiuzhen Zhang, Anton van den Hengel, (参考訳) ガウス過程(GP)に基づくベイズ最適化(BO)はブラックボックス関数を効率的に最適化する強力な手法である。 このアプローチの実践的性能と理論的保証は、事前に未知であり、観測データから推定する必要がある正しいGPハイパーパラメータ値を持つことに依存している。 しかし、実際には、BOで使用される偏りのあるデータサンプリング戦略のために、これらの推定は誤りである可能性がある。 これにより性能が低下し、BOのサブ線形大域収束保証を破る可能性がある。 この問題に対処するために,実GPハイパーパラメータが予め不明であり,観測データから推定する必要がある場合でも,目的関数の大域的最適値に線形に収束できるBO法を提案する。 提案手法は,マルチアームバンディット法(EXP3)を用いてBOプロセスにランダムなデータポイントを付加し,一貫した推定を保証するGPハイパーパラメータ推定プロセスに新たなトレーニング損失関数を用いる。 さらに,提案手法の理論的解析を行う。 最後に,本手法が様々な合成および実世界の問題に対する既存手法よりも優れていることを実証的に示す。

Gaussian process (GP) based Bayesian optimization (BO) is a powerful method for optimizing black-box functions efficiently. The practical performance and theoretical guarantees of this approach depend on having the correct GP hyperparameter values, which are usually unknown in advance and need to be estimated from the observed data. However, in practice, these estimations could be incorrect due to biased data sampling strategies used in BO. This can lead to degraded performance and break the sub-linear global convergence guarantee of BO. To address this issue, we propose a new BO method that can sub-linearly converge to the objective function's global optimum even when the true GP hyperparameters are unknown in advance and need to be estimated from the observed data. Our method uses a multi-armed bandit technique (EXP3) to add random data points to the BO process, and employs a novel training loss function for the GP hyperparameter estimation process that ensures consistent estimation. We further provide theoretical analysis of our proposed method. Finally, we demonstrate empirically that our method outperforms existing approaches on various synthetic and real-world problems.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 複数の励起を持つNレベル原子の量子コヒーレントフィードバック制御

Quantum coherent feedback control of an N-level atom with multiple excitations ( http://arxiv.org/abs/2306.07787v2 )

ライセンス: Link先を確認
Haijin Ding, Guofeng Zhang, (参考訳) 本研究の目的は、量子コヒーレントフィードバックネットワークのダイナミクスについて研究することであり、そこでは、N$レベルの原子が空洞と結合され、空洞が単一または複数の平行導波路と結合されている。 原子が高エネルギーレベルで初期化されると、複数の光子がキャビティに放出され、光子は導波路にさらに伝達され、キャビティ量子力学(キャビティQED)システムと再相互作用する。 導波路内の光子の透過は、導波路の長さによって決定される遅延を伴うフィードバックチャネルを構築することができる。 我々は,キャビティQEDシステムの原子状態とフォトニック状態のダイナミクスを,遅延を伴う線形制御系としてモデル化する。 原子、空洞、導波管間の結合強度などの制御パラメータを調整することにより、量子系の固有状態は指数的に安定または不安定となり、遅延を伴う線形量子制御系の指数的安定性は単光子状態と多光子状態の発生と関連付けられる。 また、共振器-QED系を複数の平行導波管に結合すると、発振光子は異なる導波管間で発振し、量子状態の安定性は導波管間のフィードバックループ長と結合強度に影響される。

The purpose of this paper is to study the dynamics of a quantum coherent feedback network, where an $N$-level atom is coupled with a cavity and the cavity is also coupled with single or multiple parallel waveguides. When the atom is initialized at the highest energy level, it can emit multiple photons into the cavity, and the photons can be further transmitted to the waveguides and re-interact with the cavity quantum electrodynamics (cavity-QED) system. The transmission of photons in the waveguide can construct a feedback channel with a delay determined by the length of the waveguide. We model the dynamics of the atomic and photonic states of the cavity-QED system as a linear control system with delay. By tuning the control parameters such as the coupling strengths among the atom, cavity and waveguide, the eigenstates of the quantum system can be exponentially stable or unstable, and the exponential stability of the linear quantum control system with delay is related with the generation of single- and multi-photon states. Besides, when the cavity-QED system is coupled with multiple parallel waveguides, the emitted photons oscillate among different waveguides and the stability of quantum states is influenced by the feedback loop length and coupling strengths among waveguides.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 量子ドットにおける断熱量子ポンプの熱力学

Thermodynamics of adiabatic quantum pumping in quantum dots ( http://arxiv.org/abs/2306.08621v3 )

ライセンス: Link先を確認
Daniele Nello, Alessandro Silva, (参考訳) 2つのフェルミオンリードに接続された単一レベルの量子ドットである共鳴レベルモデルによる断熱量子ポンピングを考察する。 断熱膨張のツールを用いて, 点のエネルギーレベルと熱浴によるトンネル速度の変動を考慮した, このモデルの一貫した熱力学的記述を開発した。 これにより、発生したエントロピーや消散力など、関連する熱力学量を計算するポンプサイクルの様々な例を研究できる。 これらの量は系の輸送特性、すなわち励起電荷と電荷雑音と比較される。 その結果, 電荷量子化限界ではエントロピー生成速度が消失し, 散逸した電力は同じ限界で量子化されることがわかった。

We consider adiabatic quantum pumping through a resonant level model, a single-level quantum dot connected to two fermionic leads. Using the tools of adiabatic expansion, we develop a consistent thermodynamic description of this model accounting for the variation of the energy level of the dot and the tunnelling rates with the thermal baths. This enables us to study various examples of pumping cycles computing the relevant thermodynamic quantities, such as the entropy produced and the dissipated power. These quantities are compared with the transport properties of the system, i.e. the pumped charge and the charge noise. Among other results, we find that the entropy production rate vanishes in the charge quantization limit while the dissipated power is quantized in the same limit.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-23
# 要素変位を形作るための弾性的コストの学習

Learning Elastic Costs to Shape Monge Displacements ( http://arxiv.org/abs/2306.11895v2 )

ライセンス: Link先を確認
Michal Klein, Aram-Alexandre Pooladian, Pierre Ablin, Eugène Ndiaye, Jonathan Niles-Weed, Marco Cuturi, (参考訳) ソースと、$\mathbb{R}^d$でサポートされているターゲット確率測度が与えられたとき、モンジュ問題は、一方の分布を他方にマップする最も効率的な方法を見つけるよう要求する。 この効率は、ソースデータとターゲットデータの間で \textit{cost} 関数を定義することで定量化される。 このようなコストは、正方形-ユークリッド距離($\ell^2_2(\mathbf{x},\mathbf{y})=\tfrac12|\mathbf{x}-\mathbf{y}|_2^2$)まで機械学習の文献でデフォルトで設定されることが多い。 近年ではCuturiなど。 al '23 は、正則化子 $\tau$ を $c(\mathbf{x},\mathbf{y})=\ell^2_2(\mathbf{x},\mathbf{y})+\tau(\mathbf{x}-\mathbf{y})$ として定義した弾性コストの利点を強調した。 そのようなコストは、モンジュ写像の \textit{displacements} を$T$、すなわち、元点と像の差を$T(\mathbf{x})-\mathbf{x})$にし、$\tau$ の近位作用素と一致する構造を与える。 本研究では,弾性的コストの研究に2つの重要な貢献をする。 (i) 任意の弾力的なコストに対して, 有効に最適であるMongeマップの数値計算法を提案する。 これは、任意の凸ポテンシャルの勾配は常に$\ell_2^2$のコストに対して有効なモンジュ写像である、というブレニエの定理に類似して、基底真理 OT 写像が知られている合成問題を作成するための、非常に重要なルーチンを提供する。 (ii)パラメータ化正規化子 $\tau_\theta$ のパラメータ $\theta$ に対する損失を提案し、$\tau_{A}(\mathbf{z})=|A^\perp \mathbf{z}|^2_2$ の場合に適用する。 この正規化子は、$A\in\mathbb{R}^{p\times d}$の$p$行にまたがる$\mathbb{R}^d$の低次元部分空間上の変位を促進する。

Given a source and a target probability measure supported on $\mathbb{R}^d$, the Monge problem asks to find the most efficient way to map one distribution to the other. This efficiency is quantified by defining a \textit{cost} function between source and target data. Such a cost is often set by default in the machine learning literature to the squared-Euclidean distance, $\ell^2_2(\mathbf{x},\mathbf{y})=\tfrac12|\mathbf{x}-\mathbf{y}|_2^2$. Recently, Cuturi et. al '23 highlighted the benefits of using elastic costs, defined through a regularizer $\tau$ as $c(\mathbf{x},\mathbf{y})=\ell^2_2(\mathbf{x},\mathbf{y})+\tau(\mathbf{x}-\mathbf{y})$. Such costs shape the \textit{displacements} of Monge maps $T$, i.e., the difference between a source point and its image $T(\mathbf{x})-\mathbf{x})$, by giving them a structure that matches that of the proximal operator of $\tau$. In this work, we make two important contributions to the study of elastic costs: (i) For any elastic cost, we propose a numerical method to compute Monge maps that are provably optimal. This provides a much-needed routine to create synthetic problems where the ground truth OT map is known, by analogy to the Brenier theorem, which states that the gradient of any convex potential is always a valid Monge map for the $\ell_2^2$ cost; (ii) We propose a loss to \textit{learn} the parameter $\theta$ of a parameterized regularizer $\tau_\theta$, and apply it in the case where $\tau_{A}(\mathbf{z})=|A^\perp \mathbf{z}|^2_2$. This regularizer promotes displacements that lie on a low dimensional subspace of $\mathbb{R}^d$, spanned by the $p$ rows of $A\in\mathbb{R}^{p\times d}$.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 量子ボルツマン機械学習のサンプル複雑性について

On the Sample Complexity of Quantum Boltzmann Machine Learning ( http://arxiv.org/abs/2306.14969v2 )

ライセンス: Link先を確認
Luuk Coopmans, Marcello Benedetti, (参考訳) 量子ボルツマンマシン(Quantum Boltzmann machine、QBM)は、古典データと量子データの両方の機械学習モデルである。 我々は,データセットの多項式サイズを考慮したQBM学習の運用的定義を,モデルと対象との期待値の差の観点から提示する。 相対エントロピーを損失関数として用いることで、不毛の台地に遭遇することなくこの問題を解決できる。 解は、少なくともギブス状態の多項式数を用いて確率勾配降下で得られることを証明した。 また,QBMパラメータのサブセットで事前学習を行うことで,サンプルの複雑性境界を低くすることができることも証明した。 特に,平均場,ガウスフェルミオン,幾何学的局所ハミルトニアンに基づく事前学習戦略を提案する。 我々はこれらのモデルと理論的知見を量子および古典的データセット上で数値的に検証する。 この結果から,QBMは有望な機械学習モデルであることがわかった。

Quantum Boltzmann machines (QBMs) are machine-learning models for both classical and quantum data. We give an operational definition of QBM learning in terms of the difference in expectation values between the model and target, taking into account the polynomial size of the data set. By using the relative entropy as a loss function this problem can be solved without encountering barren plateaus. We prove that a solution can be obtained with stochastic gradient descent using at most a polynomial number of Gibbs states. We also prove that pre-training on a subset of the QBM parameters can only lower the sample complexity bounds. In particular, we give pre-training strategies based on mean-field, Gaussian Fermionic, and geometrically local Hamiltonians. We verify these models and our theoretical findings numerically on a quantum and a classical data set. Our results establish that QBMs are promising machine learning models.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 学習拡散によるサンプリングの改善

Improved sampling via learned diffusions ( http://arxiv.org/abs/2307.01198v2 )

ライセンス: Link先を確認
Lorenz Richter, Julius Berner, (参考訳) 近年, 制御拡散法を用いて, 対象分布からサンプルを抽出する深層学習手法が提案されている。 従来の研究に基づいて,これらの手法を一般化されたシュリンガー橋問題(Schr\"odinger bridge problem)の特別な場合として,所定の事前分布と指定された目標の間の確率的進化を求める。 我々は、時間反転拡散過程の経路空間測度間のばらつきに基づく変分定式化を導入することにより、この枠組みをさらに一般化する。 この抽象的な視点は、勾配に基づくアルゴリズムによって最適化され、特別な場合として以前の目的を含む実用的な損失をもたらす。 同時に、モード崩壊に苦しむことが知られている逆のクルバック・リーブラー発散以外の発散も検討できる。 特に, 対数分散損失(log-variance loss)という, 良好な数値特性を示し, 検討された全てのアプローチにおいて, 性能を著しく向上させる手法を提案する。

Recently, a series of papers proposed deep learning-based approaches to sample from target distributions using controlled diffusion processes, being trained only on the unnormalized target densities without access to samples. Building on previous work, we identify these approaches as special cases of a generalized Schr\"odinger bridge problem, seeking a stochastic evolution between a given prior distribution and the specified target. We further generalize this framework by introducing a variational formulation based on divergences between path space measures of time-reversed diffusion processes. This abstract perspective leads to practical losses that can be optimized by gradient-based algorithms and includes previous objectives as special cases. At the same time, it allows us to consider divergences other than the reverse Kullback-Leibler divergence that is known to suffer from mode collapse. In particular, we propose the so-called log-variance loss, which exhibits favorable numerical properties and leads to significantly improved performance across all considered approaches.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 正規設計によるロジスティック回帰におけるパラメータ推定のサンプル複雑性について

On the sample complexity of parameter estimation in logistic regression with normal design ( http://arxiv.org/abs/2307.04191v4 )

ライセンス: Link先を確認
Daniel Hsu, Arya Mazumdar, (参考訳) ロジスティック回帰モデルは、ノイズの多いバイナリ分類問題において最も一般的なデータ生成モデルの一つである。 本研究では,ロジスティック回帰モデルのパラメータを与えられた$\ell_2$誤差まで推定するサンプルの複雑さを,標準正規共変量を用いて,次元と逆温度の観点から検討する。 逆温度は、データ生成プロセスの信号対雑音比を制御する。 対数回帰のための最大線量推定器の一般化境界と漸近性能はよく研究されているが, 誤差依存性を示す非漸近サンプルの複雑さとパラメータ推定のための逆温度は, これまでの分析では欠落している。 試料の複雑性曲線は逆温度の点で2つの変化点を持ち, 低温, 中温, 高温状態を明確に分離することを示した。

The logistic regression model is one of the most popular data generation model in noisy binary classification problems. In this work, we study the sample complexity of estimating the parameters of the logistic regression model up to a given $\ell_2$ error, in terms of the dimension and the inverse temperature, with standard normal covariates. The inverse temperature controls the signal-to-noise ratio of the data generation process. While both generalization bounds and asymptotic performance of the maximum-likelihood estimator for logistic regression are well-studied, the non-asymptotic sample complexity that shows the dependence on error and the inverse temperature for parameter estimation is absent from previous analyses. We show that the sample complexity curve has two change-points in terms of the inverse temperature, clearly separating the low, moderate, and high temperature regimes.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 質量欠陥と相対論的補正を有する多極性複合ボソンの量子場理論

Quantum field theory for multipolar composite bosons with mass defect and relativistic corrections ( http://arxiv.org/abs/2307.06110v2 )

ライセンス: Link先を確認
Tobias Asano, Enno Giese, Fabio Di Pumpo, (参考訳) 原子の高精度測定は、基礎物理学、標準モデル、重力理論の試験において、競争力と不可欠な技術となっている。 したがって、そのような測定が量子電磁力学のような場の理論から生じる原子の一貫した相対論的記述を要求することは自明である。 量子力学のほとんどのアプローチは、スクイーズのような技術による精度の向上を記述するために、効果的な場の理論的な処理を仮定する。 しかし、内部構造と原子の質量の中心の両方を含む基本量子場理論から相互作用する原子量子ガスの一貫性のある導出は、まだ解決されていない。 このような部分空間有効場理論は、光との相互作用が多極性記述に含まれるコボソンと呼ばれる複合ボソンを形成する核と電子からなる原子の相互作用、スピン輸送、そしておそらく荷電アンサンブルである。 単一のコボソンのエネルギーに対する相対論的補正、光-物質相互作用、コボソン間の散乱ポテンシャルは、一貫した自然な方法で生じる。 特に、コボソンの中心運動と質量欠陥によって符号化された内部構造との間の相対論的結合を得る。 これらの結果を用いて、イオンの運動、散乱ポテンシャルの変化、グロス・ピタエフスキー方程式の相対論的拡張、原子時計や量子クロック干渉計に適用可能な質量欠陥など、変化した有界エネルギーを導出する。

Atomic high-precision measurements have become a competitive and essential technique for tests of fundamental physics, the Standard Model, and our theory of gravity. It is therefore self-evident that such measurements call for a consistent relativistic description of atoms that eventually originates from quantum field theories like quantum electrodynamics. Most quantum-metrological approaches even postulate effective field-theoretical treatments to describe a precision enhancement through techniques like squeezing. However, a consistent derivation of interacting atomic quantum gases from an elementary quantum field theory that includes both the internal structure as well as the center of mass of atoms, has not yet been addressed. We present such a subspace effective field theory for interacting, spin carrying, and possibly charged ensembles of atoms composed of nucleus and electron that form composite bosons called cobosons, where the interaction with light is included in a multipolar description. Relativistic corrections to the energy of a single coboson, light-matter interaction, and the scattering potential between cobosons arise in a consistent and natural manner. In particular, we obtain a relativistic coupling between the coboson's center-of-mass motion and internal structure encoded by the mass defect. We use these results to derive modified bound-state energies, including the motion of ions, modified scattering potentials, a relativistic extension of the Gross-Pitaevskii equation, and the mass defect applicable to atomic clocks or quantum clock interferometry.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 対話エージェント101 : 効果的な会話システム設計のための批判的問題へのベジナーガイド

Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems ( http://arxiv.org/abs/2307.07255v2 )

ライセンス: Link先を確認
Shivani Kumar, Sumit Bhatia, Milan Aggarwal, Tanmoy Chakraborty, (参考訳) 同僚とのコミュニケーションを通じてアイデアを共有することが、人間のインタラクションの第一のモードである。 その結果、会話型AIの領域で広範な研究が行われ、会話型タスク、データセット、メソッドの可用性と多様性が向上した。 しかし、同時に多くのタスクが探索されているため、会話型AIの現在の状況は断片化される。 したがって、対話エージェントのためのよく考えられたモデルを開始することは、実践者にとって重要な課題となる。 実践者が対話エージェントをゼロから設計するために必要な重要な要素を強調するために,本研究では,対話エージェントの主要な特徴,サポートタスク,対応するオープンドメインデータセット,これらのデータセットのベンチマークに使用する方法などについて概説する。 我々は,異なる対話課題に対処するために,異なる手法が用いられていることを観察した。 しかし、各タスクごとに別々のモデルを構築するのはコストがかかり、対話エージェントの複数のタスク間の相関を活用できない。 結果として、近年のトレンドは、統合基盤モデルの構築へのシフトを示唆している。 この目的のために、既存のデータセットの会話から構築されたUNIT(Unified dIalogue dataseT)を提案する。 また,対話エージェントの性能測定に使用する評価戦略についても検討し,対話型AI分野における今後の研究対象を明らかにする。

Sharing ideas through communication with peers is the primary mode of human interaction. Consequently, extensive research has been conducted in the area of conversational AI, leading to an increase in the availability and diversity of conversational tasks, datasets, and methods. However, with numerous tasks being explored simultaneously, the current landscape of conversational AI becomes fragmented. Therefore, initiating a well-thought-out model for a dialogue agent can pose significant challenges for a practitioner. Towards highlighting the critical ingredients needed for a practitioner to design a dialogue agent from scratch, the current study provides a comprehensive overview of the primary characteristics of a dialogue agent, the supporting tasks, their corresponding open-domain datasets, and the methods used to benchmark these datasets. We observe that different methods have been used to tackle distinct dialogue tasks. However, building separate models for each task is costly and does not leverage the correlation among the several tasks of a dialogue agent. As a result, recent trends suggest a shift towards building unified foundation models. To this end, we propose UNIT, a UNified dIalogue dataseT constructed from conversations of existing datasets for different dialogue tasks capturing the nuances for each of them. We also examine the evaluation strategies used to measure the performance of dialogue agents and highlight the scope for future research in the area of conversational AI.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-23
# 意思決定型学習 - 基礎, 最先端, ベンチマーク, 将来の可能性

Decision-Focused Learning: Foundations, State of the Art, Benchmark and Future Opportunities ( http://arxiv.org/abs/2307.13565v3 )

ライセンス: Link先を確認
Jayanta Mandi, James Kotary, Senne Berden, Maxime Mulamba, Victor Bucarey, Tias Guns, Ferdinando Fioretto, (参考訳) 決定中心学習(DFL)は、機械学習(ML)と制約付き最適化を統合し、エンドツーエンドシステムでMLモデルをトレーニングすることで意思決定品質を向上させる新興パラダイムである。 このアプローチは、不確実性の下で動作している現実世界のアプリケーションにおいて、未知のパラメータを決定モデル内で推定することが大きな課題である、組合せ的意思決定に革命をもたらす可能性を示す。 本稿では,MLと制約付き最適化を組み合わせた勾配法と勾配法の両方を詳細に解析し,DFLの総合的なレビューを行う。 これらの手法の強度と限界を評価し、7つの問題にまたがる11の手法の広範な実験的評価を含む。 この調査は、DFLにおける最近の進歩と今後の研究方向性に関する洞察も提供する。 コードとベンチマーク:https://github.com/PredOpt/predopt-benchmarks

Decision-focused learning (DFL) is an emerging paradigm that integrates machine learning (ML) and constrained optimization to enhance decision quality by training ML models in an end-to-end system. This approach shows significant potential to revolutionize combinatorial decision-making in real-world applications that operate under uncertainty, where estimating unknown parameters within decision models is a major challenge. This paper presents a comprehensive review of DFL, providing an in-depth analysis of both gradient-based and gradient-free techniques used to combine ML and constrained optimization. It evaluates the strengths and limitations of these techniques and includes an extensive empirical evaluation of eleven methods across seven problems. The survey also offers insights into recent advancements and future research directions in DFL. Code and benchmark: https://github.com/PredOpt/predopt-benchmarks
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# オンライン強化学習におけるサンプル複雑度の設定

Settling the Sample Complexity of Online Reinforcement Learning ( http://arxiv.org/abs/2307.13586v3 )

ライセンス: Link先を確認
Zihan Zhang, Yuxin Chen, Jason D. Lee, Simon S. Du, (参考訳) オンライン強化学習(RL)の中心にある問題は、データ効率である。 オンラインRLにおいて、最近の多くの研究は漸近的に最小限の後悔を達成したが、これらの結果の最適性は 'large-sample'' 体制でのみ保証され、アルゴリズムが最適に動作するために膨大なバーンインコストが課される。 バーンインコストを発生させることなく、最小限の最適後悔をいかに達成するかは、RL理論において未解決の問題である。 この問題を有限水平不均一マルコフ決定過程の文脈で解決する。 具体的には,modulo log factor) \begin{equation*} \min\big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} ここで$S$は状態数であり,$A$は行動数であり,$H$は計画的地平線である。 この後悔は、サンプルサイズの全範囲で$K\geq 1$のminimaxローバウンドと一致し、本質的にはバーンイン要件を排除している。 また、PACサンプルの複雑さ(すなわち$\varepsilon$-accuracy)を$\frac{SAH^3}{\varepsilon^2}$に変換する。 さらに、最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張した。 重要な技術的革新は、新しい後悔の分解戦略と、複雑な統計的依存を分離するための新しい分析パラダイムの開発にある。

A central issue lying at the heart of online reinforcement learning (RL) is data efficiency. While a number of recent works achieved asymptotically minimal regret in online RL, the optimality of these results is only guaranteed in a ``large-sample'' regime, imposing enormous burn-in cost in order for their algorithms to operate optimally. How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory. We settle this problem for the context of finite-horizon inhomogeneous Markov decision processes. Specifically, we prove that a modified version of Monotonic Value Propagation (MVP), a model-based algorithm proposed by \cite{zhang2020reinforcement}, achieves a regret on the order of (modulo log factors) \begin{equation*} \min\big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} where $S$ is the number of states, $A$ is the number of actions, $H$ is the planning horizon, and $K$ is the total number of episodes. This regret matches the minimax lower bound for the entire range of sample size $K\geq 1$, essentially eliminating any burn-in requirement. It also translates to a PAC sample complexity (i.e., the number of episodes needed to yield $\varepsilon$-accuracy) of $\frac{SAH^3}{\varepsilon^2}$ up to log factor, which is minimax-optimal for the full $\varepsilon$-range. Further, we extend our theory to unveil the influences of problem-dependent quantities like the optimal value/cost and certain variances. The key technical innovation lies in the development of a new regret decomposition strategy and a novel analysis paradigm to decouple complicated statistical dependency -- a long-standing challenge facing the analysis of online RL in the sample-hungry regime.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# 広帯域非調和ポテンシャルにおける粒子ダイナミクスとデコヒーレンスの解析

Wigner Analysis of Particle Dynamics and Decoherence in Wide Nonharmonic Potentials ( http://arxiv.org/abs/2307.14106v4 )

ライセンス: Link先を確認
Andreu Riera-Campeny, Marc Roda-Llordes, Piotr T. Grochowski, Oriol Romero-Isart, (参考訳) 非調和ポテンシャルにおける粒子の1次元運動の時間発展を概ね記述したウィグナー関数の解析式を導出する。 提案手法は,初期状態のセントロイドの古典力学と,その軌道に関する回転と旋回の両方を考慮に入れた,2つの正確なフレーム変換を含む。 その後、定数角と線形化デコヒーレンス近似という2つの重要な近似を用いる。 これらの近似は、広いポテンシャルと小さなゆらぎの体制、すなわち、初期状態よりも大きい空間膨張を許容するが、関連する力学長スケール(例えば、旋回点間の距離)よりも小さいポテンシャルに有効である。 我々の分析結果は、古典物理学と量子物理学の相互作用と非線形力学におけるデコヒーレンスの影響を解明する。 この分析結果は、大粒子のマクロ量子状態を生成するために非線形力学を用いて提案を設計し、最適化し、理解するのに役立つ。

We derive an analytical expression of a Wigner function that approximately describes the time evolution of the one-dimensional motion of a particle in a nonharmonic potential. Our method involves two exact frame transformations, accounting for both the classical dynamics of the centroid of the initial state and the rotation and squeezing about that trajectory. Subsequently, we employ two crucial approximations, namely the constant-angle and linearized-decoherence approximations. These approximations are effective in the regime of wide potentials and small fluctuations, namely potentials that enable spatial expansions orders of magnitude larger than the one of the initial state but that remain smaller compared to the relevant dynamical length scale (e.g., distance between turning points). Our analytical result elucidates the interplay between classical and quantum physics and the impact of decoherence during nonlinear dynamics. This analytical result is instrumental to design, optimize and understand proposals using nonlinear dynamics to generate macroscopic quantum states of massive particles.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考

LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning ( http://arxiv.org/abs/2308.01413v4 )

ライセンス: Link先を確認
Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawendé F. Bissyandé, Jacques Klein, (参考訳) トランスフォーマーベースのモデルは、特にテキスト分類タスクのパフォーマンスにおいて、かなり高度な自然言語処理を持つ。 しかしながら、これらのモデルは大きなファイルを処理する際の課題に直面しており、主に入力制約が数百から数千のトークンに制限されているためである。 既存のモデルでこの問題に対処しようとする試みは、通常、長い入力から重要な情報のごく一部だけを抽出するが、複雑なアーキテクチャのためにしばしば高い計算コストが発生する。 本研究では,関連性のある複数インスタンス学習の観点から,大規模ファイルを分類することの課題に対処する。 本稿では,大規模ファイル分類に特化して設計されたLaFiCMILを紹介する。 LaFiCMILは1つのGPU上での効率的な操作に最適化されており、バイナリ、マルチクラス、マルチラベルの分類タスクのための汎用的なソリューションとなっている。 本研究では,LaFiCMILの有効性を評価するために,多種多様で包括的なベンチマークデータセットを用いた広範囲な実験を行った。 機能抽出のためにBERTを統合することで、LaFiCMILは例外的なパフォーマンスを示し、すべてのデータセットに新しいベンチマークを設定する。 このアプローチの注目すべき成果は、32GBのメモリを持つ単一のGPU上で動作しながら、BERTを2万近いトークンを扱うようにスケールできることである。 この効率性と最先端のパフォーマンスは、大規模なファイル分類分野における画期的なアプローチとしてのLaFiCMILの可能性を強調している。

Transfomer-based models have significantly advanced natural language processing, in particular the performance in text classification tasks. Nevertheless, these models face challenges in processing large files, primarily due to their input constraints, which are generally restricted to hundreds or thousands of tokens. Attempts to address this issue in existing models usually consist in extracting only a fraction of the essential information from lengthy inputs, while often incurring high computational costs due to their complex architectures. In this work, we address the challenge of classifying large files from the perspective of correlated multiple instance learning. We introduce LaFiCMIL, a method specifically designed for large file classification. LaFiCMIL is optimized for efficient operation on a single GPU, making it a versatile solution for binary, multi-class, and multi-label classification tasks. We conducted extensive experiments using seven diverse and comprehensive benchmark datasets to assess LaFiCMIL's effectiveness. By integrating BERT for feature extraction, LaFiCMIL demonstrates exceptional performance, setting new benchmarks across all datasets. A notable achievement of our approach is its ability to scale BERT to handle nearly 20,000 tokens while operating on a single GPU with 32GB of memory. This efficiency, coupled with its state-of-the-art performance, highlights LaFiCMIL's potential as a groundbreaking approach in the field of large file classification.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# K-band: K-space サブセット上の確率勾配Descent による自己教師型MRI再構成

K-band: Self-supervised MRI Reconstruction via Stochastic Gradient Descent over K-space Subsets ( http://arxiv.org/abs/2308.02958v3 )

ライセンス: Link先を確認
Frederic Wang, Han Qi, Alfredo De Goyeneche, Reinhard Heckel, Michael Lustig, Efrat Shimron, (参考訳) ディープラーニング(DL)手法は逆問題の解決には強力だが,高品質なトレーニングデータへの依存が大きなハードルとなっている。 これは高次元(ダイナミック/ボルメトリー)磁気共鳴イメージング(MRI)において重要であり、高解像度の完全サンプルk空間データの取得は現実的ではない。 我々はkバンドと呼ばれる新しい数学的枠組みを導入し、部分的かつ限定的なk空間データのみを用いてDLモデルを訓練する。 具体的には、k-空間部分集合上の確率勾配降下(SGD)によるトレーニングを導入する。 各トレーニングイテレーションでは、完全にサンプリングされたk空間を勾配の計算に使用するのではなく、小さなk空間の部分のみを使用する。 この概念は異なるサンプリング戦略と互換性があり、ここではk-空間の「バンド」の方法を示す。 我々は,2つの簡単な条件が満たされたとき,完全に教師された設定で計算された勾配を統計的に近似することが解析的に証明された。 i) 限定分解能軸は、新しいスキャン毎にランダムに一様に選択されるので、k-空間はトレーニングセット全体にわたって完全にカバーされ、 (II) 損失関数をここで解析的に導出したマスクで重み付けし, 高分解能細部を高精度に再現する。 生MRIデータを用いた数値実験により、kバンドは限定分解能データで訓練された他の2つの方法よりも優れており、高分解能データで訓練された最先端(SoTA)法と互換性があることが示された。 そのため、kバンドは、限られた解像度のデータのみを使用したトレーニングの利点を生かして、SoTAの性能を得る。 この作業は、高速な獲得と自己教師付き再構築を伴い、理論的な保証を提供する、実践的で実装が容易な自己教師型トレーニングフレームワークを導入する。

Although deep learning (DL) methods are powerful for solving inverse problems, their reliance on high-quality training data is a major hurdle. This is significant in high-dimensional (dynamic/volumetric) magnetic resonance imaging (MRI), where acquisition of high-resolution fully sampled k-space data is impractical. We introduce a novel mathematical framework, dubbed k-band, that enables training DL models using only partial, limited-resolution k-space data. Specifically, we introduce training with stochastic gradient descent (SGD) over k-space subsets. In each training iteration, rather than using the fully sampled k-space for computing gradients, we use only a small k-space portion. This concept is compatible with different sampling strategies; here we demonstrate the method for k-space "bands", which have limited resolution in one dimension and can hence be acquired rapidly. We prove analytically that our method stochastically approximates the gradients computed in a fully-supervised setup, when two simple conditions are met: (i) the limited-resolution axis is chosen randomly-uniformly for every new scan, hence k-space is fully covered across the entire training set, and (ii) the loss function is weighed with a mask, derived here analytically, which facilitates accurate reconstruction of high-resolution details. Numerical experiments with raw MRI data indicate that k-band outperforms two other methods trained on limited-resolution data and performs comparably to state-of-the-art (SoTA) methods trained on high-resolution data. k-band hence obtains SoTA performance, with the advantage of training using only limited-resolution data. This work hence introduces a practical, easy-to-implement, self-supervised training framework, which involves fast acquisition and self-supervised reconstruction and offers theoretical guarantees.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# RecycleGPT: リサイクル可能なモジュールを備えた自動回帰言語モデル

RecycleGPT: An Autoregressive Language Model with Recyclable Module ( http://arxiv.org/abs/2308.03421v3 )

ライセンス: Link先を確認
Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, Kunpeng Wang, Wenlai Zhao, Guangwen Yang, (参考訳) 既存の大きな言語モデルは、Kトークンのシーケンスを生成するためにK回実行する必要がある。 本稿では,複数のステップでモデル全体を動作させることなく,事前生成したモデル状態をリサイクルすることで,高速な復号化速度を持つ生成言語モデルであるRecycleGPTを提案する。 我々のアプローチは、シーケンス内の隣り合うトークンは、通常強い相関を持ち、シーケンス内の次のトークンは、先行するトークンに基づいて合理的に推測または推測できるという観察に依存している。 実験と解析により,提案手法が推論遅延を低減し,最大1.4倍の高速化を実現し,高い性能を維持した。

Existing large language models have to run K times to generate a sequence of K tokens. In this paper, we present RecycleGPT, a generative language model with fast decoding speed by recycling pre-generated model states without running the whole model in multiple steps. Our approach relies on the observation that adjacent tokens in a sequence usually have strong correlations and the next token in a sequence can be reasonably guessed or inferred based on the preceding ones. Experiments and analysis demonstrate the effectiveness of our approach in lowering inference latency, achieving up to 1.4x speedup while preserving high performance.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# 空間効率量子特異値変換による空間有界量子状態試験

Space-bounded quantum state testing via space-efficient quantum singular value transformation ( http://arxiv.org/abs/2308.05079v2 )

ライセンス: Link先を確認
François Le Gall, Yupan Liu, Qisheng Wang, (参考訳) 量子計算のパワーを有限個の量子ビットで探索することにより、量子状態テストの観点からアプローチした一辺誤差(ユニタリcoRQL)と二辺誤差(BQL)の設定を含む、空間有界量子計算の新たな完全特性を提示する: - 空間有界量子状態のトレース距離とヒルベルト-シュミット距離の証明の最初のファミリー; - 空間有界量子状態のトレース距離、ヒルベルト-シュミット距離、量子エントロピー差。 空間境界量子状態検定問題では、2つの対数量子ビット量子回路(デバイス)を$Q_0$と$Q_1$と表現し、それぞれ$\rho_0$と$\rho_1$の量子状態を作成する。 我々のゴールは、指定された距離のような測度に関して、$\rho_0$が$\epsilon_1$-close か$\epsilon_2$-far であるかどうかを決定することである。 興味深いことに、時間境界状態テスト問題とは異なり、空間境界状態テスト問題はすべて同じクラスに対応する。 さらに、このトレース距離に関するアルゴリズムは、量子線型空間正直証明器を用いてQSZKがQIP(2)にあることを示唆するアルゴリズム的なホレボ・ヘルストロム測定を刺激する。 我々の結果は、主に、独立した関心を持つGily\'en, Su, Low, Wiebe (STOC 2019)によって導入された量子特異値変換(QSVT)の空間効率のよい変種の上に構築されている。 本手法は空間有界量子アルゴリズムを設計するための統一的なアプローチを提供する。 具体的には,任意の有界多項式に対する QSVT の実装は,射影ユニタリ符号化の特別な形式に必要な空間に関してのみ一定オーバーヘッドを生じさせることを示す。

Driven by exploring the power of quantum computation with a limited number of qubits, we present a novel complete characterization for space-bounded quantum computation, which encompasses settings with one-sided error (unitary coRQL) and two-sided error (BQL), approached from a quantum state testing perspective: - The first family of natural complete problems for unitary coRQL, i.e., space-bounded quantum state certification for trace distance and Hilbert-Schmidt distance; - A new family of natural complete problems for BQL, i.e., space-bounded quantum state testing for trace distance, Hilbert-Schmidt distance, and quantum entropy difference. In the space-bounded quantum state testing problem, we consider two logarithmic-qubit quantum circuits (devices) denoted as $Q_0$ and $Q_1$, which prepare quantum states $\rho_0$ and $\rho_1$, respectively, with access to their ``source code''. Our goal is to decide whether $\rho_0$ is $\epsilon_1$-close to or $\epsilon_2$-far from $\rho_1$ with respect to a specified distance-like measure. Interestingly, unlike time-bounded state testing problems, our results reveal that the space-bounded state testing problems all correspond to the same class. Moreover, our algorithms on the trace distance inspire an algorithmic Holevo-Helstrom measurement, implying QSZK is in QIP(2) with a quantum linear-space honest prover. Our results primarily build upon a space-efficient variant of the quantum singular value transformation (QSVT) introduced by Gily\'en, Su, Low, and Wiebe (STOC 2019), which is of independent interest. Our technique provides a unified approach for designing space-bounded quantum algorithms. Specifically, we show that implementing QSVT for any bounded polynomial that approximates a piecewise-smooth function incurs only a constant overhead in terms of the space required for special forms of the projected unitary encoding.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# 光胸腺X線信号を用いた不均衡クラスにおける人工物検出のためのラベル伝搬技術

Label Propagation Techniques for Artifact Detection in Imbalanced Classes using Photoplethysmogram Signals ( http://arxiv.org/abs/2308.08480v3 )

ライセンス: Link先を確認
Clara Macabiau, Thanh-Dung Le, Kevin Albert, Mana Shahriari, Philippe Jouvet, Rita Noumeir, (参考訳) 本研究では,光胸腺X線写真(PPG)信号のラベル伝搬技術の適用について検討し,特に不均衡なクラスシナリオと限られたデータ可用性シナリオにおいて,クリーンなPSGサンプルがアーティファクト汚染されたサンプルによって著しく劣っている場合について検討した。 1571例のPSG記録を含むデータセットについて検討し, サンプルの約82%が清潔であり, 残りの18%が人工物による汚染であった。 本研究では,従来の分類器やニューラルネットワーク (MLP, Transformers, Fully Convolutional Network, FCN) などの教師付き分類器の性能を, PPG信号のアーティファクト分類のための半教師付きラベル伝搬アルゴリズムと比較した。 その結果, クリーンサンプルが稀な場合においても, LPアルゴリズムは精度91%, リコール90%, F1スコア90%の「アーティファクト」クラスを達成し, 医用データセットのアノテートの有効性を示した。 K-Nearest Neighbors (KNN) は精度89%、リコール95%、F1スコア92%で良好な結果を示したが、半教師付きアルゴリズムはアーティファクト検出に優れていた。 不均衡で限られた小児集中治療環境データの場合、半教師付きLPアルゴリズムはPGG信号のアーティファクト検出を約束する。 本研究の結果はPSGによる健康モニタリングの精度向上,特に運動人工物がデータ解釈に挑戦する状況において重要である。

This study aimed to investigate the application of label propagation techniques to propagate labels among photoplethysmogram (PPG) signals, particularly in imbalanced class scenarios and limited data availability scenarios, where clean PPG samples are significantly outnumbered by artifact-contaminated samples. We investigated a dataset comprising PPG recordings from 1571 patients, wherein approximately 82% of the samples were identified as clean, while the remaining 18% were contaminated by artifacts. Our research compares the performance of supervised classifiers, such as conventional classifiers and neural networks (Multi-Layer Perceptron (MLP), Transformers, Fully Convolutional Network (FCN)), with the semi-supervised Label Propagation (LP) algorithm for artifact classification in PPG signals. The results indicate that the LP algorithm achieves a precision of 91%, a recall of 90%, and an F1 score of 90% for the "artifacts" class, showcasing its effectiveness in annotating a medical dataset, even in cases where clean samples are rare. Although the K-Nearest Neighbors (KNN) supervised model demonstrated good results with a precision of 89%, a recall of 95%, and an F1 score of 92%, the semi-supervised algorithm excels in artifact detection. In the case of imbalanced and limited pediatric intensive care environment data, the semi-supervised LP algorithm is promising for artifact detection in PPG signals. The results of this study are important for improving the accuracy of PPG-based health monitoring, particularly in situations in which motion artifacts pose challenges to data interpretation
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# ウィキペディアスタイルサーベイ生成における大規模言語モデル:NLP概念の評価

Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts ( http://arxiv.org/abs/2308.10410v4 )

ライセンス: Link先を確認
Fan Gao, Hang Jiang, Rui Yang, Qingcheng Zeng, Jinghui Lu, Moritz Blum, Dairui Liu, Tianwei She, Yuang Jiang, Irene Li, (参考訳) コンピュータ科学などの専門分野における調査記事などの教育資料は、伝統的に膨大な専門家の入力を必要とするため、作成と更新に費用がかかる。 近年、Large Language Models (LLM) は様々な一般的なタスクで大きな成功を収めている。 しかし、教育領域におけるそれらの効果と限界は、まだ完全には解明されていない。 本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上でのLCMの習熟度について検討し,99トピックのキュレートされたリストに着目した。 自動ベンチマークの結果、GPT-4はGPT-3.5、PaLM2、LLaMa2を2%から20%のマージンで導入した。 我々は,人間とGPTによる評価スコアを比較し,詳細な分析を行う。 以上の結果から,GPTによる調査は人間による調査よりも現代的でアクセスしやすいことが示唆されるが,一定の限界が認められた。 特に、GPT-4は、しばしば優れたコンテンツを配信しているにもかかわらず、時に詳細や事実の誤りのような経過を見せた。 最終的に,人間とGPT-4の格付け行動を比較し,GPT評価の体系的偏りを見出した。

Educational materials such as survey articles in specialized fields like computer science traditionally require tremendous expert inputs and are therefore expensive to create and update. Recently, Large Language Models (LLMs) have achieved significant success across various general tasks. However, their effectiveness and limitations in the education domain are yet to be fully explored. In this work, we examine the proficiency of LLMs in generating succinct survey articles specific to the niche field of NLP in computer science, focusing on a curated list of 99 topics. Automated benchmarks reveal that GPT-4 surpasses its predecessors, inluding GPT-3.5, PaLM2, and LLaMa2 by margins ranging from 2% to 20% in comparison to the established ground truth. We compare both human and GPT-based evaluation scores and provide in-depth analysis. While our findings suggest that GPT-created surveys are more contemporary and accessible than human-authored ones, certain limitations were observed. Notably, GPT-4, despite often delivering outstanding content, occasionally exhibited lapses like missing details or factual errors. At last, we compared the rating behavior between humans and GPT-4 and found systematic bias in using GPT evaluation.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-23
# 修正分散関係の宇宙論的複雑さ

Cosmological complexity of the modified dispersion relation ( http://arxiv.org/abs/2309.01595v3 )

ライセンス: Link先を確認
Tao Li, Lei-Hua Liu, (参考訳) 複雑性は高エネルギー物理学においてますます不可欠になるだろう。 自然界から非常に初期の宇宙へと拡張されている。 宇宙を量子カオス系として考えると、スカラー場の曲率摂動は2モードの圧縮状態と同一視される。 Schr$\ddot{o}$dinger 方程式を解くことで、角度パラメータとスキーズパラメータの数値解を得ることができる。 スクイーズパラメータの解は、主に複雑性の進化を決定する。 我々の数値は、修正された分散関係の複雑さは、地平線が出口した後に非線形パターンを持つことを示している。 一方、対応するリアプノフ指数は標準の場合よりも大きい。 インフレ期には、複雑さは不規則に振動し、その揺動時間も標準の場合よりも短くなる。 修正された分散関係は、量子重力の様々なフレームワークの結果として呼ぶことができるので、これらのフレームワークに適用できる。 最後に、量子重力の枠組みが複雑性の実りある進化につながることを期待できる。

Complexity will be more and more essential in high-energy physics. It is naturally extended into the very early universe. Considering the universe as a quantum chaotic system, the curvature perturbation of the scalar field is identified with the two-mode squeezed state. By solving the Schr$\ddot{o}$dinger equation, one can obtain the numerical solutions of the angle parameter and squeezing parameter. The solution of the squeezing parameter mainly determines the evolution of complexity. Our numeric indicates that the complexity of the modified dispersion relation will have a non-linear pattern after the horizon exits. Meanwhile, its corresponding Lyapunov index is also larger compared with the standard case. During the inflationary period, the complexity will irregularly oscillate and its scrambling time is also shorter compared with the standard case. Since the modified dispersion relation can be dubbed as the consequences of various frameworks of quantum gravity, it could be applicable to these frameworks. Finally, one can expect the framework of quantum gravity will lead to the fruitful evolution of complexity, which guides us in distinguishing various inflationary models.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# 混合精度ニューラルネットワークのオンチップハードウェア・アウェア量子化

On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks ( http://arxiv.org/abs/2309.01945v5 )

ライセンス: Link先を確認
Wei Huang, Haotong Qin, Yangdong Liu, Jingzhuo Liang, Yulun Zhang, Ying Li, Xianglong Liu, (参考訳) 低ビット量子化は、エッジデバイスにディープニューラルネットワークをデプロイするための最も有望な圧縮アプローチの1つである。 混合精度量子化は、ビット幅の混合を利用して、量子化されたモデルの精度と効率ポテンシャルを解き放つ。 しかし、既存の混合精度量子化法は、巨大な検索空間における精度と効率のトレードオフを達成するために、高性能デバイスでのシミュレーションに依存している。 これにより、推定効率の指標と、最適な精度と効率から遠く離れた量子化モデルを作る実際のハードウェアとの間には、無視できないギャップが生じ、また、量子化プロセスが追加の高性能デバイスに依存している。 本稿では,ハードウェア・ハードウェア・ハードウェア・アウェア・量子化(OHQ)フレームワークを提案する。 具体的には、効率の指標として、量子化処理が量子化演算子の実際のハードウェア効率を知覚し、不正確なシミュレーションによる最適化エラーを回避することができるOn-Chip Quantization Aware Pipelineを構築した。 精度測定のために,計算機上での演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。 線形最適化により、量子化モデルやハードウェアからの洞察を合成することにより、最適化されたビット幅構成を得ることができ、精度と効率の優れた性能が得られる。 各種アーキテクチャの量子化とハードウェアの圧縮比による推論精度と高速化を評価する。 OHQはResNet-18とMobileNetV3でそれぞれ70%と73%の精度を実現している。

Low-bit quantization emerges as one of the most promising compression approaches for deploying deep neural networks on edge devices. Mixed-precision quantization leverages a mixture of bit-widths to unleash the accuracy and efficiency potential of quantized models. However, existing mixed-precision quantization methods rely on simulations in high-performance devices to achieve accuracy and efficiency trade-offs in immense search spaces. This leads to a non-negligible gap between the estimated efficiency metrics and the actual hardware that makes quantized models far away from the optimal accuracy and efficiency, and also causes the quantization process to rely on additional high-performance devices. In this paper, we propose an On-Chip Hardware-Aware Quantization (OHQ) framework, performing hardware-aware mixed-precision quantization on deployed edge devices to achieve accurate and efficient computing. Specifically, for efficiency metrics, we built an On-Chip Quantization Aware pipeline, which allows the quantization process to perceive the actual hardware efficiency of the quantization operator and avoid optimization errors caused by inaccurate simulation. For accuracy metrics, we propose Mask-Guided Quantization Estimation technology to effectively estimate the accuracy impact of operators in the on-chip scenario, getting rid of the dependence of the quantization process on high computing power. By synthesizing insights from quantized models and hardware through linear optimization, we can obtain optimized bit-width configurations to achieve outstanding performance on accuracy and efficiency. We evaluate inference accuracy and acceleration with quantization for various architectures and compression ratios on hardware. OHQ achieves 70% and 73% accuracy for ResNet-18 and MobileNetV3, respectively, and can reduce latency by 15~30% compared to INT8 on real deployment.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs ( http://arxiv.org/abs/2309.05516v4 )

ライセンス: Link先を確認
Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv, Yi Liu, (参考訳) 大規模言語モデル(LLM)は、言語に関連したタスクにおいて、例外的な習熟度を示しているが、そのデプロイメントは、かなりのメモリとストレージの要求のため、重大な課題を生じている。 重みのみの量子化は、これらの課題に対処するための有望な解決策として現れてきた。 従来の研究は、上下方向の微調整によって性能が向上することを示唆していた。 本研究では,符号勾配降下法(SignSGD)を用いて,200ステップ以内の丸め値と重み切りを最適化するSignRoundを提案する。 SignRoundは、QAT(Quantization-Aware Training)とPTQ(Post-Training Quantization)の利点を統合し、低チューニングコストを維持し、追加の推論オーバーヘッドを回避するとともに、2ビットから4ビットにわたる例外的な結果を達成する。 例えばSignRoundは、2ビットで6.91\%から33.22\%までの絶対平均精度の向上を実現している。 また、最近のモデルにロバストな一般化を示し、ほとんどのシナリオで4ビットでほぼロスレスな量子化を実現する。 ソースコードは \url{https://github.com/intel/auto-round} で公開されている。

Large Language Models (LLMs) have demonstrated exceptional proficiency in language-related tasks, but their deployment poses significant challenges due to substantial memory and storage requirements. Weight-only quantization has emerged as a promising solution to address these challenges. Previous research suggests that fine-tuning through up and down rounding can enhance performance. In this study, we introduce SignRound, a method that utilizes signed gradient descent (SignSGD) to optimize rounding values and weight clipping within just 200 steps. SignRound integrates the advantages of Quantization-Aware Training (QAT) and Post-Training Quantization (PTQ), achieving exceptional results across 2 to 4 bits while maintaining low tuning costs and avoiding additional inference overhead. For example, SignRound achieves absolute average accuracy improvements ranging from 6.91\% to 33.22\% at 2 bits. It also demonstrates robust generalization to recent models and achieves near-lossless quantization in most scenarios at 4 bits. The source code is publicly available at \url{https://github.com/intel/auto-round}.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# Bekensteinは一体何に縛られているのか?

What exactly does Bekenstein bound? ( http://arxiv.org/abs/2309.07436v2 )

ライセンス: Link先を確認
Patrick Hayden, Jinzhao Wang, (参考訳) ベッケンシュタイン境界は、空間領域に制限された有限エネルギーを持つ物質に対する最大エントロピーを仮定する。 これはしばしば、物理的オブジェクトに格納できる情報の基本的な制限として解釈される。 本研究では,ベケンシュタイン境界がチャネルの通信容量に制約を課すかどうかを問うことで,この解釈を検証する。 我々は, リンドラーのくさびに閉じ込められ, ウンルー放射の騒音にさらされているボブに情報を送るために, 定在的なアリスエキサイティングな自由スカラー場を記述した 'emph{Unruh channel} を特に研究した。 ウンルーチャネルの古典的および量子的容量は、復号器ボブに関連するベッケンシュタイン境界に従うことを示す。 対照的に、Unruhチャネルは高温でも相当数の 'emph{zero-bits} を送信でき、量子識別やその他のプリミティブプロトコルに使用できる量子通信資源である。 したがって、古典ビットや量子ビットとは異なり、ゼロビットとその関連する情報処理能力は一般にベッケンシュタイン境界に制約されない。 しかし、エンコーダとデコーダの両方が制限されると、ベケンシュタイン境界はゼロビット容量を含むチャネル容量を制約する。

The Bekenstein bound posits a maximum entropy for matter with finite energy confined to a spatial region. It is often interpreted as a fundamental limit on the information that can be stored by physical objects. In this work, we test this interpretation by asking whether the Bekenstein bound imposes constraints on a channel's communication capacity, a context in which information can be given a mathematically rigorous and operationally meaningful definition. We study specifically the \emph{Unruh channel} that describes a stationary Alice exciting different species of free scalar fields to send information to an accelerating Bob, who is confined to a Rindler wedge and exposed to the noise of Unruh radiation. We show that the classical and quantum capacities of the Unruh channel obey the Bekenstein bound that pertains to the decoder Bob. In contrast, even at high temperatures, the Unruh channel can transmit a significant number of \emph{zero-bits}, which are quantum communication resources that can be used for quantum identification and many other primitive protocols. Therefore, unlike classical bits and qubits, zero-bits and their associated information processing capability are generally not constrained by the Bekenstein bound. However, we further show that when both the encoder and the decoder are restricted, the Bekenstein bound does constrain the channel capacities, including the zero-bit capacity.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# 自己監督型顔表現学習のための生成フレームワーク

A Generative Framework for Self-Supervised Facial Representation Learning ( http://arxiv.org/abs/2309.08273v4 )

ライセンス: Link先を確認
Ruian He, Zhen Xing, Weimin Tan, Bo Yan, (参考訳) 自己教師付き表現学習は、ペア化されたデータセットに頼ることなく、強力な一般化能力に注目されるようになった。 しかし、顔の表現には不十分である。 自己監督型顔表現学習は、顔のアイデンティティ、表情、ポーズや光といった外部要因の結合により未解決のままである。 従来の手法は主にコントラスト学習とピクセルレベルの一貫性に重点を置いており、解釈可能性や準最適性能が制限されている。 本稿では,自己教師型顔表現のための新しい生成フレームワークであるLatentFaceを提案する。 本稿では,空間的および時間的生成目標として解法を定式化することも提案し,その解法を3D対応潜伏拡散モデルを用いて提案する。 まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。 第二に,3次元ラテントを顔の同一性や表情に分解する表現拡散モデルを提案する。 その結果,顔表情認識(FER)における最先端性能と,自己教師型顔表情学習モデルにおける顔認証を実現した。 我々のモデルは、RAF-DB上でのFER精度が3.75\%、AffectNetで3.35\%であるのに対し、SOTA法では3.75\%である。

Self-supervised representation learning has gained increasing attention for strong generalization ability without relying on paired datasets. However, it has not been explored sufficiently for facial representation. Self-supervised facial representation learning remains unsolved due to the coupling of facial identities, expressions, and external factors like pose and light. Prior methods primarily focus on contrastive learning and pixel-level consistency, leading to limited interpretability and suboptimal performance. In this paper, we propose LatentFace, a novel generative framework for self-supervised facial representations. We suggest that the disentangling problem can be also formulated as generative objectives in space and time, and propose the solution using a 3D-aware latent diffusion model. First, we introduce a 3D-aware autoencoder to encode face images into 3D latent embeddings. Second, we propose a novel representation diffusion model to disentangle 3D latent into facial identity and expression. Consequently, our method achieves state-of-the-art performance in facial expression recognition (FER) and face verification among self-supervised facial representation learning models. Our model achieves a 3.75\% advantage in FER accuracy on RAF-DB and 3.35\% on AffectNet compared to SOTA methods.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# Kirkwood-Dirac非古典性からの量子コヒーレンス、いくつかの境界、および操作的解釈

Quantum coherence from Kirkwood-Dirac nonclassicality, some bounds, and operational interpretation ( http://arxiv.org/abs/2309.09162v3 )

ライセンス: Link先を確認
Agung Budiyono, Joel F. Sumbowo, Mohammad K. Agusta, Bagus E. B. Nurhandoko, (参考訳) 量子力学の誕生からわずか数年後、いくつかの準確率分布の非古典的値を用いて量子現象の非古典的側面を導出する研究プログラムが実施された。 特に、KD (Kirkwood-Dirac) 準確率分布において、多くの非古典的な現象の根底にある非可換性の特異な量子力学的特徴は、非実値および/または実数の負の値に現れる。 ここでは、KD準確率の非現実性と負性を同時に捉えるKD非古典性に基づく量子コヒーレンスを忠実に定量化する。 このように定義されたKD-非古典性コヒーレンス(英語版)は、Tsallis $\frac{1}{2}$-エントロピーによって定量化される不整直交基底に対応するランク1直交PVM(射影値測度)によって記述される測定結果の不確かさによって上界となる。 さらに、純粋な状態と同一であるため、純粋な状態に対するKD-非古典性コヒーレンス(英語版)は測定確率の点で単純な閉じた表現を認める。 次に、最小エントロピーと最大エントロピーに対するMaassen-Uffinkの不確実性関係を用いて、非コヒーレント正規基底と非共役なPVMによって記述された測定における最適推定確率の観点から、純粋状態のKD-非古典性コヒーレンスに対する下界を求める。 また、状態独立な下界を持つ一対の非可換正規基底に対して純粋状態のKD-非因果性コヒーレンスに対するトレードオフ関係を導出する。 最後に、弱い値の測定に基づいてKD-非古典性コヒーレンスを直接推定するための変分スキームをスケッチし、量子的文脈性との関係を議論する。

Just a few years after the inception of quantum mechanics, there has been a research program using the nonclassical values of some quasiprobability distributions to delineate the nonclassical aspects of quantum phenomena. In particular, in KD (Kirkwood-Dirac) quasiprobability distribution, the distinctive quantum mechanical feature of noncommutativity which underlies many nonclassical phenomena, manifests in the nonreal values and/or the negative values of the real part. Here, we develop a faithful quantifier of quantum coherence based on the KD nonclassicality which captures simultaneously the nonreality and the negativity of the KD quasiprobability. The KD-nonclassicality coherence thus defined, is upper bounded by the uncertainty of the outcomes of measurement described by a rank-1 orthogonal PVM (projection-valued measure) corresponding to the incoherent orthonormal basis which is quantified by the Tsallis $\frac{1}{2}$-entropy. Moreover, they are identical for pure states so that the KD-nonclassicallity coherence for pure state admits a simple closed expression in terms of measurement probabilities. We then use the Maassen-Uffink uncertainty relation for min-entropy and max-entropy to obtain a lower bound for the KD-nonclassicality coherence of a pure state in terms of optimal guessing probability in measurement described by a PVM noncommuting with the incoherent orthonormal basis. We also derive a trade-off relation for the KD-noncassicality coherences of a pure state relative to a pair of noncommuting orthonormal bases with a state-independent lower bound. Finally, we sketch a variational scheme for a direct estimation of the KD-nonclassicality coherence based on weak value measurement and thereby discuss its relation with quantum contextuality.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# 強化学習を用いたエンド・ツー・エンドストリーミング映像の時間的動作分割

End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning ( http://arxiv.org/abs/2309.15683v2 )

ライセンス: Link先を確認
Jinrong Zhang, Wujun Wen, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng, (参考訳) 時間的動作分割(TAS)の補足的タスクであるSTAS(Stream temporal Action segmentation)タスクは,ビデオ理解の分野ではあまり注目されていない。 既存のTASメソッドは、マルチモーダル機能と完全なコンテキスト情報に依存するため、オフラインシナリオに制約される。 STASタスクでは、未トリミングされたビデオシーケンスクリップのフレームを時間単位で分類し、TASメソッドの適用性をオンラインシナリオに拡張する必要がある。 しかし、SATSタスクに既存のTASメソッドを直接適用すると、セグメンテーションの結果は著しく劣る。 本稿では,STASタスクとTASタスクの基本的な違いを徹底的に解析し,モデルバイアスと最適化ジレンマへのモデル転送時の性能劣化の原因となる。 本稿では、強化学習(SVTAS-RL)を用いた、エンドツーエンドのストリーミングビデオ時間的アクションセグメンテーションモデルを提案する。 エンド・ツー・エンドのモデリング手法は、タスクの性質の変化によって引き起こされるモデリングバイアスを緩和し、オンラインソリューションの実現可能性を高める。 強化学習は最適化ジレンマを軽減するために利用される。 SVTAS-RLモデルは、大規模な実験を通じて既存のSTASモデルを大幅に上回り、同じ評価基準の下で複数のデータセット上で最先端のTASモデルと競合する性能を達成し、超長ビデオデータセットEGTEAに顕著な優位性を示す。 コードはhttps://github.com/Thinksky5124/SVTASで入手できる。

The streaming temporal action segmentation (STAS) task, a supplementary task of temporal action segmentation (TAS), has not received adequate attention in the field of video understanding. Existing TAS methods are constrained to offline scenarios due to their heavy reliance on multimodal features and complete contextual information. The STAS task requires the model to classify each frame of the entire untrimmed video sequence clip by clip in time, thereby extending the applicability of TAS methods to online scenarios. However, directly applying existing TAS methods to SATS tasks results in significantly poor segmentation outcomes. In this paper, we thoroughly analyze the fundamental differences between STAS tasks and TAS tasks, attributing the severe performance degradation when transferring models to model bias and optimization dilemmas. We introduce an end-to-end streaming video temporal action segmentation model with reinforcement learning (SVTAS-RL). The end-to-end modeling method mitigates the modeling bias introduced by the change in task nature and enhances the feasibility of online solutions. Reinforcement learning is utilized to alleviate the optimization dilemma. Through extensive experiments, the SVTAS-RL model significantly outperforms existing STAS models and achieves competitive performance to the state-of-the-art TAS model on multiple datasets under the same evaluation criteria, demonstrating notable advantages on the ultra-long video dataset EGTEA. Code is available at https://github.com/Thinksky5124/SVTAS.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-23
# GPT-4は経験的ソフトウェア工学研究を再現できるか?

Can GPT-4 Replicate Empirical Software Engineering Research? ( http://arxiv.org/abs/2310.01727v2 )

ライセンス: Link先を確認
Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae Ford, Nicole Forsgren, Thomas Zimmermann, (参考訳) 実運用システムに関する実証的なソフトウェアエンジニアリング研究は、実践者や研究者にとっても、ソフトウェアエンジニアリングプロセスの理解を深めている。 しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。 ソフトウェアエンジニアリングの実践者は、自身のデータに関する研究を複製することの恩恵を受けることができるが、複製を行うには、ソフトウェアエンジニアリングデータに研究方法論と微妙なニュアンスを深く理解する必要があるため、独自の課題が生じる。 GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を複製し、民主化するのに役立ちます。 本稿では,GPT-4が新たなデータに対して経験的ソフトウェア工学研究の複製を行う能力について検討する。 本研究では,経験的ソフトウェア工学研究方法論における仮定の抽出能力と,経験的ソフトウェア工学の7つの論文に基づく分析パイプラインの計画と生成能力について検討する。 我々は,ソフトウェア工学研究の専門知識を持つ14人の参加者を対象に,GPT-4生成の仮定と分析計画(モジュール仕様のリスト)を論文から評価する。 GPT-4は正しい仮定を導出できるが、ソフトウェア工学データに関する共通知識を応用した仮説を生成するのに苦慮している。 生成したコードを手動で解析した結果,GPT-4生成コードは方法論のサブセットを前提として,正しい高レベル論理を含むことがわかった。 しかしながら、コードには小さな実装レベルのエラーが数多く含まれており、ソフトウェア工学の知識が不足していることを反映している。 我々の発見は、ソフトウェアエンジニアリング研究やソフトウェアチームの実践的データサイエンティストにLLMを活用することに意味がある。

Empirical software engineering research on production systems has brought forth a better understanding of the software engineering process for practitioners and researchers alike. However, only a small subset of production systems is studied, limiting the impact of this research. While software engineering practitioners could benefit from replicating research on their own data, this poses its own set of challenges, since performing replications requires a deep understanding of research methodologies and subtle nuances in software engineering data. Given that large language models (LLMs), such as GPT-4, show promise in tackling both software engineering- and science-related tasks, these models could help replicate and thus democratize empirical software engineering research. In this paper, we examine GPT-4's abilities to perform replications of empirical software engineering research on new data. We study their ability to surface assumptions made in empirical software engineering research methodologies, as well as their ability to plan and generate code for analysis pipelines on seven empirical software engineering papers. We perform a user study with 14 participants with software engineering research expertise, who evaluate GPT-4-generated assumptions and analysis plans (i.e., a list of module specifications) from the papers. We find that GPT-4 is able to surface correct assumptions, but struggles to generate ones that apply common knowledge about software engineering data. In a manual analysis of the generated code, we find that the GPT-4-generated code contains correct high-level logic, given a subset of the methodology. However, the code contains many small implementation-level errors, reflecting a lack of software engineering knowledge. Our findings have implications for leveraging LLMs for software engineering research as well as practitioner data scientists in software teams.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# OceanGPT: 海洋科学タスクのための大規模言語モデル

OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v7 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen, (参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。 近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。 他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。 本質的な理由は、海洋データの巨大で複雑な性質と、高い粒度と知識の豊かさの必要性である。 これらの問題を緩和するために、様々な海洋科学タスクの専門家であるオーシャンGPT(オーシャンGPT)を紹介します。 また,マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるOceanGPTを提案する。 さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。 総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。

Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reasons are the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever large language model in the ocean domain, which is expert in various ocean science tasks. We also propose OceanGPT, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# Blackbox Queries を用いたパラメタライズド量子回路の補間

Interpolating Parametrized Quantum Circuits using Blackbox Queries ( http://arxiv.org/abs/2310.04396v3 )

ライセンス: Link先を確認
Lars Simon, Holger Eble, Hagen-Henrik Kowalski, Manuel Radons, (参考訳) 本稿では、(三角)多項式による補間を用いたパラメタライズド量子回路の古典的サロゲートの開発に焦点を当てる。 このようなサロゲートを構築するための2つのアルゴリズムを開発し、性能保証を証明する。 これらの構成は、回路の構造的特異性を悪用しないという意味で、ブラックボックスである回路評価に基づいている。 特定の回路特性を利用するホワイトボックス評価と比較してブラックボックスアプローチの限界を認める一方で、ブラックボックスアプローチが有益であることを示すシナリオを実証する。 サンプル応用は含まれているが、VQEの近似やバレンプラトー問題のアレヴィトンに制限されない。

This article focuses on developing classical surrogates for parametrized quantum circuits using interpolation via (trigonometric) polynomials. We develop two algorithms for the construction of such surrogates and prove performance guarantees. The constructions are based on circuit evaluations which are blackbox in the sense that no structural specifics of the circuits are exploited. While acknowledging the limitations of the blackbox approach compared to whitebox evaluations, which exploit specific circuit properties, we demonstrate scenarios in which the blackbox approach might prove beneficial. Sample applications include but are not restricted to the approximation of VQEs and the alleviaton of the barren plateau problem.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# ロバストな一般化を改善する不確実な逆例の生成

Generating Less Certain Adversarial Examples Improves Robust Generalization ( http://arxiv.org/abs/2310.04539v2 )

ライセンス: Link先を確認
Minxing Zhang, Michael Backes, Xiao Zhang, (参考訳) 本稿では,対人訓練における頑健なオーバーフィット現象を再考する。 より堅牢な一般化性能を持つモデルが、敵が生成したトレーニング入力を予測する上で確実でないことを観察し、敵の例を予測する際の過度な自信が潜在的な原因であると論じる。 そこで,本論文では, モデルが予測するロジットのバラツキを, モデルが予測するロジットのばらつきを捉えることによって, 頑健な一般化が促進されるという仮説を立てる。 合成分布の理論解析は, 対向的確かさとロバストな一般化の関連を特徴づける。 そこで, 逆正当性の概念に基づいて, 精度の低いトレーニング時逆入力を生成できるモデルを探索する汎用手法を開発し, 逆正当性を識別するモデルの能力を維持した。 画像ベンチマークによる大規模な実験により, 頑健さを継続的に改善したモデルを効果的に学習し, 頑健なオーバーフィッティングを緩和し, 頑健な一般化のために, より少ない逆例を生成することの重要性を確認した。

This paper revisits the robust overfitting phenomenon of adversarial training. Observing that models with better robust generalization performance are less certain in predicting adversarially generated training inputs, we argue that overconfidence in predicting adversarial examples is a potential cause. Therefore, we hypothesize that generating less certain adversarial examples improves robust generalization, and propose a formal definition of adversarial certainty that captures the variance of the model's predicted logits on adversarial examples. Our theoretical analysis of synthetic distributions characterizes the connection between adversarial certainty and robust generalization. Accordingly, built upon the notion of adversarial certainty, we develop a general method to search for models that can generate training-time adversarial inputs with reduced certainty, while maintaining the model's capability in distinguishing adversarial examples. Extensive experiments on image benchmarks demonstrate that our method effectively learns models with consistently improved robustness and mitigates robust overfitting, confirming the importance of generating less certain adversarial examples for robust generalization.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# IPDreamer:複雑な画像プロンプトによる外観制御可能な3Dオブジェクト生成

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts ( http://arxiv.org/abs/2310.05375v4 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Yutang Feng, Ling Yang, Hong Li, Sicheng Gao, Jiaming Liu, Conghui He, Wentao Zhang, Jianzhuang Liu, Baochang Zhang, Shuicheng Yan, (参考訳) 近年の3Dオブジェクト生成の進歩は目覚ましいもので,DreamFusionは大規模テキスト・画像拡散モデルを利用して3Dオブジェクト生成を監督する手法である。 これらの方法は、細部および光現実的なテクスチャオブジェクトの合成を可能にする。 しかし、これらのテキストから3Dモデルで生成された3Dオブジェクトの出現は予測不可能であり、複雑な画像を扱う単一画像から3Dメソッドでは難しいため、外観制御可能な3Dオブジェクトの生成に課題が生じる。 制御可能な複雑な3Dオブジェクト合成を実現するために,複雑な画像から詳細な外観特徴を抽出するために,画像のプロンプト適応を取り入れた新しいアプローチであるIDDreamerを提案する。 以上の結果から,IDDreamerは提供されたテキストと複雑な画像プロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し,外観制御可能な3Dオブジェクト生成に期待できる能力を示した。 私たちのコードはhttps://github.com/zengbohan0217/IPDreamer.comで利用可能です。

Recent advances in 3D generation have been remarkable, with methods such as DreamFusion leveraging large-scale text-to-image diffusion-based models to supervise 3D object generation. These methods enable the synthesis of detailed and photorealistic textured objects. However, the appearance of 3D objects produced by these text-to-3D models is unpredictable, and it is hard for the single-image-to-3D methods to deal with complex images, thus posing a challenge in generating appearance-controllable 3D objects. To achieve controllable complex 3D object synthesis, we propose IPDreamer, a novel approach that incorporates image prompt adaption to extract detailed and comprehensive appearance features from complex images, which are then utilized for 3D object generation. Our results demonstrate that IPDreamer effectively generates high-quality 3D objects that are consistent with both the provided text and the appearance of complex image prompts, demonstrating its promising capability in appearance-controllable 3D object generation. Our code is available at https://github.com/zengbohan0217/IPDreamer.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# 検証可能な生成に向けて:知識を考慮した言語モデル属性のベンチマーク

Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution ( http://arxiv.org/abs/2310.05634v2 )

ライセンス: Link先を確認
Xinze Li, Yixin Cao, Liangming Pan, Yubo Ma, Aixin Sun, (参考訳) 大成功にもかかわらず、大言語モデル(LLM)は通常、信頼できない幻覚に悩まされる。 言語属性は潜在的な解決策となる可能性があるが、構造化知識にLLMを属性付けるのに適したベンチマークや評価指標は存在しない。 本稿では,従来の属性付きLMにおける3つの中核的関心事を改善する,知識対応言語モデル属性(KaLMA)の新たなタスクを定義する。 まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。 第2に,提案したKG以外の知識の活用の必要性をモデルが認識する,不完全な知識リポジトリを考慮した,新たな「意識的能力」設定を提案する。第3に,テキスト品質,引用品質,テキスト引用アライメントを含む総合的な自動評価尺度を提案する。上記のイノベーションを実現するために,生物工学領域のデータセットを構築し,進化的質問生成戦略を用いて,質問の複雑さと答えに必要な知識を制御する。評価には,ベースラインソリューションを開発し,LLMの引用生成を改善するための空間を実証し,"意識的能力"の設定を取り入れることの重要性を強調し,精度の重要さを強調する。

Although achieving great success, Large Language Models (LLMs) usually suffer from unreliable hallucinations. Although language attribution can be a potential solution, there are no suitable benchmarks and evaluation metrics to attribute LLMs to structured knowledge. In this paper, we define a new task of Knowledge-aware Language Model Attribution (KaLMA) that improves upon three core concerns with conventional attributed LMs. First, we extend attribution source from unstructured texts to Knowledge Graph (KG), whose rich structures benefit both the attribution performance and working scenarios. Second, we propose a new ``Conscious Incompetence" setting considering the incomplete knowledge repository, where the model identifies the need for supporting knowledge beyond the provided KG. Third, we propose a comprehensive automatic evaluation metric encompassing text quality, citation quality, and text citation alignment. To implement the above innovations, we build a dataset in biography domain BioKaLMA via evolutionary question generation strategy, to control the question complexity and necessary knowledge to the answer. For evaluation, we develop a baseline solution and demonstrate the room for improvement in LLMs' citation generation, emphasizing the importance of incorporating the "Conscious Incompetence" setting, and the critical role of retrieval accuracy.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# フェデレーション・セミスーパービジョンラーニングにおけるラベル共有によるプライバシ向上

Little is Enough: Improving Privacy by Sharing Labels in Federated Semi-Supervised Learning ( http://arxiv.org/abs/2310.05696v3 )

ライセンス: Link先を確認
Amr Abourayya, Jens Kleesiek, Kanishka Rao, Erman Ayday, Bharat Rao, Geoff Webb, Michael Kamp, (参考訳) 多くの重要なアプリケーションでは、機密データは本質的に分散しており、プライバシー上の懸念のために集中できない。 文献では、各クライアントで、機密データを共有せずにモデルをローカルにトレーニングするための、幅広いフェデレートされた学習手法が提案されている。 これらのアプローチのほとんどは、ローカルモデルパラメータ、パブリックデータセット上のソフト予測、あるいは両方の組み合わせを共有している。 しかし、これは依然としてプライベート情報を開示し、勾配ベースの手法でトレーニングを行う人たちにローカルモデルを制限している。 共有情報の量を削減するため、公開されていないデータセット上でハードラベルのみを共有することを提案し、共有ラベルに対するコンセンサスをクライアントが使用する擬似ラベルとして利用する。 その結果、フェデレートされたコトレーニングアプローチは、モデルの品質を損なうことなく、プライバシーを大幅に改善する。 同時に、(緩やかな)決定木、ルールアンサンブル、ランダムな森といった、フェデレート学習で使用されるパラメータアグリゲーションに自らを依存しない局所モデルを使用することが可能である。

In many critical applications, sensitive data is inherently distributed and cannot be centralized due to privacy concerns. A wide range of federated learning approaches have been proposed in the literature to train models locally at each client without sharing their sensitive local data. Most of these approaches either share local model parameters, soft predictions on a public dataset, or a combination of both. This, however, still discloses private information and restricts local models to those that lend themselves to training via gradient-based methods. To reduce the amount of shared information, we propose to share only hard labels on a public unlabeled dataset, and use a consensus over the shared labels as a pseudo-labeling to be used by clients. The resulting federated co-training approach empirically improves privacy substantially, without compromising on model quality. At the same time, it allows us to use local models that do not lend themselves to the parameter aggregation used in federated learning, such as (gradient boosted) decision trees, rule ensembles, and random forests.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# ニューラルバウンディング

Neural Bounding ( http://arxiv.org/abs/2310.06822v4 )

ライセンス: Link先を確認
Stephanie Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel, (参考訳) 境界ボリュームはコンピュータグラフィックスや視覚タスクにおいて確立された概念であるが、初期からほとんど変化していない。 本研究では,ニューラルネットワークを境界体積としての利用について検討する。 我々のキーとなる観察は、これまで計算幾何学の問題と考えられてきた境界は、空間を自由あるいは占有に分類する学習の課題として再定義できるということである。 この学習に基づくアプローチは、ニューラルネットワークが優れていることが知られている複雑なクエリを持つアニメーションシーンのような、高次元空間において特に有利である。 しかし、ニューラルバウンディングのアンロックには、-かつ-----------------を許容すると同時に、------------------------------------------------------------------------------------ 動的に重み付けられた非対称な損失関数を用いて、そのような厳密で保守的な結果を実現する。 以上の結果から,我々の神経境界は従来の方法よりも桁違いに偽陽性を生じさせることが示唆された。 さらに,クエリ速度を25%高速化する早期出口を用いたバウンディング手法の拡張を提案する。 また,本手法は,数秒以内のトレーニングを行う非深層学習モデルに適用可能であることも実証した。 私たちのプロジェクトページは以下の通りです。

Bounding volumes are an established concept in computer graphics and vision tasks but have seen little change since their early inception. In this work, we study the use of neural networks as bounding volumes. Our key observation is that bounding, which so far has primarily been considered a problem of computational geometry, can be redefined as a problem of learning to classify space into free or occupied. This learning-based approach is particularly advantageous in high-dimensional spaces, such as animated scenes with complex queries, where neural networks are known to excel. However, unlocking neural bounding requires a twist: allowing -- but also limiting -- false positives, while ensuring that the number of false negatives is strictly zero. We enable such tight and conservative results using a dynamically-weighted asymmetric loss function. Our results show that our neural bounding produces up to an order of magnitude fewer false positives than traditional methods. In addition, we propose an extension of our bounding method using early exits that accelerates query speeds by 25%. We also demonstrate that our approach is applicable to non-deep learning models that train within seconds. Our project page is at: https://wenxin-liu.github.io/neural_bounding/.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# Parrot: 大規模言語モデルに対するマルチターンインストラクションの強化

Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models ( http://arxiv.org/abs/2310.07301v2 )

ライセンス: Link先を確認
Yuchong Sun, Che Liu, Kun Zhou, Jinwen Huang, Ruihua Song, Wayne Xin Zhao, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) 人間は、望まれる回答やより多くの情報を得るために、多ターンインタラクションにおいて大きな言語モデル(LLM)と対話することが多い。 しかし、既存のほとんどの研究は、トレーニングデータセット、トレーニング方法、評価ベンチマークの観点から、LLMのマルチターン命令に従う能力を見落としている。 本稿では,LLMに対するマルチターン命令の強化を目的としたParrotを提案する。 まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。 第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。 さらに,マルチターン命令におけるLLMを定量的に評価するために,既存の命令から派生したマルチターンベンチマークを手作業で構築する。 大規模な実験により、Parrotはマルチターン命令に従って、現在のLLMを最大7.2%改善することが示された。 私たちのデータセットとコードは、将来の研究を促進するためにオープンソース化されます。

Humans often interact with large language models (LLMs) in multi-turn interaction to obtain desired answers or more information. However, most existing studies overlook the multi-turn instruction following ability of LLMs, in terms of training dataset, training method, and evaluation benchmark. In this paper, we introduce Parrot, a solution aiming to enhance multi-turn instruction following for LLMs. First, we introduce an efficient but effective method for collecting multi-turn instructions that feature human-like queries, such as anaphora and ellipsis. Second, we propose a context-aware preference optimization strategy to further enhance LLMs for complex queries in multi-turn interaction. Moreover, to quantitatively evaluate LLMs in multi-turn instruction following, we manually build a multi-turn benchmark derived from existing ones. Extensive experiments show that Parrot improves current LLMs by up to 7.2% in multi-turn instruction following. Our dataset and codes will be open-sourced to facilitate future research.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# ConditionVideo: トレーニング不要のコンディションガイド付きテキスト・ツー・ビデオ・ジェネレーション

ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation ( http://arxiv.org/abs/2310.07697v2 )

ライセンス: Link先を確認
Bo Peng, Xinyuan Chen, Yaohui Wang, Chaochao Lu, Yu Qiao, (参考訳) 近年の研究では、大規模なテキスト・ツー・イメージのモデルをビデオ領域に拡張し、有望な結果をもたらすが、高い計算コストと大量のビデオデータを必要とする。 本研究では,市販のテキスト・ツー・イメージ生成手法(例えば,スタブルディフュージョン)のパワーを活用することで,提供される条件,映像,入力テキストに基づくテキスト・ツー・ビデオ生成のトレーニング不要な手法であるConditionVideoを紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。 本手法は,動作表現を条件付きおよび風景的動き成分に明示的に切り離す。 この目的のために、ConditionVideoモデルはUNetブランチとコントロールブランチで設計されている。 時間的コヒーレンスを改善するため,sBiST-Attn(sbiST-Attn)をスパースに導入した。 3D制御ネットワークは、時間領域の双方向フレームを付加することにより条件生成精度を高めることを目的として、従来の2D制御ネットモデルを拡張している。 提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。

Recent works have successfully extended large-scale text-to-image models to the video domain, producing promising results but at a high computational cost and requiring a large amount of video data. In this work, we introduce ConditionVideo, a training-free approach to text-to-video generation based on the provided condition, video, and input text, by leveraging the power of off-the-shelf text-to-image generation methods (e.g., Stable Diffusion). ConditionVideo generates realistic dynamic videos from random noise or given scene videos. Our method explicitly disentangles the motion representation into condition-guided and scenery motion components. To this end, the ConditionVideo model is designed with a UNet branch and a control branch. To improve temporal coherence, we introduce sparse bi-directional spatial-temporal attention (sBiST-Attn). The 3D control network extends the conventional 2D controlnet model, aiming to strengthen conditional generation accuracy by additionally leveraging the bi-directional frames in the temporal domain. Our method exhibits superior performance in terms of frame consistency, clip score, and conditional accuracy, outperforming other compared methods.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-23
# ImageNetは1ビデオの価値はあるか? 長いビデオから強力な画像エンコーダーを学ぶ

Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video ( http://arxiv.org/abs/2310.08584v2 )

ライセンス: Link先を確認
Shashanka Venkataramanan, Mamshad Nayeem Rizve, João Carreira, Yuki M. Asano, Yannis Avrithis, (参考訳) 自己教師付き学習は、アノテーションが不要であるため、何十億もの画像に事前学習を拡大する可能性を解き放った。 しかし、私たちはデータを最大限に活用していますか? どのくらいの経済性があるだろうか。 本研究では,2つのコントリビューションを行うことで,この問題に答えようとしている。 まず,初対人ビデオを調査し,「ウォーキングツアー」データセットを導入する。 これらのビデオは高解像度で時間の長さで、1枚の未中断の撮影で撮影され、多くの物体やアクションが自然のシーンの遷移で描かれています。 ラベルなしで未計算なので、自己スーパービジョンには現実的であり、人間の学習に匹敵する。 第2に,連続ビデオからの学習に適した自己教師付き画像事前学習手法を提案する。 既存の手法は通常、より多くのフレームを組み込むために画像ベースの事前学習アプローチを適用する。 代わりに、私たちは"認識することを学ぶための追跡"アプローチを提唱します。 我々の手法であるDoRAは、トランスフォーマーのクロスアテンションを用いて、時間とともにオブジェクトの発見とtRAckをエンド・ツー・エンドで行うアテンションマップに導かれる。 トラックから複数のビューを導き,古典的な自己監督型蒸留損失に利用した。 われわれの新しいアプローチでは、単一のウォーキングツアービデオが、いくつかの画像やビデオのダウンストリームタスクにおいて、ImageNetの強力なライバルとなる。

Self-supervised learning has unlocked the potential of scaling up pretraining to billions of images, since annotation is unnecessary. But are we making the best use of data? How more economical can we be? In this work, we attempt to answer this question by making two contributions. First, we investigate first-person videos and introduce a "Walking Tours" dataset. These videos are high-resolution, hours-long, captured in a single uninterrupted take, depicting a large number of objects and actions with natural scene transitions. They are unlabeled and uncurated, thus realistic for self-supervision and comparable with human learning. Second, we introduce a novel self-supervised image pretraining method tailored for learning from continuous videos. Existing methods typically adapt image-based pretraining approaches to incorporate more frames. Instead, we advocate a "tracking to learn to recognize" approach. Our method called DoRA, leads to attention maps that Discover and tRAck objects over time in an end-to-end manner, using transformer cross-attention. We derive multiple views from the tracks and use them in a classical self-supervised distillation loss. Using our novel approach, a single Walking Tours video remarkably becomes a strong competitor to ImageNet for several image and video downstream tasks.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-23
# 因果表現から制御可能な因果生成へ:因果生成モデリングに関する調査

From Identifiable Causal Representations to Controllable Counterfactual Generation: A Survey on Causal Generative Modeling ( http://arxiv.org/abs/2310.11011v2 )

ライセンス: Link先を確認
Aneesh Komanduri, Xintao Wu, Yongkai Wu, Feng Chen, (参考訳) 深部生成モデルは, 有限標本からのデータ密度推定とデータ生成に極めて有意な能力を示した。 これらのモデルでは,データ中の特徴間の相関関係の学習による顕著な性能を示す一方で,その説明可能性の欠如,突発的相関を誘発する傾向,分布外挿不良などが根本的な欠点である。 このような課題を解決するため、最近の研究は因果生成モデルへのシフトを提案している。 因果モデル(Causal model)は、分散シフトロバスト性(英語版)、公正性(英語版)、解釈可能性(英語版)など、深い生成モデルにいくつかの有益な性質を提供する。 構造因果モデル (Structure causal model, SCM) は、データ生成過程を記述し、システム内の変数間の複雑な因果関係とメカニズムをモデル化する。 したがって、SCMは自然に深層生成モデルと結合することができる。 本稿では,因果表現学習に分類した因果生成モデリングの技術的調査と,対応可能な逆生成手法について述べる。 基本的な理論、方法論、欠点、データセット、メトリクスに重点を置いています。 次に、フェアネス、プライバシ、アウト・オブ・ディストリビューションの一般化、精密医療、生物科学における因果生成モデルの応用について述べる。 最後に,オープンな問題と今後の研究の方向性について論じる。

Deep generative models have shown tremendous capability in data density estimation and data generation from finite samples. While these models have shown impressive performance by learning correlations among features in the data, some fundamental shortcomings are their lack of explainability, tendency to induce spurious correlations, and poor out-of-distribution extrapolation. To remedy such challenges, recent work has proposed a shift toward causal generative models. Causal models offer several beneficial properties to deep generative models, such as distribution shift robustness, fairness, and interpretability. Structural causal models (SCMs) describe data-generating processes and model complex causal relationships and mechanisms among variables in a system. Thus, SCMs can naturally be combined with deep generative models. We provide a technical survey on causal generative modeling categorized into causal representation learning and controllable counterfactual generation methods. We focus on fundamental theory, methodology, drawbacks, datasets, and metrics. Then, we cover applications of causal generative models in fairness, privacy, out-of-distribution generalization, precision medicine, and biological sciences. Lastly, we discuss open problems and fruitful research directions for future work in the field.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-23
# 事前学習言語モデルによる文書レベルインコンテクストのFew-Shot関係抽出

Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models ( http://arxiv.org/abs/2310.11085v3 )

ライセンス: Link先を確認
Yilmazcan Ozyurt, Stefan Feuerriegel, Ce Zhang, (参考訳) 文書レベルの関係抽出は、文書から構造化された人間の知識を推定することを目的としている。 このタスクの最先端の手法は、微調整によって事前訓練された言語モデル(LM)を使用するが、微調整は計算コストが高く、新しい関係型や新しいLMに適応できない。 本稿では,事前学習したLMの一般化機能を活用し,文書レベルのインコンテキスト・少数ショット関係抽出のための新しいフレームワークを提案する。 フレームワークには,(1)名前付きエンティティ認識,(2)文書の人為的アノテーションの必要性を排除し,(3)再学習なしに新しいLMに更新できる,という3つの長所がある。 文書レベルの関係抽出のための最大公用データセットであるDocREDを用いて、我々のフレームワークを評価し、我々のフレームワークが最先端のパフォーマンスを達成することを示す。 さらに、私たちのフレームワークはDocREDの開発セットのオリジナルのラベルよりもはるかに優れたパフォーマンスを示します。 最後に、我々の完全なフレームワークは、様々なデータセット、異なる事前訓練されたLM間で一貫したパフォーマンス向上をもたらすことを実証する。 我々の知識を最大限に活用するために、文書レベルの関係抽出タスクを、コンテキスト内数ショット学習のパラダイムとしてカスタマイズしたものとして、我々は、まず、文書レベルの関係抽出タスクを再構築する。

Document-level relation extraction aims at inferring structured human knowledge from textual documents. State-of-the-art methods for this task use pre-trained language models (LMs) via fine-tuning, yet fine-tuning is computationally expensive and cannot adapt to new relation types or new LMs. As a remedy, we leverage the generalization capabilities of pre-trained LMs and present a novel framework for document-level in-context few-shot relation extraction. Our framework has three strengths: it eliminates the need (1) for named entity recognition and (2) for human annotations of documents, and (3) it can be updated to new LMs without re-training. We evaluate our framework using DocRED, the largest publicly available dataset for document-level relation extraction, and demonstrate that our framework achieves state-of-the-art performance. We further show that our framework actually performs much better than the original labels from the development set of DocRED. Finally, we demonstrate that our complete framework yields consistent performance gains across diverse datasets and across different pre-trained LMs. To the best of our knowledge, we are the first to reformulate the document-level relation extraction task as a tailored in-context few-shot learning paradigm.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-23
# ブラックボックスの内部:ニューラルネットワークによるアメリカの景気後退のリアルタイム予測

Inside the black box: Neural network-based real-time prediction of US recessions ( http://arxiv.org/abs/2310.17571v3 )

ライセンス: Link先を確認
Seulki Chung, (参考訳) 長期記憶(LSTM)とゲートリカレントユニット(GRU)は、1967年から2021年までのアメリカの不況をモデル化するために使用される。 予測性能は従来の線形モデルと比較される。 アウトオブサンプル性能は、特に長期予測において、リセッション予測におけるLSTMとGRUの適用を示唆している。 Shapley additive explanations (SHAP) 法はどちらのモデルにも適用される。 SHAPに基づく異なる重み付けは、これらのタイプのニューラルネットワークが、ビジネスサイクルの非対称性と非線形性をキャプチャする能力を示している。 SHAP法は、S&P500指数の短期予測を最大3カ月、長期予測を最大12カ月とする重要なリセッション指標を提供する。 これらの知見は、局所的解釈可能なモデルに依存しない説明(LIME)や限界効果など、他の解釈法に対して堅牢である。

Long short-term memory (LSTM) and gated recurrent unit (GRU) are used to model US recessions from 1967 to 2021. Their predictive performances are compared to those of the traditional linear models. The out-of-sample performance suggests the application of LSTM and GRU in recession forecasting, especially for longer-term forecasts. The Shapley additive explanations (SHAP) method is applied to both groups of models. The SHAP-based different weight assignments imply the capability of these types of neural networks to capture the business cycle asymmetries and nonlinearities. The SHAP method delivers key recession indicators, such as the S&P 500 index for short-term forecasting up to 3 months and the term spread for longer-term forecasting up to 12 months. These findings are robust against other interpretation methods, such as the local interpretable model-agnostic explanations (LIME) and the marginal effects.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-23
# Fast Shapley Value Estimation: 統一されたアプローチ

Fast Shapley Value Estimation: A Unified Approach ( http://arxiv.org/abs/2311.01010v2 )

ライセンス: Link先を確認
Borui Zhang, Baotong Tian, Wenzhao Zheng, Jie Zhou, Jiwen Lu, (参考訳) シェープの値は、ディープニューラルネットワークのようなブラックボックスモデルによって引き起こされる課題に対処するため、理論公理を基礎として広く受け入れられ、信頼できるツールとして現れてきた。 しかし、Shapley値の計算は、機能の数が増えるにつれて指数関数的な複雑さに直面する。 ApproSemivalue、KernelSHAP、FastSHAPといった様々な手法が計算を高速化するために研究されている。 既存手法の解析において、確率的推定器は特徴部分集合からランダムに要約された値の線形変換として統一することができる。 そこで本研究では, 簡易な補正推定器の設計の可能性について検討し, 冗長な手法を排除し, 単純で効率的な推定器であるSimSHAPを提案する。 表と画像のデータセットを用いた大規模な実験により、SimSHAPの有効性が検証され、正確なShapley値の計算が大幅に高速化された。

Shapley values have emerged as a widely accepted and trustworthy tool, grounded in theoretical axioms, for addressing challenges posed by black-box models like deep neural networks. However, computing Shapley values encounters exponential complexity as the number of features increases. Various approaches, including ApproSemivalue, KernelSHAP, and FastSHAP, have been explored to expedite the computation. In our analysis of existing approaches, we observe that stochastic estimators can be unified as a linear transformation of randomly summed values from feature subsets. Based on this, we investigate the possibility of designing simple amortized estimators and propose a straightforward and efficient one, SimSHAP, by eliminating redundant techniques. Extensive experiments conducted on tabular and image datasets validate the effectiveness of our SimSHAP, which significantly accelerates the computation of accurate Shapley values.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-23
# 神経崩壊のレンズによるアウトオブディストリビューションの検出

Detecting Out-of-Distribution Through the Lens of Neural Collapse ( http://arxiv.org/abs/2311.01479v3 )

ライセンス: Link先を確認
Litian Liu, Yao Qin, (参考訳) AIの安全なデプロイには、効率的で汎用性の高いOOD(Out-of-Distribution)検出が不可欠だが、既存のアルゴリズムでは依然として難しい。 ニューラル・コラプス(Neural Collapse)に触発されて、OOD試料の特徴と比較して重量ベクトルに近づいた分布内分布(ID)サンプルの特徴が明らかになった。 さらに,ID機能は空間的に拡張され,単純な等角的タイトフレームワークが構築される傾向があることも明らかにした。 ニューラル・コラプスの知見を両面から考慮し,OOD検出に重みベクトルに近づき,特徴ノルムを用いてOODサンプルをフィルタリングすることで,この視点を補完することを提案する。 オフザシェルフモデルに対する広範囲な実験により,OOD検出の一般化能力を向上し,多様な分類タスクやモデルアーキテクチャにまたがる手法の有効性と有効性を示した。

Efficient and versatile Out-of-Distribution (OOD) detection is essential for the safe deployment of AI yet remains challenging for existing algorithms. Inspired by Neural Collapse, we discover that features of in-distribution (ID) samples cluster closer to the weight vectors compared to features of OOD samples. In addition, we reveal that ID features tend to expand in space to structure a simplex Equiangular Tight Framework, which nicely explains the prevalent observation that ID features reside further from the origin than OOD features. Taking both insights from Neural Collapse into consideration, we propose to leverage feature proximity to weight vectors for OOD detection and further complement this perspective by using feature norms to filter OOD samples. Extensive experiments on off-the-shelf models demonstrate the efficiency and effectiveness of our method across diverse classification tasks and model architectures, enhancing the generalization capability of OOD detection.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-23
# 量子スピンはしごにおける広い絡み合いハミルトニアンの数値的研究

Numerical investigations of the extensive entanglement Hamiltonian in quantum spin ladders ( http://arxiv.org/abs/2311.01699v2 )

ライセンス: Link先を確認
Chengshu Li, Xingyu Li, Yi-Neng Zhou, (参考訳) 絡み合いは量子力学における鍵となる概念の一つであり、量子多体系を理解するのに欠かせない道具である。 本研究では、結合した量子スピン鎖の広範な絡み合い特性について広範な数値的研究を行う。 このセットアップは、例えばリーブ=シュルツ=マティスの定理を開系に拡張するのに有用であることが証明されており、エンタングルメントカットが系よりも1次元の低次元を持つ以前の研究の大多数とは対照的である。 我々は、ハミルトニアンの絡み合いが隙間のない場合、あるいは自発的対称性破壊挙動を示す場合に焦点を当てる。 さらに、共形場理論式を用いて、前者の場合の普遍的挙動を同定する。 我々の研究の結果は、解析的および数値的両方の大きな絡み合いのほとんどチャートされていない物理学をより体系的に探求するためのパラダイム的な出発点として機能する。

Entanglement constitutes one of the key concepts in quantum mechanics and serves as an indispensable tool in the understanding of quantum many-body systems. In this work, we perform extensive numerical investigations of extensive entanglement properties of coupled quantum spin chains. This setup has proven useful for e.g. extending the Lieb-Schultz-Mattis theorem to open systems, and contrasts the majority of previous research where the entanglement cut has one lower dimension than the system. We focus on the cases where the entanglement Hamiltonian is either gapless or exhibits spontaneous symmetry breaking behavior. We further employ conformal field theoretical formulae to identify the universal behavior in the former case. The results in our work can serve as a paradigmatic starting point for more systematic exploration of the largely uncharted physics of extensive entanglement, both analytical and numerical.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-23
# DeepInception: 大きな言語モデルをジェイルブレーカーにする

DeepInception: Hypnotize Large Language Model to Be Jailbreaker ( http://arxiv.org/abs/2311.03191v4 )

ライセンス: Link先を確認
Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han, (参考訳) 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大きな言語モデル(LLM)は、安全ガードレールを無効にする敵のジェイルブレイクに対して脆弱である。 しかし、以前のジェイルブレイクの研究は、通常、高計算コストのブルートフォース最適化や外挿を頼りにしており、実際的あるいは効果的ではないかもしれない。 本稿では,害を誘発する権限であるミルグラム実験に触発されて,LLMをジェイルブレーカーとして催眠する「ディープインセプション」と呼ばれる軽量な手法を開示する。 具体的には、DeepInceptionはLLMの擬人化能力を活用して仮想ネストシーンをジェイルブレイクに構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現する。 DeepInceptionは,FalconやVicuna-v1.5,Llama-2,GPT-3.5,GPT-4といったオープンソースおよびクローズドソースのLLM上での自己損失の致命的な弱点を明らかにするものだ。 コードはhttps://github.com/tmlr-group/DeepInception.comで公開されている。

Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment w.r.t. the authority power for inciting harmfulness, we disclose a lightweight method, termed as DeepInception, which can hypnotize an LLM to be a jailbreaker. Specifically, DeepInception leverages the personification ability of LLM to construct a virtual, nested scene to jailbreak, which realizes an adaptive way to escape the usage control in a normal scenario. Empirically, DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open-source and closed-source LLMs like Falcon, Vicuna-v1.5, Llama-2, GPT-3.5, and GPT-4. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-23
# スケーリング法則をナビゲートする - 適応型モデルトレーニングにおける計算最適性

Navigating Scaling Laws: Compute Optimality in Adaptive Model Training ( http://arxiv.org/abs/2311.03233v3 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Gregor Bachmann, Imanol Schlag, Thomas Hofmann, (参考訳) 近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。 このパラダイムは非常に単純で、より多くの計算リソース(最適に)を投資することでパフォーマンスが向上し、予測可能になった。 これは'compute-Optimal'モデルの概念につながります。つまり、トレーニング中に与えられたレベルの計算を最適に割り当ててパフォーマンスを最大化するモデルです。 本研究では,「適応的」モデル,すなわちトレーニング中に形状を変えることができるモデルを実現することにより,最適性の概念を拡張した。 これにより、基盤となるスケーリング法則の間を最適に横切る適応モデルを設計し、それらの「静的」法則より優れているようにすることで、所定の目標性能に達するために必要な計算量が大幅に削減できる。 提案手法はモジュラリティと異なる形状パラメータにまたがって一般化されることを示す。

In recent years, the state-of-the-art in deep learning has been dominated by very large models that have been pre-trained on vast amounts of data. The paradigm is very simple: investing more computational resources (optimally) leads to better performance, and even predictably so; neural scaling laws have been derived that accurately forecast the performance of a network for a desired level of compute. This leads to the notion of a `compute-optimal' model, i.e. a model that allocates a given level of compute during training optimally to maximize performance. In this work, we extend the concept of optimality by allowing for an `adaptive' model, i.e. a model that can change its shape during training. By doing so, we can design adaptive models that optimally traverse between the underlying scaling laws and outpace their `static' counterparts, leading to a significant reduction in the required compute to reach a given target performance. We show that our approach generalizes across modalities and different shape parameters.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-23
# 不正確な勾配を持つ無バイアス運動性ランゲヴィンモンテカルロ

Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients ( http://arxiv.org/abs/2311.05025v2 )

ライセンス: Link先を確認
Neil K. Chada, Benedict Leimkuhler, Daniel Paulin, Peter A. Whalley, (参考訳) 本稿では,高度分割法と高次勾配近似を併用した速度論的ランゲヴィンダイナミクスに基づくベイズ的後進手段の非バイアス化手法を提案する。 提案手法は,マルチレベルモンテカルロ法においてマルコフ連鎖を異なる離散化レベルで結合することにより,メトロポリス補正を回避する。 理論的解析は、提案した推定器が偏りがなく、有限分散に達し、中心極限定理を満たすことを証明している。 温度開始を仮定することなく、$\mathcal{O}(d^{1/4}\epsilon^{-2})$期待勾配評価で、$d$次元のリプシッツ関数の期待を推定するために、精度$\epsilon>0$を達成することができる。 近似的勾配と確率的勾配の両方を用いて類似した境界を示し、本手法の計算コストはデータセットのサイズによらずスケールすることが示されている。 提案手法は,MNISTデータセット上の多項回帰問題と,サッカースコアに対するポアソン回帰モデルを用いて検証する。 実験により, 有効試料当たりの勾配評価の数は, 不正確な勾配を用いた場合においても, 寸法に依存しないことが示唆された。 積分布に対して、次元非依存な分散境界を与える。 以上の結果から,非バイアスのアルゴリズムは,非正規化のハミルトニアンモンテカルロよりもはるかに効率的であることが示唆された。

We present an unbiased method for Bayesian posterior means based on kinetic Langevin dynamics that combines advanced splitting methods with enhanced gradient approximations. Our approach avoids Metropolis correction by coupling Markov chains at different discretization levels in a multilevel Monte Carlo approach. Theoretical analysis demonstrates that our proposed estimator is unbiased, attains finite variance, and satisfies a central limit theorem. It can achieve accuracy $\epsilon>0$ for estimating expectations of Lipschitz functions in $d$ dimensions with $\mathcal{O}(d^{1/4}\epsilon^{-2})$ expected gradient evaluations, without assuming warm start. We exhibit similar bounds using both approximate and stochastic gradients, and our method's computational cost is shown to scale independently of the size of the dataset. The proposed method is tested using a multinomial regression problem on the MNIST dataset and a Poisson regression model for soccer scores. Experiments indicate that the number of gradient evaluations per effective sample is independent of dimension, even when using inexact gradients. For product distributions, we give dimension-independent variance bounds. Our results demonstrate that the unbiased algorithm we present can be much more efficient than the ``gold-standard" randomized Hamiltonian Monte Carlo.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# 因果関係におけるオミテッドラベル : パラドックスの研究

Omitted Labels in Causality: A Study of Paradoxes ( http://arxiv.org/abs/2311.06840v3 )

ライセンス: Link先を確認
Bijan Mazaheri, Siddharth Jain, Matthew Cook, Jehoshua Bruck, (参考訳) トレーニングデータは、可能なラベルのサブセットに限られる、‘omitted label contexts,'’と呼ばれるものを調べます。 この設定は専門の人間専門家や特定の専門的な研究に共通している。 我々は、省略ラベル文脈における因果推論のより一般的な難しさを説明するために、よく研究されたパラドックス(シンプソンとコンドルチェット)を頼りにしている。 因果推論の大半が構築されている基本原理とは対照的に、「正しい」調整は時に交換不能な処理と制御グループを必要とすることを示す。 これらの落とし穴は、異なる文脈から引き出された結論のネットワークとその形態の研究につながり、これらのネットワークと社会的選択理論の間の興味深い関係が証明された。

We explore what we call ``omitted label contexts,'' in which training data is limited to a subset of the possible labels. This setting is common among specialized human experts or specific focused studies. We lean on well-studied paradoxes (Simpson's and Condorcet) to illustrate the more general difficulties of causal inference in omitted label contexts. Contrary to the fundamental principles on which much of causal inference is built, we show that ``correct'' adjustments sometimes require non-exchangeable treatment and control groups. These pitfalls lead us to the study networks of conclusions drawn from different contexts and the structures the form, proving an interesting connection between these networks and social choice theory.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# 潜学級混在時の因果発見

Causal Discovery under Latent Class Confounding ( http://arxiv.org/abs/2311.07454v4 )

ライセンス: Link先を確認
Bijan Mazaheri, Spencer Gordon, Yuval Rabani, Leonard Schulman, (参考訳) 非巡回因果構造は、因果を示す矢印を持つ有向非巡回グラフ(DAG)を用いて記述することができる。 この構造をデータから学習する作業は「因果発見(causal discovery)」として知られている。 異種集団や環境の変化は、時として異種データを引き起こすことがある。 この異質性は、複数の「源」が混ざったモデルとみなすことができ、それぞれが観察された変数に対してそれぞれ独自のシグネチャを与える。 この観点では、ソースは観測されたすべての変数に対して、遅延した共通の原因である。 因果発見のためのいくつかの方法は、特別な場合において観測されていない共起を回避できるが、グローバルな共同設立者(潜伏階級など)を扱う唯一の既知の方法はパラメトリックな仮定である。 離散オブザーバブルに焦点をあてて、基礎となるDAGのサイズと空間性に対して潜在クラス数が小さい限り、グローバルに構築された因果構造がパラメトリックな仮定なしでも識別可能であることを実証する。

An acyclic causal structure can be described using a directed acyclic graph (DAG) with arrows indicating causation. The task of learning this structure from data is known as "causal discovery." Diverse populations or changing environments can sometimes give rise to heterogeneous data. This heterogeneity can be thought of as a mixture model with multiple "sources," each exerting their own distinct signature on the observed variables. From this perspective, the source is a latent common cause for every observed variable. While some methods for causal discovery are able to work around unobserved confounding in special cases, the only known ways to deal with a global confounder (such as a latent class) involve parametric assumptions. Focusing on discrete observables, we demonstrate that globally confounded causal structures can still be identifiable without parametric assumptions, so long as the number of latent classes remains small relative to the size and sparsity of the underlying DAG.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# 健康行動変化のためのユーザ定義ゴールによる適応的介入

Adaptive Interventions with User-Defined Goals for Health Behavior Change ( http://arxiv.org/abs/2311.09483v4 )

ライセンス: Link先を確認
Aishwarya Mandyam, Matthew Jörke, William Denton, Barbara E. Engelhardt, Emma Brunskill, (参考訳) 健康な生活習慣の促進は、特にがん、心臓病、タイプ2糖尿病などの慢性疾患の予防に重要な役割を担っているため、公衆衛生上の問題となっている。 モバイルヘルスアプリケーションは、低コストでスケーラブルなヘルス行動変化促進のための有望な道を示す。 研究者は、各人のユニークなコンテキストに対する介入をパーソナライズする適応アルゴリズムを探求している。 しかしながら、実証的研究では、モバイル健康アプリケーションは、特に人間のコーチングと比較して、小さな効果の大きさと低い付着率に悩まされることが多い。 個人の独特な目標、好み、生活状況に対するアドバイスの調整は、モバイル健康介入のための適応アルゴリズムでは使われていない健康コーチングの重要な要素である。 これを解決するために、パーソナライズされた報酬関数(ゴール、選好、制約など)に対応できる新しいトンプソンサンプリングアルゴリズムを導入し、個人間でのデータ共有を活用して、より迅速に効果的なレコメンデーションを提供する。 我々の修正は、データ共有の複雑さの利点を保ちながら、累積的後悔に対して一定のペナルティしか生じないことを示す。 合成および半合成物理活動シミュレータの実証実験結果を示し、後者では、身体活動に関する嗜好データを求めるオンライン調査を行い、それを用いて、他の研究の歴史的データを利用した現実的な報酬モデルを構築した。 本アルゴリズムは,データ共有や個別報酬の最適化を行わないベースラインと比較して,大幅な性能向上を実現している。

Promoting healthy lifestyle behaviors remains a major public health concern, particularly due to their crucial role in preventing chronic conditions such as cancer, heart disease, and type 2 diabetes. Mobile health applications present a promising avenue for low-cost, scalable health behavior change promotion. Researchers are increasingly exploring adaptive algorithms that personalize interventions to each person's unique context. However, in empirical studies, mobile health applications often suffer from small effect sizes and low adherence rates, particularly in comparison to human coaching. Tailoring advice to a person's unique goals, preferences, and life circumstances is a critical component of health coaching that has been underutilized in adaptive algorithms for mobile health interventions. To address this, we introduce a new Thompson sampling algorithm that can accommodate personalized reward functions (i.e., goals, preferences, and constraints), while also leveraging data sharing across individuals to more quickly be able to provide effective recommendations. We prove that our modification incurs only a constant penalty on cumulative regret while preserving the sample complexity benefits of data sharing. We present empirical results on synthetic and semi-synthetic physical activity simulators, where in the latter we conducted an online survey to solicit preference data relating to physical activity, which we use to construct realistic reward models that leverages historical data from another study. Our algorithm achieves substantial performance improvements compared to baselines that do not share data or do not optimize for individualized rewards.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# Moka: モラルイベント抽出のためのモラル知識強化

MOKA: Moral Knowledge Augmentation for Moral Event Extraction ( http://arxiv.org/abs/2311.09733v2 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Winston Wu, Nick Beauchamp, Lu Wang, (参考訳) ニュースメディアは、しばしばニュース記事における明示的な道徳的言語を最小化しようと試みるが、ほとんどの記事は、報告された出来事自体を通して表現される道徳的価値に富んでいる。 しかしながら、参加するエンティティやモラルイベントの複雑なダイナミクスに反映される値は、LPMを含むほとんどのNLPシステムにとって、はるかに困難である。 この現象を調査するために,政治スペクトルの多種多様な米国メディアによる474のニュース記事に5,494の構造化イベントアノテーションからなる新たなデータセットMORAL EVENTSを注釈付けした。 さらに,モラル知識を付加したモラルイベント抽出フレームワークであるMokaを提案する。 実験の結果,Mokaは3つのモラル事象理解タスクにおいて,競争基準よりも優れていた。 さらに分析すると、一見非党派メディアでさえ道徳的な出来事を選択的に報告していることがわかる。 私たちのデータとコードベースはhttps://github.com/ Launchnlp/Moka.comで公開されています。

News media often strive to minimize explicit moral language in news articles, yet most articles are dense with moral values as expressed through the reported events themselves. However, values that are reflected in the intricate dynamics among participating entities and moral events are far more challenging for most NLP systems to detect, including LLMs. To study this phenomenon, we annotate a new dataset, MORAL EVENTS, consisting of 5,494 structured event annotations on 474 news articles by diverse US media across the political spectrum. We further propose MOKA, a moral event extraction framework with MOral Knowledge Augmentation, which leverages knowledge derived from moral words and moral scenarios to produce structural representations of morality-bearing events. Experiments show that MOKA outperforms competitive baselines across three moral event understanding tasks. Further analysis shows even ostensibly nonpartisan media engage in the selective reporting of moral events. Our data and codebase are available at https://github.com/launchnlp/MOKA.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# 堅牢で一般化可能な量子模型の訓練

Training robust and generalizable quantum models ( http://arxiv.org/abs/2311.11871v3 )

ライセンス: Link先を確認
Julian Berberich, Daniel Fink, Daniel Pranjić, Christian Tutschku, Christian Holm, (参考訳) 敵対的堅牢性と一般化はどちらも信頼性のある機械学習モデルの重要な特性である。 本稿では,これらの特性をリプシッツ境界に基づく量子機械学習の文脈で研究する。 我々は、トレーニング可能なエンコーディングを持つ量子モデルに対するパラメータ依存リプシッツ境界を導出し、データエンコーディングの規範がデータ摂動に対するロバスト性に決定的な影響を与えることを示す。 さらに、データエンコーディングのパラメータを明示的に含む一般化誤差のバウンダリを導出する。 我々の理論的な結果は、コストでリプシッツ境界を正則化することによって、堅牢で一般化可能な量子モデルをトレーニングするための実践的な戦略を生み出します。 さらに、量子機械学習でよく使用される固定および非トレーニング可能な符号化に対して、リプシッツ境界はパラメータのチューニングの影響を受けないことを示す。 したがって、トレーニング中の堅牢性と一般化を体系的に適応させるには、トレーニング可能なエンコーディングが不可欠である。 理論的知見の実際的意義は, 数値的な結果とともに示される。

Adversarial robustness and generalization are both crucial properties of reliable machine learning models. In this paper, we study these properties in the context of quantum machine learning based on Lipschitz bounds. We derive parameter-dependent Lipschitz bounds for quantum models with trainable encoding, showing that the norm of the data encoding has a crucial impact on the robustness against data perturbations. Further, we derive a bound on the generalization error which explicitly involves the parameters of the data encoding. Our theoretical findings give rise to a practical strategy for training robust and generalizable quantum models by regularizing the Lipschitz bound in the cost. Further, we show that, for fixed and non-trainable encodings, as those frequently employed in quantum machine learning, the Lipschitz bound cannot be influenced by tuning the parameters. Thus, trainable encodings are crucial for systematically adapting robustness and generalization during training. The practical implications of our theoretical findings are illustrated with numerical results.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-23
# P2RBox:SAMによるポイントプロンプト指向オブジェクト検出

P2RBox: Point Prompt Oriented Object Detection with SAM ( http://arxiv.org/abs/2311.13128v2 )

ライセンス: Link先を確認
Guangming Cao, Xuehui Yu, Wenwen Yu, Xumeng Han, Xue Yang, Guorong Li, Jianbin Jiao, Zhenjun Han, (参考訳) リモートセンシングシナリオのオブジェクト指向オブジェクト検出における単一点アノテーションは,コスト効率のため注目度が高まっている。 しかし、点の粒度のあいまいさのため、従来の方法と完全に監督された方法との間には大きな性能差がある。 本研究では,P2RBoxを導入し,オブジェクト指向オブジェクト検出のための回転ボックス(RBox)アノテーションを生成する。 P2RBoxはSAMモデルを使用して高品質なマスクの提案を生成する。 これらの提案はアノテーションポイントからの意味情報と空間情報を用いて洗練される。 最高のマスクは、モデルによって提案される特徴方向に基づいて、配向ボックスに変換される。 P2RBoxには、意味情報を活用する境界感性マスクガイダンスと、空間情報を利用して粒度のあいまいさを低減する中心性ガイダンスの2つの先進的なガイダンスが組み込まれている。 この組み合わせは検出能力を著しく向上させる。 本手法の有効性を実証するために, 3種類の検出器を統合することにより, ベースラインに基づく改良が観察された。 さらに、最先端のポイントアノテート生成法であるPointOBBと比較して、P2RBoxはDOTA-v1.0データセット上で約29%のmAP(62.43%対33.31%)で性能が向上し、ポイントアノテーションの実用的な適用の可能性を提供している。

Single-point annotation in oriented object detection of remote sensing scenarios is gaining increasing attention due to its cost-effectiveness. However, due to the granularity ambiguity of points, there is a significant performance gap between previous methods and those with fully supervision. In this study, we introduce P2RBox, which employs point prompt to generate rotated box (RBox) annotation for oriented object detection. P2RBox employs the SAM model to generate high-quality mask proposals. These proposals are then refined using the semantic and spatial information from annotation points. The best masks are converted into oriented boxes based on the feature directions suggested by the model. P2RBox incorporates two advanced guidance cues: Boundary Sensitive Mask guidance, which leverages semantic information, and Centrality guidance, which utilizes spatial information to reduce granularity ambiguity. This combination enhances detection capabilities significantly. To demonstrate the effectiveness of this method, enhancements based on the baseline were observed by integrating three different detectors. Furthermore, compared to the state-of-the-art point-annotated generative method PointOBB, P2RBox outperforms by about 29% mAP (62.43% vs 33.31%) on DOTA-v1.0 dataset, which provides possibilities for the practical application of point annotations.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# DAOにおける社会的感覚のデコード:ブロックチェーンガバナンスコミュニティの比較分析

Decoding Social Sentiment in DAO: A Comparative Analysis of Blockchain Governance Communities ( http://arxiv.org/abs/2311.14676v2 )

ライセンス: Link先を確認
Yutong Quan, Xintong Wu, Wanlin Deng, Luyao Zhang, (参考訳) ブロックチェーン技術は、さまざまな業界で革命的な変革を導いており、ブロックチェーンプロジェクトの成功と持続可能性に効果的なガバナンスが不可欠である。 分散型自律組織(DAO)の関与に重要なコミュニティフォーラムは、ブロックチェーンのガバナンス決定に大きな影響を与えている。 同時に、自然言語処理(NLP)、特に感情分析は、テキストデータから強力な洞察を提供する。 これまでの研究では、ソーシャルメディアの感情分析におけるNLPツールの可能性について検討されてきたが、ブロックチェーンガバナンスコミュニティの感情状況を理解するにはギャップがある。 DAOの最上位のフォーラムにおける言論と感情のダイナミクスはほとんど不明である。 本稿では、主要なDeFiプロジェクトの公開フォーラム(Aave, Uniswap, Curve DAO, Yearn.finance, Merit Circle, Balancer)における議論と感情のダイナミクスを深く掘り下げ、主にガバナンス問題に関する議論に焦点を当てる。 本研究は、分散化コミュニティの参加者が、Discord議論において、概して肯定的な感情を表現していることを示している。 さらに、議論の強度と感情のダイナミクスの間には潜在的な相互作用があり、より高い議論のボリュームは、コード分析によるより安定した感情に寄与する可能性がある。 この調査から得られた洞察は、ブロックチェーンガバナンスにおける意思決定者にとって価値があり、コミュニティの感情の解釈における感情分析の重要な役割と、ブロックチェーンガバナンスの展望に対するその進化的な影響を説明している。 この研究は、ブロックチェーンと社会の交差点の学際的な探索に大きく貢献し、特に分散化されたブロックチェーンガバナンスエコシステムを強調している。 GitHubのオープンアクセスとして、複製性のためのデータとコードを提供しています。

Blockchain technology is leading a revolutionary transformation across diverse industries, with effective governance being critical for the success and sustainability of blockchain projects. Community forums, pivotal in engaging decentralized autonomous organizations (DAOs), significantly impact blockchain governance decisions. Concurrently, Natural Language Processing (NLP), particularly sentiment analysis, provides powerful insights from textual data. While prior research has explored the potential of NLP tools in social media sentiment analysis, there is a gap in understanding the sentiment landscape of blockchain governance communities. The evolving discourse and sentiment dynamics on the forums of top DAOs remain largely unknown. This paper delves deep into the evolving discourse and sentiment dynamics on the public forums of leading DeFi projects: Aave, Uniswap, Curve DAO, Yearn.finance, Merit Circle, and Balancer, focusing primarily on discussions related to governance issues. Our study shows that participants in decentralized communities generally express positive sentiments during Discord discussions. Furthermore, there is a potential interaction between discussion intensity and sentiment dynamics; higher discussion volume may contribute to a more stable sentiment from code analysis. The insights gained from this study are valuable for decision-makers in blockchain governance, underscoring the pivotal role of sentiment analysis in interpreting community emotions and its evolving impact on the landscape of blockchain governance. This research significantly contributes to the interdisciplinary exploration of the intersection of blockchain and society, specifically emphasizing the decentralized blockchain governance ecosystem. We provide our data and code for replicability as open access on GitHub.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# 映像の局所的インストラクション生成のための効果的な事前学習

Efficient Pre-training for Localized Instruction Generation of Videos ( http://arxiv.org/abs/2311.15964v3 )

ライセンス: Link先を確認
Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller, (参考訳) レシピのデモで例示された手続き的なビデオは、ステップバイステップの指示を伝えるのに役立ちます。 しかし、ステップの正確な位置化やテキスト命令の生成など、そのようなビデオを理解することは困難である。 手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。 大規模だがノイズの多いビデオ書き起こしデータセットを事前トレーニングに活用することで、パフォーマンスが向上するが、かなりの計算資源を必要とする。 さらに、写本には無関係な内容が含まれており、人書きの指示と様式が異なる。 これらの問題を緩和するために、レシピ領域の高品質なトレーニングデータを自動的に生成する新しい手法、Sieve-&-Swapを提案する。 (i)無関係な文字のフィルタリング、及び (ii)Swapは、テキストのみのレシピデータセットから人書きの命令に書き起こしを置き換え、高品質なテキストを取得する。 得られたデータセットは、現在のWebスケールデータセットよりも3桁小さいが、大規模モデルの効率的なトレーニングを可能にする。 Sieve-&Swap とともに,プロシージャ・トランスフォーマー (ProcX) を提案する。 キュレートされたデータセットで事前トレーニングを行うと、このモデルはトレーニングデータの一部を使用しながら、YouCook2とTastyの最先端のパフォーマンスを達成する。 コードとデータセットは公開されます。

Procedural videos, exemplified by recipe demonstrations, are instrumental in conveying step-by-step instructions. However, understanding such videos is challenging as it involves the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance but demands significant computational resources. Furthermore, transcripts contain irrelevant content and differ in style from human-written instructions. To mitigate these issues, we propose a novel technique, Sieve-&-Swap, to automatically generate high quality training data for the recipe domain: (i) Sieve filters irrelevant transcripts and (ii) Swap acquires high quality text by replacing transcripts with human-written instruction from a text-only recipe dataset. The resulting dataset is three orders of magnitude smaller than current web-scale datasets but enables efficient training of large-scale models. Alongside Sieve-&-Swap, we propose Procedure Transformer (ProcX), a model for end-to-end step localization and instruction generation for procedural videos. When pre-trained on our curated dataset, this model achieves state-of-the-art performance on YouCook2 and Tasty while using a fraction of the training data. Our code and dataset will be publicly released.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# MVBench: 総合的なマルチモーダルビデオ理解ベンチマーク

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark ( http://arxiv.org/abs/2311.17005v4 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao, (参考訳) MLLM(Multi-modal Large Language Models)の急速な開発に伴い、これらのモデルの理解能力を評価するために、最近多くの診断ベンチマークが登場した。 しかし、ほとんどのベンチマークは静的な画像タスクにおける空間的理解を主に評価し、ダイナミックなビデオタスクにおける時間的理解を見落としている。 この問題を軽減するために,一フレームで効果的に解決できない20の課題のビデオタスクをカバーする,総合的なマルチモーダルビデオ理解ベンチマークであるMVBenchを導入する。 具体的には、これらの時間的タスクを定義するための新しい静的-動的手法を最初に導入する。 静的タスクを動的タスクに変換することで、認識から認知まで幅広い時間的スキルを必要とする映像タスクを体系的に生成することが可能になる。 そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。 一方、このような異なるパラダイムは、手作業による介入を伴わずに、MVBenchを効率的に構築することを可能にする。 一方,LLMのバイアススコアリングを回避し,ビデオアノテーションによる評価の公平性を保証する。 さらに,多様な命令調整データを用いたプログレッシブマルチモーダルトレーニングにより,より堅牢なビデオMLLMベースラインであるVideoChat2を開発する。 MVBenchの広範な結果から,既存のMLLMは時間的理解では満足できないが,VoiceChat2はMVBenchでは15%以上上回っていることがわかった。 すべてのモデルとデータはhttps://github.com/OpenGVLab/Ask-Anything.comで入手できる。

With the rapid development of Multi-modal Large Language Models (MLLMs), a number of diagnostic benchmarks have recently emerged to evaluate the comprehension capabilities of these models. However, most benchmarks predominantly assess spatial understanding in the static image tasks, while overlooking temporal understanding in the dynamic video tasks. To alleviate this issue, we introduce a comprehensive Multi-modal Video understanding Benchmark, namely MVBench, which covers 20 challenging video tasks that cannot be effectively solved with a single frame. Specifically, we first introduce a novel static-to-dynamic method to define these temporal-related tasks. By transforming various static tasks into dynamic ones, we enable the systematic generation of video tasks that require a broad spectrum of temporal skills, ranging from perception to cognition. Then, guided by the task definition, we automatically convert public video annotations into multiple-choice QA to evaluate each task. On one hand, such a distinct paradigm allows us to build MVBench efficiently, without much manual intervention. On the other hand, it guarantees evaluation fairness with ground-truth video annotations, avoiding the biased scoring of LLMs. Moreover, we further develop a robust video MLLM baseline, i.e., VideoChat2, by progressive multi-modal training with diverse instruction-tuning data. The extensive results on our MVBench reveal that, the existing MLLMs are far from satisfactory in temporal understanding, while our VideoChat2 largely surpasses these leading models by over 15% on MVBench. All models and data are available at https://github.com/OpenGVLab/Ask-Anything.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# マルコフ決定過程に対する安全な探索手法

A safe exploration approach to constrained Markov decision processes ( http://arxiv.org/abs/2312.00561v2 )

ライセンス: Link先を確認
Tingting Ni, Maryam Kamgarpour, (参考訳) そこでは,予測累積的制約による期待累積報酬を最大化する最適な政策を見出すことが目的である。 安全クリティカルなシステムのオンライン学習におけるCMDPの適用により,学習時の制約満足度を保証するモデルフリーでシミュレータフリーなアルゴリズムの開発に焦点が当てられている。 この目的のために,CMDPのログバリア関数に基づくインテリアポイントアプローチを開発した。 一般に仮定されるフィッシャー非退化条件と政策パラメータ化の有界移動誤差の下で、アルゴリズムの理論的性質を確立する。 特に、収束時にポリシーの実現性を保証する既存のCMDPアプローチとは対照的に、我々のアルゴリズムは学習過程におけるポリシーの実現性を保証し、サンプル複雑性が$\tilde{\mathcal{O}}(\varepsilon^{-6})$で$\varepsilon$-optimal Policyに収束する。 C-NPG-PDAアルゴリズムと比較して、我々のアルゴリズムは、同じフィッシャー非退化パラメータ化で学習中にポリシーの実現性を確保するために、追加の$\mathcal{O}(\varepsilon^{-2})$サンプルを必要とする。

We consider discounted infinite horizon constrained Markov decision processes (CMDPs) where the goal is to find an optimal policy that maximizes the expected cumulative reward subject to expected cumulative constraints. Motivated by the application of CMDPs in online learning of safety-critical systems, we focus on developing a model-free and simulator-free algorithm that ensures constraint satisfaction during learning. To this end, we develop an interior point approach based on the log barrier function of the CMDP. Under the commonly assumed conditions of Fisher non-degeneracy and bounded transfer error of the policy parameterization, we establish the theoretical properties of the algorithm. In particular, in contrast to existing CMDP approaches that ensure policy feasibility only upon convergence, our algorithm guarantees the feasibility of the policies during the learning process and converges to the $\varepsilon$-optimal policy with a sample complexity of $\tilde{\mathcal{O}}(\varepsilon^{-6})$. In comparison to the state-of-the-art policy gradient-based algorithm, C-NPG-PDA, our algorithm requires an additional $\mathcal{O}(\varepsilon^{-2})$ samples to ensure policy feasibility during learning with the same Fisher non-degenerate parameterization.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# PointBeV:BeV予測に対するスパースアプローチ

PointBeV: A Sparse Approach to BeV Predictions ( http://arxiv.org/abs/2312.00703v2 )

ライセンス: Link先を確認
Loick Chambon, Eloi Zablocki, Mickael Chen, Florent Bartoccioni, Patrick Perez, Matthieu Cord, (参考訳) Bird's-eye View (BeV)表現は、駆動アプリケーションにおけるデファクト共有スペースとして現れ、センサーデータ融合のための統一されたスペースを提供し、様々な下流タスクをサポートする。 しかし、従来のモデルでは、すべてのセルにリソースを均等に割り当てるため、解像度と範囲が固定されたグリッドを使用し、計算不効率に直面している。 そこで本研究では,高密度グリッドではなく,スパースBeVセルで動作する新しいスパースBeVセグメンテーションモデルであるPointBeVを提案する。 このアプローチは、メモリ使用量を正確に制御し、長期の時間的コンテキストの使用と、メモリ制約のあるプラットフォームとの接続を可能にする。 PointBeVはトレーニングに効率的な2パス戦略を採用しており、関心のある領域の集中的な計算を可能にしている。 推論時には、様々なメモリ/パフォーマンストレードオフで使用でき、新しい特定のユースケースに柔軟に適応できる。 PointBeVは、車両、歩行者、レーンのセグメンテーションのためのnuScenesデータセットの最先端の結果を達成し、スパース信号だけで訓練されているにもかかわらず、静的および時間的設定において優れたパフォーマンスを示す。 Sparse Feature Pullingは、画像からBeVへの機能抽出を効果的に行うために設計されたもので、Submanifold Attentionは、効率的な時間的モデリングを可能にする。 私たちのコードはhttps://github.com/valeoai/PointBeV.comで利用可能です。

Bird's-eye View (BeV) representations have emerged as the de-facto shared space in driving applications, offering a unified space for sensor data fusion and supporting various downstream tasks. However, conventional models use grids with fixed resolution and range and face computational inefficiencies due to the uniform allocation of resources across all cells. To address this, we propose PointBeV, a novel sparse BeV segmentation model operating on sparse BeV cells instead of dense grids. This approach offers precise control over memory usage, enabling the use of long temporal contexts and accommodating memory-constrained platforms. PointBeV employs an efficient two-pass strategy for training, enabling focused computation on regions of interest. At inference time, it can be used with various memory/performance trade-offs and flexibly adjusts to new specific use cases. PointBeV achieves state-of-the-art results on the nuScenes dataset for vehicle, pedestrian, and lane segmentation, showcasing superior performance in static and temporal settings despite being trained solely with sparse signals. We will release our code along with two new efficient modules used in the architecture: Sparse Feature Pulling, designed for the effective extraction of features from images to BeV, and Submanifold Attention, which enables efficient temporal modeling. Our code is available at https://github.com/valeoai/PointBeV.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# 固有状態遷移における可観測物の臨界量子力学

Critical quantum dynamics of observables at eigenstate transitions ( http://arxiv.org/abs/2312.00873v2 )

ライセンス: Link先を確認
Simon Jiricek, Miroslav Hopjan, Patrycja Łydżba, Fabian Heidrich-Meisner, Lev Vidmar, (参考訳) 固有状態遷移における量子力学の重要な特徴を明らかにすることは、傑出した目標である。 局所化遷移を示す二次フェルミオンハミルトニアンに着目して、初期局在化電荷密度波状態からクエンチした場合に転移においてスケール不変臨界ダイナミクスを示す物理観測値を特定する。 識別は2つの要素に基づいている。 (a)多体状態における可観測物の時間的進化と単一粒子状態の遷移確率との関係 b) 転移確率のスケール不変性(phys. Lett. 131, 060404 (2023), Phys. Res. 5, 043301 (2023))を一般化する。 これらの性質は、量子クエンチ力学におけるスケール不変臨界ダイナミクスが、クエンチ前のハミルトンと共通の固有基底を共有する観測値によっても示されることを示唆している。 本研究では,3次元アンダーソンモデルと1次元オーブリー・アンドルーモデルにおける固有状態遷移におけるそれらの臨界挙動を数値的に示す。

It is an outstanding goal to unveil the key features of quantum dynamics at eigenstate transitions. Focusing on quadratic fermionic Hamiltonians that exhibit localization transitions, we identify physical observables that exhibit scale-invariant critical dynamics at the transition when quenched from the initially localized charge density-wave states. The identification is based on two ingredients: (a) A relationship between the time evolution of observables in a many-body state and the transition probabilities of single-particle states, and (b) scale invariance of transition probabilities, which generalizes the corresponding recent result for survival probabilities [Phys. Rev. Lett. 131, 060404 (2023) and Phys. Rev. Res. 5, 043301 (2023)]. These properties suggest that the scale-invariant critical dynamics in the quantum-quench dynamics is also exhibited by the observables, which share the common eigenbasis with the Hamiltonian before the quench. Focusing on experimentally relevant observables such as site occupations and the particle imbalance, we numerically demonstrate their critical behavior at the eigenstate transitions in the three-dimensional Anderson model and the one-dimensional Aubry-Andr\'e model model.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-23
# 等価なプラグ・アンド・プレイ画像再構成

Equivariant plug-and-play image reconstruction ( http://arxiv.org/abs/2312.01831v2 )

ライセンス: Link先を確認
Matthieu Terris, Thomas Moreau, Nelly Pustelnik, Julian Tachella, (参考訳) プラグ・アンド・プレイのアルゴリズムは、デノイザを介して画像の暗黙的な定義に依存する逆画像問題を解決するための一般的なフレームワークである。 これらのアルゴリズムは、強力な事前訓練されたデノイザを利用して、幅広い画像処理タスクを解決し、タスク毎のモデルトレーニングの必要性を回避することができる。 残念なことに、プラグアンドプレイ法はしばしば不安定な動作を示し、汎用性の約束を妨げ、再構成された画像の最適以下の品質をもたらす。 本研究では,デノイザ上のある種の変換群(回転,反射,および/又は変換)に同値を課すことで,アルゴリズムの安定性が向上し,再構成品質が向上することを示す。 より優れた性能と安定性における同値性の役割を理論的に示す。 本稿では,デノイザの入力に対するランダム変換と,アルゴリズムの各繰り返しにおける出力に対する逆変換を単純に適用することで,既存のデノイザに等分散を強制する簡単なアルゴリズムを提案する。 複数の画像モダリティとデノナイジングネットワークの実験により、同変プラグ・アンド・プレイ・アルゴリズムは再構成性能と安定性の両方を、同変でないものと比較して改善することを示した。

Plug-and-play algorithms constitute a popular framework for solving inverse imaging problems that rely on the implicit definition of an image prior via a denoiser. These algorithms can leverage powerful pre-trained denoisers to solve a wide range of imaging tasks, circumventing the necessity to train models on a per-task basis. Unfortunately, plug-and-play methods often show unstable behaviors, hampering their promise of versatility and leading to suboptimal quality of reconstructed images. In this work, we show that enforcing equivariance to certain groups of transformations (rotations, reflections, and/or translations) on the denoiser strongly improves the stability of the algorithm as well as its reconstruction quality. We provide a theoretical analysis that illustrates the role of equivariance on better performance and stability. We present a simple algorithm that enforces equivariance on any existing denoiser by simply applying a random transformation to the input of the denoiser and the inverse transformation to the output at each iteration of the algorithm. Experiments on multiple imaging modalities and denoising networks show that the equivariant plug-and-play algorithm improves both the reconstruction performance and the stability compared to their non-equivariant counterparts.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 量子テレポーテーションのクリスマス物語

A Christmas Story about Quantum Teleportation ( http://arxiv.org/abs/2312.01891v2 )

ライセンス: Link先を確認
Barry W. Fitzgerald, Patrick Emonts, Jordi Tura, (参考訳) 量子テレポーテーション(quantum teleportation)は、量子物理学とテレポーテーションの概念を組み合わせることを考えると、多くの人々を魅了し、混乱させる概念である。 量子テレポーテーションは、いくつかの通信技術や将来量子インターネットにおいて重要な役割を果たす可能性が高いため、その概念を正確かつ効果的に伝達できる学習ツールやアプローチを作成することが不可欠である。 近年の研究では、量子物理学の話題について学生を魅了する教師の重要性が示唆されている。 したがって、高校と初期の大学の教育者は、複雑な、しかし量子テレポーテーションのような興味深いトピックを、魅力的でおそらく正当でない方法で教える必要がある。 本稿では,クリスマスギフトブリングのサンタクロースを用いて,量子テレポーテーションの概念を教えるパラダイムを提案する。 サンタクロースの例を用いて、量子テレポーテーションの鍵となる側面を探索するのに珍しい文脈を使い、全ては過度に抽象的ではない。 さらに,量子物理学の一般的なナイーブな概念を基礎として,教室での使用を想定したワークシートについて概説する。 このワークシートは、その後の研究で量子テレポーテーションを教えるための教材として評価される。

Quantum teleportation is a concept that fascinates and confuses many people, in particular, given that it combines quantum physics and the concept of teleportation. With quantum teleportation likely to play a key role in several communication technologies and the quantum internet in the future, it is imperative to create learning tools and approaches that can accurately and effectively communicate the concept. Recent research has indicated the importance of teachers enthusing students about the topic of quantum physics. Therefore, educators at both high school and early university level need to find engaging and perhaps unorthodox ways of teaching complex, yet interesting topics such as quantum teleportation. In this paper, we present a paradigm to teach the concept of quantum teleportation using the Christmas gift-bringer Santa Claus. Using the example of Santa Claus, we use an unusual context to explore the key aspects of quantum teleportation, and all without being overly abstract. In addition, we outline a worksheet designed for use in the classroom setting which is based on common naive conceptions from quantum physics. This worksheet will be evaluated as a classroom resource to teach quantum teleportation in a subsequent study.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 効率的な大規模言語モデル: 調査

Efficient Large Language Models: A Survey ( http://arxiv.org/abs/2312.03863v4 )

ライセンス: Link先を確認
Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Jiachen Liu, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, Mosharaf Chowdhury, Mi Zhang, (参考訳) 大規模言語モデル(LLM)は、自然言語理解や言語生成といった重要なタスクにおいて顕著な能力を示しており、社会に大きな影響を与える可能性がある。 しかし、このような能力は、彼らが要求する膨大なリソースを伴い、効率の課題に対処する効果的な技術を開発することの強い必要性を強調している。 本調査では,効率的なLLM研究の体系的,包括的レビューを行う。 論文は3つの主要なカテゴリからなる分類学でまとめられ、それぞれモデル中心、データ中心、フレームワーク中心の観点から、相互に相互に相互に連携する効率的なLLMのトピックを網羅している。 GitHubリポジトリも作成しました。この調査で紹介された論文はhttps://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Surveyでまとめています。 リポジトリを積極的に維持し、新たな研究を取り入れます。 我々の調査は、研究者や実践者が効率的なLLMの研究を体系的に理解し、この重要でエキサイティングな分野に貢献するための貴重な情報源になることを期待しています。

Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding and language generation, and thus have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges. In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we organize the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey. We will actively maintain the repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of efficient LLMs research and inspire them to contribute to this important and exciting field.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 最適マルチディストリビューション学習

Optimal Multi-Distribution Learning ( http://arxiv.org/abs/2312.05134v4 )

ライセンス: Link先を確認
Zihan Zhang, Wenhao Zhan, Yuxin Chen, Simon S. Du, Jason D. Lee, (参考訳) MDL(Multi-distriion Learning)は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目的として、ロバストネス、フェアネス、マルチグループコラボレーションなどに対する需要の高まりに対応する統一されたフレームワークとして登場した。 データ効率のよいMDLを実現するには、学習プロセス全体を通じて適応サンプリング(オンデマンドサンプリングとも呼ばれる)が必要である。 しかし、最適なサンプルの複雑さについて、最先端の上境界と下限の間にはかなりのギャップがある。 Vapnik-Chervonenkis (VC) 次元 d の仮説クラスに焦点をあて、(d+k)/varepsilon^2 (modulo some logarithmic factor) の順にサンプル複雑性を持つヴァレプシロン最適ランダム化仮説を導出し、最もよく知られた下界と一致する新しいアルゴリズムを提案する。 我々のアルゴリズムの考えと理論はさらに拡張され、ラデマッハ類に適合する。 提案したアルゴリズムはオラクル効率が良く、経験的リスク最小化オラクルを通してのみ仮説クラスにアクセスする。 さらに、ランダム化の必要性を確立し、決定論的仮説のみを許す場合、大きなサンプルサイズ障壁を明らかにする。 これらの結果は、COLT 2023で提示された3つのオープンな問題を解決している(citet[Problems 1, 3 and 4]{awasthi2023sample})。

Multi-distribution learning (MDL), which seeks to learn a shared model that minimizes the worst-case risk across $k$ distinct data distributions, has emerged as a unified framework in response to the evolving demand for robustness, fairness, multi-group collaboration, etc. Achieving data-efficient MDL necessitates adaptive sampling, also called on-demand sampling, throughout the learning process. However, there exist substantial gaps between the state-of-the-art upper and lower bounds on the optimal sample complexity. Focusing on a hypothesis class of Vapnik-Chervonenkis (VC) dimension d, we propose a novel algorithm that yields an varepsilon-optimal randomized hypothesis with a sample complexity on the order of (d+k)/varepsilon^2 (modulo some logarithmic factor), matching the best-known lower bound. Our algorithmic ideas and theory are further extended to accommodate Rademacher classes. The proposed algorithms are oracle-efficient, which access the hypothesis class solely through an empirical risk minimization oracle. Additionally, we establish the necessity of randomization, revealing a large sample size barrier when only deterministic hypotheses are permitted. These findings resolve three open problems presented in COLT 2023 (i.e., citet[Problems 1, 3 and 4]{awasthi2023sample}).
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 256塩基の価値あるビデオ:ゼロショットビデオ編集のための空間的期待-最大化インバージョン

A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing ( http://arxiv.org/abs/2312.05856v2 )

ライセンス: Link先を確認
Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, Dong Xu, (参考訳) 本稿では,ゼロショット映像編集における映像インバージョン手法を提案する。 既存のビデオ編集法では、通常、2D DDIMのインバージョンや、編集前のナイーブな時空間DDIMのインバージョンを適用している。 多くの既存手法と異なり,より高密度な映像特徴を期待・最大化法で定式化し,映像全体を表現するためのよりコンパクトなベースを反復的に推定する空間的期待・最大化(STEM)インバージョンを提案する。 各フレームはインバージョンに対して固定的かつグローバルな表現を適用し、再構成と編集の間は時間的一貫性に親しみやすい。 広汎な定性的および定量的実験により、STEMインバージョンは、2つの最先端のビデオ編集方法において一貫した改善を達成できることを示した。 プロジェクトページ:https://stem-inv.github.io/page/。

This paper presents a video inversion approach for zero-shot video editing, which models the input video with low-rank representation during the inversion process. The existing video editing methods usually apply the typical 2D DDIM inversion or naive spatial-temporal DDIM inversion before editing, which leverages time-varying representation for each frame to derive noisy latent. Unlike most existing approaches, we propose a Spatial-Temporal Expectation-Maximization (STEM) inversion, which formulates the dense video feature under an expectation-maximization manner and iteratively estimates a more compact basis set to represent the whole video. Each frame applies the fixed and global representation for inversion, which is more friendly for temporal consistency during reconstruction and editing. Extensive qualitative and quantitative experiments demonstrate that our STEM inversion can achieve consistent improvement on two state-of-the-art video editing methods. Project page: https://stem-inv.github.io/page/.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# PySCIPOpt-ML:学習機械学習モデルを混合整数プログラムに組み込む

PySCIPOpt-ML: Embedding Trained Machine Learning Models into Mixed-Integer Programs ( http://arxiv.org/abs/2312.08074v2 )

ライセンス: Link先を確認
Mark Turner, Antonia Chmiela, Thorsten Koch, Michael Winkler, (参考訳) 実世界の最適化問題をモデル化するための標準的なツールはMIP(mixed-integer Programming)である。 しかしながら、これらの問題の多くは、変数間の関係に関する情報が不完全であるか非常に複雑であるため、問題を直接モデル化することは困難または不可能である。 これらのハードルを克服するために、機械学習(ML)予測子は、しばしばこれらの関係を表現するために使用され、その後、代理モデルとしてMIPに埋め込まれる。 利用可能なMLフレームワークの多さと多くのML予測器の複雑さのため、そのような予測器をMIPに定式化するのは、非常に簡単な作業である。 本稿では,トレーニング済みML予測器をMIPに組み込むオープンソースのツールであるPySCIPOpt-MLを紹介する。 PySCIPOpt-MLは、広く使われているMLフレームワークとオープンソースのMIPソルバと直接対面することにより、ML制約を最適化問題に簡単に統合する方法を提供する。 PySCIPOpt-MLとともに、組み込みML制約を持つMIPインスタンスのライブラリであるSurrogateLIBを紹介し、SurrogateLIB上で計算結果を提示する。 このプロジェクトはhttps://github.com/Opt-Mucca/PySCIPOpt-MLで入手できる。

A standard tool for modelling real-world optimisation problems is mixed-integer programming (MIP). However, for many of these problems, information about the relationships between variables is either incomplete or highly complex, making it difficult or even impossible to model the problem directly. To overcome these hurdles, machine learning (ML) predictors are often used to represent these relationships and are then embedded in the MIP as surrogate models. Due to the large amount of available ML frameworks and the complexity of many ML predictors, formulating such predictors into MIPs is a highly non-trivial task. In this paper, we introduce PySCIPOpt-ML, an open-source tool for the automatic formulation and embedding of trained ML predictors into MIPs. By directly interfacing with a broad range of commonly used ML frameworks and an open-source MIP solver, PySCIPOpt-ML provides a way to easily integrate ML constraints into optimisation problems. Alongside PySCIPOpt-ML, we introduce, SurrogateLIB, a library of MIP instances with embedded ML constraints, and present computational results over SurrogateLIB, providing intuition on the scale of ML predictors that can be practically embedded. The project is available at https://github.com/Opt-Mucca/PySCIPOpt-ML.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# スペクトルスペクトルフィルタを用いたグラフニューラルネットワーク

Graph Neural Networks with Diverse Spectral Filtering ( http://arxiv.org/abs/2312.09041v3 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang, (参考訳) スペクトルグラフニューラルネットワーク(GNN)はグラフ機械学習において大きな成功を収めており、グラフ畳み込みに多項式フィルタを適用している。 この成功にもかかわらず、既存のスペクトルGNNは、現実世界のネットワークに見られるような局所的な不均一性を無視した均一なスペクトルフィルタリング設定のため、複雑なネットワーク(例えばWWW)を扱うことができない。 そこで本研究では,ノード固有のフィルタ重み付けを自動的に学習し,局所構造を適切に活用する,新しいスペクトルフィルタリング(DSF)フレームワークを提案する。 特に、多様性のあるフィルタの重みは、すべてのノード間で共有されるグローバルなコンポーネントと、異なるグラフ部分から生じるノードの差を反映するためにネットワークエッジに沿って変化するローカルなコンポーネントの2つから成り立っている。 したがって、グローバルグラフの特徴を捉えるだけでなく、異なるノード位置を認識することで、多様な局所パターンを掘り下げることができる。 興味深いことに、我々は多様なフィルタの学習を支援するために新しい最適化問題を定式化し、また、DSFフレームワークでスペクトルGNNを拡張できます。 本稿では,GPR-GNN,BernNet,JacobiConvの3つの最先端技術に関するフレームワークについて紹介する。 10のベンチマークデータセットに対する大規模な実験により、我々のフレームワークは、ノード分類タスクにおいて最大4.92%のモデル性能を継続的に向上し、解釈可能性を高めた多様なフィルタを作成できることを示した。 コードは \url{https://github.com/jingweio/DSF} で入手できる。

Spectral Graph Neural Networks (GNNs) have achieved tremendous success in graph machine learning, with polynomial filters applied for graph convolutions, where all nodes share the identical filter weights to mine their local contexts. Despite the success, existing spectral GNNs usually fail to deal with complex networks (e.g., WWW) due to such homogeneous spectral filtering setting that ignores the regional heterogeneity as typically seen in real-world networks. To tackle this issue, we propose a novel diverse spectral filtering (DSF) framework, which automatically learns node-specific filter weights to exploit the varying local structure properly. Particularly, the diverse filter weights consist of two components -- A global one shared among all nodes, and a local one that varies along network edges to reflect node difference arising from distinct graph parts -- to balance between local and global information. As such, not only can the global graph characteristics be captured, but also the diverse local patterns can be mined with awareness of different node positions. Interestingly, we formulate a novel optimization problem to assist in learning diverse filters, which also enables us to enhance any spectral GNNs with our DSF framework. We showcase the proposed framework on three state-of-the-arts including GPR-GNN, BernNet, and JacobiConv. Extensive experiments over 10 benchmark datasets demonstrate that our framework can consistently boost model performance by up to 4.92% in node classification tasks, producing diverse filters with enhanced interpretability. Code is available at \url{https://github.com/jingweio/DSF}.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# EVI-SAM:ロバスト、リアルタイム、タイトに結合したイベント-ビジュアル-慣性状態推定と3次元Dense Mapping

EVI-SAM: Robust, Real-time, Tightly-coupled Event-Visual-Inertial State Estimation and 3D Dense Mapping ( http://arxiv.org/abs/2312.11911v3 )

ライセンス: Link先を確認
Weipeng Guan, Peiyu Chen, Huibin Zhao, Yu Wang, Peng Lu, (参考訳) イベントカメラは、バイオインスパイアされたモーションアクティベーションセンサーであり、モーションぼけやハイダイナミックレンジといった困難な状況に対処する上で大きな可能性を示す。 本稿では,単眼イベントカメラを用いた6自由度ポーズトラッキングと3次元再構成の課題に対処するEVI-SAMを提案する。 新しいイベントベースのハイブリッドトラッキングフレームワークは、特徴マッチングの堅牢性と直接アライメントの精度を活用することで、ポーズを推定するように設計されている。 具体的には、イベントベースの2D-2Dアライメントを開発し、光度制約を構築し、イベントベースの再投影制約と密に統合する。 マッピングモジュールは、画像誘導イベントベースのマッピング手法により、シーンの濃密でカラフルな深さを復元する。 その後、3Dシーンの外観、テクスチャ、表面メッシュは、TSDF融合を用いて複数の視点から深度マップを融合することにより再構成することができる。 私たちの知る限りでは、イベントベースの高密度マッピングを実現するための非学習作業としてはこれが初めてです。 本手法の優れた性能を定性的に定量的に示すために,公開データセットと自己収集データセットの両方で数値評価を行った。 我々のEVI-SAMは、計算効率を維持しながら精度と堅牢性を効果的にバランスさせ、挑戦シナリオにおいて優れたポーズ追跡と密集写像性能を示す。 Video Demo: https://youtu.be/Nn40U4e5Si8.com

Event cameras are bio-inspired, motion-activated sensors that demonstrate substantial potential in handling challenging situations, such as motion blur and high-dynamic range. In this paper, we proposed EVI-SAM to tackle the problem of 6 DoF pose tracking and 3D reconstruction using monocular event camera. A novel event-based hybrid tracking framework is designed to estimate the pose, leveraging the robustness of feature matching and the precision of direct alignment. Specifically, we develop an event-based 2D-2D alignment to construct the photometric constraint, and tightly integrate it with the event-based reprojection constraint. The mapping module recovers the dense and colorful depth of the scene through the image-guided event-based mapping method. Subsequently, the appearance, texture, and surface mesh of the 3D scene can be reconstructed by fusing the dense depth map from multiple viewpoints using truncated signed distance function (TSDF) fusion. To the best of our knowledge, this is the first non-learning work to realize event-based dense mapping. Numerical evaluations are performed on both publicly available and self-collected datasets, which qualitatively and quantitatively demonstrate the superior performance of our method. Our EVI-SAM effectively balances accuracy and robustness while maintaining computational efficiency, showcasing superior pose tracking and dense mapping performance in challenging scenarios. Video Demo: https://youtu.be/Nn40U4e5Si8.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 初期量子コヒーレンスをもつ仕事のゆらぎ定理

Work fluctuation theorems with initial quantum coherence ( http://arxiv.org/abs/2312.16227v5 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) ゆらぎ定理は、線形反応則を超えた非平衡熱力学の基本的な結果である。 これらのうち、パラダイム的タサキ・クルークスの揺らぎ定理は、フォワード・オブ・平衡量子過程および対応する後方量子過程においてなされた仕事の統計を関連づける。 特に、2つの過程の初期状態は熱状態であり、したがってエネルギーベースでは不整合である。 本稿では、作業の準確率分布を考慮し、作業変動定理における初期量子コヒーレンスの役割を検討することを目的とする。 これを実現するために、初期量子コヒーレンスがない場合に、タサキ・クルークスの揺らぎ定理を再現する詳細なゆらぎ定理の意義を定式化し、検証する。

Fluctuation theorems are fundamental results in nonequilibrium thermodynamics beyond the linear response regime. Among these, the paradigmatic Tasaki-Crooks fluctuation theorem relates the statistics of the works done in a forward out-of-equilibrium quantum process and in a corresponding backward one. In particular, the initial states of the two processes are thermal states and thus incoherent in the energy basis. Here, we aim to investigate the role of initial quantum coherence in work fluctuation theorems, by considering a quasiprobability distribution of work. To do this, we formulate and examine the implications of a detailed fluctuation theorem, which reproduces the Tasaki-Crooks fluctuation theorem in the absence of initial quantum coherence.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-23
# 高度なテキスト分析情報システム研究のための大規模言語モデル

Large Language Models for Conducting Advanced Text Analytics Information Systems Research ( http://arxiv.org/abs/2312.17278v2 )

ライセンス: Link先を確認
Benjamin M. Ampel, Chi-Heng Yang, James Hu, Hsinchun Chen, (参考訳) デジタルコンテンツの指数的成長は大量のテキストデータセットを生成し、高度な分析的アプローチを必要とする。 大規模言語モデル(LLM)は、巨大な構造化されていないテキストデータセットから洞察を処理および抽出できるツールとして登場した。 しかし、テキスト分析情報システム(IS)研究にLLMを利用する方法はまだ不明である。 LLMの運用方法を理解する上で,ISコミュニティを支援するために,情報システム研究のためのテキスト分析フレームワーク(TAISR)を提案する。 提案フレームワークは,IS と LLM の文献に根ざした,有意義なテキスト分析の実施方法に関する詳細な勧告を提供する。 我々は、AISRフレームワークを用いたビジネスインテリジェンスケーススタディを3回実施し、いくつかのIS研究状況においてその応用を実証した。 また、IS に LLM を採用する際の潜在的な課題と限界についても概説する。 我々のTAISRフレームワークは、その実用性に関する体系的なアプローチと証拠を提供することで、テキスト分析に強力なLLMを組み込もうとする将来のIS研究ストリームに寄与する。

The exponential growth of digital content has generated massive textual datasets, necessitating the use of advanced analytical approaches. Large Language Models (LLMs) have emerged as tools that are capable of processing and extracting insights from massive unstructured textual datasets. However, how to leverage LLMs for text analytics Information Systems (IS) research is currently unclear. To assist the IS community in understanding how to operationalize LLMs, we propose a Text Analytics for Information Systems Research (TAISR) framework. Our proposed framework provides detailed recommendations grounded in IS and LLM literature on how to conduct meaningful text analytics IS research for design science, behavioral, and econometric streams. We conducted three business intelligence case studies using our TAISR framework to demonstrate its application in several IS research contexts. We also outline the potential challenges and limitations of adopting LLMs for IS. By offering a systematic approach and evidence of its utility, our TAISR framework contributes to future IS research streams looking to incorporate powerful LLMs for text analytics.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# ALF: シーングラフ生成のための適応ラベルファインタニング

ALF: Adaptive Label Finetuning for Scene Graph Generation ( http://arxiv.org/abs/2312.17425v2 )

ライセンス: Link先を確認
Qishen Chen, Jianzhi Liu, Xinyu Lyu, Lianli Gao, Heng Tao Shen, Jingkuan Song, (参考訳) シーングラフ生成(SGG)は、与えられた画像内の被写体とオブジェクトの関係を予測する。 それでも、関係の長い尾の分布は、しばしば粗いラベルの偏りの予測をもたらし、SGGにおいてかなりのハードルとなる。 この問題に対処するため、研究者たちは偏見のないSGGに注目し、データセット全体にわたって粗い粒度の述語をきめ細かいものに転送するデータ転送手法を導入している。 しかし、これらの手法は2つの主要な課題に直面する。 1) 対象と対象のペアが課す固有の文脈制約を見落とし, 誤った関係の移譲につながる。 2)データ転送後に新たな再学習プロセスが必要となり,計算コストが大幅に増大する。 これらの制限を克服するため、SGGにおける最初のプラグアンドプレイワンステージデータ転送パイプラインであるAdaptive Label Finetuning (ALF)を導入する。 具体的には、ALFはAdaptive Label Construction(ALC)とAdaptive Iterative Learning(AIL)の2つのコンポーネントから構成される。 関係空間内での述語-文脈制約を付与することにより、ALCはモデルの予測ロジットに関する候補関係を適応的に再ランクし、選択し、ロバストな関係伝達を達成する。 ALCによって転送されたラベルで監督され、AILは自動回帰的な方法でSGGモデルを反復的に微調整し、再学習プロセスから生じるかなりの計算コストを軽減した。 大規模な実験により、ALFは一般的なSGG法であるMotifに比べてmR@100が16%向上し、最先端のIETransに比べて計算コストが6%上昇した。

Scene Graph Generation (SGG) endeavors to predict the relationships between subjects and objects in a given image. Nevertheless, the long-tail distribution of relations often leads to biased prediction on coarse labels, presenting a substantial hurdle in SGG. To address this issue, researchers focus on unbiased SGG and introduce data transfer methods to transfer coarse-grained predicates into fine-grained ones across the entire dataset. However, these methods encounter two primary challenges: 1) They overlook the inherent context constraints imposed by subject-object pairs, leading to erroneous relations transfer. 2) Additional retraining process are required after the data transfer, which incurs substantial computational costs. To overcome these limitations, we introduce the first plug-and-play one-stage data transfer pipeline in SGG, termed Adaptive Label Finetuning (ALF), which eliminates the need for extra retraining sessions and meanwhile significantly enhance models' relation recognition capability across various SGG benchmark approaches. Specifically, ALF consists of two components: Adaptive Label Construction (ALC) and Adaptive Iterative Learning (AIL). By imposing Predicate-Context Constraints within relation space, ALC adaptively re-ranks and selects candidate relations in reference to model's predictive logits utilizing the Restriction-Based Judgment techniques, achieving robust relation transfer. Supervised with labels transferred by ALC, AIL iteratively finetunes the SGG models in an auto-regressive manner, which mitigates the substantial computational costs arising from the retraining process. Extensive experiments demonstrate that ALF achieves a 16% improvement in mR@100 compared to the typical SGG method Motif, with only a 6% increase in calculation costs compared to the state-of-the-art method IETrans.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# マルチスケール・ビジョン・トランスフォーマーが2部マッチングに到達して効率的なワンステージアクション・ローカライゼーション

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization ( http://arxiv.org/abs/2312.17686v2 )

ライセンス: Link先を確認
Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos, (参考訳) アクションローカライゼーション(Action Localization)は、検出タスクと認識タスクを組み合わせた困難な問題である。 State-of-the-artメソッドは、高解像度で事前計算された既成の既成境界ボックス検出に依存し、分類タスクのみに焦点を当てたトランスフォーマーモデルを提案する。 このような2段階のソリューションは、リアルタイムデプロイメントでは禁じられている。 一方、シングルステージの手法は、ネットワークの一部(一般的にはバックボーン)を作業負荷の大部分を共有に分割することで、両方のタスクをターゲットとすることで、パフォーマンスを向上する。 これらの方法は、学習可能なクエリでDETRヘッドを追加することで構築され、クロスアテンションとセルフアテンションの後、対応するMLPに送信して、人のバウンディングボックスとアクションを検出する。 しかし、DETRのようなアーキテクチャはトレーニングが困難であり、大きな複雑さを引き起こす可能性がある。 本稿では, 視覚変換器の出力トークンに対して, 直列二部整合損失が適用可能であることを観察する。 これにより、余分なエンコーダ-デコーダヘッドと学習可能なクエリを必要とせずに両方のタスクを実行できるバックボーン+MPPアーキテクチャが実現される。 両タスクを両パートマッチングでトレーニングした単一のMViTv2-Sアーキテクチャが,RoIで事前計算した有界ボックス上でトレーニングした場合,同一のMViTv2-Sを超えることを示す。 トークンプーリングとトレーニングパイプラインの注意深い設計により、当社のBipartite-Matching Vision Transformerモデルである \textbf{BMViT} は、AVA2.2上で +3 mAP を達成する。 2段式MViTv2-S。 コードは \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT} で公開されている。

Action Localization is a challenging problem that combines detection and recognition tasks, which are often addressed separately. State-of-the-art methods rely on off-the-shelf bounding box detections pre-computed at high resolution, and propose transformer models that focus on the classification task alone. Such two-stage solutions are prohibitive for real-time deployment. On the other hand, single-stage methods target both tasks by devoting part of the network (generally the backbone) to sharing the majority of the workload, compromising performance for speed. These methods build on adding a DETR head with learnable queries that after cross- and self-attention can be sent to corresponding MLPs for detecting a person's bounding box and action. However, DETR-like architectures are challenging to train and can incur in big complexity. In this paper, we observe that \textbf{a straight bipartite matching loss can be applied to the output tokens of a vision transformer}. This results in a backbone + MLP architecture that can do both tasks without the need of an extra encoder-decoder head and learnable queries. We show that a single MViTv2-S architecture trained with bipartite matching to perform both tasks surpasses the same MViTv2-S when trained with RoI align on pre-computed bounding boxes. With a careful design of token pooling and the proposed training pipeline, our Bipartite-Matching Vision Transformer model, \textbf{BMViT}, achieves +3 mAP on AVA2.2. w.r.t. the two-stage MViTv2-S counterpart. Code is available at \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT}
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# Ravnest: 異種デバイス上での分散非同期トレーニング

Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices ( http://arxiv.org/abs/2401.01728v2 )

ライセンス: Link先を確認
Anirudh Rajiv Menon, Unnikrishnan Menon, Kailash Ahirwar, (参考訳) より大きく複雑に成長する現代のディープラーニングモデルは、巨大なデータセットのトレーニングによって、例外的な一般化と精度を実証している。 この傾向は続くと予想されている。 しかしながら、これらのモデルのサイズが大きくなると、従来の集中型メソッドはそのようなスケールでのメモリ制約によって制限されるため、トレーニングの課題が生じる。 本稿では,インターネット上のリソースが限られている常用異種PCの計算能力を利用して,高性能な性能指標を実現することを目的とした,大規模ディープラーニングモデルのための非同期分散学習パラダイムを提案する。 Ravnestは、各ノードがモデル全体をホストすることを必要とせず、同じデータ転送率と計算能力を持つクラスタに効率的に計算ノードを配置することで、分散トレーニングを促進する。 これらのクラスタは、$\textit{Zero-Bubble Asynchronous Model Parallel}$トレーニングに従事し、$\textit{Parallel Multi-Ring All-Reduce}$メソッドを使用して、すべてのクラスタにわたるグローバルパラメータ平均化を効果的に実行する。 遅延更新を伴うブロック構造最適化問題として非同期SGD損失関数をフレーム化して,最適な収束率を$O\left(\frac{1}{\sqrt{K}}\right)$とする。 さらに、参加クラスタの数と安定度パラメータのバウンダリについて、線形スピードアップについて論じる。

Modern deep learning models, growing larger and more complex, have demonstrated exceptional generalization and accuracy due to training on huge datasets. This trend is expected to continue. However, the increasing size of these models poses challenges in training, as traditional centralized methods are limited by memory constraints at such scales. This paper proposes an asynchronous decentralized training paradigm for large modern deep learning models that harnesses the compute power of regular heterogeneous PCs with limited resources connected across the internet to achieve favourable performance metrics. Ravnest facilitates decentralized training by efficiently organizing compute nodes into clusters with similar data transfer rates and compute capabilities, without necessitating that each node hosts the entire model. These clusters engage in $\textit{Zero-Bubble Asynchronous Model Parallel}$ training, and a $\textit{Parallel Multi-Ring All-Reduce}$ method is employed to effectively execute global parameter averaging across all clusters. We have framed our asynchronous SGD loss function as a block structured optimization problem with delayed updates and derived an optimal convergence rate of $O\left(\frac{1}{\sqrt{K}}\right)$. We further discuss linear speedup with respect to the number of participating clusters and the bound on the staleness parameter.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# 集積量子チップにおける相関ノイズに対するロバスト量子ゲート

Robust Quantum Gates against Correlated Noise in Integrated Quantum Chips ( http://arxiv.org/abs/2401.01810v3 )

ライセンス: Link先を確認
Kangyuan Yi, Yong-Ju Hai, Kai Luo, Ji Chu, Libo Zhang, Yuxuan Zhou, Yao Song, Song Liu, Tongxing Yan, Xiu-Hao Deng, Yuanzhen Chen, Dapeng Yu, (参考訳) 量子回路がより統合され複雑になるにつれて、それまで重要ではなかった追加のエラー源が出現し始める。 その結果、プリスタントな条件下でベンチマークされた量子ゲートの忠実さは、現実的な回路での性能を予測できない。 この問題を克服するためには、分離された忠実性以外に、関連するエラーモデルに対するロバスト性を改善する必要がある。 本稿では,超伝導量子回路におけるロバストな量子ゲートの実験的実現を,様々なゲートエラーの診断と修正のための幾何学的枠組みに基づいて報告する。 量子プロセストモグラフィとランダム化ベンチマークを用いて、大規模量子回路におけるコヒーレントエラーの共通源である準静電ノイズと空間相関ノイズに対して、ロバストな単一量子ビットゲートを実証する。 また,本手法を非定常雑音に適用し,ロバストな2量子ゲートを実現する。 我々の研究は、ノイズ耐性複素量子回路を実現するための汎用的なツールボックスを提供する。

As quantum circuits become more integrated and complex, additional error sources that were previously insignificant start to emerge. Consequently, the fidelity of quantum gates benchmarked under pristine conditions falls short of predicting their performance in realistic circuits. To overcome this problem, we must improve their robustness against pertinent error models besides isolated fidelity. Here we report the experimental realization of robust quantum gates in superconducting quantum circuits based on a geometric framework for diagnosing and correcting various gate errors. Using quantum process tomography and randomized benchmarking, we demonstrate robust single-qubit gates against quasi-static noise and spatially-correlated noise in a broad range of strengths, which are common sources of coherent errors in large-scale quantum circuit. We also apply our method to non-static noises and to realize robust two-qubit gates. Our work provides a versatile toolbox for achieving noise-resilient complex quantum circuits.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# TransliCo:多言語事前学習言語モデルにおけるスクリプトバリアに対処するコントラスト学習フレームワーク

TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2401.06620v2 )

ライセンス: Link先を確認
Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze, (参考訳) 7000以上の言語が293のスクリプトで書かれている。 様々な理由から、多くの近縁言語は異なるスクリプトを使用しており、語彙重なりを通じて言語間知識を学ぶのに多言語事前学習言語モデル(mPLM)では困難である。 その結果、mPLMはスクリプト障壁に直面し、異なるスクリプトからの表現は異なるサブスペースに配置され、異なるスクリプトの言語が亜最適に実行するような言語間移動をもたらす可能性がある。 この問題に対処するため,TransliCoを提案する。Transliteration Contrastive Modeling (TCM) の目的を最適化するフレームワークで,トレーニングデータ中の文と,異なるスクリプトの表現空間における均一性を向上する統一スクリプト(この場合,ラテン文字)の文を対比することにより,mPLMを微調整する。 500以上の言語で事前訓練されたmPLMであるGlot500-mをソースモデルとして、トレーニングデータのごく一部(5%)で微調整し、その結果のモデルをFurinaと呼ぶ。 Furinaは、異なるスクリプトから表現をコーディネートするだけでなく、さまざまなゼロショットのクロスリンガル転送タスクにおいて、オリジナルのGlot500-mよりも優れていることを示す。 さらに,言語が言語の特徴を示すが異なるスクリプトを使用するIndicグループにおけるケーススタディにおいて,一貫した改善を実現している。 コードとモデルを公開しています。

The world's more than 7000 languages are written in at least 293 scripts. Due to various reasons, many closely related languages use different scripts, which poses a difficulty for multilingual pretrained language models (mPLMs) in learning crosslingual knowledge through lexical overlap. As a consequence, mPLMs are faced with a script barrier: representations from different scripts are located in different subspaces, which can result in crosslingual transfer involving languages of different scripts performing suboptimally. To address this problem, we propose TransliCo, a framework that optimizes the Transliteration Contrastive Modeling (TCM) objective to fine-tune an mPLM by contrasting sentences in its training data and their transliterations in a unified script (in our case Latin), which enhances uniformity in the representation space for different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages, as our source model, we fine-tune it on a small portion (5%) of its training data, and refer to the resulting model as Furina. We show that Furina not only better aligns representations from distinct scripts but also outperforms the original Glot500-m on various zero-shot crosslingual transfer tasks. Additionally, we achieve consistent improvement in a case study on the Indic group where the languages exhibit areal features but use different scripts. We make our code and models publicly available.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-23
# 液体抽出誘導体(LSD)を用いたレバレッジ・ステーク--機会とリスク

Leverage Staking with Liquid Staking Derivatives (LSDs): Opportunities and Risks ( http://arxiv.org/abs/2401.08610v3 )

ライセンス: Link先を確認
Xihan Xiong, Zhipeng Wang, Xi Chen, William Knottenbelt, Michael Huth, (参考訳) Proof of Stake (PoS) Ethereumエコシステムでは、ユーザは、ETHをLidoに賭けて、ETHの利害関係を表すLSD(Liquid Stake Derivative)であるstETHを受け取ることができる。 LSDは、Aaveでの担保付き借り入れやCurveでの資産交換など、二次市場での利用を促進することで、保有資産の流動性を向上させる。 Lido、Aave、Curveのコンポーザビリティは、ユーザがETHを借りてより多くのstETHを取得するためにAaveに担保としてstETHを供給し、レバレッジ・ステークとして知られる新たな戦略を可能にする。 これは、最初はLidoでETHを、間接的にはCurveでstETHにETHを切り替えることによって直接できる。 この反復的プロセスは金融リターンを高める一方で、潜在的なリスクももたらします。 本稿では,レバレッジ・ステークの機会とリスクについて考察する。 stETHの活用のための公式なフレームワークを確立し,Ethereum上の442個の位置を963日間にわたって識別する。 これらの位置は総体積537,123 ETH (877m USD)である。 我々のデータによると、レバレッジ・ステークの過半数(81.7%)が、従来のリド・ステークよりも年間パーセンテージ・レート(APR)を達成している。 高いリターンにもかかわらず、レバレッジ・ステークのリスクも認識しています。 Terraのクラッシュインシデントから、トークンの切り下げが市場に大きな影響を与えることを理解しています。 したがって, 過酷な条件, 特に stETH 評価において, ストレステストを実施し, 関連するリスクを徹底的に評価する。 シミュレーションにより,レバレッジ・ステークは,液化および除染活動による追加販売圧力を導入することにより,カスケード液化のリスクを悪化させる可能性が示唆された。 さらに、この戦略は、液状化を強化することによって通常の位置の安定性を損なうため、より広範なシステム的リスクをもたらす。

In the Proof of Stake (PoS) Ethereum ecosystem, users can stake ETH on Lido to receive stETH, a Liquid Staking Derivative (LSD) that represents staked ETH and accrues staking rewards. LSDs improve the liquidity of staked assets by facilitating their use in secondary markets, such as for collateralized borrowing on Aave or asset exchanges on Curve. The composability of Lido, Aave, and Curve enables an emerging strategy known as leverage staking, where users supply stETH as collateral on Aave to borrow ETH and then acquire more stETH. This can be done directly by initially staking ETH on Lido or indirectly by swapping ETH for stETH on Curve. While this iterative process enhances financial returns, it also introduces potential risks. This paper explores the opportunities and risks of leverage staking. We establish a formal framework for leverage staking with stETH and identify 442 such positions on Ethereum over 963 days. These positions represent a total volume of 537,123 ETH (877m USD). Our data reveal that the majority (81.7%) of leverage staking positions achieved an Annual Percentage Rate (APR) higher than that of conventional staking on Lido. Despite the high returns, we also recognize the risks of leverage staking. From the Terra crash incident, we understand that token devaluation can greatly impact the market. Therefore, we conduct stress tests under extreme conditions, particularly during stETH devaluations, to thoroughly evaluate the associated risks. Our simulations indicate that leverage staking can exacerbate the risk of cascading liquidations by introducing additional selling pressures from liquidation and deleveraging activities. Moreover, this strategy poses broader systemic risks as it undermines the stability of ordinary positions by intensifying their liquidations.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# 空間適応フィルタを用いたスペクトルグラフニューラルネットワークの再検討

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering ( http://arxiv.org/abs/2401.09071v4 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Zixian Su, Rui Zhang, (参考訳) スペクトルグラフニューラルネットワーク(GNN)は理論的にはスペクトル領域において十分に基礎を置いているが、それらの多項式近似への実践的依存は空間領域への深いリンクを意味する。 前回の研究では、空間的視点からスペクトルGNNを調べることはめったにないが、それらの空間領域の解釈性は、例えば空間領域におけるスペクトルGNNによって本質的にエンコードされている情報とは何か? 本稿では,スペクトルフィルタリングと空間アグリゲーションの理論的関係を考察し,スペクトルフィルタリングが空間アグリゲーションのために明示的に計算された元のグラフを適応した新しいグラフに暗黙的に導く,本質的な相互作用を明らかにする。 理論的および実証的研究の両方で、適応された新しいグラフは非局所性を示すだけでなく、ノード間のラベルの一貫性を反映する符号付きエッジウェイトも備えていることが明らかになった。 これらの結果は、空間領域におけるスペクトルGNNの解釈可能な役割を強調し、グローバル情報を無視した固定順序多項式以外のグラフスペクトルフィルタを再考するきっかけとなった。 この理論的な知見に基づいて、我々は最先端のスペクトルGNNを再検討し、新しい空間適応フィルタリング(SAF)フレームワークを提案する。 特に,我々のSAFは,ノードの類似性と相似性の両方を大域的観点から包括的にモデル化し,長距離依存やグラフヘテロフィリーに関連するGNNの持続的欠陥を軽減する。 13のノード分類ベンチマークに対する大規模な実験は、提案したフレームワークが最先端の手法よりも優れていることを示す。

Whilst spectral Graph Neural Networks (GNNs) are theoretically well-founded in the spectral domain, their practical reliance on polynomial approximation implies a profound linkage to the spatial domain. As previous studies rarely examine spectral GNNs from the spatial perspective, their spatial-domain interpretability remains elusive, e.g., what information is essentially encoded by spectral GNNs in the spatial domain? In this paper, to answer this question, we investigate the theoretical connection between spectral filtering and spatial aggregation, unveiling an intrinsic interaction that spectral filtering implicitly leads the original graph to an adapted new graph, explicitly computed for spatial aggregation. Both theoretical and empirical investigations reveal that the adapted new graph not only exhibits non-locality but also accommodates signed edge weights to reflect label consistency among nodes. These findings thus highlight the interpretable role of spectral GNNs in the spatial domain and inspire us to rethink graph spectral filters beyond the fixed-order polynomials, which neglect global information. Built upon the theoretical findings, we revisit the state-of-the-art spectral GNNs and propose a novel Spatially Adaptive Filtering (SAF) framework, which leverages the adapted new graph by spectral filtering for an auxiliary non-local aggregation. Notably, our SAF comprehensively models both node similarity and dissimilarity from a global perspective, therefore alleviating persistent deficiencies of GNNs related to long-range dependencies and graph heterophily. Extensive experiments over 13 node classification benchmarks demonstrate the superiority of our proposed framework to the state-of-the-art methods.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# インフレーションのクリロフ複雑性

Inflationary Krylov complexity ( http://arxiv.org/abs/2401.09307v4 )

ライセンス: Link先を確認
Tao Li, Lei-Hua Liu, (参考訳) 本研究では, 閉系および開系のアルゴリズムを用いて, インフレーションの変分関係に対する曲率摂動のKrylov複雑性を系統的に検討した。 我々の分析は最もインフレ率の高いモデルに適用できる。 ランツォスのアルゴリズムに従えば、初期の宇宙は無限、多体、最大カオス系であることが分かる。 我々の数値は、標準分散関係のLanczos係数とLyapunov指数が主にスケール係数によって決定されることを示している。 修正の場合、運動量によってほぼ決定される。 閉系の手法では、水平線が抜ける前にクリロフ複雑性が不規則な振動を示すことが分かる。 修正されたケースは、地平線が存在すればより高速な成長を示す。 宇宙全体がオープンシステムであるため、オープンシステムのアプローチはより現実的で信頼性が高い。 そして、Lanczos係数を$n$(主量子数)に比例させるだけで非常に頑健な正確な波動関数を構築する。 これに基づいて、Krylov複雑性とKrylovエントロピーは、弱散逸近似の下で閉じた系の場合、十分に回復可能であることを発見し、この分析により、Krylov複雑性の進化は元の状況と変わらないことを示した。 また、インフレ期は強い散逸期であることもわかっています。 一方、我々の数値は、Krylovの複雑さがインフレ期間中に大きくなることを明らかに示しています。 しかし、小さなスケールでは、地平線が消えるとピークになる。 分析の結果,背景の劇的な変化(インフレ)がクリロフ複雑性の進化に大きな影響を及ぼすことが明らかとなった。 曲率摂動は量子レベルから古典レベルに遷移する。

In this work, we have systematically investigated the Krylov complexity of curvature perturbation for the modified dispersion relation in inflation, using the algorithm in closed system and open system. Our analysis could be applied to the most inflationary models. Following the Lanczos algorithm, we find the very early universe is an infinite, many-body, and maximal chaotic system. Our numerics shows that the Lanczos coefficient and Lyapunov index of the standard dispersion relation are mainly determined by the scale factor. As for the modified case, it is nearly determined by the momentum. In a method of the closed system, we discover that the Krylov complexity will show irregular oscillation before the horizon exits. The modified case will present faster growth after the horizon exists. Since the whole universe is an open system, the approach of an open system is more realistic and reliable. Then, we construct the exact wave function which is very robust only requiring the Lanczos coefficient proportional to $n$ (main quantum number). Based on it, we find the Krylov complexity and Krylov entropy could nicely recover in the case of a closed system under the weak dissipative approximation, in which our analysis shows that the evolution of Krylov complexity will not be the same with the original situation. We also find the inflationary period is a strong dissipative system. Meanwhile, our numerics clearly shows the Krylov complexity will grow during the whole inflationary period. But for the small scales, there will be a peak after the horizon exits. Our analysis reveals that the dramatic change in background (inflation) will significantly impact the evolution of Krylov complexity. Since the curvature perturbation will transit from the quantum level to the classical level.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# MorphGrower: プラウシブル神経形態形成のためのシンクロナイズド・レイヤ・バイ・レイヤー成長アプローチ

MorphGrower: A Synchronized Layer-by-layer Growing Approach for Plausible Neuronal Morphology Generation ( http://arxiv.org/abs/2401.09500v2 )

ライセンス: Link先を確認
Nianzu Yang, Kaipeng Zeng, Haotian Lu, Yexin Wu, Zexin Yuan, Danni Chen, Shengdian Jiang, Jiaxiang Wu, Yimin Wang, Junchi Yan, (参考訳) 神経形態学は脳の機能研究と神経変性疾患の理解に不可欠である。 実世界の形態データの取得は費用がかかるため、形態素生成のための計算手法が研究されている。 従来の手法はエキスパートセットのルールやパラメータのチューニングに大きく依存しており、様々な形態素をまたいだ一般化が困難である。 近年、MorphVAEは単独の学習法として導入されているが、その生成形態は妥当性に欠けており、現実的には見えず、ほとんどのサンプルは位相的に無効である。 このギャップを埋めるために、生成のためのニューロンの自然成長機構を模倣したMorphGrowerを提案する。 具体的には、MorphGrowerは層ごとにモルフォロジー層を生成し、その後の各層は以前に生成された構造に条件付けされる。 各レイヤ生成において、MorphGrowerは、基本的な生成ブロックとして、一対の兄弟ブランチを使用し、同期的にブランチペアを生成する。 このアプローチは位相的妥当性を保証し、きめ細かな生成を可能にし、最終的な生成形態の現実性を高める。 4つの実世界のデータセットの結果、MorphGrowerはMorphVAEを顕著な差で上回っている。 重要なことに、電気生理学的反応シミュレーションは、神経科学の観点から生成されたサンプルの妥当性を示す。 私たちのコードはhttps://github.com/Thinklab-SJTU/MorphGrower.comで公開されています。

Neuronal morphology is essential for studying brain functioning and understanding neurodegenerative disorders. As acquiring real-world morphology data is expensive, computational approaches for morphology generation have been studied. Traditional methods heavily rely on expert-set rules and parameter tuning, making it difficult to generalize across different types of morphologies. Recently, MorphVAE was introduced as the sole learning-based method, but its generated morphologies lack plausibility, i.e., they do not appear realistic enough and most of the generated samples are topologically invalid. To fill this gap, this paper proposes MorphGrower, which mimicks the neuron natural growth mechanism for generation. Specifically, MorphGrower generates morphologies layer by layer, with each subsequent layer conditioned on the previously generated structure. During each layer generation, MorphGrower utilizes a pair of sibling branches as the basic generation block and generates branch pairs synchronously. This approach ensures topological validity and allows for fine-grained generation, thereby enhancing the realism of the final generated morphologies. Results on four real-world datasets demonstrate that MorphGrower outperforms MorphVAE by a notable margin. Importantly, the electrophysiological response simulation demonstrates the plausibility of our generated samples from a neuroscience perspective. Our code is available at https://github.com/Thinklab-SJTU/MorphGrower.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# 大規模言語モデルは、オンライン食生活障害における不健康な食事と身体の心配を解消する

Large Language Models Help Reveal Unhealthy Diet and Body Concerns in Online Eating Disorders Communities ( http://arxiv.org/abs/2401.09647v2 )

ライセンス: Link先を確認
Minh Duc Chu, Zihao He, Rebecca Dorn, Kristina Lerman, (参考訳) 摂食障害(英語: Eating disorders, ED)は、死亡率と死亡率が高い重度の精神疾患であり、世界中の数百万人、特に青年に影響を及ぼす。 EDを宣伝し、標準化するオンラインコミュニティの急増は、この公衆衛生危機に結びついている。 しかし、コード化された言語やその他の難読化のために有害なコミュニティを特定することは困難である。 この課題に対処するために,大規模言語モデル(LLM)をコミュニティの言語に適応させることにより,オンラインコミュニティの暗黙の態度を明らかにする新しい枠組みを提案する。 本稿では,アライメント手法を記述し,セマンティクスと影響の複数の次元に沿って結果を評価する。 次に,コミュニティ対応のLCMを用いて,個人におけるEDの識別を目的とした心理測定質問紙に回答する。 我々は, LLM がコミュニティ特有の視点を効果的に適用し, 異なるオンラインコミュニティにおける摂食障害リスクの顕著な変動を明らかにすることを実証した。 これらの知見は、コミュニティの暗黙の態度と集団的考え方を明らかにするためのLCMの有用性を強調し、ソーシャルメディア上で有害コンテンツを緩和するための新しいツールを提供する。

Eating disorders (ED), a severe mental health condition with high rates of mortality and morbidity, affect millions of people globally, especially adolescents. The proliferation of online communities that promote and normalize ED has been linked to this public health crisis. However, identifying harmful communities is challenging due to the use of coded language and other obfuscations. To address this challenge, we propose a novel framework to surface implicit attitudes of online communities by adapting large language models (LLMs) to the language of the community. We describe an alignment method and evaluate results along multiple dimensions of semantics and affect. We then use the community-aligned LLM to respond to psychometric questionnaires designed to identify ED in individuals. We demonstrate that LLMs can effectively adopt community-specific perspectives and reveal significant variations in eating disorder risks in different online communities. These findings highlight the utility of LLMs to reveal implicit attitudes and collective mindsets of communities, offering new tools for mitigating harmful content on social media.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# グローキングの視点からみた言語モデルの臨界データサイズ

Critical Data Size of Language Models from a Grokking Perspective ( http://arxiv.org/abs/2401.10463v3 )

ライセンス: Link先を確認
Xuekai Zhu, Yao Fu, Bowen Zhou, Zhouhan Lin, (参考訳) 言語モデルにおける臨界データサイズについて検討する。これは、早めの記憶から緩やかな一般化への根本的なシフトを示すしきい値である。 我々は,データ効率仮説(Data efficiency hypothesis)のグラッキング構成の下で相転移を定式化し,動的に学習する言語モデルにおけるデータ不十分性,十分性,余剰な規則を同定する。 我々は、初期化と重み劣化を再スケーリングすることで、単純化された言語モデル上でグラッキングを安定的に再現するためのグラッキング構成を開発する。 一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。 提案したデータ効率仮説を検証し,サンプル単位およびモデル単位のグルーキングを解析する。 実験の結果,言語データセットのクリティカルデータセットサイズで発生するスムーズな相転移が明らかになった。 モデルのサイズが大きくなると、この臨界点も大きくなり、より大きなモデルにはより多くのデータが必要であることを示す。 その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。

We explore the critical data size in language models, a threshold that marks a fundamental shift from quick memorization to slow generalization. We formalize the phase transition under the grokking configuration into the Data Efficiency Hypothesis and identify data insufficiency, sufficiency, and surplus regimes in language models training dynamics. We develop a grokking configuration to reproduce grokking on simplistic language models stably by rescaling initialization and weight decay. We show that generalization occurs only when language models reach a critical size. We analyze grokking across sample-wise and model-wise, verifying the proposed data efficiency hypothesis. Our experiments reveal smoother phase transitions occurring at the critical dataset size for language datasets. As the model size increases, this critical point also becomes larger, indicating that larger models require more data. Our results deepen the understanding of language model training, offering a novel perspective on the role of data in the learning mechanism of language models.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# 脳波復号のための深層学習によるユークリッドアライメントの体系的評価

A Systematic Evaluation of Euclidean Alignment with Deep Learning for EEG Decoding ( http://arxiv.org/abs/2401.10746v4 )

ライセンス: Link先を確認
Bruna Junqueira, Bruno Aristimunha, Sylvain Chevallier, Raphael Y. de Camargo, (参考訳) 脳波(EEG)信号は脳-コンピュータインタフェース(BCI)の様々なタスクに頻繁に使用される。 ディープラーニング(DL)技術は有望な結果を示しているが、かなりのデータ要件によって妨げられている。 複数の被験者のデータを活用することで、トランスファーラーニングはDLモデルのより効果的なトレーニングを可能にする。 ユークリッドアライメント(Euclidean Alignment, EA)は、使いやすさ、計算の複雑さの低さ、ディープラーニングモデルとの互換性などによって人気を博しているテクニックである。 しかし、共有DLモデルと個別DLモデルのトレーニング性能に与える影響を評価する研究はほとんどない。 本研究では,BCI信号の復号化におけるEAとDLの併用効果を系統的に評価する。 EAを用いて複数の被験者のデータを共有モデルで学習し,新しい被験者への伝達性を評価した。 実験の結果,対象対象物の復号化を4.33%改善し,収束時間を70%以上短縮できることがわかった。 また,各被験者の個別モデルを,多数投票型アンサンブル分類器として使用するように訓練した。 このシナリオでは、EAを使用して3モデルアンサンブルの精度を3.7%改善した。 しかし、EAとの共有モデルと比較すると、アンサンブルの精度は3.62%低かった。

Electroencephalography (EEG) signals are frequently used for various Brain-Computer Interface (BCI) tasks. While Deep Learning (DL) techniques have shown promising results, they are hindered by the substantial data requirements. By leveraging data from multiple subjects, transfer learning enables more effective training of DL models. A technique that is gaining popularity is Euclidean Alignment (EA) due to its ease of use, low computational complexity, and compatibility with Deep Learning models. However, few studies evaluate its impact on the training performance of shared and individual DL models. In this work, we systematically evaluate the effect of EA combined with DL for decoding BCI signals. We used EA to train shared models with data from multiple subjects and evaluated its transferability to new subjects. Our experimental results show that it improves decoding in the target subject by 4.33% and decreases convergence time by more than 70%. We also trained individual models for each subject to use as a majority-voting ensemble classifier. In this scenario, using EA improved the 3-model ensemble accuracy by 3.7%. However, when compared to the shared model with EA, the ensemble accuracy was 3.62% lower.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-23
# 収縮拡散確率モデル

Contractive Diffusion Probabilistic Models ( http://arxiv.org/abs/2401.13115v2 )

ライセンス: Link先を確認
Wenpin Tang, Hanyang Zhao, (参考訳) 拡散確率モデル (DPM) は生成的モデリングにおいて有望な手法である。 DPMの成功は、拡散過程の時間反転とスコアマッチングという2つの要素に依存している。 ほとんどの既存の研究は、スコアマッチングが完璧に近いと暗黙的に仮定しているが、この仮定は疑わしい。 そこで本研究では,DPMの設計における後方サンプリングの収縮という新たな基準を提案し,新たなDPM(Contractive DPMs)のクラスを導出する。 重要な洞察は、後方プロセスにおける収縮は、一致した誤差と離散化エラーを狭めることができるということである。 したがって、提案したCDPMは、両方のエラー源に対して堅牢である。 実用上,CDPMは単純な変換で事前学習したDPMを活用でき,再学習は不要である。 我々は、Swiss Roll、MNIST、CIFAR-10 32$\times$32、AFHQ 64$\times$64といった合成1次元のサンプルの実験によって、我々のアプローチを裏付けた。 特に、CDPMは、すべてのSDEベースのDPMの中で最高のパフォーマンスを示している。

Diffusion probabilistic models (DPMs) have emerged as a promising technique in generative modeling. The success of DPMs relies on two ingredients: time reversal of diffusion processes and score matching. Most existing works implicitly assume that score matching is close to perfect, while this assumption is questionable. In view of possibly unguaranteed score matching, we propose a new criterion -- the contraction of backward sampling in the design of DPMs, leading to a novel class of contractive DPMs (CDPMs). The key insight is that the contraction in the backward process can narrow score matching errors and discretization errors. Thus, our proposed CDPMs are robust to both sources of error. For practical use, we show that CDPM can leverage pretrained DPMs by a simple transformation, and does not need retraining. We corroborated our approach by experiments on synthetic 1-dim examples, Swiss Roll, MNIST, CIFAR-10 32$\times$32 and AFHQ 64$\times$64 dataset. Notably, CDPM shows the best performance among all known SDE-based DPMs.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-23
# LocMoE: 大規模言語モデルトレーニングのための低オーバーヘッドMoE

LocMoE: A Low-Overhead MoE for Large Language Model Training ( http://arxiv.org/abs/2401.13920v3 )

ライセンス: Link先を確認
Jing Li, Zhijie Sun, Xuan He, Li Zeng, Yi Lin, Entong Li, Binfan Zheng, Rongqian Zhao, Xin Chen, (参考訳) Mixtures-of-Experts (MoE) モデルは,大規模言語モデル (LLM) のための分散統合学習手法である。 しかし、MoEの性能は、負荷不均衡とAll-to-All通信のレイテンシによって制限され、また、専門家の能力が大きいため、比較的冗長な計算が可能である。 負荷の不均衡は、特定の専門家を一貫して選択する既存のルーティングポリシーによって生じる可能性がある。 All-to-Allプロシージャにおけるノード間通信は、トレーニング時間を大幅に延長する。 上記の性能問題を緩和するために,ノード間部分通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング方式を提案する。 特に、専門家のゲーティングウェイトと割り当てられたトークンとの間の最大角偏差を計算し、専門家の能力に最低限の閾値があることを解明する。 我々はこれらの修正を、マルチレベルルーティングとAscendクラスタ上での実験を行うMindSporeフレームワークに基づくPanGu-Sigmaモデルに移植する。 実験の結果、提案されたLocMoEは、モデル精度に影響を与えることなく、ハッシュルータやスイッチルータのような古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減し、22.24%に削減した。

The Mixtures-of-Experts (MoE) model is a widespread distributed and integrated learning method for large language models (LLM), which is favored due to its ability to sparsify and expand models efficiently. However, the performance of MoE is limited by load imbalance and high latency of All-to-All communication, along with relatively redundant computation owing to large expert capacity. Load imbalance may result from existing routing policies that consistently tend to select certain experts. The frequent inter-node communication in the All-to-All procedure also significantly prolongs the training time. To alleviate the above performance problems, we propose a novel routing strategy that combines load balance and locality by converting partial inter-node communication to that of intra-node. Notably, we elucidate that there is a minimum threshold for expert capacity, calculated through the maximal angular deviation between the gating weights of the experts and the assigned tokens. We port these modifications on the PanGu-Sigma model based on the MindSpore framework with multi-level routing and conduct experiments on Ascend clusters. The experiment results demonstrate that the proposed LocMoE reduces training time per epoch by 12.68% to 22.24% compared to classical routers, such as hash router and switch router, without impacting the model accuracy.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-23
# 量子ブラキストロン問題における積分性とカオス

Integrability and chaos in the quantum brachistochrone problem ( http://arxiv.org/abs/2401.14986v2 )

ライセンス: Link先を確認
S. Malikis, V. Cheianov, (参考訳) 量子ブラキストロン問題(英: quantum brachistochrone problem)は、量子系における与えられたユニタリ演算の実現を目的としたアプリケーションにおいて、量子速度限界を達成するという根本的な課題に対処する問題である。 具体的には、制御されたハミルトニアンによる量子状態の変換の最適化を考察し、システムの観測可能空間の小さな部分集合を形成する。 ここでは、制御ハミルトニアン部分集合の司法的選択から生じる、完全に可積分なブラキストロンプロトコルの幅広いファミリーを紹介する。 さらに,完全可積分プロトコルの固有の安定性が,非可積分プロトコルとは対照的に数値的にトラクタブルであり,実行可能であることを示す。

The quantum brachistochrone problem addresses the fundamental challenge of achieving the quantum speed limit in applications aiming to realize a given unitary operation in a quantum system. Specifically, it looks into optimization of the transformation of quantum states through controlled Hamiltonians, which form a small subset in the space of the system's observables. Here we introduce a broad family of completely integrable brachistochrone protocols, which arise from a judicious choice of the control Hamiltonian subset. Furthermore, we demonstrate how the inherent stability of the completely integrable protocols makes them numerically tractable and therefore practicable as opposed to their non-integrable counterparts.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-23
# BootsTAP: トラッキング・アニーポイントのためのブートストラップトレーニング

BootsTAP: Bootstrapped Training for Tracking-Any-Point ( http://arxiv.org/abs/2402.00847v2 )

ライセンス: Link先を確認
Carl Doersch, Pauline Luc, Yi Yang, Dilara Gokay, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ignacio Rocco, Ross Goroshin, João Carreira, Andrew Zisserman, (参考訳) 物理や運動をより深く理解したモデルを実現するためには、実際の場面で固体表面がどう動いたり変形したかを理解することが有用である。 これはTracking-Any-Point (TAP) として定式化することができる。 TAPの大規模な基礎的トレーニングデータはシミュレーションでのみ利用可能であり、現在は限られた種類の物体や動きを持っている。 本研究では,大規模でラベルなし,未計算な実世界のデータが,自己教師型学生-教師設定を用いて,最小限のアーキテクチャ変更でTAPモデルを改善することを実証する。 例えば、TAP-Vid-DAVISのパフォーマンスは61.3%から67.4%に向上し、TAP-Vid-Kineticsは57.2%から62.5%に向上した。 視覚化については、プロジェクトのWebページ(https://bootstap.github.io/)を参照してください。

To endow models with greater understanding of physics and motion, it is useful to enable them to perceive how solid surfaces move and deform in real scenes. This can be formalized as Tracking-Any-Point (TAP), which requires the algorithm to track any point on solid surfaces in a video, potentially densely in space and time. Large-scale groundtruth training data for TAP is only available in simulation, which currently has a limited variety of objects and motion. In this work, we demonstrate how large-scale, unlabeled, uncurated real-world data can improve a TAP model with minimal architectural changes, using a selfsupervised student-teacher setup. We demonstrate state-of-the-art performance on the TAP-Vid benchmark surpassing previous results by a wide margin: for example, TAP-Vid-DAVIS performance improves from 61.3% to 67.4%, and TAP-Vid-Kinetics from 57.2% to 62.5%. For visualizations, see our project webpage at https://bootstap.github.io/
翻訳日:2024-05-25 11:26:41 公開日:2024-05-23
# 格子型強化学習を用いた粗粒部分微分方程式のクロージャ発見

Closure Discovery for Coarse-Grained Partial Differential Equations Using Grid-based Reinforcement Learning ( http://arxiv.org/abs/2402.00972v2 )

ライセンス: Link先を確認
Jan-Philipp von Bassewitz, Sebastian Kaltenbach, Petros Koumoutsakos, (参考訳) 気象、山火事、疫病などの重要な現象の信頼性の高い予測は、しばしば部分微分方程式(PDE)によって記述されたモデルに依存する。 しかしながら、このようなPDEによって記述された全時空間スケールをキャプチャするシミュレーションは、しばしば違法に高価である。 その結果、粗い粒度のシミュレーションは通常、不足した情報を説明するために様々なヒューリスティックと経験的なクロージャの言葉を取り入れて展開される。 グリッド型強化学習を用いて, 未解決PDEにおけるクロージャを同定するための新しい, 体系的なアプローチを提案する。 この定式化は帰納バイアスを取り入れ、完全な畳み込みネットワーク(FCN)によって効率よく表される中央ポリシーを配置することで局所性を利用する。 我々は, 対流方程式とバーガース方程式の数値解を用いて, フレームワークの機能と限界を実証する。 以上の結果から, 分配試験および流通試験の精度は, 全スケールの解決と比較して有意に向上した。

Reliable predictions of critical phenomena, such as weather, wildfires and epidemics often rely on models described by Partial Differential Equations (PDEs). However, simulations that capture the full range of spatio-temporal scales described by such PDEs are often prohibitively expensive. Consequently, coarse-grained simulations are usually deployed that adopt various heuristics and empirical closure terms to account for the missing information. We propose a novel and systematic approach for identifying closures in under-resolved PDEs using grid-based Reinforcement Learning. This formulation incorporates inductive bias and exploits locality by deploying a central policy represented efficiently by a Fully Convolutional Network (FCN). We demonstrate the capabilities and limitations of our framework through numerical solutions of the advection equation and the Burgers' equation. Our results show accurate predictions for in- and out-of-distribution test cases as well as a significant speedup compared to resolving all scales.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# 確率減衰とカスケードゲート分類器を用いたクラスインクリメンタル学習

Class incremental learning with probability dampening and cascaded gated classifier ( http://arxiv.org/abs/2402.01262v3 )

ライセンス: Link先を確認
Jary Pomponi, Alessio Devoto, Simone Scardapane, (参考訳) 人間は、新しい知識を取得し、学習した知識を異なるドメインに転送し、わずかな忘れ物を引き起こすことができる。 連続学習(Continuous Learning)と呼ばれる同じ能力は、ニューラルネットワークで操作する場合、新しいものを学ぶときの過去の学習タスクの影響を忘れてしまうため、実現が難しい。 この忘れは過去のタスクから格納されたサンプルを再生することで緩和できるが、長いタスクのシーケンスで大きなメモリサイズが必要になる可能性がある。 本稿では,Margin Dampening と Cascaded Scaling Classifier という新しい正規化手法を提案する。 1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の学習した知識を保存し、モデルが新しいパターンを効果的に学習できるようにする。 後者はゲートインクリメンタルな分類器で、モデルが直接干渉することなく過去の予測を変更するのに役立つ。 これは、モデルの出力を補助スケーリング関数で修正することで達成される。 我々は,提案手法が確立されたベースラインに対して複数のベンチマークで良好に動作することを示すとともに,提案手法のそれぞれのコンポーネントと,それらの組み合わせが最終結果にどう影響するかについても検討する。

Humans are capable of acquiring new knowledge and transferring learned knowledge into different domains, incurring a small forgetting. The same ability, called Continual Learning, is challenging to achieve when operating with neural networks due to the forgetting affecting past learned tasks when learning new ones. This forgetting can be mitigated by replaying stored samples from past tasks, but a large memory size may be needed for long sequences of tasks; moreover, this could lead to overfitting on saved samples. In this paper, we propose a novel regularisation approach and a novel incremental classifier called, respectively, Margin Dampening and Cascaded Scaling Classifier. The first combines a soft constraint and a knowledge distillation approach to preserve past learned knowledge while allowing the model to learn new patterns effectively. The latter is a gated incremental classifier, helping the model modify past predictions without directly interfering with them. This is achieved by modifying the output of the model with auxiliary scaling functions. We empirically show that our approach performs well on multiple benchmarks against well-established baselines, and we also study each component of our proposal and how the combinations of such components affect the final results.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# 深部モデルゼロ階最適化のための確率的2点法

Stochastic Two Points Method for Deep Model Zeroth-order Optimization ( http://arxiv.org/abs/2402.01621v2 )

ライセンス: Link先を確認
Yijiang Pang, Jiayu Zhou, (参考訳) 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。 ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全な微調整は禁止される。 ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。 本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。 本稿では,S2Pの理論収束特性を一般の滑らかさ仮定の下で提示し,その導出結果は,2つの一般的なゼロ階法,基本ランダム探索法,確率的3点法を理解するのに有効である。 理論的性質はS2P(VS2P)のヴァリアントにも光を当て、トレーニングにおける深層モデルのダイナミクスをより良く表現する新しい収束特性を利用する。 我々の総合的な実験結果から、VS2Pは深層モデルの目的を最適化するのに非常に有効であることが示された。 さまざまなモデルタイプやスケールの標準メソッドと比較して、パフォーマンスが優れています。

Large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The zeroth-order methods offer a promising direction for tackling this challenge, where only forward passes are needed to update the model. This paper introduces an efficient Stochastic Two-Point (S2P) approach within the gradient-free regime. We present the theoretical convergence properties of S2P under the general and relaxed smoothness assumptions, and the derived results help understand and inherently connect the two popular types of zeroth-order methods, basic random search and stochastic three-point method. The theoretical properties also shed light on a Variant of S2P (VS2P), through exploiting our new convergence properties that better represent the dynamics of deep models in training. Our comprehensive empirical results show that VS2P is highly effective in optimizing objectives for deep models. It outperforms or achieves competitive performance compared to standard methods across various model types and scales.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# サンプル,推定,集計:因果的発見基盤モデルのためのレシピ

Sample, estimate, aggregate: A recipe for causal discovery foundation models ( http://arxiv.org/abs/2402.01929v2 )

ライセンス: Link先を確認
Menghua Wu, Yujia Bao, Regina Barzilay, Tommi Jaakkola, (参考訳) 因果的構造をデータから推定するタスクである因果的発見は、科学研究の加速、政策決定の通知などを約束する。 しかし、大きな変数集合上の因果探索アルゴリズムは、誤特定や制限されたデータに対して脆弱である傾向にある。 これらの課題を緩和するために、古典因果探索アルゴリズムの出力からより大きな因果グラフを予測することを学ぶ教師付きモデルを、逆共分散のような他の統計的ヒントとともに訓練する。 我々のアプローチは、古典的手法の出力における典型的なエラーがデータセット間で比較できるという観察によって実現されている。 理論的には、このモデルは、部分集合上のグラフと整合した因果グラフを復元できるという意味で、十分に特定されていることを示す。 経験的に、多様な合成データを用いて、誤った推定に頑健であるようにモデルを訓練する。 実データと合成データの実験は、このモデルが誤特定や分布シフトに直面して高い精度を維持しており、異なる発見アルゴリズムや統計の選択に低コストで適用可能であることを示した。

Causal discovery, the task of inferring causal structure from data, promises to accelerate scientific research, inform policy making, and more. However, causal discovery algorithms over larger sets of variables tend to be brittle against misspecification or when data are limited. To mitigate these challenges, we train a supervised model that learns to predict a larger causal graph from the outputs of classical causal discovery algorithms run over subsets of variables, along with other statistical hints like inverse covariance. Our approach is enabled by the observation that typical errors in the outputs of classical methods remain comparable across datasets. Theoretically, we show that this model is well-specified, in the sense that it can recover a causal graph consistent with graphs over subsets. Empirically, we train the model to be robust to erroneous estimates using diverse synthetic data. Experiments on real and synthetic data demonstrate that this model maintains high accuracy in the face of misspecification or distribution shift, and can be adapted at low cost to different discovery algorithms or choice of statistics.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# オンライン一様割当:デジタルヘルスに応用したランダム化学習強化近似アルゴリズム

Online Uniform Allocation:Randomized Learning-Augmented Approximation Algorithms with Application to Digital Health ( http://arxiv.org/abs/2402.01995v4 )

ライセンス: Link先を確認
Xueqing Liu, Kyra Gan, Esmaeil Keyvanshokooh, Susan Murphy, (参考訳) デジタルヘルスの応用によって動機づけられたこの研究は、未知の意思決定時間に一様に予算を分配することを目的として、オンライン一様割当(OUA)という新たな問題を研究する。 OUA問題では、アルゴリズムに予算$b$とタイムホライズン$T$が与えられ、敵が$\tau^* \in [b,T]$を選択し、それをオンラインに公開する。 決定時間$i \in [\tau^*]$で、アルゴリズムは、予算の制約である$b$を尊重しながら、水平線全体で費やされた予算を最大化する確率を決定する必要がある。 この問題に対して設計された最初のランダム化アルゴリズムを提示し、その後、学習拡張を組み込むように拡張する。 両アルゴリズムの最悪の近似保証を提供し、人工実験とHeartStepsモバイルアプリケーションを含む実世界のケーススタディの両方を通して、アルゴリズムの有用性を説明する。 提案手法は,従来提案されていたヒューリスティック解に対して,ランダム化アルゴリズムの強い経験的平均性能を示す。

Motivated by applications in digital health, this work studies the novel problem of online uniform allocation (OUA), where the goal is to distribute a budget uniformly across unknown decision times. In the OUA problem, the algorithm is given a budget $b$ and a time horizon $T$, and an adversary then chooses a value $\tau^* \in [b,T]$, which is revealed to the algorithm online. At each decision time $i \in [\tau^*]$, the algorithm must determine a probability that maximizes the budget spent throughout the horizon, respecting budget constraint $b$, while achieving as uniform a distribution as possible over $\tau^*$. We present the first randomized algorithm designed for this problem and subsequently extend it to incorporate learning augmentation. We provide worst-case approximation guarantees for both algorithms, and illustrate the utility of the algorithms through both synthetic experiments and a real-world case study involving the HeartSteps mobile application. Our numerical results show strong empirical average performance of our proposed randomized algorithms against previously proposed heuristic solutions.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# Panacea: LLMの優先適応によるパレートアライメント

Panacea: Pareto Alignment via Preference Adaptation for LLMs ( http://arxiv.org/abs/2402.02030v2 )

ライセンス: Link先を確認
Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang, (参考訳) 大規模な言語モデルアライメントの現在の手法は、スカラーな人間の好みラベルを使用するのが一般的である。 しかし、この慣習は、人間の嗜好の多次元的・異質的な性質を過度に単純化する傾向にあり、表現力の低下や過ちさえも生じている。 本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。 パナセアは、さらなるチューニングを必要とせず、オンラインとパレトを最適化して様々な好みのセットに適応できる単一のモデルを訓練する。 ここでの大きな課題は、圧倒的に多くのパラメータによって支配されているにもかかわらず、低次元の嗜好ベクトルを使用してモデルの振舞いを導くことである。 これを解決するために、パナセアは特異値分解(SVD)ベースの低ランク適応を使用するように設計されている。 理論的には、パナセアは穏やかな条件下で共通の損失集計法によりパレトフロント全体を回復する。 さらに,本実験では,様々な最適化手法により,ヒトの嗜好の指数的に広いスペクトルを表現するために,単一のLDMを調整できる可能性が初めて示された。 我々の研究は、制御可能でパレート最適化的な方法で、モデルを多様で複雑な人間の嗜好に効果的かつ効率的に整合させるための一歩を踏み出した。

Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper presents Panacea, an innovative approach that reframes alignment as a multi-dimensional preference optimization problem. Panacea trains a single model capable of adapting online and Pareto-optimally to diverse sets of preferences without the need for further tuning. A major challenge here is using a low-dimensional preference vector to guide the model's behavior, despite it being governed by an overwhelmingly large number of parameters. To address this, Panacea is designed to use singular value decomposition (SVD)-based low-rank adaptation, which allows the preference vector to be simply injected online as singular values. Theoretically, we prove that Panacea recovers the entire Pareto front with common loss aggregation methods under mild conditions. Moreover, our experiments demonstrate, for the first time, the feasibility of aligning a single LLM to represent an exponentially vast spectrum of human preferences through various optimization methods. Our work marks a step forward in effectively and efficiently aligning models to diverse and intricate human preferences in a controllable and Pareto-optimal manner.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# 深部ニューラルネットワークにおけるバックドアに対するユニバーサルトレーニング後リバースエンジニアリング防御

Universal Post-Training Reverse-Engineering Defense Against Backdoors in Deep Neural Networks ( http://arxiv.org/abs/2402.02034v2 )

ライセンス: Link先を確認
Xi Li, Hang Wang, David J. Miller, George Kesidis, (参考訳) ディープニューラルネットワーク(DNN)分類器に対するバックドア攻撃に対する様々な防御策が提案されている。 ユニバーサルメソッドは、攻撃者が使用する組み込みメカニズムに関係なく、バックドアを確実に検出および/または緩和しようとするが、リバースエンジニアリングメソッドは、しばしばそれを明示的に仮定する。 本稿では,防衛されたDNNの内部特徴マップを用いてバックドアを検出し,そのターゲットクラスを識別し,トレーニング後(トレーニングデータセットへのアクセスなしで)動作させることができるとともに,様々な構成機構(すなわち普遍性)に対して極めて有効であり,計算オーバーヘッドが低く,スケーラブルである新しい検出器について述べる。 CIFAR-10とCIFAR-100の画像分類器に対する異なる攻撃に対する検出手法の評価を行った。

A variety of defenses have been proposed against backdoors attacks on deep neural network (DNN) classifiers. Universal methods seek to reliably detect and/or mitigate backdoors irrespective of the incorporation mechanism used by the attacker, while reverse-engineering methods often explicitly assume one. In this paper, we describe a new detector that: relies on internal feature map of the defended DNN to detect and reverse-engineer the backdoor and identify its target class; can operate post-training (without access to the training dataset); is highly effective for various incorporation mechanisms (i.e., is universal); and which has low computational overhead and so is scalable. Our detection approach is evaluated for different attacks on benchmark CIFAR-10 and CIFAR-100 image classifiers.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# 見ることは常に信じるとは限らない:無害な摂動の空間

Seeing is not always believing: The Space of Harmless Perturbations ( http://arxiv.org/abs/2402.02095v2 )

ライセンス: Link先を確認
Lu Chen, Shaofeng Li, Benhao Huang, Fan Yang, Zheng Li, Jie Li, Yuan Luo, (参考訳) 既存の研究は、人間には受け入れられないまま、ディープニューラルネットワーク(DNN)の出力を誤解させる最小限の摂動である敵の例を幅広く研究してきた。 しかし,本研究では,この空間から引き出された摂動が,その大きさに関わらず,入力に適用した場合にネットワーク出力が変化しない無害摂動空間の存在を明らかにする。 本質的には、害のない摂動空間はDNN内の非射影関数(線形層または非線形層)の使用から生じ、複数の異なる入力を同じ出力にマッピングすることができる。 入力次元が出力次元を超える線形層に対して、パラメータのヌル空間の直交基底の任意の線型結合は、出力に一貫した変化を与えない。 非線形層の場合、無害な摂動空間は層の性質や入力サンプルによって拡大する。 DNNのこの性質に触発されて、我々はDNNの決定に冗長な一般摂動空間のファミリーを解決し、機密データを隠蔽し、モデル同定の手段として利用することができる。 我々の研究は、DNNの特異な堅牢性(すなわち、大きな摂動下での一貫性)を、敵対的な例(小さな知覚不可能な雑音に対する加害性)とは対照的に強調する。

Existing works have extensively studied adversarial examples, which are minimal perturbations that can mislead the output of deep neural networks (DNNs) while remaining imperceptible to humans. However, in this work, we reveal the existence of a harmless perturbation space, in which perturbations drawn from this space, regardless of their magnitudes, leave the network output unchanged when applied to inputs. Essentially, the harmless perturbation space emerges from the usage of non-injective functions (linear or non-linear layers) within DNNs, enabling multiple distinct inputs to be mapped to the same output. For linear layers with input dimensions exceeding output dimensions, any linear combination of the orthogonal bases of the nullspace of the parameter consistently yields no change in their output. For non-linear layers, the harmless perturbation space may expand, depending on the properties of the layers and input samples. Inspired by this property of DNNs, we solve for a family of general perturbation spaces that are redundant for the DNN's decision, and can be used to hide sensitive data and serve as a means of model identification. Our work highlights the distinctive robustness of DNNs (i.e., consistency under large magnitude perturbations) in contrast to adversarial examples (vulnerability for small imperceptible noises).
翻訳日:2024-05-25 07:19:21 公開日:2024-05-23
# 外因性分布学習による因果ベイズ最適化

Causal Bayesian Optimization via Exogenous Distribution Learning ( http://arxiv.org/abs/2402.02277v5 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian, (参考訳) 構造因果モデルにおける運用目的としての目的変数の最大化は重要な問題である。 既存のCausal Bayesian Optimization~(CBO)手法は、報酬を最大化するために因果構造を変更するハード介入に依存するか、データ生成機構を調整して目的を達成するために内在変数にアクションノードを導入する。 本稿では,従来手法で期待されていた外因性変数の分布を学習するために,新しい手法を提案する。 外因性分布学習は、通常限られた観測データで訓練された代理モデルにおける構造因果モデルの近似精度を向上させる。 さらに、学習した外因性分布は、既存のCBOを付加雑音モデル~(ANM)を超える一般的な因果スキームにまで拡張する。 外因性変数のリカバリにより、ノイズや未観測の隠れ変数に対して、よりフレキシブルな事前利用が可能になります。 学習した外因性分布を利用した新しいCBO法を開発した。 異なるデータセットとアプリケーションの実験により,提案手法の利点が示された。

Maximizing a target variable as an operational objective in a structural causal model is an important problem. Existing Causal Bayesian Optimization~(CBO) methods either rely on hard interventions that alter the causal structure to maximize the reward; or introduce action nodes to endogenous variables so that the data generation mechanisms are adjusted to achieve the objective. In this paper, a novel method is introduced to learn the distribution of exogenous variables, which is typically ignored or marginalized through expectation by existing methods. Exogenous distribution learning improves the approximation accuracy of structural causal models in a surrogate model that is usually trained with limited observational data. Moreover, the learned exogenous distribution extends existing CBO to general causal schemes beyond Additive Noise Models~(ANM). The recovery of exogenous variables allows us to use a more flexible prior for noise or unobserved hidden variables. We develop a new CBO method by leveraging the learned exogenous distribution. Experiments on different datasets and applications show the benefits of our proposed method.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# ニューラルネットワークを用いたアルゴリズム選択のサンプル複雑度と分岐・カットへの応用

Sample Complexity of Algorithm Selection Using Neural Networks and Its Applications to Branch-and-Cut ( http://arxiv.org/abs/2402.02328v2 )

ライセンス: Link先を確認
Hongyu Cheng, Sammy Khalife, Barbara Fiedorowicz, Amitabh Basu, (参考訳) データ駆動型アルゴリズム設計(Data-driven algorithm design)は、統計および機械学習技術を用いて、計算問題に対するアルゴリズムのクラスから選択するパラダイムである。 我々は、この一連の研究において、最高のパフォーマンスを持つ1つのアルゴリズムを選択する代わりに、ニューラルネットワークを用いて、解決すべきインスタンスに基づいてアルゴリズムを選択することが可能な設定を考慮し、最近の研究結果に基づいて構築する。 特に、代表的なインスタンスのサンプルが与えられた場合、問題のインスタンスをそのインスタンスの最も適切なアルゴリズムにマッピングするニューラルネットワークを学習する。 我々は、このアイデアを形式化し、データ駆動アルゴリズム設計における最近の研究の精神の中で、この学習問題に対する厳密なサンプル複雑性を導出する。 次に、このアプローチを、混合整数最適化のためのブランチ・アンド・カットのフレームワークで良い決定をする問題に適用する。 言い換えれば、ニューラルネットワークは混合整数最適化インスタンスを入力として取り、そのインスタンスの小さな分岐とカットツリーをもたらす決定を出力する。 我々の計算結果は、従来のデータ駆動型アプローチと比較して、ニューラルネットワークをカットセレクションに使用する場合、分岐とカットのツリーサイズを削減できることを示す。

Data-driven algorithm design is a paradigm that uses statistical and machine learning techniques to select from a class of algorithms for a computational problem an algorithm that has the best expected performance with respect to some (unknown) distribution on the instances of the problem. We build upon recent work in this line of research by considering the setup where, instead of selecting a single algorithm that has the best performance, we allow the possibility of selecting an algorithm based on the instance to be solved, using neural networks. In particular, given a representative sample of instances, we learn a neural network that maps an instance of the problem to the most appropriate algorithm for that instance. We formalize this idea and derive rigorous sample complexity bounds for this learning problem, in the spirit of recent work in data-driven algorithm design. We then apply this approach to the problem of making good decisions in the branch-and-cut framework for mixed-integer optimization (e.g., which cut to add?). In other words, the neural network will take as input a mixed-integer optimization instance and output a decision that will result in a small branch-and-cut tree for that instance. Our computational results provide evidence that our particular way of using neural networks for cut selection can make a significant impact in reducing branch-and-cut tree sizes, compared to previous data-driven approaches.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# AutoTimes: 大規模言語モデルによる自動回帰時系列予測

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models ( http://arxiv.org/abs/2402.02370v2 )

ライセンス: Link先を確認
Yong Liu, Guo Qin, Xiangdong Huang, Jianmin Wang, Mingsheng Long, (参考訳) 時系列コーパスの不足や、拡張性のある事前学習の過小評価のため、時系列の基礎モデルは十分に開発されていない。 時系列と自然言語の類似の逐次定式化に基づいて,大規模言語モデル(LLM)を時系列に活用できる可能性を示す研究が増えている。 しかし, LLMの自己回帰特性とデコーダのみのアーキテクチャは十分に考慮されていないため, LLMの能力は不十分である。 大規模言語モデルの汎用トークン遷移と多段階生成能力を更に活用するために,自己回帰時系列予測器としてLLMを再利用するAutoTimesを提案し,時系列セグメントを埋め込み空間に独立に投影し,任意の長さで将来の予測を自動回帰的に生成する。 復号器のみのLLMと互換性があり、連続予測器はルックバック長の柔軟性とLLMサイズの拡張性を示す。 さらに、時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。 テキストのタイムスタンプを位置埋め込みとして採用することにより、AutoTimesは多変量シナリオのためのマルチモーダルを統合する。 実証的に、AutoTimesは、高度なLSMベースの予測器と比較して、0.1%のトレーニング可能なパラメータと5倍以上のトレーニング/推論のスピードアップで最先端を達成する。

Foundation models of time series have not been fully developed due to the limited availability of time series corpora and the underexploration of scalable pre-training. Based on the similar sequential formulation of time series and natural language, increasing research demonstrates the feasibility of leveraging large language models (LLM) for time series. Nevertheless, the inherent autoregressive property and decoder-only architecture of LLMs have not been fully considered, resulting in insufficient utilization of LLM abilities. To further exploit the general-purpose token transition and multi-step generation ability of large language models, we propose AutoTimes to repurpose LLMs as autoregressive time series forecasters, which independently projects time series segments into the embedding space and autoregressively generates future predictions with arbitrary lengths. Compatible with any decoder-only LLMs, the consequent forecaster exhibits the flexibility of the lookback length and scalability of the LLM size. Further, we formulate time series as prompts, extending the context for prediction beyond the lookback window, termed in-context forecasting. By adopting textual timestamps as position embeddings, AutoTimes integrates multimodality for multivariate scenarios. Empirically, AutoTimes achieves state-of-the-art with 0.1% trainable parameters and over 5 times training/inference speedup compared to advanced LLM-based forecasters.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# Synergy-of-Thoughts:ハイブリッド言語モデルにおける効率的な推論

Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models ( http://arxiv.org/abs/2402.02563v2 )

ライセンス: Link先を確認
Yu Shang, Yu Li, Fengli Xu, Yong Li, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて驚くべき創発的能力を示してきたが、複雑な推論問題に対処する上ではまだ課題に直面している。 チェーン・オブ・シント(CoT)やツリー・オブ・シント(ToT)といったこれまでの作業は、精度の向上に重点を置いていたが、トークンコストの急激な増加を見落としている。 人間の認知の二重過程理論に触発され,効率的な推論のためにハイブリッドLLMの相乗的ポテンシャルを解き放つために,SoT(Synergy of Thoughts)を提案する。 デフォルトでは、SoTはより小規模の言語モデルを使用して、System 1の並列直観に類似した複数の低コストな推論思考を生成する。 これらの直観が矛盾を示すならば、SoTはシステム2の介入をエミュレートするためにスケールアップされた言語モデルの反射的推論を起動し、直感的な思考をオーバーライドし、推論プロセスの修正を行う。 このフレームワークはモデルに依存しないトレーニングフリーで、様々な既製のLCMで柔軟に実装できる。 6つの代表的な推論タスクの実験では、SoTはトークンのコストを38.3%-75.1%削減し、最先端の推論精度と解の多様性を同時に達成している。 特に、オープンエンドタスクの平均トークンコストの削減は69.1%に達する。 すべてのプロンプトによるコードレポジトリは、公開時に公開される。

Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but still face challenges in handling complex reasoning problems. Previous works like chain-of-thought (CoT) and tree-of-thoughts (ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing token cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose "Synergy of Thoughts" (SoT) to unleash the synergistic potential of hybrid LLMs for efficient reasoning. By default, SoT uses smaller-scale language models to generate multiple low-cost reasoning thoughts, which resembles the parallel intuitions produced by System 1. If these intuitions exhibit conflicts, SoT will invoke the reflective reasoning of scaled-up language models to emulate the intervention of System 2, which will override the intuitive thoughts and rectify the reasoning process. This framework is model-agnostic and training-free, which can be flexibly implemented with various off-the-shelf LLMs. Experiments on six representative reasoning tasks show that SoT substantially reduces the token cost by 38.3%-75.1%, and simultaneously achieves state-of-the-art reasoning accuracy and solution diversity. Notably, the average token cost reduction on open-ended tasks reaches up to 69.1%. Code repo with all prompts will be released upon publication.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# 視覚言語モデルによる強化学習のための確率的表現

Vision-Language Models Provide Promptable Representations for Reinforcement Learning ( http://arxiv.org/abs/2402.02651v3 )

ライセンス: Link先を確認
William Chen, Oier Mees, Aviral Kumar, Sergey Levine, (参考訳) 人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。 対照的に、強化学習(RL)で訓練されたエージェントは通常、スクラッチから行動を学ぶ。 そこで本研究では,インターネット規模で事前学習した視覚言語モデル (VLM) に符号化された多量の一般・索引可能な世界知識を具体化するための新しい手法を提案する。 VLMの内部知識と推論能力に基づいて視覚観察のセマンティックな特徴をエンコードする埋め込みは、タスクコンテキストと補助情報を提供するプロンプトを通じて引き起こされる。 本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。 市販の汎用VLMの組込みを訓練したポリシーは、汎用的でプロンプブルでない画像埋め込みを訓練した同等のポリシーを上回ります。 また,本手法は命令追従法より優れ,ドメイン固有の埋め込みに相容れない性能を示す。 最後に,本手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上させることができることを示す。

Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge encoded in vision-language models (VLMs) pre-trained on Internet-scale data for embodied RL. We initialize policies with VLMs by using them as promptable representations: embeddings that encode semantic features of visual observations based on the VLM's internal knowledge and reasoning capabilities, as elicited through prompts that provide task context and auxiliary information. We evaluate our approach on visually-complex, long horizon RL tasks in Minecraft and robot navigation in Habitat. We find that our policies trained on embeddings from off-the-shelf, general-purpose VLMs outperform equivalent policies trained on generic, non-promptable image embeddings. We also find our approach outperforms instruction-following methods and performs comparably to domain-specific embeddings. Finally, we show that our approach can use chain-of-thought prompting to produce representations of common-sense semantic reasoning, improving policy performance in novel scenes by 1.5 times.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# 量子スーパーマップの代名詞意味論

A Profunctorial Semantics for Quantum Supermaps ( http://arxiv.org/abs/2402.02997v2 )

ライセンス: Link先を確認
James Hefford, Matt Wilson, (参考訳) 我々は、強い代名詞の射を量子スーパーマップの分類として特定する。 これらの図形のブラックボックスの一般化は、コンクリートネットワーク上のコリシーブの圏の射として、プロファンクター光学のより広い分野に置かれる。 これにより、テンソル積や超写像の否定といった抽象的論理的連結を、完全に理論に依存しない環境で初めて構築することができる。 これらの論理接続は、超写像の量子論の重要な構造的特徴を抽象的にモデル化するために必要となる全てのものである:ブラックボックス不定因数順序、ブラックボックス不定因数順序、および絶対因数順序スーパーマップの具体的な回路図への分解である。 これらの分解定理の中心には、ヨネダ補題と表現可能性の概念がある。

We identify morphisms of strong profunctors as a categorification of quantum supermaps. These black-box generalisations of diagrams-with-holes are hence placed within the broader field of profunctor optics, as morphisms in the category of copresheaves on concrete networks. This enables the first construction of abstract logical connectives such as tensor products and negations for supermaps in a totally theory-independent setting. These logical connectives are found to be all that is needed to abstractly model the key structural features of the quantum theory of supermaps: black-box indefinite causal order, black-box definite causal order, and the factorisation of definitely causally ordered supermaps into concrete circuit diagrams. We demonstrate that at the heart of these factorisation theorems lies the Yoneda lemma and the notion of representability.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# FuseMoE:フレキシモダル核融合用混合弁変圧器

FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion ( http://arxiv.org/abs/2402.03226v2 )

ライセンス: Link先を確認
Xing Han, Huy Nguyen, Carl Harris, Nhat Ho, Suchi Saria, (参考訳) クリティカルフィールドにおける機械学習モデルは、多モーダルデータに支障をきたすにつれて、しばしば欠落した要素や、収集されたサンプルの時間的不規則さや空間性のために、広範囲なモダリティを扱うという2つの課題に直面している。 この複雑なデータを活用することに成功し、高品質なトレーニングサンプルの不足を克服しながら、これらのモデルの予測性能を改善する上で鍵となる。 革新的ゲーティング関数を組み込んだ実験用フレームワークである `FuseMoE' を紹介した。 多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。 理論的には、我々のユニークなゲーティング関数は収束率の向上に寄与し、複数の下流タスクのパフォーマンスが向上する。 実世界のFuseMoEの実用性は、様々な課題予測タスクによって検証されている。

As machine learning models in critical fields increasingly grapple with multimodal data, they face the dual challenges of handling a wide array of modalities, often incomplete due to missing elements, and the temporal irregularity and sparsity of collected samples. Successfully leveraging this complex data, while overcoming the scarcity of high-quality training samples, is key to improving these models' predictive performance. We introduce ``FuseMoE'', a mixture-of-experts framework incorporated with an innovative gating function. Designed to integrate a diverse number of modalities, FuseMoE is effective in managing scenarios with missing modalities and irregularly sampled data trajectories. Theoretically, our unique gating function contributes to enhanced convergence rates, leading to better performance in multiple downstream tasks. The practical utility of FuseMoE in the real world is validated by a diverse set of challenging prediction tasks.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# MobilityGPT: GPTモデルによる強化された人体モビリティモデリング

MobilityGPT: Enhanced Human Mobility Modeling with a GPT model ( http://arxiv.org/abs/2402.03264v2 )

ライセンス: Link先を確認
Ammar Haydari, Dongjie Chen, Zhengfeng Lai, Michael Zhang, Chen-Nee Chuah, (参考訳) 生成モデルは、人間の移動特性を捉え、合成軌道を生成するという有望な結果を示している。 しかし、生成した地理空間移動データが一貫した位置列を含む意味的に現実的であることを保証することは依然として困難であり、地理空間的制限の制約のような現実世界の特徴を反映している。 我々は,これらの問題に対処する自己回帰生成タスクとして,GPT(Generative Pre-trained Transformer)アーキテクチャを活用して,人間のモビリティモデリングを再構築する。 上記の課題を解決するための制御可能な生成を保証するため,ジオスパティカル・アウェア・ジェネレーティブ・モデルであるモビリティGPTを提案する。 そこで本研究では,意味配列の類似性について,変圧器を訓練するための重力に基づくサンプリング手法を提案する。 そして, 道路接続行列を用いて, 軌道生成におけるシーケンスの接続性を提供し, 生成した軌道を空間的限界内に保持する訓練過程を制約した。 最後に,RLTF(Reinforcement Learning from Trajectory Feedback)機構を用いて,微調整モビリティGPTの選好データセットを構築することを提案する。 実世界のデータセットに関する実験は、モビリティGPTが最先端の手法よりも優れた性能を示しており、原点-終点類似性、旅行距離、走行半径、リンク、重力分布の点で実データに最も近い高品質なモビリティ軌道を生成する。

Generative models have shown promising results in capturing human mobility characteristics and generating synthetic trajectories. However, it remains challenging to ensure that the generated geospatial mobility data is semantically realistic, including consistent location sequences, and reflects real-world characteristics, such as constraining on geospatial limits. We reformat human mobility modeling as an autoregressive generation task to address these issues, leveraging the Generative Pre-trained Transformer (GPT) architecture. To ensure its controllable generation to alleviate the above challenges, we propose a geospatially-aware generative model, MobilityGPT. We propose a gravity-based sampling method to train a transformer for semantic sequence similarity. Then, we constrained the training process via a road connectivity matrix that provides the connectivity of sequences in trajectory generation, thereby keeping generated trajectories in geospatial limits. Lastly, we proposed to construct a preference dataset for fine-tuning MobilityGPT via Reinforcement Learning from Trajectory Feedback (RLTF) mechanism, which minimizes the travel distance between training and the synthetically generated trajectories. Experiments on real-world datasets demonstrate MobilityGPT's superior performance over state-of-the-art methods in generating high-quality mobility trajectories that are closest to real data in terms of origin-destination similarity, trip length, travel radius, link, and gravity distributions.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# 射影拡散モデルによる制約付き合成

Constrained Synthesis with Projected Diffusion Models ( http://arxiv.org/abs/2402.03559v2 )

ライセンス: Link先を確認
Jacob K Christopher, Stephen Baek, Ferdinando Fioretto, (参考訳) 本稿では, 生成拡散過程に制約や物理原理の遵守を満足し, 証明する能力を与えるアプローチを提案する。 提案手法は, 生成拡散モデルの従来のサンプリング過程を制約付き最適化問題として再キャストし, 生成したデータ分布を所定の領域内に残して, 与えられた制約の順守を保証する。 これらの能力は、凸と難解な非凸の制約と通常の微分方程式の両方を特徴とするアプリケーションで検証され、正確な形態的特性を持つ新しい材料を合成し、物理インフォームド・モーションを生成し、計画シナリオにおける経路を最適化し、人間の動きを合成する領域で検証される。

This paper introduces an approach to endow generative diffusion processes the ability to satisfy and certify compliance with constraints and physical principles. The proposed method recast the traditional sampling process of generative diffusion models as a constrained optimization problem, steering the generated data distribution to remain within a specified region to ensure adherence to the given constraints. These capabilities are validated on applications featuring both convex and challenging, non-convex, constraints as well as ordinary differential equations, in domains spanning from synthesizing new materials with precise morphometric properties, generating physics-informed motion, optimizing paths in planning scenarios, and human motion synthesis.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# Pard:グラフ生成のための置換不変自己回帰拡散

Pard: Permutation-Invariant Autoregressive Diffusion for Graph Generation ( http://arxiv.org/abs/2402.03687v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Xueying Ding, Leman Akoglu, (参考訳) グラフ生成は、順序付けに敏感であるにもかかわらず、単純さと有効性のため、自己回帰モデルによって支配されている。 しかし拡散モデルは、置換不変でありながら同等のパフォーマンスを提供するため、注目度が高まっている。 現在のグラフ拡散モデルは1ショットでグラフを生成するが、最適なパフォーマンスを達成するには追加の機能と数千のデノゲーションステップが必要である。 PARDは,拡散モデルと自己回帰手法を統合した,置換不変な自己回帰拡散モデルである。 PARDは、自己回帰モデルの有効性と効率を、感度を順序付けすることなく、置換不変性を保ちながら活用する。 具体的には、集合とは対照的に、グラフの要素は完全に順序づけられておらず、ノードとエッジに一意な部分順序が存在することを示す。 この部分順序で、PARDはブロックごとの自己回帰的なグラフを生成し、各ブロックの確率は同変ネットワークを持つ共有拡散モデルによって条件付きでモデル化される。 表現性を確保しつつ効率を確保するため,PPGNと変換器を統合した高次グラフ変換器を提案する。 GPTと同様に、すべてのブロックの並列トレーニングをサポートするために、高階グラフ変換器を拡張します。 余分な特徴がなければ、PARDは分子および非分子データセットの最先端のパフォーマンスを達成し、1.9M分子を含むMOSESのような大規模なデータセットにスケールする。 Pardはhttps://github.com/LingxiaoShawn/Pard.comでオープンソース化されている。

Graph generation has been dominated by autoregressive models due to their simplicity and effectiveness, despite their sensitivity to ordering. Yet diffusion models have garnered increasing attention, as they offer comparable performance while being permutation-invariant. Current graph diffusion models generate graphs in a one-shot fashion, but they require extra features and thousands of denoising steps to achieve optimal performance. We introduce PARD, a Permutation-invariant Auto Regressive Diffusion model that integrates diffusion models with autoregressive methods. PARD harnesses the effectiveness and efficiency of the autoregressive model while maintaining permutation invariance without ordering sensitivity. Specifically, we show that contrary to sets, elements in a graph are not entirely unordered and there is a unique partial order for nodes and edges. With this partial order, PARD generates a graph in a block-by-block, autoregressive fashion, where each block's probability is conditionally modeled by a shared diffusion model with an equivariant network. To ensure efficiency while being expressive, we further propose a higher-order graph transformer, which integrates transformer with PPGN. Like GPT, we extend the higher-order graph transformer to support parallel training of all blocks. Without any extra features, PARD achieves state-of-the-art performance on molecular and non-molecular datasets, and scales to large datasets like MOSES containing 1.9M molecules. Pard is open-sourced at https://github.com/LingxiaoShawn/Pard.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-23
# 複数の合成データセット上のアンサンブルのバイアス分散分解

A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets ( http://arxiv.org/abs/2402.03985v2 )

ライセンス: Link先を確認
Ossi Räisä, Antti Honkela, (参考訳) 近年の研究では、精度の向上からより効果的なモデル選択、不確実性推定に至るまで、教師あり学習のための複数の合成データセットを生成する利点を強調している。 これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。 差分プライベートな合成データを含む複数の合成データセットを用いて, 偏差分解を導出して理論的理解を高めることを目指す。 提案理論は,複数の合成データセットを高分散下流予測器に特に有用であると予測し,平均二乗誤差およびブライアスコアの場合の適切な数の合成データセットを選択するために,親指の簡単な規則を導出する。 我々は,本理論が実際にどのように機能するかを,複数の実際のデータセットと下流予測器に対する多くの合成データセットに対するアンサンブルの性能を評価することによって検討する。 結果は我々の理論に従い、我々の洞察が事実上関連していることを示している。

Recent studies have highlighted the benefits of generating multiple synthetic datasets for supervised learning, from increased accuracy to more effective model selection and uncertainty estimation. These benefits have clear empirical support, but the theoretical understanding of them is currently very light. We seek to increase the theoretical understanding by deriving bias-variance decompositions for several settings of using multiple synthetic datasets, including differentially private synthetic data. Our theory predicts multiple synthetic datasets to be especially beneficial for high-variance downstream predictors, and yields a simple rule of thumb to select the appropriate number of synthetic datasets in the case of mean-squared error and Brier score. We investigate how our theory works in practice by evaluating the performance of an ensemble over many synthetic datasets for several real datasets and downstream predictors. The results follow our theory, showing that our insights are practically relevant.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# グラフ表現の証明可能なプライバシー脆弱性について

On provable privacy vulnerabilities of graph representations ( http://arxiv.org/abs/2402.04033v2 )

ライセンス: Link先を確認
Ruofan Wu, Guanhua Fang, Qiying Pan, Mingyang Zhang, Tengfei Liu, Weiqiang Wang, (参考訳) グラフ表現学習(GRL)は複雑なネットワーク構造から洞察を抽出するために重要であるが、これらの表現の潜在的なプライバシー上の脆弱性によりセキュリティ上の懸念も生じている。 本稿では,エッジ再構成攻撃により,高感度なトポロジ情報を推定できるグラフニューラルモデルの構造的脆弱性について検討する。 本研究は, 相似性に基づくエッジ再構築攻撃(SERA)の理論的基盤を主に解決し, 再建能力の非漸近的解析を行う。 さらに,グラフのサイズが大きくなるにつれて,このような攻撃がスパースグラフを完全に再構築できることを実証的に示す。 逆に、(密度)確率ブロックモデルの解析や実験を通じて実証されたように、スパーシリティがSERAの有効性にとって重要な要素であることを示す。 最後に,SERAに対するノイズアグリゲーション(NAG)機構を用いて生成したプライベートグラフ表現のレジリエンスについて検討する。 理論的解析と経験的評価により,NAGを用いたSERAの緩和が確認された。 同時に、SERAは、プライバシとユーティリティのトレードオフを解明する手段として機能する能力の有効性と欠如の両方を実証する事例を実証的に記述する。

Graph representation learning (GRL) is critical for extracting insights from complex network structures, but it also raises security concerns due to potential privacy vulnerabilities in these representations. This paper investigates the structural vulnerabilities in graph neural models where sensitive topological information can be inferred through edge reconstruction attacks. Our research primarily addresses the theoretical underpinnings of similarity-based edge reconstruction attacks (SERA), furnishing a non-asymptotic analysis of their reconstruction capacities. Moreover, we present empirical corroboration indicating that such attacks can perfectly reconstruct sparse graphs as graph size increases. Conversely, we establish that sparsity is a critical factor for SERA's effectiveness, as demonstrated through analysis and experiments on (dense) stochastic block models. Finally, we explore the resilience of private graph representations produced via noisy aggregation (NAG) mechanism against SERA. Through theoretical analysis and empirical assessments, we affirm the mitigation of SERA using NAG . In parallel, we also empirically delineate instances wherein SERA demonstrates both efficacy and deficiency in its capacity to function as an instrument for elucidating the trade-off between privacy and utility.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# リレーショナルハイパーグラフによるリンク予測

Link Prediction with Relational Hypergraphs ( http://arxiv.org/abs/2402.04062v2 )

ライセンス: Link先を確認
Xingyue Huang, Miguel Romero Orth, Pablo Barceló, Michael M. Bronstein, İsmail İlkan Ceylan, (参考訳) 知識グラフとのリンク予測は、グラフ機械学習において徹底的に研究されており、成功したアプリケーションとグラフニューラルネットワークアーキテクチャの豊かな展望につながっている。 しかしながら、これらのアーキテクチャの成功をリレーショナルハイパーグラフに転送することは依然として困難であり、リンク予測のタスクは、知識グラフとのリンク予測よりもはるかに難しい$k$-ary関係である。 本稿では,グラフニューラルネットワークの完全なリレーショナル構造への応用を解き放ち,リレーショナルハイパーグラフとのリンク予測のためのフレームワークを提案する。 理論的には、結果のモデルアーキテクチャの表現力を、対応する関係性Weisfeiler-Lemanアルゴリズムおよび論理的表現性を通して、徹底的に解析する。 実験により,様々な関係ハイパーグラフベンチマークを用いて提案手法の有効性を検証した。 得られたモデルアーキテクチャは、インダクティブリンク予測のベースラインを著しく上回り、トランスダクティブリンク予測の最先端結果につながる。

Link prediction with knowledge graphs has been thoroughly studied in graph machine learning, leading to a rich landscape of graph neural network architectures with successful applications. Nonetheless, it remains challenging to transfer the success of these architectures to relational hypergraphs, where the task of link prediction is over $k$-ary relations, which is substantially harder than link prediction with knowledge graphs. In this paper, we propose a framework for link prediction with relational hypergraphs, unlocking applications of graph neural networks to fully relational structures. Theoretically, we conduct a thorough analysis of the expressive power of the resulting model architectures via corresponding relational Weisfeiler-Leman algorithms and also via logical expressiveness. Empirically, we validate the power of the proposed model architectures on various relational hypergraph benchmarks. The resulting model architectures substantially outperform every baseline for inductive link prediction, and lead to state-of-the-art results for transductive link prediction.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# 曖昧な大規模言語モデルにおける暗黙のバイアスの測定

Measuring Implicit Bias in Explicitly Unbiased Large Language Models ( http://arxiv.org/abs/2402.04105v2 )

ライセンス: Link先を確認
Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths, (参考訳) 大きな言語モデル(LLM)は明示的な社会的偏見テストに合格するが、それでも暗黙の偏見を持つ。 LLMがますますプロプライエタリになるにつれて、埋め込みにアクセスして既存のバイアス対策を適用することはできないかもしれない。 我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLLM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLLM Decision Biasの2つの新しい方法を導入することで、両方の課題に対処する。 LLM Implicit Biasはインプリシット・アソシエーション・テストに適応し、人間の心にある概念間の自動的関連を研究するのに広く使われ、LLM Decision Biasは2つの候補間の相対的評価がそれぞれ独立して評価する絶対的評価ではなく、より暗黙的バイアスの診断であることを示す心理学的な結果を運用している。 これらの指標を用いて,21種類のステレオタイプ(人種・犯罪・人種・武器・性別・科学・年齢・負性など)の4つの社会カテゴリー(人種・性別・宗教・健康)にまたがる8つの価値整合モデルにおいて,社会においてその傾向を反映する広範囲なステレオタイプバイアスが認められた。 LLMインプリシットバイアス測定は,既存言語モデルの埋め込みバイアス法と相関するが,LLM決定バイアスによる下流の挙動の予測は良好である。 これらの新しいプロンプトベースの尺度は、純粋に観察可能な振る舞いに基づいてステレオタイプバイアスを測定する心理学の長い歴史から導かれる。

Large language models (LLMs) can pass explicit social bias tests but still harbor implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit subtle biases. Measuring such implicit biases can be a challenge: as LLMs become increasingly proprietary, it may not be possible to access their embeddings and apply existing bias measures; furthermore, implicit biases are primarily a concern if they affect the actual decisions that these systems make. We address both challenges by introducing two new measures of bias: LLM Implicit Bias, a prompt-based method for revealing implicit bias; and LLM Decision Bias, a strategy to detect subtle discrimination in decision-making tasks. Both measures are based on psychological research: LLM Implicit Bias adapts the Implicit Association Test, widely used to study the automatic associations between concepts held in human minds; and LLM Decision Bias operationalizes psychological results indicating that relative evaluations between two candidates, not absolute evaluations assessing each independently, are more diagnostic of implicit biases. Using these measures, we found pervasive stereotype biases mirroring those in society in 8 value-aligned models across 4 social categories (race, gender, religion, health) in 21 stereotypes (such as race and criminality, race and weapons, gender and science, age and negativity). Our prompt-based LLM Implicit Bias measure correlates with existing language model embedding-based bias methods, but better predicts downstream behaviors measured by LLM Decision Bias. These new prompt-based measures draw from psychology's long history of research into measuring stereotype biases based on purely observable behavior; they expose nuanced biases in proprietary value-aligned LLMs that appear unbiased according to standard benchmarks.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# ブラックボックス拡散モデルで安全ガードレールをハックする方法

Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! ( http://arxiv.org/abs/2402.04699v2 )

ライセンス: Link先を確認
Shashank Kotyan, Po-Yuan Mao, Pin-Yu Chen, Danilo Vasconcellos Vargas, (参考訳) ディープニューラルネットワークは、人間の知覚に影響を与えない自然な敵対的なサンプルを使って利用することができる。 現在のアプローチは、しばしば深層ニューラルネットワークのホワイトボックスの性質に依存して、これらの敵のサンプルを生成したり、トレーニング分布と比較して敵のサンプルの分布を合成的に変更する。 対照的にEvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための新しい進化的戦略に基づくアルゴリズムフレームワークである。 私たちのEvoSeedフレームワークは、ブラックボックス設定で操作するために補助条件拡散と分類器モデルを使用します。 我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,分類モデルで誤分類された自然逆数サンプルが生成される。 実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。 本研究は、画像生成を用いた分類器システムに対する、現在の安全性メカニズムの限界と、妥当な攻撃の危険性を理解するための新たな道を開くものである。 Project Webサイトへのアクセスは以下の通りである。

Deep neural networks can be exploited using natural adversarial samples, which do not impact human perception. Current approaches often rely on deep neural networks' white-box nature to generate these adversarial samples or synthetically alter the distribution of adversarial samples compared to the training distribution. In contrast, we propose EvoSeed, a novel evolutionary strategy-based algorithmic framework for generating photo-realistic natural adversarial samples. Our EvoSeed framework uses auxiliary Conditional Diffusion and Classifier models to operate in a black-box setting. We employ CMA-ES to optimize the search for an initial seed vector, which, when processed by the Conditional Diffusion Model, results in the natural adversarial sample misclassified by the Classifier Model. Experiments show that generated adversarial images are of high image quality, raising concerns about generating harmful content bypassing safety classifiers. Our research opens new avenues to understanding the limitations of current safety mechanisms and the risk of plausible attacks against classifier systems using image generation. Project Website can be accessed at: https://shashankkotyan.github.io/EvoSeed.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# 個別処理効果予測のためのコンフォーマルコンボリューションとモンテカルロメタラーナー

Conformal Convolution and Monte Carlo Meta-learners for Predictive Inference of Individual Treatment Effects ( http://arxiv.org/abs/2402.04906v3 )

ライセンス: Link先を確認
Jef Jonkers, Jarne Verhaeghe, Glenn Van Wallendael, Luc Duchateau, Sofie Van Hoecke, (参考訳) 治療効果として知られる介入の効果の知識は、意思決定において最重要である。 条件付き平均処理効果(CATE)メタラーナーを用いてこの処理効果を推定するためのアプローチは、多くの場合、この処理効果の点推定しか提供せず、さらに不確実な定量化が、意思決定の信頼性を高めるために望まれる。 これを解決するために、共形畳み込みTラーナー(CCT-learner)と共形モンテカルロメタラーナー(CMC)の2つの新しいアプローチを導入する。 これらの手法は、重み付き共形予測システム(WCPS)、モンテカルロサンプリング、CATEメタラーナーを利用して、個別化された意思決定を促進する個別処理効果(ITE)の予測分布を生成する。 結果の雑音分布の仮定が不確実性予測にどのように影響するかを示すが, 実験により, CCT-およびCMCメタラーナーは狭帯域幅を維持しながら, 高いカバレッジが得られることを示した。 また、確率論的に校正された予測分布を生成し、様々な合成および半合成データセットにわたる信頼できるITE範囲を提供する。 コード:https://github.com/predict-idlab/cct-cmc

Knowledge of the effect of interventions, known as the treatment effect, is paramount for decision-making. Approaches to estimating this treatment effect using conditional average treatment effect (CATE) meta-learners often provide only a point estimate of this treatment effect, while additional uncertainty quantification is frequently desired to enhance decision-making confidence. To address this, we introduce two novel approaches: the conformal convolution T-learner (CCT-learner) and conformal Monte Carlo (CMC) meta-learners. The approaches leverage weighted conformal predictive systems (WCPS), Monte Carlo sampling, and CATE meta-learners to generate predictive distributions of individual treatment effect (ITE) that could enhance individualized decision-making. Although we show how assumptions about the noise distribution of the outcome influence the uncertainty predictions, our experiments demonstrate that the CCT- and CMC meta-learners achieve strong coverage while maintaining narrow interval widths. They also generate probabilistically calibrated predictive distributions, providing reliable ranges of ITEs across various synthetic and semi-synthetic datasets. Code: https://github.com/predict-idlab/cct-cmc
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# Retrieve, Merge, Predict: データレイクによるテーブルの拡張

Retrieve, Merge, Predict: Augmenting Tables with Data Lakes ( http://arxiv.org/abs/2402.06282v3 )

ライセンス: Link先を確認
Riccardo Cappuzzo, Aimee Coelho, Felix Lefebvre, Paolo Papotti, Gael Varoquaux, (参考訳) データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。 結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。 データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。 本研究は,両湖の体系的な調査を通じて,結合候補を正確に検索することの重要性と,単純なマージ手法の効率性について概説する。 我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。

We present an in-depth analysis of data discovery in data lakes, focusing on table augmentation for given machine learning tasks. We analyze alternative methods used in the three main steps: retrieving joinable tables, merging information, and predicting with the resultant table. As data lakes, the paper uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for benchmarking this data discovery task -- and Open Data US, a well-referenced real data lake. Through systematic exploration on both lakes, our study outlines the importance of accurately retrieving join candidates and the efficiency of simple merging methods. We report new insights on the benefits of existing solutions and on their limitations, aiming at guiding future research in this space.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# 広帯域非現実ゲームエンジンとユニティゲームエンジンのエネルギー消費の比較分析

A Comparative Analysis of Energy Consumption Between The Widespread Unreal and Unity Video Game Engines ( http://arxiv.org/abs/2402.06346v3 )

ライセンス: Link先を確認
Carlos Pérez, Javier Verón, Francisca Pérez, M Ángeles Moraga, Coral Calero, Carlos Cetina, (参考訳) コンピューティング活動の総エネルギーコストは着実に増加しており、今後数十年で世界有数のエネルギー消費国になると予想されている。 しかし、おそらくその相対的な若さのため、ゲーム部門は他のコンピュータ技術と同じレベルの環境意識をまだ開発していない。 この研究は、最も広く使われている業界規模のビデオゲームエンジンであるUnityとUnreal Engineのエネルギー消費を評価する。 具体的には,ゲームに関連する3つのシナリオ(Physics, Statics Meshes, Dynamic Meshes)を用いて,エンジンのエネルギー消費を比較した。 目的は、それぞれのエンジンがエネルギー消費に与える影響を判断することである。 ゲームエンジンのエネルギー消費は351%がUnity、静的メッシュが17%がUnity、動的メッシュが26%がUnreal Engineである。 これらの結果は、少なくとも年間51TWhの節減が可能であり、年間1300万世帯近くが消費しているのに匹敵する。

The total energy cost of computing activities is steadily increasing and projections indicate that it will be one of the dominant global energy consumers in the coming decades. However, perhaps due to its relative youth, the video game sector has not yet developed the same level of environmental awareness as other computing technologies despite the estimated three billion regular video game players in the world. This work evaluates the energy consumption of the most widely used industry-scale video game engines: Unity and Unreal Engine. Specifically, our work uses three scenarios representing relevant aspects of video games (Physics, Statics Meshes, and Dynamic Meshes) to compare the energy consumption of the engines. The aim is to determine the influence of using each of the two engines on energy consumption. Our research has confirmed significant differences in the energy consumption of video game engines: 351% in Physics in favor of Unity, 17% in Statics Meshes in favor of Unity, and 26% in Dynamic Meshes in favor of Unreal Engine. These results represent an opportunity for worldwide potential savings of at least 51 TWh per year, equivalent to the annual consumption of nearly 13 million European households, that might encourage a new branch of research on energy-efficient video game engines.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-23
# オープンドメイン都市イテナリープランニングのための大規模言語モデルによる空間最適化

Synergizing Spatial Optimization with Large Language Models for Open-Domain Urban Itinerary Planning ( http://arxiv.org/abs/2402.07204v2 )

ライセンス: Link先を確認
Yihong Tang, Zhaokai Wang, Ao Qu, Yihao Yan, Kebing Hou, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao, Zhan Zhao, Wei Ma, (参考訳) 本稿では,自然言語によるユーザ要求から個人化された都市イテナリーを生成するためのパラダイムである,オープンドメイン都市イテナリープランニング(OUIP)の新たな課題を紹介する。 このアプローチは、ユーザ入力の粒度を制限し、真のパーソナライズを妨げる従来の反復計画とは異なる。 そこで本稿では,大規模言語モデル(LLM)と空間最適化を相乗化するOUIPシステムであるItiNeraを紹介し,ユーザのニーズに応じて都市域のイテレーションをカスタマイズするサービスを提供する。 ユーザの反復リクエストを受信すると、LLMはまずそれを詳細なコンポーネントに分解し、好みや嫌悪を含む重要な要件を識別する。 次に、これらの具体例を用いて、埋め込みベースのPreference-aware POI Retrievalを用いて、大規模なコレクションから候補POIを選択する。 最後に、選好スコアに基づくクラスタ対応空間最適化モジュールクラスタ、フィルタ、およびこれらのPOIを順序付けし、続いて、パーソナライズされた空間的コヒーレントなイテレーションを構築するための詳細なPOI選択と組織をLCMで行う。 さらに,ユーザが所有するPOIデータベースを更新・パーソナライズするLLMベースのパイプラインを構築した。 これにより、最新のPOI情報、反復計画、事前調査、POIコレクション、レコメンデーションなどをサポートする。 我々の知る限り、この研究は、様々な都市旅行・探検活動の潜在的な拡張とともに、反復計画の革新のためのLSMの初めての統合である。 オフラインおよびオンライン評価は、現在のソリューションよりも応答性が高く、パーソナライズされ、空間的に一貫性のあるイテレーションを提供する能力を示している。 オンラインプラットフォーム上にデプロイされた当社のシステムは,都市旅行計画のために何千人ものユーザを惹きつけている。

In this paper, we introduce the novel task of Open-domain Urban Itinerary Planning (OUIP), a paradigm designed to generate personalized urban itineraries from user requests articulated in natural language. This approach is different from traditional itinerary planning, which often restricts the granularity of user inputs, thus hindering genuine personalization. To this end, we present ItiNera, an OUIP system that synergizes spatial optimization with large language models (LLMs) to provide services that customize urban itineraries based on users' needs. Upon receiving the user's itinerary request, the LLM first decomposes it into detailed components, identifying key requirements, including preferences and dislikes. Then, we use these specifics to select candidate POIs from a large-scale collection using embedding-based Preference-aware POI Retrieval. Finally, a preference score-based Cluster-aware Spatial Optimization module clusters, filters, and orders these POIs, followed by the LLM for detailed POI selection and organization to craft a personalized, spatially coherent itinerary. Moreover, we created an LLM-based pipeline to update and personalize a user-owned POI database. This ensures up-to-date POI information, supports itinerary planning, pre-trip research, POI collection, recommendations, and more. To the best of our knowledge, this study marks the first integration of LLMs to innovate itinerary planning, with potential extensions for various urban travel and exploration activities. Offline and online evaluations demonstrate the capacity of our system to deliver more responsive, personalized, and spatially coherent itineraries than current solutions. Our system, deployed on an online platform, has attracted thousands of users for their urban travel planning.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# ClusterTabNet:テーブル検出とテーブル構造認識のための監視クラスタリング手法

ClusterTabNet: Supervised clustering method for table detection and table structure recognition ( http://arxiv.org/abs/2402.07502v2 )

ライセンス: Link先を確認
Marek Polewczyk, Marco Spinaci, (参考訳) 文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。 表構造ボトムアップを、一対の単語(同じ行、列、ヘッダ、同じテーブル)間の関係のグラフとして解釈し、その隣接行列を予測するためにトランスフォーマーエンコーダモデルを使用する。 PubTabNetおよびFinTabNetデータセットと同様にPubTables-1Mデータセット上で,本手法の性能を示す。 DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。

We present a novel deep-learning-based method to cluster words in documents which we apply to detect and recognize tables given the OCR output. We interpret table structure bottom-up as a graph of relations between pairs of words (belonging to the same row, column, header, as well as to the same table) and use a transformer encoder model to predict its adjacency matrix. We demonstrate the performance of our method on the PubTables-1M dataset as well as PubTabNet and FinTabNet datasets. Compared to the current state-of-the-art detection methods such as DETR and Faster R-CNN, our method achieves similar or better accuracy, while requiring a significantly smaller model.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v5 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを、自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、UFOはWindows OS環境内でタスク完了用に特別に調整された最初のUIエージェントである。 UFOのオープンソースコードはhttps://github.com/microsoft/UFOで公開されている。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# 高次元システムにおける効率的な推論のためのガウスアンサンブル信念伝播

Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems ( http://arxiv.org/abs/2402.08193v4 )

ライセンス: Link先を確認
Dan MacKinlay, Russell Tsuchida, Dan Pagendam, Petra Kuhnert, (参考訳) 高次元モデルにおける効率的な推論は、マシンラーニングにおいて依然として中心的な課題である。 本稿では,Gaussian Ensemble Belief Propagation (GEnBP)アルゴリズム,Ensemble KalmanフィルタとGaBP法の融合について述べる。 GEnBPは、グラフィックモデル上で低ランクのローカルメッセージを渡すことでアンサンブルを更新する。 この組み合わせはそれぞれの方法から好ましい品質を継承する。 アンサンブル技術により、GEnBPは高次元状態、パラメータ、複雑なノイズ、ブラックボックス生成プロセスを扱うことができる。 グラフィカルモデル構造におけるローカルメッセージの使用により、アプローチが複雑な依存構造を効率的に扱うことができる。 アンサンブルサイズが推論次元よりもかなり小さい場合、GEnBPは有利である。 このシナリオは時空間モデリング、画像処理、物理モデル反転といった分野にしばしば現れる。 GEnBPは、データ同化、システム識別、階層モデルなどの一般的な問題構造に適用できる。 サポートコードはhttps://github.com/danmackinlay/GEnBPで入手できる。

Efficient inference in high-dimensional models remains a central challenge in machine learning. This paper introduces the Gaussian Ensemble Belief Propagation (GEnBP) algorithm, a fusion of the Ensemble Kalman filter and Gaussian Belief Propagation (GaBP) methods. GEnBP updates ensembles by passing low-rank local messages over a graphical model. This combination inherits favourable qualities from each method. Ensemble techniques allow GEnBP to handle high-dimensional states, parameters and intricate, noisy, black-box generation processes. The use of local messages in a graphical model structure ensures that the approach can efficiently handle complex dependence structures. GEnBP is advantageous when the ensemble size may be considerably smaller than the inference dimension. This scenario often arises in fields such as spatiotemporal modelling, image processing and physical model inversion. GEnBP can be applied to general problem structures, including data assimilation, system identification and hierarchical models. Supporting code is available at https://github.com/danmackinlay/GEnBP
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# サイド情報付きスタックルバーグゲームにおけるレグレト最小化

Regret Minimization in Stackelberg Games with Side Information ( http://arxiv.org/abs/2402.08576v3 )

ライセンス: Link先を確認
Keegan Harris, Zhiwei Steven Wu, Maria-Florina Balcan, (参考訳) Stackelbergのゲームでプレイするためのアルゴリズムは、空港のセキュリティ、密猟防止、サイバー犯罪防止など、現実世界のドメインに展開されている。 しかし、これらのアルゴリズムは、それぞれのプレイヤーに利用可能な追加情報(例えば、交通パターン、気象条件、ネットワークの混雑など)を考慮するのに失敗することが多く、両者の最適な戦略に大きな影響を与える可能性がある。 両プレーヤーがプレー前に外部コンテキストを観察する,サイド情報付きStackelbergゲームのような設定を形式化する。 リーダーは(コンテキストに依存した)戦略をコミットし、フォロワーはリーダーの戦略とコンテキストの両方に最もよく対応します。 我々は、フォロワーの連続が時間とともに到着するオンライン設定に焦点を当て、そのコンテキストがラウンド・ツー・ラウンドで変化する可能性がある。 非コンテクストバージョンとは対照的に、完全な対向的な設定では、リーダが優れたパフォーマンス(後悔によって測定される)を達成することは不可能であることを示す。 この結果から,従属者の列が確率的に選択され,文脈の列が逆となるような設定と,文脈の列が確率的であり,従属者の列が敵対者によって選択されるような設定の2つの自然な緩和において,非回帰学習が可能であることが示唆された。

Algorithms for playing in Stackelberg games have been deployed in real-world domains including airport security, anti-poaching efforts, and cyber-crime prevention. However, these algorithms often fail to take into consideration the additional information available to each player (e.g. traffic patterns, weather conditions, network congestion), a salient feature of reality which may significantly affect both players' optimal strategies. We formalize such settings as Stackelberg games with side information, in which both players observe an external context before playing. The leader commits to a (context-dependent) strategy, and the follower best-responds to both the leader's strategy and the context. We focus on the online setting in which a sequence of followers arrive over time, and the context may change from round-to-round. In sharp contrast to the non-contextual version, we show that it is impossible for the leader to achieve good performance (measured by regret) in the full adversarial setting. Motivated by our impossibility result, we show that no-regret learning is possible in two natural relaxations: the setting in which the sequence of followers is chosen stochastically and the sequence of contexts is adversarial, and the setting in which the sequence of contexts is stochastic and the sequence of followers is chosen by an adversary.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# SemRel2024: 13言語用セマンティックテキスト関連データセットのコレクション

SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages ( http://arxiv.org/abs/2402.08638v4 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) 意味的関連性の探索と定量化は言語の中心であり、様々なNLPタスクにおいて重要な意味を持つ。 初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、その代わりに意味的関連性のより広範な現象を調査した。 本稿では,13言語にまたがる母語話者によって注釈付けされた新しい意味関連データセットである「textit{SemRel}」について述べる。「textit{Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Spanish,} および「textit{Telugu}」。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 スコアは比較アノテーションフレームワークを用いて得られる。 データ収集とアノテーションプロセス、データセット構築時の課題、ベースライン実験、NLPにおけるそれらの影響と有用性について説明する。

Exploring and quantifying semantic relatedness is central to representing language and holds significant implications across various NLP tasks. While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present \textit{SemRel}, a new semantic relatedness dataset collection annotated by native speakers across 13 languages: \textit{Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Spanish,} and \textit{Telugu}. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, challenges when building the datasets, baseline experiments, and their impact and utility in NLP.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# MUSTARD:理論と証明データの一様合成をマスターする

MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data ( http://arxiv.org/abs/2402.08957v3 )

ライセンス: Link先を確認
Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang, (参考訳) 近年の大規模言語モデル(LLM)は、数学的推論や定理証明など、様々なタスクにおいて顕著な進歩をみせている。 これらの2つのタスクは厳密で形式的な多段階推論を必要とするため、LLMの推論能力を探究するドメインにアピールするが、それでも重要な課題に直面している。 CoT(Chain-of-Thought)のような従来の研究は、中間ステップガイダンスの有効性を明らかにしている。 しかし、このようなステップワイズアノテーションは多大な労力を必要とするため、現在のベンチマークのトレーニングステップは不十分である。 このギャップを埋めるために、この研究はMUSTARDという、高品質で多様性の高い定理と証明データの統一的な合成をマスターするデータ生成フレームワークを導入している。 MUSTARDは、(1)問題カテゴリとしていくつかの数学的概念種をサンプリングする。 2) 次に,サンプル概念を用いた生成言語モデルを作成し,その問題とステップワイドな形式的解を求める。 (3) 最後に、このフレームワークは証明アシスタント(例:Lean Prover)を使用して、有効な証明をフィルタリングします。 提案したMUSTARDでは、5,866個の有効なデータポイントを持つMUSTARDSAUCEの定理と安全性を示すベンチマークを提示する。 各データポイントは、非公式なステートメント、非公式な証明、そして証明者検証に合格する翻訳された公式な証明を含む。 我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。 さらに、より小型の言語モデルにMUSTARDSAUCEを適用する。 微調整されたLlama 2-7Bは、自動定理の証明において平均相対的な性能が15.41%、数学用語の問題では8.18%に達する。 コードとデータはhttps://github.com/Eleanor-H/MUSTARD.comで公開されている。

Recent large language models (LLMs) have witnessed significant advancement in various tasks, including mathematical reasoning and theorem proving. As these two tasks require strict and formal multi-step inference, they are appealing domains for exploring the reasoning ability of LLMs but still face important challenges. Previous studies such as Chain-of-Thought (CoT) have revealed the effectiveness of intermediate steps guidance. However, such step-wise annotation requires heavy labor, leading to insufficient training steps for current benchmarks. To fill this gap, this work introduces MUSTARD, a data generation framework that masters uniform synthesis of theorem and proof data of high quality and diversity. MUSTARD synthesizes data in three stages: (1) It samples a few mathematical concept seeds as the problem category. (2) Then, it prompts a generative language model with the sampled concepts to obtain both the problems and their step-wise formal solutions. (3) Lastly, the framework utilizes a proof assistant (e.g., Lean Prover) to filter the valid proofs. With the proposed MUSTARD, we present a theorem-and-proof benchmark MUSTARDSAUCE with 5,866 valid data points. Each data point contains an informal statement, an informal proof, and a translated formal proof that passes the prover validation. We perform extensive analysis and demonstrate that MUSTARD generates validated high-quality step-by-step data. We further apply the MUSTARDSAUCE for fine-tuning smaller language models. The fine-tuned Llama 2-7B achieves a 15.41% average relative performance gain in automated theorem proving, and 8.18% in math word problems. Codes and data are available at https://github.com/Eleanor-H/MUSTARD.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# InfoRM:情報理論リワードモデリングによるRLHFのリワードハックの軽減

InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling ( http://arxiv.org/abs/2402.09345v4 )

ライセンス: Link先を確認
Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang, Dacheng Tao, (参考訳) 人間のフィードバック(RLHF)から強化学習を成功させ、言語モデルと人間の価値を整合させる一方で、報酬のハッキングは報酬の過最適化とも呼ばれるが、依然として重要な課題である。 この問題は、報酬モデル(RM)が人間の好みとは無関係な刺激的な特徴を用いて報酬を計算するという、報酬の一般化から生じる。 本研究では、情報理論の観点からこの問題に取り組み、無関係な情報をフィルタリングする変動情報ボトルネック目標を導入することにより、報酬モデリング(InfoRM)のためのフレームワークを提案する。 特に,InfoRM の IB 潜伏空間における過度最適化と外れ値の相関関係を更に同定し,過度最適化を検出するための有望なツールとして確立した。 この発見に触発されて、オンライン緩和戦略の開発を促進するための報酬過度最適化の指標として、ICB潜伏空間における偏差を定量化するクラスタ分離指数(CSI)を提案する。 幅広い設定とRMスケール(70M, 440M, 1.4B, 7B)の広範囲にわたる実験によりInfoRMの有効性が示された。 さらに分析した結果、InfoRMの過度な最適化検出メカニズムは、広範囲のデータセットで有効であるだけでなく、堅牢であることが明らかとなり、RLHFの分野における顕著な進歩を示している。 コードは受理時にリリースされます。

Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models with human values, reward hacking, also termed reward overoptimization, remains a critical challenge. This issue primarily arises from reward misgeneralization, where reward models (RMs) compute reward using spurious features that are irrelevant to human preferences. In this work, we tackle this problem from an information-theoretic perspective and propose a framework for reward modeling, namely InfoRM, by introducing a variational information bottleneck objective to filter out irrelevant information. Notably, we further identify a correlation between overoptimization and outliers in the IB latent space of InfoRM, establishing it as a promising tool for detecting reward overoptimization. Inspired by this finding, we propose the Cluster Separation Index (CSI), which quantifies deviations in the IB latent space, as an indicator of reward overoptimization to facilitate the development of online mitigation strategies. Extensive experiments on a wide range of settings and RM scales (70M, 440M, 1.4B, and 7B) demonstrate the effectiveness of InfoRM. Further analyses reveal that InfoRM's overoptimization detection mechanism is not only effective but also robust across a broad range of datasets, signifying a notable advancement in the field of RLHF. The code will be released upon acceptance.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# ラベル付け機能の違いによる協調学習

Collaborative Learning with Different Labeling Functions ( http://arxiv.org/abs/2402.10445v3 )

ライセンス: Link先を確認
Yuyang Deng, Mingda Qiao, (参考訳) 我々は,各$n$のデータ分布に対して正確な分類器を学習し,それらから抽出したサンプルの数を最小化することを目的とした,協調型PAC学習の変種について検討する。 通常の協調学習装置とは異なり、全ての分布に対して同時に正確である単一の分類器が存在するとは考えていない。 マルチタスク学習の文脈において,データ分布が[Crammer and Mansour, 2012]に現れるより弱い実現可能性仮定を満たす場合,サンプル効率の学習は依然として実現可能であることを示す。 本稿では,仮説クラスの自然増進に基づく経験的リスク最小化(ERM)に基づく学習アルゴリズムを提案する。 計算効率の観点からは,拡張仮説クラスにおけるERMがNPハードであることを示し,計算効率のよい学習者が存在することを示す。 肯定的な面では、2つの特別な場合において、サンプルと計算効率の両方の学習者を与える。

We study a variant of Collaborative PAC Learning, in which we aim to learn an accurate classifier for each of the $n$ data distributions, while minimizing the number of samples drawn from them in total. Unlike in the usual collaborative learning setup, it is not assumed that there exists a single classifier that is simultaneously accurate for all distributions. We show that, when the data distributions satisfy a weaker realizability assumption, which appeared in [Crammer and Mansour, 2012] in the context of multi-task learning, sample-efficient learning is still feasible. We give a learning algorithm based on Empirical Risk Minimization (ERM) on a natural augmentation of the hypothesis class, and the analysis relies on an upper bound on the VC dimension of this augmented class. In terms of the computational efficiency, we show that ERM on the augmented hypothesis class is NP-hard, which gives evidence against the existence of computationally efficient learners in general. On the positive side, for two special cases, we give learners that are both sample- and computationally-efficient.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-23
# UniST: 都市時空間予測のためのプロンプト型ユニバーサルモデル

UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction ( http://arxiv.org/abs/2402.11838v3 )

ライセンス: Link先を確認
Yuan Yuan, Jingtao Ding, Jie Feng, Depeng Jin, Yong Li, (参考訳) 都市空間の時空間予測は交通管理,資源最適化,都市計画といった情報的意思決定に不可欠である。 自然言語のための事前訓練された基礎モデルは、様々な領域にまたがる複数のタスクに1つの汎用モデルが取り組むという、驚くべきブレークスルーを経験してきたが、都市空間の時空間モデリングは遅れている。 都市予測のための既存のアプローチは、通常特定の時空間シナリオに合わせて調整され、タスク固有のモデル設計と広範なドメイン内トレーニングデータを必要とする。 本研究では,都市空間の時空間予測のためのユニバーサルモデルUniSTを提案する。 大規模な言語モデルからインスピレーションを得たUniSTは、以下の通り成功している。 一 多様な時空間データ特性に対する柔軟性 (II)複雑な時空間的関係を捉えるための精巧なマスキング戦略による効果的な生成前訓練 三 シナリオをまたいだ本質的・共有的知識の整合と活用を図るための時空間的知識誘導プロンプト。 これらの設計は、強力な一般化能力を備えた時空間予測のための1対全モデルの可能性を開放するものである。 15の都市と6つのドメインに対する大規模な実験は、特にショット数とゼロショットのシナリオにおいて、最先端の予測性能の進歩におけるUniSTの普遍性を実証している。 実装はこのリポジトリで利用可能である。

Urban spatio-temporal prediction is crucial for informed decision-making, such as transportation management, resource optimization, and urban planning. Although pretrained foundation models for natural languages have experienced remarkable breakthroughs, wherein one general-purpose model can tackle multiple tasks across various domains, urban spatio-temporal modeling lags behind. Existing approaches for urban prediction are usually tailored for specific spatio-temporal scenarios, requiring task-specific model designs and extensive in-domain training data. In this work, we propose a universal model, UniST, for urban spatio-temporal prediction. Drawing inspiration from large language models, UniST achieves success through: (i) flexibility towards diverse spatio-temporal data characteristics, (ii) effective generative pre-training with elaborated masking strategies to capture complex spatio-temporal relationships, (iii) spatio-temporal knowledge-guided prompts that align and leverage intrinsic and shared knowledge across scenarios. These designs together unlock the potential of a one-for-all model for spatio-temporal prediction with powerful generalization capability. Extensive experiments on 15 cities and 6 domains demonstrate the universality of UniST in advancing state-of-the-art prediction performance, especially in few-shot and zero-shot scenarios. The implementation is available at this repository: https://github.com/tsinghua-fib-lab/UniST.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# 答えはどこにあるのか?言語モデル知識抽出における位置バイアスの調査

Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction ( http://arxiv.org/abs/2402.12170v2 )

ライセンス: Link先を確認
Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku, (参考訳) 大規模な言語モデルでは、更新を最新状態に保つか、新しいドキュメントを微調整することで新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。 しかし、LLMはパープレキシティ呪いと呼ばれる現象に悩まされ、微調整中に文書のパープレキシティを最小化するが、即時文で情報を取り出すのに苦労する。 この新たな知識獲得と抽出では、LLMが第一文に関する質問に正確に答えられることが非常に興味深いが、微調整に使用する文書の中端や端に記述された情報を抽出するのに苦労している。 本研究は, 自己回帰学習がこの問題を引き起こすことを示唆するものであり, 各トークンは, 従来のトークンの全てに依存して誘導される。 詳細な研究を行うため、我々は合成データと実データの両方を公開し、文書中の対応する回答の位置に関するQA性能の評価を可能にする。 本研究は,大規模なモデルであっても難解な呪文に悩まされていることを示しているが,自己回帰的損失を抑えるような正規化は,多様な位置からの情報抽出を促進することができる。 これらの発見は 一 LLMからの知識抽出を改善するための鍵 2新しい領域にLSMを適用する際のRAGと微調整のトレードオフを議論する新しい要素。

Large language models require updates to remain up-to-date or adapt to new domains by fine-tuning them with new documents. One key is memorizing the latest information in a way that the memorized information is extractable with a query prompt. However, LLMs suffer from a phenomenon called perplexity curse; despite minimizing document perplexity during fine-tuning, LLMs struggle to extract information through a prompt sentence. In this new knowledge acquisition and extraction, we find a very intriguing fact that LLMs can accurately answer questions about the first sentence, but they struggle to extract information described in the middle or end of the documents used for fine-tuning. Our study suggests that the auto-regressive training causes this issue; each token is prompted by reliance on all previous tokens, which hinders the model from recalling information from training documents by question prompts. To conduct the in-depth study, we publish both synthetic and real datasets, enabling the evaluation of the QA performance w.r.t. the position of the corresponding answer in a document. Our investigation shows that even a large model suffers from the perplexity curse, but regularization such as denoising auto-regressive loss can enhance the information extraction from diverse positions. These findings will be (i) a key to improving knowledge extraction from LLMs and (ii) new elements to discuss the trade-off between RAG and fine-tuning in adapting LLMs to a new domain.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# 思考の連鎖が変圧器に根源的なシリアル問題を解く力を与える

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems ( http://arxiv.org/abs/2402.12875v3 )

ライセンス: Link先を確認
Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma, (参考訳) モデルに中間段階、すなわち思考の連鎖(CoT)を生成するように指示することは、算術やシンボリック推論タスクにおいて大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。 しかし、CoTの背後にあるメカニズムは未だに不明である。 この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。 概念的には、CoTはモデルに本質的にシリアルな計算を実行する能力を持たせる。 入力長$n$が与えられたとき、以前の研究は有限精度$\mathsf{poly}(n)$埋め込みサイズを持つ定数深度変換器は、CoTのない$\mathsf{TC}^0$でしか解決できないことを示した。 まず、定数ビット精度を持つ定数深度変換器に対して、より厳密な表現性上限を示す。これは、$ \mathsf{TC}^0$ の固有部分集合である $\mathsf{AC}^0$ の問題を解くことしかできない。 しかし、CoTの$T$ステップでは、定数ビット精度と$O(\log n)$埋め込みサイズを使った定数深度変換器は、サイズ$T$のブール回路で解けるあらゆる問題を解くことができる。 経験的に、CoTを有効にすることで、特に低深度トランスフォーマーにおいて、置換群、反復スクアリング、回路値問題などの並列計算に苦しむタスクの精度が劇的に向上する。

Instructing the model to generate a sequence of intermediate steps, a.k.a., a chain of thought (CoT), is a highly effective method to improve the accuracy of large language models (LLMs) on arithmetics and symbolic reasoning tasks. However, the mechanism behind CoT remains unclear. This work provides a theoretical understanding of the power of CoT for decoder-only transformers through the lens of expressiveness. Conceptually, CoT empowers the model with the ability to perform inherently serial computation, which is otherwise lacking in transformers, especially when depth is low. Given input length $n$, previous works have shown that constant-depth transformers with finite precision $\mathsf{poly}(n)$ embedding size can only solve problems in $\mathsf{TC}^0$ without CoT. We first show an even tighter expressiveness upper bound for constant-depth transformers with constant-bit precision, which can only solve problems in $\mathsf{AC}^0$, a proper subset of $ \mathsf{TC}^0$. However, with $T$ steps of CoT, constant-depth transformers using constant-bit precision and $O(\log n)$ embedding size can solve any problem solvable by boolean circuits of size $T$. Empirically, enabling CoT dramatically improves the accuracy for tasks that are hard for parallel computation, including the composition of permutation groups, iterated squaring, and circuit value problems, especially for low-depth transformers.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# SPRINQL: オフライン模倣学習による準最適デモ

SPRINQL: Sub-optimal Demonstrations driven Offline Imitation Learning ( http://arxiv.org/abs/2402.13147v2 )

ライセンス: Link先を確認
Huy Hoang, Tien Mai, Pradeep Varakantham, (参考訳) 我々は,環境との相互作用を伴わずに実演を用いて専門家の行動を模倣することを目的とした,オフライン模倣学習(IL)に焦点を当てた。 オフラインILの主な課題の1つは、専門家によるデモンストレーションの限定的なサポートである。 多くの専門家によるデモンストレーションを入手することは不可能かもしれないが、より大規模な準最適デモを収集することはしばしば可能である。 例えば、治療最適化問題では、異なる慢性疾患に対してさまざまなレベルの医師治療が利用可能である。 これらは、治療専門家や経験豊富な一般開業医から経験の浅い一般開業医まで様々である。 同様に、ロボットが通常のタスクで人間を模倣するように訓練されている場合、異なるレベルの専門知識と効率性を持つ個人から学ぶことができる。 本稿では,専門家の軌道を効果的に模倣しながら,より大規模な準最適実演を生かしたオフラインIL手法を提案する。 動作のクローン化や分散マッチングに基づく既存のオフラインILメソッドは、専門家によるデモの限られたセットに過度に適合したり、より大きなデータセットから最適なサブトラジェクトリを不注意に模倣したりするといった問題に直面していることが多い。 我々のアプローチは、逆ソフトQ学習に基づいており、専門家と準最適実証の両方から学習する。 専門家のデモンストレーションとの整合性に(学習した重みを通して)より高い重要性を割り当て、サブ最適のデモとの整合性に低い重要性を割り当てる。 我々のアプローチの重要な貢献は、SPRINQLと呼ばれ、オフラインのIL問題をQ関数の空間上の凸最適化に変換することである。 本研究では,SPRINQLアルゴリズムがオフラインILベンチマーク上でのSOTA(State-of-the-art)性能を実現することを実証する。 コードはhttps://github.com/hmhuy2000/SPRINQLで入手できる。

We focus on offline imitation learning (IL), which aims to mimic an expert's behavior using demonstrations without any interaction with the environment. One of the main challenges in offline IL is the limited support of expert demonstrations, which typically cover only a small fraction of the state-action space. While it may not be feasible to obtain numerous expert demonstrations, it is often possible to gather a larger set of sub-optimal demonstrations. For example, in treatment optimization problems, there are varying levels of doctor treatments available for different chronic conditions. These range from treatment specialists and experienced general practitioners to less experienced general practitioners. Similarly, when robots are trained to imitate humans in routine tasks, they might learn from individuals with different levels of expertise and efficiency. In this paper, we propose an offline IL approach that leverages the larger set of sub-optimal demonstrations while effectively mimicking expert trajectories. Existing offline IL methods based on behavior cloning or distribution matching often face issues such as overfitting to the limited set of expert demonstrations or inadvertently imitating sub-optimal trajectories from the larger dataset. Our approach, which is based on inverse soft-Q learning, learns from both expert and sub-optimal demonstrations. It assigns higher importance (through learned weights) to aligning with expert demonstrations and lower importance to aligning with sub-optimal ones. A key contribution of our approach, called SPRINQL, is transforming the offline IL problem into a convex optimization over the space of Q functions. Through comprehensive experimental evaluations, we demonstrate that the SPRINQL algorithm achieves state-of-the-art (SOTA) performance on offline IL benchmarks. Code is available at https://github.com/hmhuy2000/SPRINQL.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# TransfORmersに向けて: トランスフォーマーによる混合整数プログラムの解法革新

Toward TransfORmers: Revolutionizing the Solution of Mixed Integer Programs with Transformers ( http://arxiv.org/abs/2402.13380v2 )

ライセンス: Link先を確認
Joshua F. Cooper, Seung Jin Choi, I. Esra Buyuktahtakin, (参考訳) 本研究では,混合整数プログラムの課題に対処するため,トランスフォーマーモデルを用いた革新的なディープラーニングフレームワークを提案する。 我々の知る限り、我々のアプローチは、トランスフォーマーを用いて混合整数プログラミング(MIP)問題のバイナリ変数を予測する最初の方法である。 具体的には、エンコーダデコーダ変換器のシーケンシャルデータ処理能力を活用し、CLSPの各期間における生産設定決定を示すバイナリ変数の予測に適している。 この問題は本質的に動的であり、制約の下でシーケンシャルな意思決定を扱う必要がある。 本稿では,変圧器ニューラルネットワークを用いてCLSPソリューションを学習する効率的なアルゴリズムを提案する。 提案した後処理トランスフォーマーアルゴリズムは、テストされた240KベンチマークCLSPインスタンスに対して、ソリューション時間、最適ギャップ、パーセントの効率で、最先端の解決器であるCPLEXとLong Short-Term Memory(LSTM)を超越する。 MLモデルをトレーニングした後、モデル上で推論を行い、MIPを線形プログラム(LP)に還元する。 これにより、MLベースのアルゴリズムをLPソルバと組み合わせて多項式時間近似アルゴリズムに変換し、よく知られたNP-Hard問題をほぼ完全な解品質で解く。

In this study, we introduce an innovative deep learning framework that employs a transformer model to address the challenges of mixed-integer programs, specifically focusing on the Capacitated Lot Sizing Problem (CLSP). Our approach, to our knowledge, is the first to utilize transformers to predict the binary variables of a mixed-integer programming (MIP) problem. Specifically, our approach harnesses the encoder decoder transformer's ability to process sequential data, making it well-suited for predicting binary variables indicating production setup decisions in each period of the CLSP. This problem is inherently dynamic, and we need to handle sequential decision making under constraints. We present an efficient algorithm in which CLSP solutions are learned through a transformer neural network. The proposed post-processed transformer algorithm surpasses the state-of-the-art solver, CPLEX and Long Short-Term Memory (LSTM) in solution time, optimal gap, and percent infeasibility over 240K benchmark CLSP instances tested. After the ML model is trained, conducting inference on the model, reduces the MIP into a linear program (LP). This transforms the ML-based algorithm, combined with an LP solver, into a polynomial-time approximation algorithm to solve a well-known NP-Hard problem, with almost perfect solution quality.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# KorNAT:韓国の社会価値と共通知識のためのLLMアライメントベンチマーク

KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge ( http://arxiv.org/abs/2402.13605v5 )

ライセンス: Link先を確認
Jiyoung Lee, Minwoo Kim, Seungho Kim, Junghwan Kim, Seunghyun Won, Hwaran Lee, Edward Choi, (参考訳) 大きな言語モデル(LLM)が特定の国に効果的に展開されるためには、その国の文化と基本的な知識を理解する必要がある。 この目的のために,社会価値アライメントと共通知識アライメントという2つの側面から,LLMと対象国間のアライメントを測定する全国アライメントを導入する。 社会的価値のアライメントは、モデルがいかに国家固有の社会的価値を理解するかを評価する一方、共通の知識のアライメントは、モデルが国家に関連する基本的な知識をいかに捉えるかを調べる。 我々は韓国と国家の整合性を測定する最初のベンチマークであるKorNATを構築した。 社会価値データセットについて,6,174人の韓国人参加者を対象とした大規模調査から,基礎的真理ラベルを得た。 共通知識データセットについて,韓国の教科書とGED参照資料に基づくサンプルを構築した。 KorNATには、それぞれ社会的価値と共通知識に関する4Kと6Kの多重選択質問が含まれている。 我々のデータセット作成プロセスは、統計的サンプリング理論に基づいて慎重に設計され、複数ラウンドの人間によるレビューを通して洗練されている。 7つのLLM実験の結果, 基準値に適合するモデルはごくわずかであり, さらなる拡張の可能性を示した。 KorNATは、データセットの品質評価を専門とする政府機関による評価を通過させた後、政府の承認を受けた。 データセットのサンプルと詳細な評価プロトコルはhttps://huggingface.co/datasets/jiyounglee0523/KorNAT で確認できます。

For Large Language Models (LLMs) to be effectively deployed in a specific country, they must possess an understanding of the nation's culture and basic knowledge. To this end, we introduce National Alignment, which measures an alignment between an LLM and a targeted country from two aspects: social value alignment and common knowledge alignment. Social value alignment evaluates how well the model understands nation-specific social values, while common knowledge alignment examines how well the model captures basic knowledge related to the nation. We constructed KorNAT, the first benchmark that measures national alignment with South Korea. For the social value dataset, we obtained ground truth labels from a large-scale survey involving 6,174 unique Korean participants. For the common knowledge dataset, we constructed samples based on Korean textbooks and GED reference materials. KorNAT contains 4K and 6K multiple-choice questions for social value and common knowledge, respectively. Our dataset creation process is meticulously designed and based on statistical sampling theory and was refined through multiple rounds of human review. The experiment results of seven LLMs reveal that only a few models met our reference score, indicating a potential for further enhancement. KorNAT has received government approval after passing an assessment conducted by a government-affiliated organization dedicated to evaluating dataset quality. Samples and detailed evaluation protocols of our dataset can be found in https://huggingface.co/datasets/jiyounglee0523/KorNAT .
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# 都市住民としての大規模言語モデル:パーソナルモビリティ生成のためのLLMエージェントフレームワーク

Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation ( http://arxiv.org/abs/2402.14744v2 )

ライセンス: Link先を確認
Jiawei Wang, Renhe Jiang, Chuang Yang, Zengqing Wu, Makoto Onizuka, Ryosuke Shibasaki, Noboru Koshizuka, Chuan Xiao, (参考訳) 本稿では,Large Language Models (LLMs) をエージェントフレームワークに統合した,フレキシブルかつ効果的なパーソナルモビリティ生成手法を提案する。 LLMは、セマンティックデータを効果的に処理し、様々なタスクをモデリングする汎用性を提供することによって、以前のモデルの限界を克服する。 本研究は,LLMと実際の都市モビリティデータとの整合性,信頼性の高い活動生成戦略の開発,都市モビリティにおけるLLM応用の探索という3つの研究課題に対処する。 主要な技術的貢献は、個々の活動パターンとモチベーションを考慮に入れた新しいLLMエージェントフレームワークであり、LLMを実世界の活動データと整合させる自己整合性アプローチや、解釈可能な活動生成のための検索強化戦略などである。 筆者らはLLMエージェント・フレームワークを評価し,現在最先端のパーソナルモビリティ・ジェネレーション・アプローチと比較し,我々のアプローチの有効性と都市モビリティへの応用の可能性を示した。 本研究は,実世界の人間活動データに基づく活動生成のための LLM エージェント・フレームワークを設計し,都市移動分析のための有望なツールを提供する,先駆的な取り組みである。

This paper introduces a novel approach using Large Language Models (LLMs) integrated into an agent framework for flexible and effective personal mobility generation. LLMs overcome the limitations of previous models by effectively processing semantic data and offering versatility in modeling various tasks. Our approach addresses three research questions: aligning LLMs with real-world urban mobility data, developing reliable activity generation strategies, and exploring LLM applications in urban mobility. The key technical contribution is a novel LLM agent framework that accounts for individual activity patterns and motivations, including a self-consistency approach to align LLMs with real-world activity data and a retrieval-augmented strategy for interpretable activity generation. We evaluate our LLM agent framework and compare it with state-of-the-art personal mobility generation approaches, demonstrating the effectiveness of our approach and its potential applications in urban mobility. Overall, this study marks the pioneering work of designing an LLM agent framework for activity generation based on real-world human activity data, offering a promising tool for urban mobility analysis.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# GPTアプリの初見:ランドスケープと脆弱性

A First Look at GPT Apps: Landscape and Vulnerability ( http://arxiv.org/abs/2402.15105v2 )

ライセンス: Link先を確認
Zejun Zhang, Li Zhang, Xin Yuan, Anlan Zhang, Mengwei Xu, Feng Qian, (参考訳) OpenAIがGPTを導入した後、GPTアプリの急増により、専用のLLMアプリストアが立ち上がった。 それでも、そのデビューを考えると、この新しいエコシステムに対する十分な理解が欠如している。 このギャップを埋めるために,本研究では,新たに出現するLLMアプリエコシステムの進化,景観,脆弱性について,GPTアプリストアである \textit{GPTStore.AI} と,公式の \textit{OpenAI GPT Store に焦点をあてた,最初の総合的(5ヶ月)な研究結果を示す。 具体的には、2つの自動ツールとTriLevel構成抽出戦略を開発し、メタデータ(名前、作成者、説明者、 \etc)を効率的に収集し、これら2つのストアにまたがるすべてのGPTアプリに対するユーザーフィードバックと、上位1万の人気アプリの設定(\ieシステムプロンプト、ナレッジファイル、API)を効率的に行う。 1) GPTアプリのユーザ熱意は一貫して上昇し, 2) GPTアプリのローンチから3ヶ月以内にクリエーターの関心が高騰する。 私たちの発見は,アプリストア,クリエーター,ユーザによるLDMアプリエコシステムの強化の必要性を浮き彫りにしている。

Following OpenAI's introduction of GPTs, a surge in GPT apps has led to the launch of dedicated LLM app stores. Nevertheless, given its debut, there is a lack of sufficient understanding of this new ecosystem. To fill this gap, this paper presents a first comprehensive longitudinal (5-month) study of the evolution, landscape, and vulnerability of the emerging LLM app ecosystem, focusing on two GPT app stores: \textit{GPTStore.AI} and the official \textit{OpenAI GPT Store}. Specifically, we develop two automated tools and a TriLevel configuration extraction strategy to efficiently gather metadata (\ie names, creators, descriptions, \etc) and user feedback for all GPT apps across these two stores, as well as configurations (\ie system prompts, knowledge files, and APIs) for the top 10,000 popular apps. Our extensive analysis reveals: (1) the user enthusiasm for GPT apps consistently rises, whereas creator interest plateaus within three months of GPTs' launch; (2) nearly 90\% system prompts can be easily accessed due to widespread failure to secure GPT app configurations, leading to considerable plagiarism and duplication among apps. Our findings highlight the necessity of enhancing the LLM app ecosystem by the app stores, creators, and users.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# Reputational Algorithm Aversion

Reputational Algorithm Aversion ( http://arxiv.org/abs/2402.15418v2 )

ライセンス: Link先を確認
Gregory Weitzner, (参考訳) 人々はしばしばアルゴリズムによって生成された情報をその決定に組み込むことに消極的であり、それは 'algorithm aversion'' と呼ばれる現象である。 本稿では,アルゴリズムに従う選択が人間の能力に関する情報を伝達するときに,アルゴリズムの逆転が生じることを示す。 労働者が自分のプライベート情報とアルゴリズムの信号に基づいて不確実な結果を予測するモデルを開発する。 低熟練労働者はアルゴリズムよりも悪い情報を受け取り、従って常にアルゴリズムの信号に従うべきであるが、高熟練労働者はアルゴリズムよりも優れた情報を受け取り、時にはそれを上書きするべきである。 しかし、評判の懸念から、低スキル労働者はアルゴリズムを非効率にオーバーライドし、高いスキルと見なされる可能性を高める。 このモデルは、AIシステムが多くの種類の労働者を置き換えるという幅広い懸念に沿うアルゴリズム回避のための、完全に合理的なマイクロファウンドを提供する。

People are often reluctant to incorporate information produced by algorithms into their decisions, a phenomenon called ``algorithm aversion''. This paper shows how algorithm aversion arises when the choice to follow an algorithm conveys information about a human's ability. I develop a model in which workers make forecasts of an uncertain outcome based on their own private information and an algorithm's signal. Low-skill workers receive worse information than the algorithm and hence should always follow the algorithm's signal, while high-skill workers receive better information than the algorithm and should sometimes override it. However, due to reputational concerns, low-skill workers inefficiently override the algorithm to increase the likelihood they are perceived as high-skill. The model provides a fully rational microfoundation for algorithm aversion that aligns with the broad concern that AI systems will displace many types of workers.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-23
# 複数のデジタル認証情報からのクレームの選択的開示

Selective disclosure of claims from multiple digital credentials ( http://arxiv.org/abs/2402.15447v2 )

ライセンス: Link先を確認
Šeila Bećirović Ramić, Irfan Prazina, Damir Pozderac, Razija Turčinhodžić Mulahasanović, Saša Mrdović, (参考訳) デジタル認証は、インターネット上のデジタルIDの基盤である。 プライバシーを達成するには、資格情報の特定の機能を実装する必要がある。 一つは選択的な開示で、ユーザーは自分の望むクレームや属性だけを開示できる。 本稿では,Merkle ハッシュツリーと Boneh-Lynn-Shacham (BLS) シグネチャを組み合わせた選択開示手法を提案する。 これらの手法を組み合わせることで、単一資格のクレームを選択的に開示し、異なる当事者が署名した複数のクレデンシャルから選択的に開示されたクレームを含む検証可能なプレゼンテーションを作成する。 選択的な開示に加えて、このアプローチを用いて複数の発行者が署名した証明書の発行を可能にする。

Digital credentials represent a cornerstone of digital identity on the Internet. To achieve privacy, certain functionalities in credentials should be implemented. One is selective disclosure, which allows users to disclose only the claims or attributes they want. This paper presents a novel approach to selective disclosure that combines Merkle hash trees and Boneh-Lynn-Shacham (BLS) signatures. Combining these approaches, we achieve selective disclosure of claims in a single credential and creation of a verifiable presentation containing selectively disclosed claims from multiple credentials signed by different parties. Besides selective disclosure, we enable issuing credentials signed by multiple issuers using this approach.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# ジェネレーティブ・ディバイサル・ネットワークを用いた液滴解析の高速化

Enhanced Droplet Analysis Using Generative Adversarial Networks ( http://arxiv.org/abs/2402.15909v2 )

ライセンス: Link先を確認
Tan-Hanh Pham, Kim-Doang Nguyen, (参考訳) 精密装置は農業システムにおける生産品質と生産性を高める上で重要な役割を担っている。 したがって、これらの機器の最適化は精密農業において不可欠である。 近年, 深層学習の進歩に伴い, 噴霧システムの性能向上に向けたいくつかの研究がなされている。 しかし,これらの手法の有効性は,トレーニングデータセットのサイズに大きく依存する。 そこで我々はDropletGANという画像生成装置を開発した。 DropletGANモデルは、高速カメラによってキャプチャされた小さなデータセットを使用して訓練され、徐々に解像度を上げて画像を生成することができる。 その結果,モデルが1024×1024の大きさの高品質な画像を生成できることが示唆された。 DropletGANから生成された画像は、FIDスコア11.29のFr'echet開始距離(FID)を用いて評価される。 さらに、コンピュータビジョンとディープラーニングの最近の進歩を活用して、合成データセットを用いた光液滴検出器を開発する。 その結果、検出モデルは合成データセットを利用すると平均平均精度(mAP)が16.06%向上する。 我々の知る限りでは、この研究は初めて、液滴の検出を増強するための生成モデルを用いたものである。 その重要性は、効率的な噴霧システムを構築するためにノズル設計を最適化することだけでなく、様々な精密農業作業において不十分なデータに対する共通の課題に対処することにある。 この研究は、最適で持続可能な農業プラクティスを追求しながら、資源の保存に重要な貢献をする。

Precision devices play an important role in enhancing production quality and productivity in agricultural systems. Therefore, the optimization of these devices is essential in precision agriculture. Recently, with the advancements of deep learning, there have been several studies aiming to harness its capabilities for improving spray system performance. However, the effectiveness of these methods heavily depends on the size of the training dataset, which is expensive and time-consuming to collect. To address the challenge of insufficient training samples, we developed an image generator named DropletGAN to generate images of droplets. The DropletGAN model is trained by using a small dataset captured by a high-speed camera and capable of generating images with progressively increasing resolution. The results demonstrate that the model can generate high-quality images with the size of 1024x1024. The generated images from the DropletGAN are evaluated using the Fr\'echet inception distance (FID) with an FID score of 11.29. Furthermore, this research leverages recent advancements in computer vision and deep learning to develop a light droplet detector using the synthetic dataset. As a result, the detection model achieves a 16.06% increase in mean average precision (mAP) when utilizing the synthetic dataset. To the best of our knowledge, this work stands as the first to employ a generative model for augmenting droplet detection. Its significance lies not only in optimizing nozzle design for constructing efficient spray systems but also in addressing the common challenge of insufficient data in various precision agriculture tasks. This work offers a critical contribution to conserving resources while striving for optimal and sustainable agricultural practices.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# 時変遷移ダイナミクスを用いたポアソン-ガンマ動的因子モデル

A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics ( http://arxiv.org/abs/2402.16297v2 )

ライセンス: Link先を確認
Jiahao Wang, Sikun Yang, Heinz Koeppl, Xiuzhen Cheng, Pengfei Hu, Guoming Zhang, (参考訳) カウント値の時間列を扱う確率論的アプローチは、説明可能な潜在構造を推測し、不確実性を推定する能力から多くの研究の注目を集めており、特に 'emph{noisy} と 'emph{incomplete} のカウントデータを扱うのに適している。 これらのモデルのうち、Poisson-Gamma Dynamical Systems (PGDSs) は、観測数列に基づく進化力学を捉えるのに有効であることが証明されている。 しかし、最先端のPGDSは、実世界のカウントタイムシーケンスでよく見られる「emph{time-variant}」遷移ダイナミクスを捕捉できない。 このギャップを軽減するため、非定常PGDSが提案され、基礎となる遷移行列が時間とともに進化し、進化する遷移行列は高度に設計されたディリクレマルコフ鎖によってモデル化される。 Dirichlet-Multinomial-Betaデータ拡張技術を活用し, 完全共役かつ効率的なGibbsサンプリング装置を開発し, 後部シミュレーションを行った。 実験により,提案した非定常PGDSは,時間発展遷移行列によって得られた非定常依存構造を学習する能力により,予測性能が向上することを示した。

Probabilistic approaches for handling count-valued time sequences have attracted amounts of research attentions because their ability to infer explainable latent structures and to estimate uncertainties, and thus are especially suitable for dealing with \emph{noisy} and \emph{incomplete} count data. Among these models, Poisson-Gamma Dynamical Systems (PGDSs) are proven to be effective in capturing the evolving dynamics underlying observed count sequences. However, the state-of-the-art PGDS still fails to capture the \emph{time-varying} transition dynamics that are commonly observed in real-world count time sequences. To mitigate this gap, a non-stationary PGDS is proposed to allow the underlying transition matrices to evolve over time, and the evolving transition matrices are modeled by sophisticatedly-designed Dirichlet Markov chains. Leveraging Dirichlet-Multinomial-Beta data augmentation techniques, a fully-conjugate and efficient Gibbs sampler is developed to perform posterior simulation. Experiments show that, in comparison with related models, the proposed non-stationary PGDS achieves improved predictive performance due to its capacity to learn non-stationary dependency structure captured by the time-evolving transition matrices.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# TorchMD-Net 2.0:分子シミュレーションのための高速ニューラルネットワークの可能性

TorchMD-Net 2.0: Fast Neural Network Potentials for Molecular Simulations ( http://arxiv.org/abs/2402.17660v3 )

ライセンス: Link先を確認
Raul P. Pelaez, Guillem Simeon, Raimondas Galvelis, Antonio Mirarchi, Peter Eastman, Stefan Doerr, Philipp Thölke, Thomas E. Markland, Gianni De Fabritiis, (参考訳) 分子シミュレーションにおける計算速度、予測精度、普遍的適用性のバランスをとることは、永続的な課題である。 本稿では,従来の力場からニューラルネットワークに基づくポテンシャルへのシフトにおいて,TorchMD-Netソフトウェアにおける重要な進歩を示す。 TorchMD-Netのより包括的で汎用的なフレームワークへの進化が強調され、TensorNetのような最先端アーキテクチャが取り入れられている。 このトランスフォーメーションはモジュラーデザインアプローチを通じて実現され、科学コミュニティ内でカスタマイズされたアプリケーションを促進する。 最も顕著な拡張は計算効率の大幅な向上であり、テンソルネットモデルのエネルギーと力の計算において非常に顕著な加速を実現し、性能は以前の繰り返しよりも2倍から10倍に向上した。 その他の拡張としては、周期的境界条件をサポートする高度に最適化された隣接探索アルゴリズムや、既存の分子動力学フレームワークとのスムーズな統合などがある。 さらに、アップデートされたバージョンでは、物理的なプリエントを統合する機能が導入され、研究におけるアプリケーションスペクトルとユーティリティが強化された。 このソフトウェアはhttps://github.com/torchmd/torchmd-net.comで入手できる。

Achieving a balance between computational speed, prediction accuracy, and universal applicability in molecular simulations has been a persistent challenge. This paper presents substantial advancements in the TorchMD-Net software, a pivotal step forward in the shift from conventional force fields to neural network-based potentials. The evolution of TorchMD-Net into a more comprehensive and versatile framework is highlighted, incorporating cutting-edge architectures such as TensorNet. This transformation is achieved through a modular design approach, encouraging customized applications within the scientific community. The most notable enhancement is a significant improvement in computational efficiency, achieving a very remarkable acceleration in the computation of energy and forces for TensorNet models, with performance gains ranging from 2-fold to 10-fold over previous iterations. Other enhancements include highly optimized neighbor search algorithms that support periodic boundary conditions and the smooth integration with existing molecular dynamics frameworks. Additionally, the updated version introduces the capability to integrate physical priors, further enriching its application spectrum and utility in research. The software is available at https://github.com/torchmd/torchmd-net.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# 予測による大言語モデルのランク付け

Prediction-Powered Ranking of Large Language Models ( http://arxiv.org/abs/2402.17826v2 )

ライセンス: Link先を確認
Ivi Chatzi, Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez, (参考訳) 大規模な言語モデルは、人間の好みに合わせてランク付けされることが多い -- アウトプットが人間に好まれる場合、他のモデルよりも優れたモデルである。 人間の嗜好を引き出す一般的な方法の1つは、異なるモデルによって提供された出力と同一の入力とのペアワイズ比較を利用する。 しかしながら、人間によるペアワイズ比較の収集は費用がかかり時間もかかるため、強い言語モデルによるペアワイズ比較の収集は一般的な慣習となっている。 驚いたことに、現在、人間とモデルの選好のミスマッチが構築されたランキングに導入される可能性があるという不確実性を測定することはできない。 本研究では,このギャップを埋める統計的枠組みを開発する。 人間による(小さな)ペアワイズ比較とモデルによるペアワイズ比較の大きなセットが与えられた場合、我々のフレームワークは、比較対象の各モデルに対してランクセット – 可能なランク位置のセット – を提供する。 さらに、ユーザ指定値以上の確率で、ランクセットが人間のペアワイズ選好の分布と漸近的に一致した真のランキングをカバーすることを保証している。 LMSYS Chatbot Arena プラットフォームにおける人間によるペアワイド比較と、3つの強大言語モデルによるペアワイド比較を用いて、我々のフレームワークの有効性を実証的に実証し、強大言語モデルによるペアワイド比較のみを用いて構築されたランクセットが、人間のペアワイド選好と矛盾することが多いことを示す。

Large language models are often ranked according to their level of alignment with human preferences -- a model is better than other models if its outputs are more frequently preferred by humans. One of the popular ways to elicit human preferences utilizes pairwise comparisons between the outputs provided by different models to the same inputs. However, since gathering pairwise comparisons by humans is costly and time-consuming, it has become a common practice to gather pairwise comparisons by a strong large language model -- a model strongly aligned with human preferences. Surprisingly, practitioners cannot currently measure the uncertainty that any mismatch between human and model preferences may introduce in the constructed rankings. In this work, we develop a statistical framework to bridge this gap. Given a (small) set of pairwise comparisons by humans and a large set of pairwise comparisons by a model, our framework provides a rank-set -- a set of possible ranking positions -- for each of the models under comparison. Moreover, it guarantees that, with a probability greater than or equal to a user-specified value, the rank-sets cover the true ranking consistent with the distribution of human pairwise preferences asymptotically. Using pairwise comparisons made by humans in the LMSYS Chatbot Arena platform and pairwise comparisons made by three strong large language models, we empirically demonstrate the effectivity of our framework and show that the rank-sets constructed using only pairwise comparisons by the strong large language models are often inconsistent with (the distribution of) human pairwise preferences.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# TrustRate: ハイジャックな匿名レビューのための分散プラットフォーム

TrustRate: A Decentralized Platform for Hijack-Resistant Anonymous Reviews ( http://arxiv.org/abs/2402.18386v2 )

ライセンス: Link先を確認
Rohit Dwivedula, Sriram Sridhar, Sambhav Satija, Muthian Sivathanu, Nishanth Chandran, Divya Gupta, Satya Lokam, (参考訳) ユーザによるレビューや評価は、今日では広く使われているいくつかの製品(製品レビュー、オンラインコンテンツのレーティングなど)において中心的な要素となっているが、今日のレビューを管理するプラットフォームは、ボットによる偽レビューや、動機付けられた有給労働者による偽レビューによって、様々なタイプの改ざんやハイジャックに対してアドホックで脆弱である。 このようなレビュープラットフォームに対して、'hijack-resistance'と呼ばれる新しいメトリクスを定義し、続いて、真正、匿名、改ざん防止のレビューのための、エンドツーエンドの分散されたハイジャック耐性プラットフォームであるTrustRateを紹介します。 数千のノード規模のプロトタイプの実装と評価により、我々は、レビューを管理する単一の組織を信頼することなく、エンドユーザーによる信頼されたレビューに基づく製品開発のための新しいパラダイムに向けて、プラットフォームの有効性と性能を実証する。

Reviews and ratings by users form a central component in several widely used products today (e.g., product reviews, ratings of online content, etc.), but today's platforms for managing such reviews are ad-hoc and vulnerable to various forms of tampering and hijack by fake reviews either by bots or motivated paid workers. We define a new metric called 'hijack-resistance' for such review platforms, and then present TrustRate, an end-to-end decentralized, hijack-resistant platform for authentic, anonymous, tamper-proof reviews. With a prototype implementation and evaluation at the scale of thousands of nodes, we demonstrate the efficacy and performance of our platform, towards a new paradigm for building products based on trusted reviews by end users without having to trust a single organization that manages the reviews.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# HyenaPixel: 畳み込みを伴うグローバルイメージコンテキスト

HyenaPixel: Global Image Context with Convolutions ( http://arxiv.org/abs/2402.19305v2 )

ライセンス: Link先を確認
Julian Spravil, Sebastian Houben, Sven Behnke, (参考訳) コンピュータビジョンでは、より大きな有効受容場(ERF)がより良い性能に結びついている。 注意はグローバルコンテキストをネイティブにサポートするが、その2次複雑性は高解像度入力の恩恵を受けるタスクに適用性を制限する。 本研究では,コンボリューションに基づくアテンション置換であるハイエナを因果配列から双方向データ,二次元画像空間へ拡張する。 我々はHyenaの畳み込みカーネルを特徴マップサイズを超えて191$\times$191まで拡張し、ピクセル数においてサブクアドラティックな複雑さを維持しながらRFを最大化する。 2次元のHyena、HyenaPixel、双方向のHyenaをMetaFormerフレームワークに統合します。 画像分類において、HyenaPixelと双方向Hyenaは、それぞれ84.9%と85.2%という競合するImageNet-1k Top-1の精度を達成し、追加のトレーニングデータはないが、他の畳み込みネットワークや大規模カーネルネットワークよりも優れている。 HyenaPixelと注目を組み合わせることで、さらに精度が向上する。 両方向ハイエナの成功は、固定された近傍定義を使わずに、データ依存の幾何学的配置を学習することによるものである。 下流タスクの実験結果から,大きなフィルタと固定された近傍を持つHyenaPixelは,ローカライゼーション性能が向上することが示唆された。

In computer vision, a larger effective receptive field (ERF) is associated with better performance. While attention natively supports global context, its quadratic complexity limits its applicability to tasks that benefit from high-resolution input. In this work, we extend Hyena, a convolution-based attention replacement, from causal sequences to bidirectional data and two-dimensional image space. We scale Hyena's convolution kernels beyond the feature map size, up to 191$\times$191, to maximize ERF while maintaining sub-quadratic complexity in the number of pixels. We integrate our two-dimensional Hyena, HyenaPixel, and bidirectional Hyena into the MetaFormer framework. For image categorization, HyenaPixel and bidirectional Hyena achieve a competitive ImageNet-1k top-1 accuracy of 84.9% and 85.2%, respectively, with no additional training data, while outperforming other convolutional and large-kernel networks. Combining HyenaPixel with attention further improves accuracy. We attribute the success of bidirectional Hyena to learning the data-dependent geometric arrangement of pixels without a fixed neighborhood definition. Experimental results on downstream tasks suggest that HyenaPixel with large filters and a fixed neighborhood leads to better localization performance.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-23
# Selection, Ensemble, and Adaptation: Architecture Zooによるマルチソースフリードメイン適応の改善

Selection, Ensemble, and Adaptation: Advancing Multi-Source-Free Domain Adaptation via Architecture Zoo ( http://arxiv.org/abs/2403.01582v2 )

ライセンス: Link先を確認
Jiangbo Pei, Ruizhe Li, Aidong Men, Yang Liu, Xiahai Zhuang, Qingchao Chen, (参考訳) 従来のMulti-Source Free Domain Adaptation (MSFDA)は、各ソースドメインが単一のソースモデルを提供し、すべてのソースモデルが統一アーキテクチャを採用することを前提としている。 本稿では,各ソースドメインが異なるアーキテクチャを持つ複数のソースモデルの動物園を提供するための,より一般的な設定であるZoo-MSFDAを紹介する。 ソース知識を豊かにする一方で、Zoo-MSFDAは最適/有害なモデルによって支配されるリスクがある。 この問題に対処するため,Zoo-MSFDAにおけるモデル選択問題を理論的に分析し,トランスファービリティの原則と多様性の原則という2つの原則を導入する。 トランスファービリティ測定の課題を認識し,新しいソースフリーな非教師なしトランスファービリティ推定(SUTE)を提案する。 ターゲットラベルやソースデータを必要とすることなく、ドメインシフトの下で異なるアーキテクチャで複数のソースモデル間での転送可能性の評価と比較を可能にする。 以上のことから,Zoo-MSFDAに対処するSEA(Selection, Ensemble, and Adaptation)フレームワークを導入する。 1)提案原則及びSUTEに基づくソースモデル選択 2)SUTE推定転送可能性に基づくアンサンブル構築 3)アンサンブルモデルのターゲットドメイン適応。 評価の結果,導入したZoo-MSFDA設定によるSEAフレームワークの適応性能(DomainNetの13.5%など)は著しく向上した。 また,SuTEは転送可能性推定における最先端性能を実現している。

Conventional Multi-Source Free Domain Adaptation (MSFDA) assumes that each source domain provides a single source model, and all source models adopt a uniform architecture. This paper introduces Zoo-MSFDA, a more general setting that allows each source domain to offer a zoo of multiple source models with different architectures. While it enriches the source knowledge, Zoo-MSFDA risks being dominated by suboptimal/harmful models. To address this issue, we theoretically analyze the model selection problem in Zoo-MSFDA, and introduce two principles: transferability principle and diversity principle. Recognizing the challenge of measuring transferability, we subsequently propose a novel Source-Free Unsupervised Transferability Estimation (SUTE). It enables assessing and comparing transferability across multiple source models with different architectures under domain shift, without requiring target labels and source data. Based on above, we introduce a Selection, Ensemble, and Adaptation (SEA) framework to address Zoo-MSFDA, which consists of: 1) source models selection based on the proposed principles and SUTE; 2) ensemble construction based on SUTE-estimated transferability; 3) target-domain adaptation of the ensemble model. Evaluations demonstrate that our SEA framework, with the introduced Zoo-MSFDA setting, significantly improves adaptation performance (e.g., 13.5% on DomainNet). Additionally, our SUTE achieves state-of-the-art performance in transferability estimation.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-23
# 拡散モデルの漸近平均二乗誤差最適性について

On the Asymptotic Mean Square Error Optimality of Diffusion Models ( http://arxiv.org/abs/2403.02957v2 )

ライセンス: Link先を確認
Benedikt Fesl, Benedikt Böck, Florian Strasser, Michael Baur, Michael Joham, Wolfgang Utschick, (参考訳) 生成前駆体としての拡散モデル(DM)は、最近、タスクを認知する大きな可能性を示しているが、平均二乗誤差(MSE)の最適性に関して理論的には理解されていない。 本稿では, MSE-Optimal Conditional mean estimator (CME) の構造から着想を得た新しいデノイング手法を提案する。 結果のDMベースのデノイザは、トレーニング済みのDMを用いて、特に逆拡散ステップをトラッピングして、確率的再サンプリングを必要とせず、便利に使用することができる。 本論文では,CME への多項式時間収束を軽度条件下で実証し,拡散型デノイザの総合的(非)漸近最適性解析について述べる。 我々の分析はまた、DMのハイパーパラメータにのみ依存する新しいリプシッツ定数を導出する。 さらに, DMの新しい視点として, 漸近的に最適なデノイザと強力なジェネレータを本質的に結合し, 逆のプロセスのリサンプリングをオン/オフで切り替えることによって変更可能であることを示す。 理論的な結果は、様々なベンチマークデータセットに基づいた実験で徹底的に検証されている。

Diffusion models (DMs) as generative priors have recently shown great potential for denoising tasks but lack theoretical understanding with respect to their mean square error (MSE) optimality. This paper proposes a novel denoising strategy inspired by the structure of the MSE-optimal conditional mean estimator (CME). The resulting DM-based denoiser can be conveniently employed using a pre-trained DM, being particularly fast by truncating reverse diffusion steps and not requiring stochastic re-sampling. We present a comprehensive (non-)asymptotic optimality analysis of the proposed diffusion-based denoiser, demonstrating polynomial-time convergence to the CME under mild conditions. Our analysis also derives a novel Lipschitz constant that depends solely on the DM's hyperparameters. Further, we offer a new perspective on DMs, showing that they inherently combine an asymptotically optimal denoiser with a powerful generator, modifiable by switching re-sampling in the reverse process on or off. The theoretical findings are thoroughly validated with experiments based on various benchmark datasets.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-23
# 人間-AIコラボレーションハイブリッドテキストにおけるAI生成文の検出:課題、戦略、洞察

Detecting AI-Generated Sentences in Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights ( http://arxiv.org/abs/2403.03506v4 )

ライセンス: Link先を確認
Zijie Zeng, Shiqi Liu, Lele Sha, Zhuang Li, Kaixun Yang, Sannyuya Liu, Dragan Gašević, Guanliang Chen, (参考訳) 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。 ハイブリッドテキストに対するAI生成テキスト検出の既存の研究は、しばしば合成データセットに依存している。 これらは典型的には、境界が限られているハイブリッドテキストを含む。 ハイブリッドテキスト中のAI生成コンテンツを検出する研究は、現実的な設定で生成されたさまざまなタイプのハイブリッドテキストをカバーし、現実世界のアプリケーションにより良い情報を提供するべきだ、と我々は主張する。 そこで本研究では,マルチターンインタラクションにおけるヒューマンライターとインテリジェントライティングシステムによるコラボレーションを通じて生成される,多種多様なハイブリッドテキストを含むCoAuthorデータセットを用いた。 私たちは2段階のセグメンテーションベースのパイプラインを採用しています。 (i)各セグメントが一貫した著者の文を含む所定のハイブリッドテキスト内のセグメントを検出し、 (ii)各特定セグメントのオーサシップを分類する。 1) ハイブリッドテキストにおけるAI生成文の検出は,(1.1) 個人の嗜好に基づくAI生成文の選択や編集が難しいこと,(1.2) ハイブリッドテキスト内の隣接文間のオーサシップの頻繁な変更は,オーサシップ一貫性のあるセグメントを識別するセグメント検出の困難を生じさせること,(1.3) ハイブリッドテキスト内のテキストセグメントの短さは,信頼性の高いオーサシップ決定のための限定的なスタイリスティックなキューを提供すること,(2) 検出プロセスを開始する前に,ハイブリッドテキスト内のセグメントの平均的な長さを評価することが有用であること,など,全体として難しい課題である。 この評価は (2.1) がより長いセグメントを持つハイブリッドテキストに対してテキストセグメンテーションに基づく戦略を採用するか (2.2) または (2.2) が短いセグメントを持つテキストに対して直接文単位の分類戦略を採用するかを決定するのに役立つ。

This study explores the challenge of sentence-level AI-generated text detection within human-AI collaborative hybrid texts. Existing studies of AI-generated text detection for hybrid texts often rely on synthetic datasets. These typically involve hybrid texts with a limited number of boundaries. We contend that studies of detecting AI-generated content within hybrid texts should cover different types of hybrid texts generated in realistic settings to better inform real-world applications. Therefore, our study utilizes the CoAuthor dataset, which includes diverse, realistic hybrid texts generated through the collaboration between human writers and an intelligent writing system in multi-turn interactions. We adopt a two-step, segmentation-based pipeline: (i) detect segments within a given hybrid text where each segment contains sentences of consistent authorship, and (ii) classify the authorship of each identified segment. Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. This assessment aids in deciding whether (2.1) to employ a text segmentation-based strategy for hybrid texts with longer segments, or (2.2) to adopt a direct sentence-by-sentence classification strategy for those with shorter segments.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-23
# 楕円集合による多次元時系列の等角予測

Conformal prediction for multi-dimensional time series by ellipsoidal sets ( http://arxiv.org/abs/2403.03850v2 )

ライセンス: Link先を確認
Chen Xu, Hanyang Jiang, Yao Xie, (参考訳) コンフォーマル予測(CP)は、分布のない、モデルに依存しない、理論的に健全であるため、不確実性定量化の一般的な方法である。 教師あり学習における予測問題に対して、ほとんどのCP手法は単変量応答の予測区間の構築に重点を置いている。 本研究では,多変量応答に対する予測を構築できる$\textt{MultiDimSPCI}$という逐次CP手法を開発する。 理論的には、条件付きカバレッジギャップで$\textit{finite-sample}$ 高確率境界を推定する。 実証的に、$\texttt{MultiDimSPCI}$は、CPや非CPのベースラインよりも小さな予測領域を生成しながら、幅広い多変量時系列の有効なカバレッジを維持している。

Conformal prediction (CP) has been a popular method for uncertainty quantification because it is distribution-free, model-agnostic, and theoretically sound. For forecasting problems in supervised learning, most CP methods focus on building prediction intervals for univariate responses. In this work, we develop a sequential CP method called $\texttt{MultiDimSPCI}$ that builds prediction $\textit{regions}$ for a multivariate response, especially in the context of multivariate time series, which are not exchangeable. Theoretically, we estimate $\textit{finite-sample}$ high-probability bounds on the conditional coverage gap. Empirically, we demonstrate that $\texttt{MultiDimSPCI}$ maintains valid coverage on a wide range of multivariate time series while producing smaller prediction regions than CP and non-CP baselines.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-23
# ほぼ確実に漸近的に一定なグラフニューラルネットワーク

Almost Surely Asymptotically Constant Graph Neural Networks ( http://arxiv.org/abs/2403.03880v2 )

ライセンス: Link先を確認
Sam Adam-Day, Michael Benedikt, İsmail İlkan Ceylan, Ben Finkelshtein, (参考訳) 我々は,グラフニューラルネットワーク(GNN)の表現力に対する新しい角度について,GNN確率的分類器の予測がランダムなグラフモデルから引き出された大きなグラフに適用されるにつれてどのように進化するかを研究する。 出力は定数関数に収束し、これらの分類器が一様に表現できる上限となることを示す。 この強い収束現象は、平均やグラフ変換器の注意に基づくメカニズムを含む、最先端のモデルを含む非常に幅広い種類のGNNに適用される。 この結果は、Erd\H{o}s-R\'enyiモデル、確率ブロックモデル、Barab\asi-Albertモデルなど、幅広いランダムグラフモデルに適用できる。 我々はこれらの知見を実証的に検証し、収束現象がランダムグラフだけでなく、実世界のグラフにも現れることを観察した。

We present a new angle on the expressive power of graph neural networks (GNNs) by studying how the predictions of a GNN probabilistic classifier evolve as we apply it on larger graphs drawn from some random graph model. We show that the output converges to a constant function, which upper-bounds what these classifiers can uniformly express. This strong convergence phenomenon applies to a very wide class of GNNs, including state of the art models, with aggregates including mean and the attention-based mechanism of graph transformers. Our results apply to a broad class of random graph models, including sparse and dense variants of the Erd\H{o}s-R\'enyi model, the stochastic block model, and the Barab\'asi-Albert model. We empirically validate these findings, observing that the convergence phenomenon appears not only on random graphs but also on some real-world graphs.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-23
# 効率的な非凸軌道最適化のための制約拡散モデルと数値解の組合せ

Combining Constrained Diffusion Models and Numerical Solvers for Efficient and Robust Non-Convex Trajectory Optimization ( http://arxiv.org/abs/2403.05571v2 )

ライセンス: Link先を確認
Anjian Li, Zihan Ding, Adji Bousso Dieng, Ryne Beeson, (参考訳) 計算効率と信頼性の高い制約満足度を備えたオープンループ最適制御問題の解法の必要性から,拡散モデルと数値最適化解法を組み合わせた一般的な枠組みを導入する。 最適制御問題は閉形式で解くことは滅多にないため、しばしば数値軌道最適化問題に書き起こされ、初期推定を必要とする。 これらの最初の推測は拡散モデルによって我々のフレームワークに供給される。 問題制約に違反するサンプルの効果を軽減するため,本研究では,局所最適解の真の分布を学習時に付加的な制約違反損失で近似する,新しい制約付き拡散モデルを開発した。 このロバスト性をさらに高めるために、初期推定値としての拡散サンプルを数値解法に供給し、最終的な最適解を洗練し、導出する。 提案手法を用いて, 制約満足度と計算効率を4$\times$から30$\times$Accelerrationで検証した。

Motivated by the need to solve open-loop optimal control problems with computational efficiency and reliable constraint satisfaction, we introduce a general framework that combines diffusion models and numerical optimization solvers. Optimal control problems are rarely solvable in closed form, hence they are often transcribed into numerical trajectory optimization problems, which then require initial guesses. These initial guesses are supplied in our framework by diffusion models. To mitigate the effect of samples that violate the problem constraints, we develop a novel constrained diffusion model to approximate the true distribution of locally optimal solutions with an additional constraint violation loss in training. To further enhance the robustness, the diffusion samples as initial guesses are fed to the numerical solver to refine and derive final optimal (and hence feasible) solutions. Experimental evaluations on three tasks verify the improved constraint satisfaction and computational efficiency with 4$\times$ to 30$\times$ acceleration using our proposed framework, which generalizes across trajectory optimization problems and scales well with problem complexity.
翻訳日:2024-05-25 06:19:23 公開日:2024-05-23
# 一般化エンタングルメントスワップにおけるエンタングルメントの活性化

Activation of entanglement in generalized entanglement swapping ( http://arxiv.org/abs/2403.06518v3 )

ライセンス: Link先を確認
Pratapaditya Bej, Abhishek Banerjee, (参考訳) 本研究では,2つのベル対を含む一般化エンタングルメントスワッピングプロセスにおけるエンタングルメントの活性化と,一般化された測定値について検討する。 従来の理解は、遠方間の絡み合いを確立するのに必要かつ十分な測定値として、絡み合いを定めている。 本研究では,一般化エンタングルメントスワッピングプロセスにおいて,エンタングルメント生成における測定演算子の役割を再評価する。 本研究では,最大エンタングルド2ビット初期状態と一般化された測定値に着目し,エンタングルド測定演算子の必要性と充足条件について検討する。 Alice と Bob 間で共有される 2 つのベル対 (1, 2) と、Bob と Charlie 間で共有される (3, 4) を利用することで、絡み合いの測定が十分である一方で、空間的に分離された観測者間の絡み合いを確立するには欠かせないことを示す。 逐次的アプローチにより、ボブが絡み目を確立することができない最初の測定を行い、次に最初の測定を後処理した後で別の測定を行うことで絡み目を確立することができる。 我々は,第2の測定を行なえる可能性を実現するために,異なる測定演算子の特定の基準を同定する。 本研究は, 量子ネットワークの絡み合い分布に光を流すことにより, 遠方部同士の絡み合いの発生の可能性を明らかにするものである。 さらに, 連続測定が単一の測定値と比較して絡み合いを高めた例を紹介し, 絡み合いを高める上でのアプローチの実践的メリットを明らかにした。 さらに、このプロトコルは二部分量子状態を超えて高次元の最大絡み合った状態へと拡張し、その汎用性と適用性を強調した。

We study entanglement activation in a generalized entanglement swapping process involving two Bell pairs and generalized measurements. The conventional understanding posits entangled measurements as both necessary and sufficient for establishing entanglement between distant parties. In this study, we reassess the role of measurement operators in entanglement generation within a generalized entanglement swapping process. We focus on maximally entangled two-qubit initial states and generalized measurements, investigating the necessity and sufficiency conditions for entangled measurement operators. By utilizing two Bell pairs, (1, 2) shared between Alice and Bob, and (3, 4) shared between Bob and Charlie, we demonstrate that while entangled measurements are sufficient, they are not indispensable for establishing entanglement between spatially separated observers. Through a sequential approach, if Bob performs an initial measurement which is not able to establish entanglement then followed by another measurement after post-processing the first measurement it is possible to establish entanglement. We identify specific criteria for different measurement operators that enable the potential for performing a second measurement to establish entanglement. Our findings highlight the feasibility of generating entanglement between distant parties through a combination of measurements, shedding light on entanglement distribution in quantum networks. Additionally, we showcase through illustrative examples how successive measurements enhance entanglement compared to single measurements, underscoring the practical benefits of our approach in enhancing entanglement. Moreover, our protocol extends beyond bipartite qubit states to higher-dimensional maximally entangled states, emphasizing its versatility and applicability.
翻訳日:2024-05-25 06:19:23 公開日:2024-05-23
# CALF:クロスモーダルファインチューニングによる時系列予測のためのLLMの調整

CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning ( http://arxiv.org/abs/2403.07300v2 )

ライセンス: Link先を確認
Peiyuan Liu, Hang Guo, Tao Dai, Naiqi Li, Jigang Bao, Xudong Ren, Yong Jiang, Shu-Tao Xia, (参考訳) 深層学習(例えばTransformer)は多変量時系列予測(MTSF)で広く使われ、成功している。 時系列入力の単一モーダルからトレーニングモデルにフォーカスする既存の手法とは異なり、大規模言語モデル(LLM)に基づくクロスモーダルテキストと時系列入力を用いたMTSF法は、特に時間的データに制限のある場合において、非常に優れていることを示している。 しかし、現在のLLMベースのMTSF法は、通常、テキスト入力トークンと時間入力トークンの分布差を無視しながら、適応と微調整に重点を置いており、その結果、準最適性能をもたらす。 この問題に対処するため,MTSF のための新しいクロスモーダル LLM Fine-Tuning (CALF) フレームワークを提案する。 分散の相違を低減するため,まずクロスモーダルな入力分布をアライメントするクロスモーダルマッチングモジュールを開発した。 さらに、特徴空間と出力空間のモダリティ分布ギャップを最小限に抑えるために、2つの分岐間の中間的特徴を整列させて重み更新を改善する機能正規化ロスを、両分岐の出力表現を効果的に対応させる出力整合損失を導入する。 モダリティアライメントにより、CALFは、計算複雑性の低い長期および短期の予測タスクに対して最先端のパフォーマンスを確立し、LLMと同様のいくつかのショットとゼロショットの能力を示す。 コードは \url{https://github.com/Hank0626/LLaTA} で入手できる。

Deep learning (e.g., Transformer) has been widely and successfully used in multivariate time series forecasting (MTSF). Unlike existing methods that focus on training models from a single modal of time series input, large language models (LLMs) based MTSF methods with cross-modal text and time series input have recently shown great superiority, especially with limited temporal data. However, current LLM-based MTSF methods usually focus on adapting and fine-tuning LLMs, while neglecting the distribution discrepancy between textual and temporal input tokens, thus leading to sub-optimal performance. To address this issue, we propose a novel Cross-Modal LLM Fine-Tuning (CALF) framework for MTSF by reducing the distribution discrepancy between textual and temporal data, which mainly consists of the temporal target branch with temporal input and the textual source branch with aligned textual input. To reduce the distribution discrepancy, we develop the cross-modal match module to first align cross-modal input distributions. Additionally, to minimize the modality distribution gap in both feature and output spaces, feature regularization loss is developed to align the intermediate features between the two branches for better weight updates, while output consistency loss is introduced to allow the output representations of both branches to correspond effectively. Thanks to the modality alignment, CALF establishes state-of-the-art performance for both long-term and short-term forecasting tasks with low computational complexity, and exhibiting favorable few-shot and zero-shot abilities similar to that in LLMs. Code is available at \url{https://github.com/Hank0626/LLaTA}.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# 人工物処理パイプラインを用いた計算病理システムの構築:計算・性能トレードオフの事例

Equipping Computational Pathology Systems with Artifact Processing Pipelines: A Showcase for Computation and Performance Trade-offs ( http://arxiv.org/abs/2403.07743v3 )

ライセンス: Link先を確認
Neel Kanwal, Farbod Khoraminia, Umay Kiraz, Andres Mosquera-Zamudio, Carlos Monteagudo, Emiel A. M. Janssen, Tahlita C. M. Zuiverloon, Chunmig Rong, Kjersti Engan, (参考訳) 病理組織学は、顕微鏡検査によるがん診断における金の基準である。 しかし、組織組織処理は結果として人工物となり、最終的にはガラススライドのデジタル版(全スライド画像(WSI))に転送される。 アーティファクトは診断的に無関係な領域であり、誤った深層学習(DL)アルゴリズムの予測をもたらす可能性がある。 したがって、CPATH(Computer pathology)システムにおけるアーティファクトの検出と排除は、信頼性の高い自動診断に不可欠である。 本稿では, 損傷組織, ぼかし, 折りたたみ組織, 気泡, 組織学的に無関係な血液を含む5つの重要な遺物を検出するための専門家(MoE)の混合手法を提案する。 まず、独立したバイナリDLモデルを専門家として訓練し、特定のアーティファクト形態を捉える。 そして,融合機構を用いてそれらの予測をアンサンブルする。 最終確率分布に対して確率しきい値を適用し,MoEの感度を向上させる。 2つのMoEと2つのマルチクラスモデルであるDCNN(Deep Convolutional Neural Network)とビジョントランスフォーマー(ViT)を用いてDLパイプラインを開発した。 DCNN ベースの MoE と ViTs ベースの MoE スキームは、より単純なマルチクラスモデルよりも優れており、様々な病院やがんタイプのデータセットでテストされた。 提案されたMoEは86.15%のF1と97.93%の感度スコアを持ち、ViTを用いたMoEよりも推論の計算コストが低い。 このMoEsの最高の性能は、マルチクラスモデルよりも比較的高い計算トレードオフを持つ。 提案したアーティファクト検出パイプラインは、信頼性の高いCPATH予測を保証するだけでなく、品質管理も提供する。

Histopathology is a gold standard for cancer diagnosis under a microscopic examination. However, histological tissue processing procedures result in artifacts, which are ultimately transferred to the digitized version of glass slides, known as whole slide images (WSIs). Artifacts are diagnostically irrelevant areas and may result in wrong deep learning (DL) algorithms predictions. Therefore, detecting and excluding artifacts in the computational pathology (CPATH) system is essential for reliable automated diagnosis. In this paper, we propose a mixture of experts (MoE) scheme for detecting five notable artifacts, including damaged tissue, blur, folded tissue, air bubbles, and histologically irrelevant blood from WSIs. First, we train independent binary DL models as experts to capture particular artifact morphology. Then, we ensemble their predictions using a fusion mechanism. We apply probabilistic thresholding over the final probability distribution to improve the sensitivity of the MoE. We developed DL pipelines using two MoEs and two multiclass models of state-of-the-art deep convolutional neural networks (DCNNs) and vision transformers (ViTs). DCNNs-based MoE and ViTs-based MoE schemes outperformed simpler multiclass models and were tested on datasets from different hospitals and cancer types, where MoE using DCNNs yielded the best results. The proposed MoE yields 86.15% F1 and 97.93% sensitivity scores on unseen data, retaining less computational cost for inference than MoE using ViTs. This best performance of MoEs comes with relatively higher computational trade-offs than multiclass models. The proposed artifact detection pipeline will not only ensure reliable CPATH predictions but may also provide quality control.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# ベイジアンネットワークを用いた語彙データとテキストによる臨床推論

Clinical Reasoning over Tabular Data and Text with Bayesian Networks ( http://arxiv.org/abs/2403.09481v3 )

ライセンス: Link先を確認
Paloma Rabaey, Johannes Deleu, Stefan Heytens, Thomas Demeester, (参考訳) ベイジアンネットワークは、表形式のデータに対する臨床推論には適しているが、ニューラルネットワークが成功したフレームワークを提供する自然言語データとの互換性が低い。 本稿では,ベイジアンネットワークとニューラルテキスト表現を生成的・識別的に比較検討する。 本研究は, プライマリ・ケア・ユースケース(肺炎の診断)のシミュレーション結果と, より広い臨床文脈で考察した。

Bayesian networks are well-suited for clinical reasoning on tabular data, but are less compatible with natural language data, for which neural networks provide a successful framework. This paper compares and discusses strategies to augment Bayesian networks with neural text representations, both in a generative and discriminative manner. This is illustrated with simulation results for a primary care use case (diagnosis of pneumonia) and discussed in a broader clinical context.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# 高エネルギー物理における画像分類:ジェット解析への応用に関する総合的研究

Image Classification in High-Energy Physics: A Comprehensive Survey of Applications to Jet Analysis ( http://arxiv.org/abs/2403.11934v2 )

ライセンス: Link先を確認
Hamza Kheddar, Yassine Himeur, Abbes Amira, Rachik Soualah, (参考訳) 近年,高エネルギー物理学(HEP, High-Energy Physics, HEP, HEP, HEP)の分野において, 機械学習(ML, 機械学習)とその専門分野である深層学習(DL, Deep Learning)を取り入れた研究が増えている。 本稿では、異なるDLアプローチを用いて、これらのアプリケーションの詳細な図表を提供する。 本研究の第1部では, 各種粒子物理学の基礎を考察し, 利用可能な学習モデルとともに粒子物理を評価するためのガイドラインを策定する。 次に、よく定義されたビームエネルギーにおける陽子-陽子衝突を中心に高エネルギー衝突で再構成されたジェット画像を表現するための詳細な分類、各種データセット、前処理技術、特徴抽出と選択方法について述べる。 提案手法は、高輝度LHC(HL-HLC)や将来の円形コライダー-ハドロン-ハドロン(FCC-hh)などの将来のハドロン-ハドロン衝突体(HLC)に適用できる。 次に、著者らは、HEPの画像に特化して設計された多数のAIモデル分析について検討する。 また,ハドロン衝突の画像に付随する分類についても,Jetsに重点を置いて検討した。 本稿では,ML と DL におけるSOTA (State-of-the-art) 技術について検討し,HEP 要求に対する影響について検討する。 より正確には、この議論はジェットタグ、ジェットトラッキング、粒子分類など、広範囲にわたる様々な応用に取り組む。 本総説では,HEPの現状をDL法を用いて分析した。 各アプリケーションで説明される今後の研究の課題と潜在的な領域について紹介する。

Nowadays, there has been a growing trend in the fields of high-energy physics (HEP) in its both parts experimental and phenomenological studies, to incorporate machine learning (ML) and its specialized branch, deep learning (DL). This review paper provides a thorough illustration of these applications using different DL approaches. The first part of the paper examines the basics of various particle physics types and sets up guidelines for assessing particle physics alongside the available learning models. Next, a detailed classification is provided for representing the jet images that are reconstructed in high energy collisions mainly with proton-proton collisions at well defined beam energies, covering various datasets, preprocessing techniques, and feature extraction and selection methods. The presented techniques can be applied to future hadron-hadron colliders (HLC) such as high luminosity LHC (HL-HLC) and future circular collider-hadron-hadron (FCC-hh). Next, the authors explore a number of AI models analysis designed specifically for images in HEP. We additionally undertake a closer look at the classification associated with images in hadron collisions, with an emphasis on Jets. In this review, we look into various state-of-the-art (SOTA) techniques in ML and DL, examining their implications for HEP demands. More precisely, this discussion tackles various applications in extensive detail, such as Jet tagging, Jet tracking, particle classification, and more. The review concludes with an analysis of the current state of HEP, using DL methodologies. It covers the challenges and potential areas for future research that will be illustrated for each application.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# LLMエージェントが組織化されたチームで協力することを学ぶ

Embodied LLM Agents Learn to Cooperate in Organized Teams ( http://arxiv.org/abs/2403.12482v2 )

ライセンス: Link先を確認
Xudong Guo, Kaixuan Huang, Jiale Liu, Wenhui Fan, Natalia Vélez, Qingyun Wu, Huazheng Wang, Thomas L. Griffiths, Mengdi Wang, (参考訳) 大規模言語モデル (LLM) は推論、計画、意思決定のための統合的なツールとして登場し、その広範な世界的知識と言語関連タスクの習熟度に基づいている。 したがって、LLMは協力を促進するために多エージェントシステム内での自然言語の相互作用に大きな可能性を秘めている。 しかし、LSMエージェントは過剰に報告し、いかなる命令にも従う傾向にあり、情報冗長性とマルチエージェント協調の混乱をもたらす可能性がある。 人的組織にインスパイアされた本論文では,LLMエージェントに即時的な組織構造を課し,これらの問題を緩和する枠組みを提案する。 本研究は, LLMエージェントを具体化して実施した一連の実験を通じて, LLMエージェントが提示するリーダーシップの質と自発的協調行動に光を当てることにより, チームの効率性に及ぼすリーダーシップの影響を明らかにする。 さらに、LCMの可能性を生かして、Criticize-Reflectプロセスを通じて組織的プロンプトの強化を提案し、その結果、コミュニケーションコストを削減し、チームの効率を向上する新たな組織構造が生まれる。

Large Language Models (LLMs) have emerged as integral tools for reasoning, planning, and decision-making, drawing upon their extensive world knowledge and proficiency in language-related tasks. LLMs thus hold tremendous potential for natural language interaction within multi-agent systems to foster cooperation. However, LLM agents tend to over-report and comply with any instruction, which may result in information redundancy and confusion in multi-agent cooperation. Inspired by human organizations, this paper introduces a framework that imposes prompt-based organization structures on LLM agents to mitigate these problems. Through a series of experiments with embodied LLM agents and human-agent collaboration, our results highlight the impact of designated leadership on team efficiency, shedding light on the leadership qualities displayed by LLM agents and their spontaneous cooperative behaviors. Further, we harness the potential of LLMs to propose enhanced organizational prompts, via a Criticize-Reflect process, resulting in novel organization structures that reduce communication costs and enhance team efficiency.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# AutoTRIZ: TRIZと大規模言語モデルによる人工的なアイデア

AutoTRIZ: Artificial Ideation with TRIZ and Large Language Models ( http://arxiv.org/abs/2403.13002v3 )

ライセンス: Link先を確認
Shuo Jiang, Jianxi Luo, (参考訳) 研究者やイノベーターは、問題解決とイノベーションのためのエンジニアリング設計の構想を支援するため、形態解析やデザイン・バイ・アナロジーのような思考方法の開発に多大な努力を払ってきた。 これらのうち、発明的問題解決理論(TRIZ)は、体系的イノベーションに広く応用されている、最もよく知られたアプローチの1つとして際立っている。 しかし、TRIZリソースと概念の複雑さは、ユーザの知識、経験、推論能力への依存と相まって、実用性を制限している。 そこで我々は,このギャップを埋めるための生成的アプローチとして,大規模言語モデル(LLM)の最近の進歩について検討する。 提案するAutoTRIZは,LPMを用いてTRIZ手法を自動化・拡張する人工的思考ツールである。 LLMの幅広い知識と高度な推論能力を活用することで、AutoTRIZは、設計自動化と人工知能による解釈可能なアイデアのための新しいアプローチを提供する。 AutoTRIZは、ユーザからのイシューステートメントを初期入力として、推論プロセス後にソリューションレポートを自動的に生成する。 矛盾検出における整合性実験によるAutoTRIZの有効性を実証および評価し,また,AutoTRIZが生成したソリューションと教科書からの専門家の分析を比較した事例研究を行った。 さらに、提案したLCMベースのフレームワークは、SCAMPER、デザイン・ヒューリスティックス、デザイン・バイ・アナロジーなど、他の知識に基づく思考手法を自動化するための拡張の可能性を秘めており、デザイン革新のための新しい時代の人工的思考の道を開いた。

Researchers and innovators have made enormous efforts in developing ideation methods, such as morphological analysis and design-by-analogy, to aid engineering design ideation for problem solving and innovation. Among these, the Theory of Inventive Problem Solving (TRIZ) stands out as one of the most well-known approaches, widely applied for systematic innovation. However, the complexity of TRIZ resources and concepts, coupled with its reliance on users' knowledge, experience, and reasoning capabilities, limits its practicality. Therefore, we explore the recent advances of large language models (LLMs) for a generative approach to bridge this gap. This paper proposes AutoTRIZ, an artificial ideation tool that uses LLMs to automate and enhance the TRIZ methodology. By leveraging the broad knowledge and advanced reasoning capabilities of LLMs, AutoTRIZ offers a novel approach for design automation and interpretable ideation with artificial intelligence. AutoTRIZ takes a problem statement from the user as its initial input, and automatically generates a solution report after the reasoning process. We demonstrate and evaluate the effectiveness of AutoTRIZ through consistency experiments in contradiction detection, and a case study comparing solutions generated by AutoTRIZ with the experts' analyses from the textbook. Moreover, the proposed LLM-based framework holds the potential for extension to automate other knowledge-based ideation methods, including SCAMPER, Design Heuristics, and Design-by-Analogy, paving the way for a new era of artificial ideation for design innovation.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-23
# 分解可能なタスクに対する効率的なエンコーダ・デコーダ変換器デコード

Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks ( http://arxiv.org/abs/2403.13112v2 )

ライセンス: Link先を確認
Bo-Ru Lu, Nikita Haduong, Chien-Yu Lin, Hao Cheng, Noah A. Smith, Mari Ostendorf, (参考訳) トランスフォーマーベースのNLPモデルは強力だが、デプロイメントを制限する計算コストが高い。 微細エンコーダ-デコーダモデルは特殊なドメインで人気があり、GPT-4のようなより一般化されたデコーダのみのモデルよりも優れている。 本稿では,1つの共有入力に対して複数の出力を必要とする構造化された出力と分解可能なタスクの効率を向上させるエンコーダ・デコーダモデルのための新しい構成を提案する。 提案手法は、入力を一度エンコードして並列にデコードし、重複入力符号化を回避することによりトレーニングと推論の効率を向上し、入力キー値キャッシュを共有することで復号処理の演算強度(メモリアクセスに対する演算演算数の比)を増大させる。 我々は,対話状態追跡,要約,質問応答タスクの最先端モデルよりも最大4.6倍の高速化を実現し,その性能は同等か向上した。

Transformer-based NLP models are powerful but have high computational costs that limit deployment. Finetuned encoder-decoder models are popular in specialized domains and can outperform larger more generalized decoder-only models, such as GPT-4. We introduce a new configuration for encoder-decoder models that improves efficiency on structured output and decomposable tasks where multiple outputs are required for a single shared input. Our method, prompt-in-decoder (PiD), encodes the input once and decodes the output in parallel, boosting both training and inference efficiency by avoiding duplicate input encoding and increasing the operational intensity (ratio of numbers of arithmetic operation to memory access) of decoding process by sharing the input key-value cache. We achieve computation reduction that roughly scales with the number of subtasks, gaining up to 4.6x speed-up over state-of-the-art models for dialogue state tracking, summarization, and question-answering tasks, with comparable or better performance.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# DL2Fence:大規模NoCにおける深層学習とフレーム融合の統合による補充否認の検出と局所化

DL2Fence: Integrating Deep Learning and Frame Fusion for Enhanced Detection and Localization of Refined Denial-of-Service in Large-Scale NoCs ( http://arxiv.org/abs/2403.13563v2 )

ライセンス: Link先を確認
Haoyu Wang, Basel Halak, Jianjie Ren, Ahmad Atamli, (参考訳) 本研究は,ネットワークオンチップ(NoC)のための洗練されたフラッドインジェクション・レート調整可能なDoSモデルを導入し,さらに重要なことは,DoSの検出とローカライゼーションにDeep Learning(DL)とFrame Fusion(2F)を利用した新しいフレームワークであるDL2Fenceを提示する。 分類とセグメンテーションのための2つの畳み込みニューラルネットワークモデルを開発し,それぞれDoSの検出とローカライズを行った。 16x16メッシュNoCでは95.8%と91.7%の精度、98.5%と99.3%の精度を達成している。 フレームワークのハードウェアオーバーヘッドは8x8から16x16 NoCへのスケーリングで76.3%減少し、最先端のハードウェアに比べて42.4%減少している。 この進歩は、ハードウェアオーバーヘッドが極端に低い大規模NoCにおいて、優れた検出性能のバランスをとるDL2Fenceの有効性を示す。

This study introduces a refined Flooding Injection Rate-adjustable Denial-of-Service (DoS) model for Network-on-Chips (NoCs) and more importantly presents DL2Fence, a novel framework utilizing Deep Learning (DL) and Frame Fusion (2F) for DoS detection and localization. Two Convolutional Neural Networks models for classification and segmentation were developed to detect and localize DoS respectively. It achieves detection and localization accuracies of 95.8% and 91.7%, and precision rates of 98.5% and 99.3% in a 16x16 mesh NoC. The framework's hardware overhead notably decreases by 76.3% when scaling from 8x8 to 16x16 NoCs, and it requires 42.4% less hardware compared to state-of-the-arts. This advancement demonstrates DL2Fence's effectiveness in balancing outstanding detection performance in large-scale NoCs with extremely low hardware overhead.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# リモートセンシング画像分類のためのフェデレーション学習における特徴コミュニケーションの活用

Leveraging feature communication in federated learning for remote sensing image classification ( http://arxiv.org/abs/2403.13575v2 )

ライセンス: Link先を確認
Anh-Kiet Duong, Hoàng-Ân Lê, Minh-Tan Pham, (参考訳) 本研究は,リモートセンシング画像分類に適用されたフェデレートラーニング(FL)の領域において,いくつかの革新的なコミュニケーション戦略を紹介し,評価する。 調査では,特徴中心のコミュニケーション,擬似重畳化,重みと特徴の両面を利用した組み合わせ手法について検討した。 2つの公開シーン分類データセットで実施された実験は、これらの戦略の有効性を明らかにし、収束の加速、プライバシーの強化、ネットワーク情報交換の削減を示す。 この研究は、FLにおける機能中心通信の影響に関する貴重な洞察を提供し、リモートセンシングシナリオに適した潜在的なアプリケーションを提供する。

In the realm of Federated Learning (FL) applied to remote sensing image classification, this study introduces and assesses several innovative communication strategies. Our exploration includes feature-centric communication, pseudo-weight amalgamation, and a combined method utilizing both weights and features. Experiments conducted on two public scene classification datasets unveil the effectiveness of these strategies, showcasing accelerated convergence, heightened privacy, and reduced network information exchange. This research provides valuable insights into the implications of feature-centric communication in FL, offering potential applications tailored for remote sensing scenarios.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# マルチスケール容器検出のためのマルチソース衛星画像のコロケーションへのインサイト

Insight Into the Collocation of Multi-Source Satellite Imagery for Multi-Scale Vessel Detection ( http://arxiv.org/abs/2403.13698v2 )

ライセンス: Link先を確認
Tran-Vu La, Minh-Tan Pham, Marco Chini, (参考訳) 深層学習(DL)を用いた衛星画像からの船舶検出は、海上監視にとって必須のソリューションである。 しかし、空間分解能と放射能の特徴が異なる他のデータセットに対して訓練されたDLモデルを適用するには、多くの調整が必要である。 本論文は,異なる光学画像とレーダと光学データの組み合わせからなるデータセットに基づいて訓練されたDLモデルに焦点を当てた。 限られた数の訓練画像を扱う場合,本手法によるDLモデルの性能は良好であった。 テストされた光学画像によって平均精度は5~20%向上する可能性がある。 同様に、光学とレーダーの両方のデータセットで訓練されたDLモデルは、光学とレーダーの両方に応用できる。 実験の結果,光学的データセットでトレーニングしたモデルはレーダ画像に利用でき,レーダデータセットでトレーニングしたモデルでは光学的画像に適用した場合のスコアが極めて低かった。

Ship detection from satellite imagery using Deep Learning (DL) is an indispensable solution for maritime surveillance. However, applying DL models trained on one dataset to others having differences in spatial resolution and radiometric features requires many adjustments. To overcome this issue, this paper focused on the DL models trained on datasets that consist of different optical images and a combination of radar and optical data. When dealing with a limited number of training images, the performance of DL models via this approach was satisfactory. They could improve 5-20% of average precision, depending on the optical images tested. Likewise, DL models trained on the combined optical and radar dataset could be applied to both optical and radar images. Our experiments showed that the models trained on an optical dataset could be used for radar images, while those trained on a radar dataset offered very poor scores when applied to optical images.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# 難解なLLMセマンティックスからの本質的な学習による一般化ゼロショット学習の未確認領域への展開

Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics ( http://arxiv.org/abs/2403.14362v2 )

ライセンス: Link先を確認
Jiaqi Yue, Jiancheng Zhao, Chunhui Zhao, (参考訳) 一般化ゼロショット学習 (GZSL) は、目に見えないクラスと見えないクラスをドメインシフト問題 (DSP) に対して認識することに焦点を当てている。 しかし、既存のGZSLは依然として見るドメインに限られている。 現在の研究では、GZSLを未確認領域に向けるクロスドメインGZSL(CDGZSL)を開拓している。 意味のある未確認クラスの特徴を生成することでDSPを緩和する既存のGZSLメソッドとは異なり、CDGZSLはドメイン間で共通の特徴空間を構築し、ドメイン間で共有される固有の意味論を取得して、目に見えないドメインから未知のドメインへ転送する必要がある。 大規模言語モデル(LLM)に注釈付けされた冗長なクラスセマンティクスによる情報非対称性の問題を考慮して,メタドメインアライメント・セマンティック・リファインメント(MDASR)を提案する。 技術的には、MDASRは2つの部分から構成される: クラス間類似性アライメント(ISA)は、クラス間特徴関係の指導の下ですべてのドメイン間で共有されていない非内在的意味論を排除し、Unseen-class Meta Generation(UMG)は、特徴生成をシミュレートすることで、見かけたクラスと見えないクラス間の接続を維持するために内在的意味論を保存する。 MDASRは、冗長な意味空間と共通の特徴空間を効果的に整合させ、CDGZSLにおける情報の非対称性を緩和する。 MDASRの有効性はOffice-HomeとMini-DomainNetで実証され、これらのデータセットに対するLLMベースのセマンティクスをベンチマークとして共有した。

Generalized zero-shot learning (GZSL) focuses on recognizing seen and unseen classes against domain shift problem (DSP) where data of unseen classes may be misclassified as seen classes. However, existing GZSL is still limited to seen domains. In the current work, we pioneer cross-domain GZSL (CDGZSL) which addresses GZSL towards unseen domains. Different from existing GZSL methods which alleviate DSP by generating features of unseen classes with semantics, CDGZSL needs to construct a common feature space across domains and acquire the corresponding intrinsic semantics shared among domains to transfer from seen to unseen domains. Considering the information asymmetry problem caused by redundant class semantics annotated with large language models (LLMs), we present Meta Domain Alignment Semantic Refinement (MDASR). Technically, MDASR consists of two parts: Inter-class Similarity Alignment (ISA), which eliminates the non-intrinsic semantics not shared across all domains under the guidance of inter-class feature relationships, and Unseen-class Meta Generation (UMG), which preserves intrinsic semantics to maintain connectivity between seen and unseen classes by simulating feature generation. MDASR effectively aligns the redundant semantic space with the common feature space, mitigating the information asymmetry in CDGZSL. The effectiveness of MDASR is demonstrated on the Office-Home and Mini-DomainNet, and we have shared the LLM-based semantics for these datasets as the benchmark.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# 物理インフォームド拡散モデル

Physics-Informed Diffusion Models ( http://arxiv.org/abs/2403.14404v2 )

ライセンス: Link先を確認
Jan-Hendrik Bastek, WaiChing Sun, Dennis M. Kochmann, (参考訳) 拡散モデルのような生成モデルは、非常に複雑なデータ分布を近似する能力が急速に進歩している。 科学的な機械学習にも活用され、インプリートされたデータ分布のサンプルは特定の支配方程式に従うことが期待されている。 本稿では,モデル学習中に生成したサンプルに対する基礎的制約について,拡散モデルに通知する枠組みを提案する。 提案手法は, 提案した制約付きサンプルのアライメントを改善し, 推論速度に影響を与えることなく, 既存の手法を著しく上回っている。 さらに,トレーニング中にこのような制約を組み込むことで,過剰適合に対する自然な規則化が期待できる。 我々のフレームワークは、等式制約や不等式制約を課し、補助最適化の目的を課すための適用性において、実装が容易で、多用途である。

Generative models such as denoising diffusion models are quickly advancing their ability to approximate highly complex data distributions. They are also increasingly leveraged in scientific machine learning, where samples from the implied data distribution are expected to adhere to specific governing equations. We present a framework to inform denoising diffusion models of underlying constraints on such generated samples during model training. Our approach improves the alignment of the generated samples with the imposed constraints and significantly outperforms existing methods without affecting inference speed. Additionally, our findings suggest that incorporating such constraints during training provides a natural regularization against overfitting. Our framework is easy to implement and versatile in its applicability for imposing equality and inequality constraints as well as auxiliary optimization objectives.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# Long-CLIP: CLIPの長文機能をアンロックする

Long-CLIP: Unlocking the Long-Text Capability of CLIP ( http://arxiv.org/abs/2403.15378v2 )

ライセンス: Link先を確認
Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang, (参考訳) コントラスト言語-画像事前学習(CLIP)はゼロショット分類、テキスト画像検索、画像とテキストのモダリティの整列によるテキスト画像生成の基盤となっている。 広く採用されているにもかかわらず、CLIPの大幅な制限はテキスト入力の不十分な長さにある。 テキストトークンの長さは77に制限され、実証的研究により実際の有効長が20未満であることが示されている。 これにより、CLIPは詳細な記述を処理できなくなり、画像検索やテキスト・ツー・イメージ生成への応用を広範囲の前提条件で制限する。 この目的のために、Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持し、CLIPの潜在空間を調整し、下流フレームワークにさらなる適応なしにCLIPを置き換えることのできる、CLIPのプラグアンドプレイ代替品として提案する。 それでもこの目標を達成するのは簡単ではない。単純化された微調整によってCLIPのパフォーマンスが大幅に低下する可能性があるからだ。 さらに、長いコンテキストをサポートする言語モデルでテキストエンコーダを置換するには、大量のデータで事前学習する必要があるため、かなりの費用がかかる。 そこでLong-CLIPは,(1)位置埋め込みの知識保存型ストレッチング,(2)CLIP機能の主成分マッチング,という2つの新しい手法により,CLIP上の効率的な微調整ソリューションを導入している。 わずか100万の長文画像ペアを活用することで、Long-CLIPは、長文画像検索で約20%、従来のテキスト画像検索タスクで6%、例えば、COCO、Flickr30kでCLIPよりも優れていることを示した。 さらに、Long-CLIPはCLIPをプラグアンドプレイで置き換えることで、詳細なテキスト記述から画像を生成する機能を強化している。

Contrastive Language-Image Pre-training (CLIP) has been the cornerstone for zero-shot classification, text-image retrieval, and text-image generation by aligning image and text modalities. Despite its widespread adoption, a significant limitation of CLIP lies in the inadequate length of text input. The length of the text token is restricted to 77, and an empirical study shows the actual effective length is even less than 20. This prevents CLIP from handling detailed descriptions, limiting its applications for image retrieval and text-to-image generation with extensive prerequisites. To this end, we propose Long-CLIP as a plug-and-play alternative to CLIP that supports long-text input, retains or even surpasses its zero-shot generalizability, and aligns the CLIP latent space, making it readily replace CLIP without any further adaptation in downstream frameworks. Nevertheless, achieving this goal is far from straightforward, as simplistic fine-tuning can result in a significant degradation of CLIP's performance. Moreover, substituting the text encoder with a language model supporting longer contexts necessitates pretraining with vast amounts of data, incurring significant expenses. Accordingly, Long-CLIP introduces an efficient fine-tuning solution on CLIP with two novel strategies designed to maintain the original capabilities, including (1) a knowledge-preserved stretching of positional embedding and (2) a primary component matching of CLIP features. With leveraging just one million extra long text-image pairs, Long-CLIP has shown the superiority to CLIP for about 20% in long caption text-image retrieval and 6% in traditional text-image retrieval tasks, e.g., COCO and Flickr30k. Furthermore, Long-CLIP offers enhanced capabilities for generating images from detailed text descriptions by replacing CLIP in a plug-and-play manner.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# 強化学習におけるコスト制約行動の緩和

Imitating Cost-Constrained Behaviors in Reinforcement Learning ( http://arxiv.org/abs/2403.17456v3 )

ライセンス: Link先を確認
Qian Shao, Pradeep Varakantham, Shih-Fen Cheng, (参考訳) 複雑な計画とスケジューリングの問題は、様々な最適化やヒューリスティックなアプローチで長い間解決されてきた。 近年,これらの問題を解決する代替手段として,専門家によるデモンストレーションから学ぶことを目的とした模倣学習が提案されている。 一般的には、模倣学習は、専門家の行動を観察して報酬(または好み)モデルまたは行動方針を直接学習するように設計されている。 既存の模倣学習や逆強化学習は、主に制約のない環境(例えば、車両が消費する燃料に制限はない)で模倣に焦点を当てている。 しかし、多くの現実世界のドメインでは、専門家の振る舞いは報酬(または好み)だけでなく、制約によっても支配される。 例えば、自動運転車の配送に関する決定は、ルートの選好/回帰(過去の需要データに依存する)だけでなく、車の燃料や利用可能な時間にも依存している。 このような問題では、報酬モデルによって決定されるだけでなく、コスト制約のあるモデルにも依存するため、模倣学習は困難である。 本稿では,トラジェクティブコスト制約の存在下での専門家分布と一致する複数の方法を提案する。 (a)ラグランジュ的方法 ロ メタグラディエントは、期待したリターンと制約違反の最小化との間に良いトレードオフを見出すことができる。 (c)コスト違反に基づく交互化勾配。 試行錯誤学習アプローチは,コスト制約の少ない動作を模倣し,メタグラディエントベースのアプローチが最高のパフォーマンスを達成することを実証的に示す。

Complex planning and scheduling problems have long been solved using various optimization or heuristic approaches. In recent years, imitation learning that aims to learn from expert demonstrations has been proposed as a viable alternative to solving these problems. Generally speaking, imitation learning is designed to learn either the reward (or preference) model or directly the behavioral policy by observing the behavior of an expert. Existing work in imitation learning and inverse reinforcement learning has focused on imitation primarily in unconstrained settings (e.g., no limit on fuel consumed by the vehicle). However, in many real-world domains, the behavior of an expert is governed not only by reward (or preference) but also by constraints. For instance, decisions on self-driving delivery vehicles are dependent not only on the route preferences/rewards (depending on past demand data) but also on the fuel in the vehicle and the time available. In such problems, imitation learning is challenging as decisions are not only dictated by the reward model but are also dependent on a cost-constrained model. In this paper, we provide multiple methods that match expert distributions in the presence of trajectory cost constraints through (a) Lagrangian-based method; (b) Meta-gradients to find a good trade-off between expected return and minimizing constraint violation; and (c) Cost-violation-based alternating gradient. We empirically show that leading imitation learning approaches imitate cost-constrained behaviors poorly and our meta-gradient-based approach achieves the best performance.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# LASIL:長期マイクロトラフィックシミュレーションのための学習者支援型模倣学習

LASIL: Learner-Aware Supervised Imitation Learning For Long-term Microscopic Traffic Simulation ( http://arxiv.org/abs/2403.17601v3 )

ライセンス: Link先を確認
Ke Guo, Zhenwei Miao, Wei Jing, Weiwei Liu, Weizi Li, Dayang Hao, Jia Pan, (参考訳) 微視的交通シミュレーションは、個々の車両の挙動や交通の流れに関する洞察を提供することによって、輸送工学において重要な役割を担っている。 しかし,様々な交通条件下での運転動作を正確に再現する現実的なシミュレータを作成することは,大きな課題となる。 ヒューリスティックなモデルに依存する従来のシミュレータは、現実の交通環境の複雑さのために正確なシミュレーションを行うことができないことが多い。 共変量シフトの問題により、既存の模倣学習ベースのシミュレータは安定した長期シミュレーションを生成できないことが多い。 本稿では,マルチエージェント模倣学習における共変量シフト問題に対処するために,学習者認識による模倣学習と呼ばれる新しい手法を提案する。 エキスパートと学習者の状態分布を同時にモデル化する変分オートエンコーダを活用することにより、拡張状態が学習者の状態分布を認識しているように専門家の状態を強化する。 都市交通シミュレーションに応用した本手法は,実世界のデータセットpNEUMAで評価した場合,短期的および長期的マクロ的リアリズムにおいて,既存の最先端ベースラインよりも大幅に改善されていることを示す。

Microscopic traffic simulation plays a crucial role in transportation engineering by providing insights into individual vehicle behavior and overall traffic flow. However, creating a realistic simulator that accurately replicates human driving behaviors in various traffic conditions presents significant challenges. Traditional simulators relying on heuristic models often fail to deliver accurate simulations due to the complexity of real-world traffic environments. Due to the covariate shift issue, existing imitation learning-based simulators often fail to generate stable long-term simulations. In this paper, we propose a novel approach called learner-aware supervised imitation learning to address the covariate shift problem in multi-agent imitation learning. By leveraging a variational autoencoder simultaneously modeling the expert and learner state distribution, our approach augments expert states such that the augmented state is aware of learner state distribution. Our method, applied to urban traffic simulation, demonstrates significant improvements over existing state-of-the-art baselines in both short-term microscopic and long-term macroscopic realism when evaluated on the real-world dataset pNEUMA.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# 複数選択質問はLLMの能力を検出するのに本当に役立つのか?

Can multiple-choice questions really be useful in detecting the abilities of LLMs? ( http://arxiv.org/abs/2403.17752v3 )

ライセンス: Link先を確認
Wangyue Li, Liangzhi Li, Tong Xiang, Xiao Liu, Wei Deng, Noa Garcia, (参考訳) 複数選択質問(MCQ)は、その単純さと効率性から、大規模言語モデル(LLM)の評価に広く用いられている。 しかし、特に長文生成(LFG)の回答を必要とする知識集約的なシナリオにおいて、MCQがLLMの能力を真に測定できるかどうかには懸念がある。 課題と評価方法のミスアライメントはMCQの有効性の思慮深い分析を必要とするが,本論文では,中国語と英語の4言語からなる質問応答(QA)データセットに対して,9つのLLMを評価した。 LLMはバイリンガルMCQの順序感受性を示し、特定の位置にある答え、すなわち第1位を優先する。 さらに, 直接出力, トークンロジット, 埋め込みを比較することで, MCQとLFGQのギャップを定量化する。 その結果,同一質問に対するMCQとLFGQの回答の相関は比較的低いことがわかった。 さらに、他のQA評価ベンチマークに一般化可能なLCMの出力の一貫性と信頼性を定量化する2つの方法を提案する。 特に、我々の分析は、一貫性が高ければ高いほど精度が上がるという考えに挑戦する。 また,キャリブレーション誤差の予測値から,MCQはLFGQよりも信頼性が低いことも確認した。 最後に、MCQとLFGQの相違は評価性能だけでなく、埋め込み空間にも反映される。 私たちのコードとモデルはhttps://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMsでアクセスできます。

Multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM's capabilities, particularly in knowledge-intensive scenarios where long-form generation (LFG) answers are required. The misalignment between the task and the evaluation method demands a thoughtful analysis of MCQ's efficacy, which we undertake in this paper by evaluating nine LLMs on four question-answering (QA) datasets in two languages: Chinese and English. We identify a significant issue: LLMs exhibit an order sensitivity in bilingual MCQs, favoring answers located at specific positions, i.e., the first position. We further quantify the gap between MCQs and long-form generation questions (LFGQs) by comparing their direct outputs, token logits, and embeddings. Our results reveal a relatively low correlation between answers from MCQs and LFGQs for identical questions. Additionally, we propose two methods to quantify the consistency and confidence of LLMs' output, which can be generalized to other QA evaluation benchmarks. Notably, our analysis challenges the idea that the higher the consistency, the greater the accuracy. We also find MCQs to be less reliable than LFGQs in terms of expected calibration error. Finally, the misalignment between MCQs and LFGQs is not only reflected in the evaluation performance but also in the embedding space. Our code and models can be accessed at https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# 大規模言語モデル圧縮のための冗長層合理化

Streamlining Redundant Layers to Compress Large Language Models ( http://arxiv.org/abs/2403.19135v3 )

ライセンス: Link先を確認
Xiaodong Chen, Yuxuan Hu, Jing Zhang, Yanling Wang, Cuiping Li, Hong Chen, (参考訳) 本稿では,LLM-Streamlineについて紹介する。 異なる層が隠れた状態に様々な影響を与え、重要でない層を識別できるという観察に基づいている。 LLMStreamlineは2つの部分から構成される: 層プルーニング(Layer pruning)は、ターゲットの空間性に基づいて最も重要でない連続的な層を除去する。 さらに、モデル圧縮を評価する際の精度の限界に対処するため、「安定性」と呼ばれる新しい指標が提案されている。 実験により,LLM-Streamlineは従来の最先端プルーニング法を精度と安定性の両方で上回っていることがわかった。

This paper introduces LLM-Streamline, a novel layer pruning approach for large language models. It is based on the observation that different layers have varying impacts on hidden states, enabling the identification of less important layers. LLMStreamline comprises two parts: layer pruning, which removes consecutive layers with the lowest importance based on target sparsity, and layer replacement, where a lightweight network is trained to replace the pruned layers to mitigate performance loss. Additionally, a new metric called "stability" is proposed to address the limitations of accuracy in evaluating model compression. Experiments show that LLM-Streamline surpasses previous state-of-the-art pruning methods in both accuracy and stability.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# CLAP4CLIP:視覚言語モデルのための確率的微調整による連続学習

CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models ( http://arxiv.org/abs/2403.19137v2 )

ライセンス: Link先を確認
Saurav Jha, Dong Gong, Lina Yao, (参考訳) 継続学習(CL)は、深層ニューラルネットワークが学習内容を保持しながら新しい知識を学ぶのを支援することを目的としている。 近年、CLIPのような学習済みの視覚言語モデルが、実用的なCL候補として注目を集めている。 しかし、事前トレーニングと下流CLタスク間のドメインミスマッチは、後者のCLIPの微調整を要求する。 既存の微調整法の決定論的性質は、モダリティ間の多くの相互作用を見逃し、信頼性の高い不確実性推定を必要とする高リスクCLタスクには安全でないとみなす。 このような問題に対処するため,我々はCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。 CLAPは、視覚的に誘導されたテキスト特徴を持つタスク固有モジュール上の確率的モデリングを開発し、CLでよりキャリブレーションされた微調整を提供する。 タスク固有のモジュールの重み付け初期化と分散正規化のために、CLIPの豊富な事前訓練された知識を活用することで、忘れを緩和する。 CLAPは、既存のプロンプトメソッドの多様な範囲と連携して、CLとCLIPの主な決定論的微調整アプローチを克服することができる。 我々は、CLAPの精度の高い不確実性推定能力を、CLのセットアップにおける新しいデータ検出と模範選択に応用する。 私たちのコードは \url{https://github.com/srvCodes/clap4clip} で利用可能です。

Continual learning (CL) aims to help deep neural networks to learn new knowledge while retaining what has been learned. Recently, pre-trained vision-language models such as CLIP, with powerful generalizability, have been gaining traction as practical CL candidates. However, the domain mismatch between the pre-training and the downstream CL tasks calls for finetuning of the CLIP on the latter. The deterministic nature of the existing finetuning methods makes them overlook the many possible interactions across the modalities and deems them unsafe for high-risk CL tasks requiring reliable uncertainty estimation. To address these, our work proposes Continual LeArning with Probabilistic finetuning (CLAP). CLAP develops probabilistic modeling over task-specific modules with visual-guided text features, providing more calibrated finetuning in CL. It further alleviates forgetting by exploiting the rich pre-trained knowledge of CLIP for weight initialization and distribution regularization of task-specific modules. Cooperating with the diverse range of existing prompting methods, CLAP can surpass the predominant deterministic finetuning approaches for CL with CLIP. We conclude with out-of-the-box applications of superior uncertainty estimation abilities of CLAP for novel data detection and exemplar selection within CL setups. Our code is available at \url{https://github.com/srvCodes/clap4clip}.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-23
# MineLand: 限られたマルチモーダルセンサと物理的ニーズによる大規模マルチエージェントインタラクションのシミュレーション

MineLand: Simulating Large-Scale Multi-Agent Interactions with Limited Multimodal Senses and Physical Needs ( http://arxiv.org/abs/2403.19267v2 )

ライセンス: Link先を確認
Xianhao Yu, Jiaqi Fu, Renjia Deng, Wenjuan Han, (参考訳) VLM(Vision-Language Models)は、広範囲なコラボレーションを必要とするタスクを約束する一方で、従来のマルチエージェントシミュレータは、集団的な振る舞いを反映したインタラクティブな人工社会の豊富な探索を促進してきた。 しかし、これらの既存のシミュレータは重大な制限に直面している。 まず、高いリソース要求のために大量のエージェントを扱うのに苦労する。 第二に、彼らはエージェントが完全な情報と限界のない能力を持っていると仮定し、シミュレーションされた社会的相互作用の生態学的妥当性を妨げている。 このギャップを埋めるために、我々はMineLandというマルチエージェントMinecraftシミュレータを提案し、このギャップを埋めるために、大規模スケーラビリティ、限られたマルチモーダルセンス、物理的ニーズの3つの重要な特徴を導入する。 シミュレータは64以上のエージェントをサポートしています。 エージェントは視覚的、聴覚的、環境的な認識が限られており、食物や資源といった物理的な要求を満たすために積極的にコミュニケーションし協力することを余儀なくされている。 さらに、マルチタスク理論にインスパイアされたAIエージェントフレームワークであるAlexを導入し、エージェントが複雑な調整とスケジューリングを処理できるようにする。 我々の実験は、シミュレーター、対応するベンチマーク、AIエージェントフレームワークがより生態学的、ニュアンスのある集団行動に寄与していることを示し、MineLandとAlexのソースコードはhttps://github.com/cocacola-lab/MineLandで公開されています。

While Vision-Language Models (VLMs) hold promise for tasks requiring extensive collaboration, traditional multi-agent simulators have facilitated rich explorations of an interactive artificial society that reflects collective behavior. However, these existing simulators face significant limitations. Firstly, they struggle with handling large numbers of agents due to high resource demands. Secondly, they often assume agents possess perfect information and limitless capabilities, hindering the ecological validity of simulated social interactions. To bridge this gap, we propose a multi-agent Minecraft simulator, MineLand, that bridges this gap by introducing three key features: large-scale scalability, limited multimodal senses, and physical needs. Our simulator supports 64 or more agents. Agents have limited visual, auditory, and environmental awareness, forcing them to actively communicate and collaborate to fulfill physical needs like food and resources. Additionally, we further introduce an AI agent framework, Alex, inspired by multitasking theory, enabling agents to handle intricate coordination and scheduling. Our experiments demonstrate that the simulator, the corresponding benchmark, and the AI agent framework contribute to more ecological and nuanced collective behavior.The source code of MineLand and Alex is openly available at https://github.com/cocacola-lab/MineLand.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# GaussianCube:3次元生成モデリングのための構造的かつ明示的な放射率表現

GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling ( http://arxiv.org/abs/2403.19655v3 )

ライセンス: Link先を確認
Bowen Zhang, Yiji Cheng, Jiaolong Yang, Chunyu Wang, Feng Zhao, Yansong Tang, Dong Chen, Baining Guo, (参考訳) 構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。 既存の放射率表現は暗黙的な特徴デコーダを必要とするか、表現のモデリング能力を著しく低下させるか、空間的に非構造化されているため、主流の3D拡散法と統合することが困難である。 ガウスキューブはまず, 正規化制約付きガウスフィッティングアルゴリズムを用いて導出し, 固定数のガウスフィッティングを用いて精度の高いガウスフィッティングを行い, そのガウスフィッティングを最適輸送により事前に定義されたボクセルグリッドに再構成する。 GaussianCubeは構造化グリッド表現であるため、複雑な設計をせずに拡散モデリングにおいて標準の3D U-Netをバックボーンとして使用できる。 さらに重要なことは、ガウスの高精度なフィッティングにより、1桁から2桁の範囲で、以前の構成された表現よりも桁違いに少ないパラメータで高品質な表現を実現できることである。 ガウスキューブのコンパクト性は、3次元生成モデリングの難しさを大幅に緩和する。 非条件・クラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3D合成といった実験により、我々のモデルは定性的・定量的に、ガウスキューブの3次元生成モデルにおける高精度かつ多目的な放射率表現としての可能性を実証した。 プロジェクトページ: https://gaussiancube.github.io/.com

We introduce a radiance representation that is both structured and fully explicit and thus greatly facilitates 3D generative modeling. Existing radiance representations either require an implicit feature decoder, which significantly degrades the modeling power of the representation, or are spatially unstructured, making them difficult to integrate with mainstream 3D diffusion methods. We derive GaussianCube by first using a novel densification-constrained Gaussian fitting algorithm, which yields high-accuracy fitting using a fixed number of free Gaussians, and then rearranging these Gaussians into a predefined voxel grid via Optimal Transport. Since GaussianCube is a structured grid representation, it allows us to use standard 3D U-Net as our backbone in diffusion modeling without elaborate designs. More importantly, the high-accuracy fitting of the Gaussians allows us to achieve a high-quality representation with orders of magnitude fewer parameters than previous structured representations for comparable quality, ranging from one to two orders of magnitude. The compactness of GaussianCube greatly eases the difficulty of 3D generative modeling. Extensive experiments conducted on unconditional and class-conditioned object generation, digital avatar creation, and text-to-3D synthesis all show that our model achieves state-of-the-art generation results both qualitatively and quantitatively, underscoring the potential of GaussianCube as a highly accurate and versatile radiance representation for 3D generative modeling. Project page: https://gaussiancube.github.io/.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection ( http://arxiv.org/abs/2403.19888v2 )

ライセンス: Link先を確認
Ali Behrouz, Michele Santacatterina, Ramin Zabih, (参考訳) ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。 しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。 State Space Models (SSM) およびより具体的には Selective SSMs (S6) は、ハードウェアを意識した効率的な実装であり、長い因果シーケンスモデリングの有望な可能性を示している。 しかし、チャンネル毎に別々のブロックを使用しており、無関係なチャンネルをフィルタリングしたり、チャンネル間の依存関係をキャプチャできなかった。 MLP、アテンション、SSMを使ってチャネル間で情報を混合しようとする自然な試みは、大きなネットワークのためのSSMのトレーニングや、パラメータの2倍近い数のトレーニングにおいて、さらなる不安定性をもたらす。 我々はSSMベースの新しいアーキテクチャであるMambaMixerブロックを提案する。これはトークンとチャネルをまたいだ2つの選択機構を使い、Selective TokenとChannel Mixerと呼ばれる。 パラメータ数を2倍にするために、ハードウェアフレンドリーな実装で準分離可能なカーネルを用いて、S6ブロックの非因果ヒューリスティックを新たに提案する。 さらに,QSMixerと呼ばれる効率の良いMambaMixerの変種について述べる。 概念実証として、Vision MambaMixer (ViM2) と Vision QSMixer (ViQS) アーキテクチャを設計する。 画像中の空間情報をキャプチャする能力を高めるために,画像パッチを横切るために有用な画像スキャンのセットを動的に使用するSwitch of Scans(SoS)を提案する。 画像分類,セグメンテーション,オブジェクト検出における手法の性能を評価する。 本研究の結果は,トークンとチャネルを選択的に混合することの重要性を浮き彫りにして,十分に確立されたビジョンモデル(SSMベースモデル)を用いた手法の競争的(より優れた)性能を示すものである。

Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. State Space Models (SSMs), and more specifically Selective SSMs (S6), with efficient hardware-aware implementation, have shown promising potential for long causal sequence modeling. They, however, use separate blocks for each channel and fail to filter irrelevant channels and capture inter-channel dependencies. Natural attempt to mix information across channels using MLP, attention, or SSMs results in further instability in the training of SSMs for large networks and/or nearly double the number of parameters. We present the MambaMixer block, a new SSM-based architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels-called Selective Token and Channel Mixer. To mitigate doubling the number of parameters, we present a new non-causal heuristic of the S6 block using quasi-separable kernels with a hardware-friendly implementation. We further present an efficient variant of MambaMixer, called QSMixer, that mixes information along both sequence and embedding dimensions. As a proof of concept, we design Vision MambaMixer (ViM2) and Vision QSMixer (ViQS) architectures. To enhance their ability to capture spatial information in images, we present Switch of Scans (SoS) that dynamically uses a set of useful image scans to traverse image patches. We evaluate the performance of our methods in image classification, segmentation, and object detection. Our results underline the importance of selectively mixing across both tokens and channels and show the competitive (resp. superior) performance of our methods with well-established vision models (resp. SSM-based models).
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# Bad Part: ピクセルワイド回帰タスクに対する一貫したブラックボックス対応パッチ攻撃

BadPart: Unified Black-box Adversarial Patch Attacks against Pixel-wise Regression Tasks ( http://arxiv.org/abs/2404.00924v2 )

ライセンス: Link先を確認
Zhiyuan Cheng, Zhaoyi Liu, Tengda Guo, Shiwei Feng, Dongfang Liu, Mingjie Tang, Xiangyu Zhang, (参考訳) 自動走行、拡張現実、ビデオ合成などの応用において、画素単位の回帰タスク(例えば、単眼深度推定(MDE)と光フロー推定(OFE))は我々の日常生活に広く関わっている。 特定の応用は、セキュリティに批判的か社会的重要性を持つが、特にブラックボックスのシナリオにおいて、そのようなモデルの敵対的堅牢性は十分に研究されていない。 本研究では,クエリベースのブラックボックスアタックにおいて,これらのモデルの脆弱性を特定することを目的とした,画素単位の回帰タスクに対する最初の統合ブラックボックス対逆パッチアタックフレームワークを提案する。 そこで我々は,従来のブラックボックスパッチ攻撃のスケーラビリティ問題を克服し,確率的正方形サンプリングとスコアベース勾配推定手法を用いて,このパッチを効果的かつ効率的に生成する新しい正方形逆パッチ最適化フレームワークを提案する。 攻撃プロトタイプであるBadPartは,MDEタスクとOFEタスクの両方で,合計7つのモデルを用いて評価される。 BadPartは攻撃性能と効率の両面で3つのベースラインメソッドを上回っている。 また、GoogleのオンラインサービスBadPartをポートレート深度推定に応用し、50Kクエリに対して43.5%の相対誤差を発生させた。 最先端のSOTA(State-of-the-art)対策は、我々の攻撃を効果的に防御することはできない。

Pixel-wise regression tasks (e.g., monocular depth estimation (MDE) and optical flow estimation (OFE)) have been widely involved in our daily life in applications like autonomous driving, augmented reality and video composition. Although certain applications are security-critical or bear societal significance, the adversarial robustness of such models are not sufficiently studied, especially in the black-box scenario. In this work, we introduce the first unified black-box adversarial patch attack framework against pixel-wise regression tasks, aiming to identify the vulnerabilities of these models under query-based black-box attacks. We propose a novel square-based adversarial patch optimization framework and employ probabilistic square sampling and score-based gradient estimation techniques to generate the patch effectively and efficiently, overcoming the scalability problem of previous black-box patch attacks. Our attack prototype, named BadPart, is evaluated on both MDE and OFE tasks, utilizing a total of 7 models. BadPart surpasses 3 baseline methods in terms of both attack performance and efficiency. We also apply BadPart on the Google online service for portrait depth estimation, causing 43.5% relative distance error with 50K queries. State-of-the-art (SOTA) countermeasures cannot defend our attack effectively.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# SpikeMba: テンポラルビデオグラウンドのためのマルチモーダルスパイス・サイレンシー・マンバ

SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding ( http://arxiv.org/abs/2404.01174v2 )

ライセンス: Link先を確認
Wenrui Li, Xiaopeng Hong, Ruiqin Xiong, Xiaopeng Fan, (参考訳) 時間的ビデオグラウンドティング(TVG)は、ビデオコンテンツ理解において重要な課題であり、ビデオコンテンツと自然言語の指示を正確に調整する必要がある。 大幅な進歩にもかかわらず、既存の手法は、健全なオブジェクトに対する信頼性のバイアスを管理し、ビデオシーケンスにおける長期的な依存関係をキャプチャする上で、課題に直面している。 これらの問題に対処するために、時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシー・マンバであるSpikeMbaを紹介した。 提案手法では,SNN(Spike Neural Networks)と状態空間モデル(State Space Model, SSM)を統合して,タスクのさまざまな側面を扱う上で,そのユニークなメリットを活用する。 具体的には、SNNを用いて、提案セットを生成するスパイキングサリエンシ検出器を開発する。 検出器は、入力信号が予め定義されたしきい値を超えるとスパイク信号を出力し、ダイナミックでバイナリなサリエンシの提案セットとなる。 文脈情報を保持し,推測するモデルの能力を高めるために,先行知識を符号化する学習可能なテンソルを含む関連スロットを導入する。 これらのスロットはコンテキストモーメント推論器と連携して、コンテキスト情報の保存と意味的関連性の動的探索のバランスを維持する。 SSMは選択的な情報伝達を促進し、ビデオコンテンツへの長期依存の課題に対処する。 提案生成のためのSNNと効果的な文脈推論のためのSSMを組み合わせることで、SpikeMbaは信頼性バイアスと長期依存に対処し、きめ細かいマルチモーダル関係のキャプチャを大幅に向上する。 我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。

Temporal video grounding (TVG) is a critical task in video content understanding, requiring precise alignment between video content and natural language instructions. Despite significant advancements, existing methods face challenges in managing confidence bias towards salient objects and capturing long-term dependencies in video sequences. To address these issues, we introduce SpikeMba: a multi-modal spiking saliency mamba for temporal video grounding. Our approach integrates Spiking Neural Networks (SNNs) with state space models (SSMs) to leverage their unique advantages in handling different aspects of the task. Specifically, we use SNNs to develop a spiking saliency detector that generates the proposal set. The detector emits spike signals when the input signal exceeds a predefined threshold, resulting in a dynamic and binary saliency proposal set. To enhance the model's capability to retain and infer contextual information, we introduce relevant slots which learnable tensors that encode prior knowledge. These slots work with the contextual moment reasoner to maintain a balance between preserving contextual information and exploring semantic relevance dynamically. The SSMs facilitate selective information propagation, addressing the challenge of long-term dependency in video content. By combining SNNs for proposal generation and SSMs for effective contextual reasoning, SpikeMba addresses confidence bias and long-term dependencies, thereby significantly enhancing fine-grained multimodal relationship capture. Our experiments demonstrate the effectiveness of SpikeMba, which consistently outperforms state-of-the-art methods across mainstream benchmarks.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# AddSR: 逆拡散蒸留を併用したBlind Super-Resolutionの高速化

AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation ( http://arxiv.org/abs/2404.01717v3 )

ライセンス: Link先を確認
Rui Xie, Ying Tai, Chen Zhao, Kai Zhang, Zhenyu Zhang, Jun Zhou, Xiaoqian Ye, Qian Wang, Jian Yang, (参考訳) 低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法 しかし、その実用性はしばしば、数千から数百のサンプリングステップの要求から生じる、効率の悪さによって妨げられている。 効率の良い逆拡散蒸留 (ADD) にインスパイアされた我々は, 蒸留と制御ネットの両方のアイデアを取り入れることで, この問題に対処する。 具体的には、まず、学生モデル出力の高頻度情報に限界的な追加時間コストで提供する予測に基づく自己抑止戦略を提案する。 さらに、LR画像ではなくHR画像を用いて教師モデルを制御することにより、トレーニングプロセスを洗練し、蒸留のより堅牢な制約を提供する。 第2に,従来のADDによる知覚歪みの不均衡問題に対処するために,時間適応型ADDを導入する。 拡張実験により、より優れた復元結果が得られ、従来のSDベースの最先端モデル(例えば、SeeSRより7$\times$速い)よりも高速に達成できる。

Blind super-resolution methods based on stable diffusion showcase formidable generative capabilities in reconstructing clear high-resolution images with intricate details from low-resolution inputs. However, their practical applicability is often hampered by poor efficiency, stemming from the requirement of thousands or hundreds of sampling steps. Inspired by the efficient adversarial diffusion distillation (ADD), we design~\name~to address this issue by incorporating the ideas of both distillation and ControlNet. Specifically, we first propose a prediction-based self-refinement strategy to provide high-frequency information in the student model output with marginal additional time cost. Furthermore, we refine the training process by employing HR images, rather than LR images, to regulate the teacher model, providing a more robust constraint for distillation. Second, we introduce a timestep-adaptive ADD to address the perception-distortion imbalance problem introduced by original ADD. Extensive experiments demonstrate our~\name~generates better restoration results, while achieving faster speed than previous SD-based state-of-the-art models (e.g., $7$$\times$ faster than SeeSR).
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# QUSL: 高性能な量子教師なし画像類似学習

QUSL: Quantum Unsupervised Image Similarity Learning with Enhanced Performance ( http://arxiv.org/abs/2404.02028v3 )

ライセンス: Link先を確認
Lian-Hui Yu, Xiao-Yu Li, Geng Chen, Qin-Sheng Zhu, Guo-Wu Yang, (参考訳) 機械学習能力を高めるために量子アドバンテージを活用することは、特に画像の類似性検出のような複雑なタスクにおいて、研究の中心となっている。 量子コンピューティングの可能性を完全に活用するためには、手前のタスクの特定の特性に合わせた量子回路を設計することが不可欠である。 そこで本研究では,新しい量子教師なし類似性学習手法QUSLを提案する。 類似性検出三重項の基礎の上に構築され、アンカー画像の摂動によって正のサンプルを生成するため、QUSLは古典的なオラクルとは独立して動作する。 三重項の性能と量子回路の特性を活用することで、QUSLはメタヒューリスティックアルゴリズムを用いてデータセットの特徴に合わせてカスタマイズされた高性能な量子回路アーキテクチャを体系的に探求し、回路コストを削減して効率的な量子特徴抽出を実現する。 量子コンピュータにおける総合的な数値シミュレーションと実験は、最先端の量子法と比較してQUSLの顕著な性能を示す。 QUSLは、臨界量子資源利用の50%を超える削減を実現し、disC21、COCO、ランドスケープデータセット間の類似性検出相関の最大19.5%の強化を実現している。 これにより、大規模未ラベル画像データの量子資源利用率を低減した効率的な量子類似性モデリングが可能となる。

Leveraging quantum advantages to enhance machine learning capabilities has become a primary focus of research, particularly for complex tasks such as image similarity detection. To fully exploit the potential of quantum computing, it is essential to design quantum circuits tailored to the specific characteristics of the task at hand. In response to this challenge, we propose a novel quantum unsupervised similarity learning method,QUSL. Building upon the foundation of similarity detection triplets and generating positive samples through perturbations of anchor images, QUSL operates independently of classical oracles. By leveraging the performance of triplets and the characteristics of quantum circuits, QUSL systematically explores high-performance quantum circuit architectures customized for dataset features using metaheuristic algorithms, thereby achieving efficient quantum feature extraction with reduced circuit costs. Comprehensive numerical simulations and experiments on quantum computers demonstrate QUSL's remarkable performance compared to state-of-the-art quantum methods. QUSL achieves reductions exceeding 50% in critical quantum resource utilization while also realizing an enhancement of up to 19.5% in similarity detection correlation across the DISC21, COCO, and landscape datasets. This enables efficient quantum similarity modeling for large-scale unlabeled image data with reduced quantum resource utilization.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-23
# PhyloLM : 大規模言語モデルの系統推定とベンチマークにおける性能予測

PhyloLM : Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks ( http://arxiv.org/abs/2404.04671v2 )

ライセンス: Link先を確認
Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri, (参考訳) 本稿では,系統解析アルゴリズムをLarge Language Models (LLMs) に適用し,それらの相互関係や性能特性の予測方法であるPhyloLMを紹介した。 本手法は, LLMの出力の類似性に基づいて, 系統的距離の指標を算出する。 結果として得られる計量はデンドログラムの構築に使われ、111個のオープンソースと45個のクローズドモデルからなる既知の関係を十分に捉えることができる。 さらに,我々の系統的距離は標準ベンチマークの性能を予測し,その機能的妥当性を実証し,LLM能力の時間的,費用対効果的な評価を行う。 要約すると, 集団遺伝概念を機械学習に翻訳することにより, 透明な学習情報がない場合でも, LLMの発達, 関係, 能力を評価するためのツールを提案し, 検証する。

This paper introduces PhyloLM, a method adapting phylogenetic algorithms to Large Language Models (LLMs) to explore whether and how they relate to each other and to predict their performance characteristics. Our method calculates a phylogenetic distance metrics based on the similarity of LLMs' output. The resulting metric is then used to construct dendrograms, which satisfactorily capture known relationships across a set of 111 open-source and 45 closed models. Furthermore, our phylogenetic distance predicts performance in standard benchmarks, thus demonstrating its functional validity and paving the way for a time and cost-effective estimation of LLM capabilities. To sum up, by translating population genetic concepts to machine learning, we propose and validate a tool to evaluate LLM development, relationships and capabilities, even in the absence of transparent training information.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# Rho-1:すべてのトークンが必要なものではない

Rho-1: Not All Tokens Are What You Need ( http://arxiv.org/abs/2404.07965v2 )

ライセンス: Link先を確認
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen, (参考訳) 以前の言語モデル事前学習手法は、すべてのトレーニングトークンに対して、一様に適用されている。 この規範に従えば、“コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要であるわけではない”と仮定する。 最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。 これらの知見を活用して、Rho-1と呼ばれる新しい言語モデルを導入する。 コーパス内の全ての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。 このアプローチでは、参照モデルを使用して事前トレーニングトークンをスコア付けし、より高いスコアを持つトークンに注目する損失で言語モデルをトレーニングする。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。 微調整の後、Rho-1-1Bと7Bは、それぞれMATHデータセットで40.6%と51.8%の最先端の結果を得た。 さらに、80Bの一般的なトークンで事前トレーニングを行うと、Rho-1は15のタスクで平均6.8%の強化を実現し、言語モデルの事前トレーニングの効率とパフォーマンスが向上する。

Previous language model pre-training methods have uniformly applied a next-token prediction loss to all training tokens. Challenging this norm, we posit that ''Not all tokens in a corpus are equally important for language model training''. Our initial analysis examines token-level training dynamics of language model, revealing distinct loss patterns for different tokens. Leveraging these insights, we introduce a new language model called Rho-1. Unlike traditional LMs that learn to predict every next token in a corpus, Rho-1 employs Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution. This approach involves scoring pretraining tokens using a reference model, and then training the language model with a focused loss on tokens with higher scores. When continual pretraining on 15B OpenWebMath corpus, Rho-1 yields an absolute improvement in few-shot accuracy of up to 30% in 9 math tasks. After fine-tuning, Rho-1-1B and 7B achieved state-of-the-art results of 40.6% and 51.8% on MATH dataset, respectively - matching DeepSeekMath with only 3% of the pretraining tokens. Furthermore, when pretraining on 80B general tokens, Rho-1 achieves 6.8% average enhancement across 15 diverse tasks, increasing both efficiency and performance of the language model pre-training.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# 自己演奏型言語ゲームはLLM推論を促進する

Self-playing Adversarial Language Game Enhances LLM Reasoning ( http://arxiv.org/abs/2404.10642v2 )

ライセンス: Link先を確認
Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du, (参考訳) 本稿では,大言語モデル (LLM) の自己演奏訓練手順を,Adversarial Taboo と呼ばれる2人対戦型言語ゲームで検討する。 このゲームでは、アタッカーとディフェンダーが攻撃者にしか見えないターゲットワードの周りで通信する。 攻撃者は、攻撃者の発話から標的の単語を推測しようとするが、攻撃者は敵の単語を無意識に話すようディフェンダーに誘導する。 ゲームに勝つためには、両プレイヤーは目標語について十分な知識と、この情報保存された会話の中で推論し表現する高レベルの推論能力を持つ必要がある。 したがって,この逆言語ゲーム (SPAG) において, LLM の推論能力が自己プレイによってさらに向上できるかどうかを疑問視している。 この目標により、我々はいくつかのオープンソースのLCMを選択し、攻撃者として各動作させ、広範囲のターゲットワードのディフェンダーとして自身のコピーでプレイする。 ゲーム結果の強化学習を通じて、LLMの性能が幅広い推論ベンチマークで一様に改善されるのを観察する。 さらに、反復的にこの自己再生プロセスを採用することで、LSMの推論能力を継続的に促進することができる。 コードはhttps://github.com/Linear95/SPAGにある。

We explore the self-play training procedure of large language models (LLMs) in a two-player adversarial language game called Adversarial Taboo. In this game, an attacker and a defender communicate around a target word only visible to the attacker. The attacker aims to induce the defender to speak the target word unconsciously, while the defender tries to infer the target word from the attacker's utterances. To win the game, both players should have sufficient knowledge about the target word and high-level reasoning ability to infer and express in this information-reserved conversation. Hence, we are curious about whether LLMs' reasoning ability can be further enhanced by self-play in this adversarial language game (SPAG). With this goal, we select several open-source LLMs and let each act as the attacker and play with a copy of itself as the defender on an extensive range of target words. Through reinforcement learning on the game outcomes, we observe that the LLMs' performances uniformly improve on a broad range of reasoning benchmarks. Furthermore, iteratively adopting this self-play process can continuously promote LLMs' reasoning abilities. The code is at https://github.com/Linear95/SPAG.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# 制約付き言語モデルポリシー最適化のためのステップワイズアライメント

Stepwise Alignment for Constrained Language Model Policy Optimization ( http://arxiv.org/abs/2404.11049v2 )

ライセンス: Link先を確認
Akifumi Wachi, Thien Q. Tran, Rei Sato, Takumi Tanabe, Youhei Akimoto, (参考訳) 安全性と信頼性は、大規模言語モデル(LLM)を使用したAIシステムの現実的な応用には必須の要件である。 本稿では,安全制約の下で報酬を最大化するために,言語モデルポリシーの最適化問題として人的価値アライメントを定式化し,次に,制約付きポリシー最適化のためのステップワイドアライメント(SACPO)を提案する。 SACPOの背景にある重要な考え方の1つは、報酬と安全を取り入れた最適な政策は、報酬に整合した政策から直接得ることができるということである。 このキーとなるアイデアに基づいて、SACPOは、直接選好最適化(DPO)のような単純だが強力なアライメントアルゴリズムを活用しながら、LLMを各メトリックと段階的に整列する。 SACPOには、単純さ、安定性、計算効率、アルゴリズムとデータセットの柔軟性など、いくつかの利点がある。 軽微な仮定の下で、我々の理論解析は最適性と安全制約違反の上限を提供する。 以上の結果から, SACPOはAlpaca-7Bを最先端法より微調整し, 安全性と無害性を両立できることが示唆された。

Safety and trustworthiness are indispensable requirements for real-world applications of AI systems using large language models (LLMs). This paper formulates human value alignment as an optimization problem of the language model policy to maximize reward under a safety constraint, and then proposes an algorithm, Stepwise Alignment for Constrained Policy Optimization (SACPO). One key idea behind SACPO, supported by theory, is that the optimal policy incorporating reward and safety can be directly obtained from a reward-aligned policy. Building on this key idea, SACPO aligns LLMs step-wise with each metric while leveraging simple yet powerful alignment algorithms such as direct preference optimization (DPO). SACPO offers several advantages, including simplicity, stability, computational efficiency, and flexibility of algorithms and datasets. Under mild assumptions, our theoretical analysis provides the upper bounds on optimality and safety constraint violation. Our experimental results show that SACPO can fine-tune Alpaca-7B better than the state-of-the-art method in terms of both helpfulness and harmlessness.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# 地対空画像マッチングのためのセマンティックセグメンテーション誘導手法

A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching ( http://arxiv.org/abs/2404.11302v2 )

ライセンス: Link先を確認
Francesco Pro, Nikolaos Dionelis, Luca Maiano, Bertrand Le Saux, Irene Amerini, (参考訳) 現在、地上画像の正確な地理的局在化は、ジャーナリズム、法科学分析、輸送、地球観測といった分野において重要な役割を担っている。 本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。 これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。 提案手法であるSemantic Align Net (SAN)は,FoV(FoV)と地上パノラマ画像(FoV of 360{\deg})に焦点をあてる。 この斬新さは、衛星画像とセマンティックセグメンテーションマスクを融合させ、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。 この研究は、画像のセマンティック解析を通してSANが、テストされた全FoVに対する未ラベルCVUSAデータセットのパフォーマンスを改善する方法を示す。

Nowadays the accurate geo-localization of ground-view images has an important role across domains as diverse as journalism, forensics analysis, transports, and Earth Observation. This work addresses the problem of matching a query ground-view image with the corresponding satellite image without GPS data. This is done by comparing the features from a ground-view image and a satellite one, innovatively leveraging the corresponding latter's segmentation mask through a three-stream Siamese-like network. The proposed method, Semantic Align Net (SAN), focuses on limited Field-of-View (FoV) and ground panorama images (images with a FoV of 360{\deg}). The novelty lies in the fusion of satellite images in combination with their semantic segmentation masks, aimed at ensuring that the model can extract useful features and focus on the significant parts of the images. This work shows how SAN through semantic analysis of images improves the performance on the unlabelled CVUSA dataset for all the tested FoVs.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク

NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models ( http://arxiv.org/abs/2404.12464v2 )

ライセンス: Link先を確認
Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap, (参考訳) LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。 しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。 我々の研究は、この側面に焦点を当てている。 我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。 我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。 明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。 NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。 固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。 我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。 NormAdデータセットとその関連コードはGitHubでリリースしています。

The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-23
# 逆表現工学による一般概念モデル編集に向けて

Towards General Conceptual Model Editing via Adversarial Representation Engineering ( http://arxiv.org/abs/2404.13752v2 )

ライセンス: Link先を確認
Yihao Zhang, Zeming Wei, Jun Sun, Meng Sun, (参考訳) LLM(Large Language Models)の開発は目覚ましい成功を収めたため、その内部の複雑なメカニズムの理解と制御が急激な問題となっている。 最近の研究は、内部表現のレンズを通してそれらの振る舞いを解釈しようと試みている。 しかし,これらの表現を汎用的かつ柔軟なモデル編集に適用するための実用的で効率的な手法の開発はいまだに困難である。 本研究では,表現センサをオラクルとして配置することで,LLMの編集をガイドする表現工学手法の活用方法について検討する。 そこで我々はまず,編集における堅牢で信頼性の高いセンサの重要性を特定し,ベースライン性能を損なうことなく,概念モデル編集に統一的かつ解釈可能なアプローチを提供するAdversarial Representation Engineering (ARE) フレームワークを提案する。 複数のモデル編集パラダイムの実験は、様々な環境でのAREの有効性を示す。 コードとデータはhttps://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.comで公開されている。

Since the development of Large Language Models (LLMs) has achieved remarkable success, understanding and controlling their internal complex mechanisms has become an urgent problem. Recent research has attempted to interpret their behaviors through the lens of inner representation. However, developing practical and efficient methods for applying these representations for general and flexible model editing remains challenging. In this work, we explore how to use representation engineering methods to guide the editing of LLMs by deploying a representation sensor as an oracle. We first identify the importance of a robust and reliable sensor during editing, then propose an Adversarial Representation Engineering (ARE) framework to provide a unified and interpretable approach for conceptual model editing without compromising baseline performance. Experiments on multiple model editing paradigms demonstrate the effectiveness of ARE in various settings. Code and data are available at https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-23
# SpaceByte: 大規模言語モデリングからトークン化を削除する

SpaceByte: Towards Deleting Tokenization from Large Language Modeling ( http://arxiv.org/abs/2404.14408v2 )

ライセンス: Link先を確認
Kevin Slagle, (参考訳) トークン化は、パフォーマンスが大幅に向上するため、大きな言語モデルで広く使用されている。 しかし、トークン化は性能バイアス、敵の脆弱性の増加、文字レベルのモデリング性能の低下、モデリングの複雑さの増大など、いくつかの欠点を課している。 性能を犠牲にすることなく、これらの欠点に対処するために、我々は、バイトレベルとサブワード自動回帰言語モデリングの間のパフォーマンスギャップを埋める新しいバイトレベルデコーダアーキテクチャであるSpaceByteを提案する。 SpaceByteはバイトレベルのTransformerモデルで構成されているが、レイヤの中央にさらに大きなTransformerブロックが挿入されている。 単語境界を表す空間文字のような特定のバイトの後にのみ、これらの大きなブロックを適用することで、性能が大幅に向上することを発見した。 実験の結果,固定トレーニングおよび推論計算予算では,SpaceByteは他のバイトレベルのアーキテクチャよりも優れており,トークン化トランスフォーマーアーキテクチャの性能とほぼ一致していることがわかった。

Tokenization is widely used in large language models because it significantly improves performance. However, tokenization imposes several disadvantages, such as performance biases, increased adversarial vulnerability, decreased character-level modeling performance, and increased modeling complexity. To address these disadvantages without sacrificing performance, we propose SpaceByte, a novel byte-level decoder architecture that closes the performance gap between byte-level and subword autoregressive language modeling. SpaceByte consists of a byte-level Transformer model, but with extra larger transformer blocks inserted in the middle of the layers. We find that performance is significantly improved by applying these larger blocks only after certain bytes, such as space characters, which typically denote word boundaries. Our experiments show that for a fixed training and inference compute budget, SpaceByte outperforms other byte-level architectures and roughly matches the performance of tokenized Transformer architectures.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-23
# MixLoRA: LoRAベースのエキスパート混在による大規模言語モデルの微調整

MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts ( http://arxiv.org/abs/2404.15159v2 )

ライセンス: Link先を確認
Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang, (参考訳) 微調整大型言語モデル(LLM)は、特定のアプリケーションに事前訓練されたモデルを適用するための一般的なプラクティスである。 LoRAのようなメソッドは、微調整中にGPUメモリの制約に効果的に対処しているが、特にマルチタスクシナリオではパフォーマンスが低下することが多い。 対照的に、Mixtral 8x7BのようなMixture-of-Expert(MoE)モデルは、パラメータ数を削減しつつマルチタスク学習シナリオにおいて顕著な性能を示す。 しかし、特に24GB未満のコンシューマグレードのGPUでは、これらのMoEのリソース要件は依然として困難である。 これらの課題に対処するため,資源効率の低いMoEモデルを構築する手法であるMixLoRAを提案する。 MixLoRAは、凍結事前訓練された高密度モデルのフィードフォワードネットワークブロック内に複数のLoRAベースのエキスパートを挿入し、一般的に使用されるトップkルータを使用する。 他のLoRAベースのMoE法とは異なり、MixLoRAは独立した注意層型LoRAアダプタを利用することでモデル性能を向上させる。 また、ルータの不均衡問題に対処するために補助負荷バランス損失を用いる。 評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。 また,MOEモデルのトレーニングおよび推論において,計算およびメモリボトルネックを軽減するための新しい高スループットフレームワークを提案する。 このフレームワークは、トレーニングと推論の両方でGPUメモリの消費を40%削減し、トークン計算のレイテンシを30%削減する。

Fine-tuning Large Language Models (LLMs) is a common practice to adapt pre-trained models for specific applications. While methods like LoRA have effectively addressed GPU memory constraints during fine-tuning, their performance often falls short, especially in multi-task scenarios. In contrast, Mixture-of-Expert (MoE) models, such as Mixtral 8x7B, demonstrate remarkable performance in multi-task learning scenarios while maintaining a reduced parameter count. However, the resource requirements of these MoEs remain challenging, particularly for consumer-grade GPUs with less than 24GB memory. To tackle these challenges, we propose MixLoRA, an approach to construct a resource-efficient sparse MoE model based on LoRA. MixLoRA inserts multiple LoRA-based experts within the feed-forward network block of a frozen pre-trained dense model and employs a commonly used top-k router. Unlike other LoRA-based MoE methods, MixLoRA enhances model performance by utilizing independent attention-layer LoRA adapters. Additionally, an auxiliary load balance loss is employed to address the imbalance problem of the router. Our evaluations show that MixLoRA improves about 9% accuracy compared to state-of-the-art PEFT methods in multi-task learning scenarios. We also propose a new high-throughput framework to alleviate the computation and memory bottlenecks during the training and inference of MOE models. This framework reduces GPU memory consumption by 40% and token computation latency by 30% during both training and inference.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-23
# 臨界系の安全制御のための適応制御規則化による強化学習

Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems ( http://arxiv.org/abs/2404.15199v2 )

ライセンス: Link先を確認
Haozhe Tian, Homayoun Hamedmoghadam, Robert Shorten, Pietro Ferraro, (参考訳) 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。 本稿では、RLポリシーと安全制約をハードコードするポリシー正規化器を組み合わせることにより、安全なRL探索を可能にするアルゴリズムであるRL with Adaptive Control Regularization (RL-ACR)を提案する。 我々は「フォーカス・ネットワーク」を通じて政策の組み合わせを行い、これは国家によって適切な組み合わせを決定するもので、未開の州では安全な政策レギュレータに依存しつつ、未開の州では不偏の収束を許容している。 本稿では,RL-ACRが安全性を無視したモデルフリーなRL手法の性能基準を達成しつつ,トレーニング中の安全性を確保することを実証する。

Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR), an algorithm that enables safe RL exploration by combining the RL policy with a policy regularizer that hard-codes safety constraints. We perform policy combination via a "focus network," which determines the appropriate combination depending on the state -- relying more on the safe policy regularizer for less-exploited states while allowing unbiased convergence for well-exploited states. In a series of critical control applications, we demonstrate that RL-ACR ensures safety during training while achieving the performance standards of model-free RL approaches that disregard safety.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-23
# MER 2024: 半教師付き学習, ノイズロバスト性, オープン語彙マルチモーダル感情認識

MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition ( http://arxiv.org/abs/2404.17113v3 )

ライセンス: Link先を確認
Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao, (参考訳) マルチモーダル感情認識は人工知能における重要な研究課題である。 過去数十年間、研究者はデータセットのサイズを拡大し、より効果的なアーキテクチャを構築することで驚くべき進歩を遂げてきた。 しかし、様々な理由(複雑な環境や不正確なアノテーションなど)により、現在のシステムは実用アプリケーションの要求を満たすことは困難である。 そこで我々は,この領域の発展を促進するために,感情認識に関する一連の課題を整理した。 昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つのトピックに焦点を当てました。 今年もMER2024を組織し続けます。 データセットサイズの拡大に加えて、オープン語彙感情認識に関する新たなトラックを導入する。 このトラックの主な考慮事項は、既存のデータセットがしばしばラベル空間を固定し、アノテータの一貫性を高めるために過半数投票を使用することであるが、このプロセスは微妙な感情を記述するモデルの能力を制限する可能性がある。 本トラックでは,参加者に対して,感情状態を可能な限り正確に記述することを目的とした,任意のカテゴリのラベルの生成を奨励する。 私たちのベースラインはMERToolsに基づいており、コードはhttps://github.com/zeroQiaoba/MERTools/tree/master/MER2024で利用可能です。

Multimodal emotion recognition is an important research topic in artificial intelligence. Over the past few decades, researchers have made remarkable progress by increasing dataset size and building more effective architectures. However, due to various reasons (such as complex environments and inaccurate annotations), current systems are hard to meet the demands of practical applications. Therefore, we organize a series of challenges around emotion recognition to further promote the development of this area. Last year, we launched MER2023, focusing on three topics: multi-label learning, noise robustness, and semi-supervised learning. This year, we continue to organize MER2024. In addition to expanding the dataset size, we introduce a new track around open-vocabulary emotion recognition. The main consideration for this track is that existing datasets often fix the label space and use majority voting to enhance annotator consistency, but this process may limit the model's ability to describe subtle emotions. In this track, we encourage participants to generate any number of labels in any category, aiming to describe the emotional state as accurately as possible. Our baseline is based on MERTools and the code is available at: https://github.com/zeroQiaoba/MERTools/tree/master/MER2024.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-23
# インフォーマティブ言語モデリングのためのマルコフエージェント

Markovian Agents for Informative Language Modeling ( http://arxiv.org/abs/2404.18988v2 )

ライセンス: Link先を確認
Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett, (参考訳) CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論(LM)をより深く理解することを可能にする。 しかし、以前の研究は、LMはCoTの変更にもかかわらず同様の質問に答えることができることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。 本研究では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するための強化学習手法を提案する。 この方法論は、LMが将来のトークンを予測できるならば、そのコンテキストを理解するためにCoTを使用することを保証します。 我々は,受信機が受信機が将来の観測を予測できる度合いとして送信機から受信機への送信者の情報提供を形式化し,その文脈としてCoTのみを与えられた将来のテキストを予測できる「マルコフ」LMを定義する。 我々は、マルコフ的LMに情報性の定義を適用し、ポリシー勾配とPPO(Proximal Policy Optimization)を介して最適化することで、「マルコフ的訓練(Markovian training)」手順を導出する。 本稿では,15項の算術問題に対するトレーニングアルゴリズムの有効性を実証し,そのモデルがCoTを用いており,生成したCoTが他のモデルで意味があり有用であることを外部で検証する。

Chain-of-Thought (CoT) reasoning could in principle enable a deeper understanding of a language model's (LM) internal reasoning. However, prior work suggests that LMs can answer questions similarly despite changes in their CoT, suggesting that those models are not truly using the CoT. We propose an reinforcement learning technique to produce CoTs that are sufficient alone for predicting future text, independent of other context. This methodology ensures that if the LM can predict future tokens, then it must have used the CoT to understand its context. We formalize the informativeness of a sender to a receiver LM as the degree to which the sender helps the receiver predict their future observations, and we define a "Markovian" LM as one which predicts future text given only a CoT as context. We derive a "Markovian training" procedure by applying our definition of informativeness to a Markovian LM and optimizing via policy gradient and Proximal Policy Optimization (PPO). We demonstrate our training algorithm's effectiveness on fifteen-term arithmetic problems, show the model utilizes the CoT, and externally validate that the generated CoT is meaningful and usable by another model.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# Simple-RF: 単純解を用いたスパース入力放射場正規化

Simple-RF: Regularizing Sparse Input Radiance Fields with Simpler Solutions ( http://arxiv.org/abs/2404.19015v2 )

ライセンス: Link先を確認
Nagabhushan Somraj, Adithyan Karanayil, Sai Harsha Mupparaju, Rajiv Soundararajan, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンのフォトリアリスティックなフリービューレンダリングにおいて印象的なパフォーマンスを示す。 近年のTensoRFやZipNeRFのようなNeRFの改良は、暗黙の表現を用いるNeRFと比較して、最適化とレンダリングを高速化するための明示的なモデルを採用している。 しかし、暗黙の放射場と暗示の放射場の両方は、所定のシーンにおける画像の密集サンプリングを必要とする。 スパースビューのみを使用すると、パフォーマンスは大幅に低下する。 放射界で推定される深度を監督することは、より少ない視野で効果的にトレーニングするのに役立ちます。 奥行きの監視は、古典的なアプローチか、大規模なデータセットで事前訓練されたニューラルネットワークを使って得られる。 前者はまばらな監督しか行わないが、後者は一般化の問題に悩まされることがある。 従来のアプローチとは対照的に,我々は拡張モデルを設計し,主放射場とともにそれらを訓練することにより,深度監視を学ぼうとしている。 さらに,様々な暗黙的および明示的な放射場にまたがって機能する正規化の枠組みを設計することを目指す。 これらの放射場モデルの特定の特徴がスパース・インプット・シナリオにおける観測画像に過度に適合していることが観察された。 我々のキーとなる発見は、位置符号化、分解テンソル成分の個数、ハッシュテーブルのサイズに関する放射界の能力の低下が、より単純な解を学習するためにモデルを制約し、特定の領域のより深い深さを推定することである。 このような縮小機能に基づく拡張モデルの設計により、主放射場に対するより優れた深度監視が得られる。 本研究では,前向きと360$^\circ$のシーンを含む一般的なデータセットに対して,これらの正規化を用いて,スパース入力ビューを用いて,最先端のビュー合成性能を実現する。

Neural Radiance Fields (NeRF) show impressive performance in photo-realistic free-view rendering of scenes. Recent improvements on the NeRF such as TensoRF and ZipNeRF employ explicit models for faster optimization and rendering, as compared to the NeRF that employs an implicit representation. However, both implicit and explicit radiance fields require dense sampling of images in the given scene. Their performance degrades significantly when only a sparse set of views is available. Researchers find that supervising the depth estimated by a radiance field helps train it effectively with fewer views. The depth supervision is obtained either using classical approaches or neural networks pre-trained on a large dataset. While the former may provide only sparse supervision, the latter may suffer from generalization issues. As opposed to the earlier approaches, we seek to learn the depth supervision by designing augmented models and training them along with the main radiance field. Further, we aim to design a framework of regularizations that can work across different implicit and explicit radiance fields. We observe that certain features of these radiance field models overfit to the observed images in the sparse-input scenario. Our key finding is that reducing the capability of the radiance fields with respect to positional encoding, the number of decomposed tensor components or the size of the hash table, constrains the model to learn simpler solutions, which estimate better depth in certain regions. By designing augmented models based on such reduced capabilities, we obtain better depth supervision for the main radiance field. We achieve state-of-the-art view-synthesis performance with sparse input views on popular datasets containing forward-facing and 360$^\circ$ scenes by employing the above regularizations.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# HydraLoRA: 効率的なファインチューニングのための非対称LoRAアーキテクチャ

HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning ( http://arxiv.org/abs/2404.19245v2 )

ライセンス: Link先を確認
Chunlin Tian, Zhan Shi, Zhijiang Guo, Li Li, Chengzhong Xu, (参考訳) 大規模言語モデル(LLM)を細調整によって新しいタスクに適応させることは、LoRAのようなパラメータ効率の良い細調整(PEFT)技術を導入することによって、より効率的になりました。 しかし、これらの手法は、特に複雑なデータセットを含むシナリオにおいて、完全な微調整に比べて性能が劣ることが多い。 この問題は複雑なドメインでさらに顕著になり、より優れたパフォーマンスを実現するためのPEFTアプローチの改善の必要性を強調している。 一連の実験を通じて、私たちはLoRAのトレーニングとパラメータ非効率性に光を当てる2つの重要な洞察を発見しました。 これらの知見に基づいて、ドメインの専門知識を必要としない非対称構造を持つLoRAフレームワークであるHydraLoRAを開発した。 実験の結果,HydraLoRAは他のPEFTアプローチよりも優れていることがわかった。

Adapting Large Language Models (LLMs) to new tasks through fine-tuning has been made more efficient by the introduction of Parameter-Efficient Fine-Tuning (PEFT) techniques, such as LoRA. However, these methods often underperform compared to full fine-tuning, particularly in scenarios involving complex datasets. This issue becomes even more pronounced in complex domains, highlighting the need for improved PEFT approaches that can achieve better performance. Through a series of experiments, we have uncovered two critical insights that shed light on the training and parameter inefficiency of LoRA. Building on these insights, we have developed HydraLoRA, a LoRA framework with an asymmetric structure that eliminates the need for domain expertise. Our experiments demonstrate that HydraLoRA outperforms other PEFT approaches, even those that rely on domain knowledge during the training and inference phases.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# 量子ドエブリン係数:縮退係数上の単純な上界

Quantum Doeblin coefficients: A simple upper bound on contraction coefficients ( http://arxiv.org/abs/2405.00105v2 )

ライセンス: Link先を確認
Christoph Hirche, (参考訳) 収縮係数はデータ処理の不等式を定量的に強化する。 そのため、情報処理の綿密な分析が必要な場合には、自然界の応用が数多く必要となる。 しかし、これらの係数を計算することはしばしば困難である。 対策として、ドエブリン係数の量子一般化について議論する。 これらのことは、多くの収縮係数に対して効率的に計算可能な上限を与える。 いくつかの性質を証明し、一般化と応用について議論する。 特に、より強い境界を与える。 特にPTチャネルの場合と、制約緩和に基づく一般的なチャネルの場合である。 さらに、ある拡張係数を束縛する逆ドエブリン係数を導入する。

Contraction coefficients give a quantitative strengthening of the data processing inequality. As such, they have many natural applications whenever closer analysis of information processing is required. However, it is often challenging to calculate these coefficients. As a remedy we discuss a quantum generalization of Doeblin coefficients. These give an efficiently computable upper bound on many contraction coefficients. We prove several properties and discuss generalizations and applications. In particular, we give additional stronger bounds. One especially for PPT channels and one for general channels based on a constraint relaxation. Additionally, we introduce reverse Doeblin coefficients that bound certain expansion coefficients.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# HUGO -- 深い強化学習とヒューリスティックなターゲットトポロジーアプローチを組み合わせたハイライトなグリッドオプション

HUGO -- Highlighting Unseen Grid Options: Combining Deep Reinforcement Learning with a Heuristic Target Topology Approach ( http://arxiv.org/abs/2405.00629v2 )

ライセンス: Link先を確認
Malte Lehna, Clara Holzhüter, Sven Tomforde, Christoph Scholz, (参考訳) 再生可能エネルギー(RE)発電の増加に伴い、電力グリッドの運用はますます複雑になっている。 そこでは、Deep Reinforcement Learning(DRL)がLearning to Run a Power Network(L2RPN)の課題に対して、大きな可能性を繰り返し示している。 しかし、既存のDRLアルゴリズムでは、サブステーションレベルでの個々の動作のみがトポロジー最適化の対象となっている。 対照的に、特定のターゲットトポロジ(TT)をアクションとして提案することで、より包括的なアプローチを提案する。 これらのトポロジはその堅牢性に基づいて選択される。 本稿では,従来のDRLエージェントであるCurriculumAgent(CAgent)を新しいトポロジーエージェントにアップグレードする検索アルゴリズムを提案する。 アップグレードを以前のCAgentと比較し、L2RPNスコアを10%向上させることができる。 さらに, TTを含む中央値生存時間を25%改善した。 後の分析では、ほぼ全てのTTがベーストポロジに近く、その堅牢性を説明する。

With the growth of Renewable Energy (RE) generation, the operation of power grids has become increasingly complex. One solution could be automated grid operation, where Deep Reinforcement Learning (DRL) has repeatedly shown significant potential in Learning to Run a Power Network (L2RPN) challenges. However, only individual actions at the substation level have been subjected to topology optimization by most existing DRL algorithms. In contrast, we propose a more holistic approach by proposing specific Target Topologies (TTs) as actions. These topologies are selected based on their robustness. As part of this paper, we present a search algorithm to find the TTs and upgrade our previously developed DRL agent CurriculumAgent (CAgent) to a novel topology agent. We compare the upgrade to the previous CAgent and can increase their L2RPN score significantly by 10%. Further, we achieve a 25% better median survival time with our TTs included. Later analysis shows that almost all TTs are close to the base topology, explaining their robustness
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# 言語モデルアライメントのためのセルフプレイ確率的予測最適化

Self-Play Probabilistic Preference Optimization for Language Model Alignment ( http://arxiv.org/abs/2405.00675v2 )

ライセンス: Link先を確認
Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu, (参考訳) 従来の人間フィードバックからの強化学習(RLHF)アプローチは、Bradley-Terryモデルのようなパラメトリックモデルに依存している。 近年の進歩は、好みの確率で直接作業することで、人間の好みをより正確に反映し、より柔軟で正確な言語モデルアライメントを可能にすることを示唆している。 本稿では,ナッシュ均衡政策の同定を目的とした,言語モデルアライメントのための自己遊び型手法を提案する。 提案手法は,SPPO (textit{Self-play Probabilistic Preference Optimization}) と呼ばれ,反復的なポリシー更新を通じてナッシュ均衡を近似し,理論的収束を保証する。 提案手法は, 直接選好最適化 (DPO) や同一性選好最適化 (IPO) などの対称的ペアワイズ損失によって, 容易に達成できないような, 選択された応答のログ類似度を効果的に向上し, 拒否された応答のログ類似度を減少させることができる。 実験では,UltraFeedbackデータセットからの60kプロンプトのみを使用し,0.4Bパラメータのみを事前学習した選好モデルPairRMを利用することで,AlpacaEval 2.0のGPT-4-Turboに対して28.53\%の精度を持つ微調整Mistral-7B-Instruct-v0.2からモデルを得ることができた。 また、MT-BenchとOpen LLM Leaderboardで(興味深い)DPOとIPOを上回っている。 特に、SPPOの強い性能は、GPT-4や他の強力な言語モデルから追加の外部監督(例えば、応答、嗜好など)なしで達成される。

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed \textit{Self-play Probabilistic Preference Optimization} (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys a theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53\% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル

SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v5 )

ライセンス: Link先を確認
Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Yuntao Qian, (参考訳) デノナイジングは、画像内メカニズムと環境要因から生じるノイズにより、ハイパースペクトル画像(HSI)に対する重要な前処理手順である。 スペクトル相関,空間自己相似性,空間スペクトル相関といったHSIのドメイン知識を活用することは,深層学習に基づく認知に不可欠である。 既存の手法はしばしば時間、空間の複雑さ、計算の複雑さによって制約され、これらの種類のドメイン知識を別々に探求する戦略を採用する。 これらの戦略は、いくつかの冗長な情報を避けることができるが、画像復元に肯定的な影響を与える、より広く、より深い長距離空間スペクトル情報を見過ごすことは避けられない。 本稿では,空間スペクトル選択状態モデルに基づくU字型ネットワーク,空間スペクトルU-Mamba(SSUMamba)を提案する。 SSUMambaは、ステート・スペース・モデル(SSM)計算における線形空間の複雑さのおかげで、モジュール内の完全な大域的空間スペクトル相関を利用することができる。 本研究では,HSIの空間スペクトル交互ジグザグスキャン(SSAZS)戦略を導入し,HSI内の3次元特性の複数方向における連続的な情報フローの活用を支援する。 実験の結果,本手法は比較法よりも優れていた。 ソースコードはhttps://github.com/lronkitty/SSUMamba.comで入手できる。

Denoising is a crucial preprocessing procedure for hyperspectral images (HSIs) due to the noise originating from intra-imaging mechanisms and environmental factors. Utilizing domain knowledge of HSIs, such as spectral correlation, spatial self-similarity, and spatial-spectral correlation, is essential for deep learning-based denoising. Existing methods are often constrained by running time, space complexity, and computational complexity, employing strategies that explore these kinds of domain knowledge separately. While these strategies can avoid some redundant information, they inevitably overlook broader and more in-depth long-range spatial-spectral information that positively impacts image restoration. This paper proposes a Spatial-Spectral Selective State Space Model-based U-shaped network, Spatial-Spectral U-Mamba (SSUMamba), for hyperspectral image denoising. The SSUMamba can exploit complete global spatial-spectral correlation within a module thanks to the linear space complexity in State Space Model (SSM) computations. We introduce a Spatial-Spectral Alternating Zigzag Scan (SSAZS) strategy for HSIs, which helps exploit the continuous information flow in multiple directions of 3-D characteristics within HSIs. Experimental results demonstrate that our method outperforms comparison methods. The source code is available at https://github.com/lronkitty/SSUMamba.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# Biased Random-Key Genetic Algorithmsの初期 : 体系的レビュー

Early years of Biased Random-Key Genetic Algorithms: A systematic review ( http://arxiv.org/abs/2405.01765v3 )

ライセンス: Link先を確認
Mariana A. Londe, Luciana S. Pessoa, Cartlos E. Andrade, Mauricio G. C. Resende, (参考訳) 本稿では,Biased Random-Key Genetic Algorithms (BRKGA)に着目し,系統的な文献レビューと文献分析を行う。 BRKGAは、遺伝的アルゴリズムとともにバイアス付き、均一でエリート的な交配戦略を持つランダムキーベースの染色体を使用するメタヒューリスティックなフレームワークである。 このレビューでは、古典的な組合せ最適化問題から現実の産業シナリオ、さらには機械学習におけるハイパーパラメータチューニングや2段階問題のためのシナリオ生成といった非伝統的なアプリケーションまで、さまざまな応用を網羅した約250の論文を取り上げている。 本研究はBRKGAメタヒューリスティックとその様々な応用を包括的に検討し,今後の研究の鍵となる領域に光を当てるものである。

This paper presents a systematic literature review and bibliometric analysis focusing on Biased Random-Key Genetic Algorithms (BRKGA). BRKGA is a metaheuristic framework that uses random-key-based chromosomes with biased, uniform, and elitist mating strategies alongside a genetic algorithm. This review encompasses around~250 papers, covering a diverse array of applications ranging from classical combinatorial optimization problems to real-world industrial scenarios, and even non-traditional applications like hyperparameter tuning in machine learning and scenario generation for two-stage problems. In summary, this study offers a comprehensive examination of the BRKGA metaheuristic and its various applications, shedding light on key areas for future research.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-23
# DreamScene4D:モノクロ映像からの動的マルチオブジェクトシーン生成

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos ( http://arxiv.org/abs/2405.02280v2 )

ライセンス: Link先を確認
Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki, (参考訳) ビュー予測生成モデルは、蒸留目標のレンダリングとスコアリングを通じて、オブジェクト中心の画像やビデオを3Dおよび4Dに持ち上げるための強力な事前情報を提供する。 完全なマルチオブジェクトのダイナミックなシーンを持ち上げることについてはどうだろう? この方向には2つの課題がある: まず、高速な物体の動きを回復するにはレンダリングエラー勾配が不十分である。 そこで,DreamScene4Dを提案する。DreamScene4Dは,360度ノベルビュー合成によるモノクロビデオから複数の物体の3次元動的シーンを生成するための最初のアプローチである。 私たちの重要な洞察は、ビデオシーンを背景と対象のトラックに分解する"分解分解"アプローチであり、また、オブジェクトの動きを3つのコンポーネントに分解する。 このような分解により、レンダリングエラー勾配とオブジェクトビュー予測モデルにより、境界ボックストラックがシーン内の大きなオブジェクトの動きを案内しながら、オブジェクトの3D補完と変形を回復することができる。 DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。 4Dシーン生成の他に、DreamScene4Dは推定された3D軌跡を2Dに投影することにより、正確な2Dパーシステンスポイントトラックを得る。 コードを公開し、ビデオからの詳細な4D理解をより深く研究することを願っています。

View-predictive generative models provide strong priors for lifting object-centric images and videos into 3D and 4D through rendering and score distillation objectives. A question then remains: what about lifting complete multi-object dynamic scenes? There are two challenges in this direction: First, rendering error gradients are often insufficient to recover fast object motion, and second, view predictive generative models work much better for objects than whole scenes, so, score distillation objectives cannot currently be applied at the scene level directly. We present DreamScene4D, the first approach to generate 3D dynamic scenes of multiple objects from monocular videos via 360-degree novel view synthesis. Our key insight is a "decompose-recompose" approach that factorizes the video scene into the background and object tracks, while also factorizing object motion into 3 components: object-centric deformation, object-to-world-frame transformation, and camera motion. Such decomposition permits rendering error gradients and object view-predictive models to recover object 3D completions and deformations while bounding box tracks guide the large object movements in the scene. We show extensive results on challenging DAVIS, Kubric, and self-captured videos with quantitative comparisons and a user preference study. Besides 4D scene generation, DreamScene4D obtains accurate 2D persistent point track by projecting the inferred 3D trajectories to 2D. We will release our code and hope our work will stimulate more research on fine-grained 4D understanding from videos.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# 大規模言語モデルによる進化的計算の改善を探る

Exploring the Improvement of Evolutionary Computation via Large Language Models ( http://arxiv.org/abs/2405.02876v2 )

ライセンス: Link先を確認
Jinyu Cai, Jinglue Xu, Jialong Li, Takuto Ymauchi, Hitoshi Iba, Kenji Tei, (参考訳) 進化計算(EC)は、様々な領域にまたがる強力な最適化アルゴリズムである。 しかし、問題の複雑さが増すにつれ、ECの限界はより明確になっている。 大規模言語モデル(LLM)の出現は、自然言語処理を変換しただけでなく、様々な分野にも拡張した。 LLMの膨大な知識と適応能力を活用することで、LCMがECにもたらす可能性のある潜在的な改善の概要を、アルゴリズム自体、人口設計、さらなる拡張に焦点をあてることができます。 このことは、LLMとECの交差点における将来の研究に有望な方向を示す。

Evolutionary computation (EC), as a powerful optimization algorithm, has been applied across various domains. However, as the complexity of problems increases, the limitations of EC have become more apparent. The advent of large language models (LLMs) has not only transformed natural language processing but also extended their capabilities to diverse fields. By harnessing LLMs' vast knowledge and adaptive capabilities, we provide a forward-looking overview of potential improvements LLMs can bring to EC, focusing on the algorithms themselves, population design, and additional enhancements. This presents a promising direction for future research at the intersection of LLMs and EC.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# アンコール回答:GPT-2の多項目質問における位置バイアスの強調

Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions ( http://arxiv.org/abs/2405.03205v2 )

ライセンス: Link先を確認
Ruizhe Li, Yanjun Gao, (参考訳) GPT-4やLLaMAファミリーのような大規模言語モデル(LLM)は、マルチチョイス質問(MCQ)を含む様々なタスクでかなりの成功を収めている。 しかしながら、これらのモデルは位置バイアスを示し、特にGPT-2ファミリーではより悪いアンカーバイアスを示し、推論中にMCQで最初に選択する「A」を常に好んでいる。 このバイアスは、GCT-2の意思決定プロセスの完全性に挑戦し、MCQにおける選択の内容ではなく、その位置に基づいて性能を損なう。 本研究では,このバイアスの原因となるGPT-2モデルの内部モジュールを同定するために,機械的解釈可能性アプローチを利用する。 本稿では,マルチ層パーセプトロン(MLP)層とアテンションヘッドに着目し,そのバイアスに寄与する特定の値ベクトルを"logit Lens"法を用いて追跡・修正する。 これらのベクトルをMLP内で更新し、注意パターンを調整して第1選択「A」の好みを中和することにより、アンカーバイアスを効果的に軽減する。 我々の介入はバイアスを軽減するだけでなく、様々なデータセットにわたるGPT-2ファミリーの全体的なMCQ予測精度を向上させる。 この研究は、GMT-2モデルにおけるMCQのアンカードバイアスを包括的に解析し、MCQにおけるGPT2モデルのロバスト性と精度を大幅に向上させる最小限の介入戦略を導入した。 私たちのコードはhttps://github.com/ruizheliUOA/Anchored_Bias_GPT2で利用可能です。

Large Language Models (LLMs), such as the GPT-4 and LLaMA families, have demonstrated considerable success across diverse tasks, including multiple-choice questions (MCQs). However, these models exhibit a positional bias, particularly an even worse anchored bias in the GPT-2 family, where they consistently favour the first choice 'A' in MCQs during inference. This anchored bias challenges the integrity of GPT-2's decision-making process, as it skews performance based on the position rather than the content of the choices in MCQs. In this study, we utilise the mechanistic interpretability approach to identify the internal modules within GPT-2 models responsible for this bias. We focus on the Multi-Layer Perceptron (MLP) layers and attention heads, using the "logit lens" method to trace and modify the specific value vectors that contribute to the bias. By updating these vectors within MLP and recalibrating attention patterns to neutralise the preference for the first choice 'A', we effectively mitigate the anchored bias. Our interventions not only mitigate the bias but also improve the overall MCQ prediction accuracy for the GPT-2 family across various datasets. This work represents the first comprehensive mechanistic analysis of anchored bias in MCQs within the GPT-2 models, introducing targeted, minimal-intervention strategies that significantly enhance GPT2 model robustness and accuracy in MCQs. Our code is available at https://github.com/ruizheliUOA/Anchored_Bias_GPT2.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# MAmmoTH2: Webからのインストラクションのスケーリング

MAmmoTH2: Scaling Instructions from the Web ( http://arxiv.org/abs/2405.03548v4 )

ライセンス: Link先を確認
Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen, (参考訳) インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。 ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。 LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。 提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。 このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。 特に、MAmmoTH2-7Bの性能はMATHでは11%から36.7%、GSM8Kでは36%から68.4%に向上した。 さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。 本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。

Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 36.7% on MATH and from 36% to 68.4% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# AlphaMath almost Zero: Process Supervision without process

AlphaMath Almost Zero: process Supervision without process ( http://arxiv.org/abs/2405.03553v2 )

ライセンス: Link先を確認
Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、数学的推論能力を大幅に向上させてきた。 しかし、これらのモデルは、複数の推論ステップを必要とする複雑な問題に悩まされ、しばしば論理的あるいは数値的な誤りにつながる。 数値的なミスはコードインタプリタを統合することで対処できるが、中間ステップで論理的なエラーを特定することはより難しい。 さらに、これらのトレーニングのステップを手作業でアノテートすることは、コストだけでなく、労働集約的なものであり、プロのアノテータの専門知識を必要とする。 本研究では,モンテカルロ木探索(MCTS)フレームワークを利用することで,プロセスアノテーション(人やGPTから)の必要性を回避できる革新的な手法を提案する。 この技術はプロセス監視とステップレベルの評価信号の両方を自動的に生成する。 提案手法はポリシーと価値モデルを反復的に訓練し,よく訓練されたLLMの能力を活用して,数学的推論スキルを徐々に強化する。 さらに,従来の確率のみに依存するのではなく,より効果的な推論経路をナビゲートする政策モデル(LLM)を支援するために,効率的な推論戦略-ステップレベルのビームサーチを提案する。 ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。

Recent advancements in large language models (LLMs) have substantially enhanced their mathematical reasoning abilities. However, these models still struggle with complex problems that require multiple reasoning steps, frequently leading to logical or numerical errors. While numerical mistakes can be largely addressed by integrating a code interpreter, identifying logical errors within intermediate steps is more challenging. Moreover, manually annotating these steps for training is not only expensive but also labor-intensive, requiring the expertise of professional annotators. In our study, we introduce an innovative approach that bypasses the need for process annotations (from human or GPTs) by utilizing the Monte Carlo Tree Search (MCTS) framework. This technique automatically generates both the process supervision and the step-level evaluation signals. Our method iteratively trains the policy and value models, leveraging the capabilities of a well-pretrained LLM to progressively enhance its mathematical reasoning skills. Furthermore, we propose an efficient inference strategy-step-level beam search, where the value model is crafted to assist the policy model (i.e., LLM) in navigating more effective reasoning paths, rather than solely relying on prior probabilities. The experimental results on both in-domain and out-of-domain datasets demonstrate that even without GPT-4 or human-annotated process supervision, our AlphaMath framework achieves comparable or superior results to previous state-of-the-art methods.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# パラメータフリー最適化の安定性に向けて

Towards Stability of Parameter-free Optimization ( http://arxiv.org/abs/2405.04376v2 )

ライセンス: Link先を確認
Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou, (参考訳) ハイパーパラメータチューニング、特に適応的勾配学習法における適切な学習率の選択は、依然として課題である。 この課題に対処するために,手動チューニングなしで多様な最適化問題に自動的に適応する新しいパラメータフリーオプティマイザである \textsc{AdamG} を提案する。 AdaGrad-Normアルゴリズムは、AdaGrad-Normがチューニング自由収束を保ち、様々な最適化シナリオで期待される最適ステップサイズを近似するのに役立つと期待されている。 そこで本研究では,従来の性能基準に加えてパラメータフリーオプティマイザの有効性を総合的に評価する,新しい評価基準である「textit{reliability}」を提案する。 実験の結果,他のパラメータフリーのベースラインと比較すると,さまざまな最適化タスクを手作業で調整した学習率を用いて,Adamと一貫して同等の優れた性能が得られることがわかった。

Hyperparameter tuning, particularly the selection of an appropriate learning rate in adaptive gradient training methods, remains a challenge. To tackle this challenge, in this paper, we propose a novel parameter-free optimizer, \textsc{AdamG} (Adam with the golden step size), designed to automatically adapt to diverse optimization problems without manual tuning. The core technique underlying \textsc{AdamG} is our golden step size derived for the AdaGrad-Norm algorithm, which is expected to help AdaGrad-Norm preserve the tuning-free convergence and approximate the optimal step size in expectation w.r.t. various optimization scenarios. To better evaluate tuning-free performance, we propose a novel evaluation criterion, \textit{reliability}, to comprehensively assess the efficacy of parameter-free optimizers in addition to classical performance criteria. Empirical results demonstrate that compared with other parameter-free baselines, \textsc{AdamG} achieves superior performance, which is consistently on par with Adam using a manually tuned learning rate across various optimization tasks.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# TransAnaNet:頭頸部癌放射線治療のためのトランスフォーマーを用いた解剖学的変化予測ネットワーク

TransAnaNet: Transformer-based Anatomy Change Prediction Network for Head and Neck Cancer Patient Radiotherapy ( http://arxiv.org/abs/2405.05674v2 )

ライセンス: Link先を確認
Meixu Chen, Kai Wang, Michael Dohopolski, Howard Morgan, David Sher, Jing Wang, (参考訳) 放射線治療(RT)中に有意な解剖学的変化を経験する頭頸部癌(HNC)患者の早期発見は,患者の臨床効果と治療資源の最適化に重要である。 本研究では、視覚変換器(ViT)をベースとしたニューラルネットワークを用いて、HNC患者のRT誘発解剖学的変化を予測することの実現可能性を評価することを目的とする。 RT/CRTを施行したHNC121例を振り返って検討した。 初期治療(CBCT01),分画21(CBCT21),原発性腫瘍容積(GTVp)および結節容積(GTVn)について検討した。 UNetスタイルのViTネットワークは、埋め込みCT、線量、CBCT01、GTVp、GTVn画像パッチから空間対応や文脈情報を学習するために設計された。 CBCT01とCBCT21の変形ベクトル場を解剖学的変化予測として推定し,CBCT21の変形ベクトル場をCBCT01の予測として用いた。 また,GTVp,GTVn,患者体の2値マスクも生成し,容積変化の評価を行った。 提案手法の予測画像は,pCT,CBCT01,および他の比較モデルによるCBCTよりも実画像(CBCT21)に最もよく似ている。 正常化予測CBCT〜CBCT21間の平均MSEおよびSSIMは0.009、0.933であり、ボディマスク、GTVpマスク、GTVnマスク間の平均ダイス係数は0.972、0.792、0.821である。 提案手法は放射線治療による解剖学的変化の予測に有望な性能を示し,HNC適応RTの意思決定に有効である可能性が示唆された。

Early identification of head and neck cancer (HNC) patients who would experience significant anatomical change during radiotherapy (RT) is important to optimize patient clinical benefit and treatment resources. This study aims to assess the feasibility of using a vision-transformer (ViT) based neural network to predict RT-induced anatomic change in HNC patients. We retrospectively included 121 HNC patients treated with definitive RT/CRT. We collected the planning CT (pCT), planned dose, CBCTs acquired at the initial treatment (CBCT01) and fraction 21 (CBCT21), and primary tumor volume (GTVp) and involved nodal volume (GTVn) delineated on both pCT and CBCTs for model construction and evaluation. A UNet-style ViT network was designed to learn spatial correspondence and contextual information from embedded CT, dose, CBCT01, GTVp, and GTVn image patches. The model estimated the deformation vector field between CBCT01 and CBCT21 as the prediction of anatomic change, and deformed CBCT01 was used as the prediction of CBCT21. We also generated binary masks of GTVp, GTVn, and patient body for volumetric change evaluation. The predicted image from the proposed method yielded the best similarity to the real image (CBCT21) over pCT, CBCT01, and predicted CBCTs from other comparison models. The average MSE and SSIM between the normalized predicted CBCT to CBCT21 are 0.009 and 0.933, while the average dice coefficient between body mask, GTVp mask, and GTVn mask are 0.972, 0.792, and 0.821 respectively. The proposed method showed promising performance for predicting radiotherapy-induced anatomic change, which has the potential to assist in the decision-making of HNC Adaptive RT.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-23
# あらゆるデータ配信のためのコンフォーマルな妥当性保証

Conformal Validity Guarantees Exist for Any Data Distribution ( http://arxiv.org/abs/2405.06627v2 )

ライセンス: Link先を確認
Drew Prinster, Samuel Stanton, Anqi Liu, Suchi Saria, (参考訳) 機械学習(ML)が広く普及するにつれて、実践者はこれらのシステムがもたらすリスクを定量化し、制御する方法を模索している。 この課題は、ブラックボックス最適化やアクティブラーニングなど、MLシステムが独自のデータ収集を自主的に行う場合、特に有益である。 コンフォーマル予測は、不確実性とリスク定量化に対する有望なアプローチとして現れてきたが、事前の変種による妥当性保証は、データ分布に「準交換可能性」の何らかの形式を仮定し、多くのシーケンシャルシフトを排除している。 本稿では, コンフォメーション予測が, 交換可能データや準交換可能データだけでなく, 理論的に「textit{any}」結合データ分布にまで拡張可能であることを証明する。 本稿では,任意のデータ分布に対して特定の共形アルゴリズムを導出する手順の概要を述べるとともに,この手法を用いて,ML-エージェントによる共変量シフトの連続に対するトラクタブルアルゴリズムを導出する。 提案アルゴリズムは,合成ブラックボックス最適化とアクティブ学習タスクを実証的に評価する。

As machine learning (ML) gains widespread adoption, practitioners are increasingly seeking means to quantify and control the risk these systems incur. This challenge is especially salient when ML systems have autonomy to collect their own data, such as in black-box optimization and active learning, where their actions induce sequential feedback-loop shifts in the data distribution. Conformal prediction has emerged as a promising approach to uncertainty and risk quantification, but prior variants' validity guarantees have assumed some form of ``quasi-exchangeability'' on the data distribution, thereby excluding many types of sequential shifts. In this paper we prove that conformal prediction can theoretically be extended to \textit{any} joint data distribution, not just exchangeable or quasi-exchangeable ones, although it is exceedingly impractical to compute in the most general case. For practical applications, we outline a procedure for deriving specific conformal algorithms for any data distribution, and we use this procedure to derive tractable algorithms for a series of ML-agent-induced covariate shifts. We evaluate the proposed algorithms empirically on synthetic black-box optimization and active learning tasks.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# EHRSQL 2024の電子健康記録における信頼性テキスト-SQLモデリングに関する共有課題の概要

Overview of the EHRSQL 2024 Shared Task on Reliable Text-to-SQL Modeling on Electronic Health Records ( http://arxiv.org/abs/2405.06673v2 )

ライセンス: Link先を確認
Gyubok Lee, Sunjun Kweon, Seongsu Bae, Edward Choi, (参考訳) エレクトロニック・ヘルス・レコーズ(Electronic Health Records、EHR)は、病院内の患者の医療履歴全体を格納するリレーショナルデータベースである。 入院や診断から治療や退院まで、患者の医療のさまざまな側面を記録している。 EHRは臨床データの重要なソースである一方で、事前に定義されたクエリのセットを越えてそれらを探索するには、SQLのようなクエリ言語でスキルが必要です。 情報検索をよりアクセスしやすいものにするために、自然言語の質問を対応するSQLクエリに自動的に翻訳し、これらのクエリを使用して回答を検索するテキストからSQLモデルを活用する、質問応答システムを構築する方法がある。 EHRSQL 2024共有タスクは、様々な医療従事者に要求された回答を確実に提供し、臨床作業プロセスを改善し、彼らのニーズを満たすことができるテキスト・ツー・SQL・モデリングを用いて、EHRのための質問応答システムの開発において、研究を進めることを目的としている。 共有タスクに応募した100人以上の参加者のうち、8つのチームが構成され、共有タスク要求全体を完成させ、このタスクを効果的に解決するための幅広い方法を示しました。 本稿では,テキスト・トゥ・SQLモデリングの課題,データセット,参加者の手法と結果について述べる。 この共有タスクが、EHRのための信頼性の高い質問応答システムの開発に関するさらなる研究と洞察を刺激することを期待します。

Electronic Health Records (EHRs) are relational databases that store the entire medical histories of patients within hospitals. They record numerous aspects of patients' medical care, from hospital admission and diagnosis to treatment and discharge. While EHRs are vital sources of clinical data, exploring them beyond a predefined set of queries requires skills in query languages like SQL. To make information retrieval more accessible, one strategy is to build a question-answering system, possibly leveraging text-to-SQL models that can automatically translate natural language questions into corresponding SQL queries and use these queries to retrieve the answers. The EHRSQL 2024 shared task aims to advance and promote research in developing a question-answering system for EHRs using text-to-SQL modeling, capable of reliably providing requested answers to various healthcare professionals to improve their clinical work processes and satisfy their needs. Among more than 100 participants who applied to the shared task, eight teams were formed and completed the entire shared task requirement and demonstrated a wide range of methods to effectively solve this task. In this paper, we describe the task of reliable text-to-SQL modeling, the dataset, and the methods and results of the participants. We hope this shared task will spur further research and insights into developing reliable question-answering systems for EHRs.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# GaussianVTON:画像プロンプトによる多段ガウス切削による3次元バーチャルトライ-ON

GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting ( http://arxiv.org/abs/2405.07472v2 )

ライセンス: Link先を確認
Haodong Chen, Yongle Huang, Haojian Huang, Xiangsheng Ge, Dian Shao, (参考訳) 電子商取引の普及により、バーチャルトライオン(VTON)の重要性が強調されている。 しかし、以前の研究では主に2D領域に焦点をあて、訓練のための広範なデータに大きく依存していた。 3次元VTONの研究は、主に2次元VTONで広く取り上げられる衣服体形状の整合性に焦点を当てている。 3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。 本稿では,2次元VTONでGaussian Splatting(GS)編集を統合する革新的な3次元VTONパイプラインであるGaussianVTONを提案する。 2次元VTONから3次元VTONへのシームレスな遷移を容易にするため,画像のみを3次元編集のための編集プロンプトとして用いることを提案する。 さらに, 顔のぼやけ, 衣服の不正確さ, 編集中の視点品質の低下といった問題に対処するため, 潜在的な問題を段階的に緩和する3段階改良戦略を考案した。 さらに,編集リコール再構成(ERR)と呼ばれる新しい編集戦略を導入し,従来の編集戦略の限界に対処し,複雑な幾何学的変化をもたらす。 我々の総合実験はガウスVTONの優位性を実証し、3DVTONの新たな視点を提供するとともに、3Dシーン編集の新たな出発点を確立した。

The increasing prominence of e-commerce has underscored the importance of Virtual Try-On (VTON). However, previous studies predominantly focus on the 2D realm and rely heavily on extensive data for training. Research on 3D VTON primarily centers on garment-body shape compatibility, a topic extensively covered in 2D VTON. Thanks to advances in 3D scene editing, a 2D diffusion model has now been adapted for 3D editing via multi-viewpoint editing. In this work, we propose GaussianVTON, an innovative 3D VTON pipeline integrating Gaussian Splatting (GS) editing with 2D VTON. To facilitate a seamless transition from 2D to 3D VTON, we propose, for the first time, the use of only images as editing prompts for 3D editing. To further address issues, e.g., face blurring, garment inaccuracy, and degraded viewpoint quality during editing, we devise a three-stage refinement strategy to gradually mitigate potential issues. Furthermore, we introduce a new editing strategy termed Edit Recall Reconstruction (ERR) to tackle the limitations of previous editing strategies in leading to complex geometric changes. Our comprehensive experiments demonstrate the superiority of GaussianVTON, offering a novel perspective on 3D VTON while also establishing a novel starting point for image-prompting 3D scene editing.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# 分散高次元量子回帰:推定効率と回復支援

Distributed High-Dimensional Quantile Regression: Estimation Efficiency and Support Recovery ( http://arxiv.org/abs/2405.07552v2 )

ライセンス: Link先を確認
Caixing Wang, Ziliang Shen, (参考訳) 本稿では,高次元線形量子化レグレッションのための分散推定とサポートリカバリに着目した。 量子回帰は、外れ値とデータ不均一性に対するロバスト性に対する最小二乗回帰に対する一般的な代替ツールである。 しかし、チェックロス関数の非滑らかさは、分散環境での計算と理論の両方に大きな課題をもたらす。 これらの問題に対処するため、元の量子レグレッションを最小二乗最適化に変換する。 二重平滑化アプローチを適用することで、エラー項と共変量の間の制約的な独立な仮定を伴わずに、ニュートン型分散アプローチを拡張した。 効率的なアルゴリズムを開発し、高い計算と通信効率を享受する。 理論的には、提案した分散推定器は、一定回数の繰り返しの後、ほぼ円の収束率と高いサポート回復精度を達成する。 合成例と実データを用いた大規模実験により,提案手法の有効性がさらに示された。

In this paper, we focus on distributed estimation and support recovery for high-dimensional linear quantile regression. Quantile regression is a popular alternative tool to the least squares regression for robustness against outliers and data heterogeneity. However, the non-smoothness of the check loss function poses big challenges to both computation and theory in the distributed setting. To tackle these problems, we transform the original quantile regression into the least-squares optimization. By applying a double-smoothing approach, we extend a previous Newton-type distributed approach without the restrictive independent assumption between the error term and covariates. An efficient algorithm is developed, which enjoys high computation and communication efficiency. Theoretically, the proposed distributed estimator achieves a near-oracle convergence rate and high support recovery accuracy after a constant number of iterations. Extensive experiments on synthetic examples and a real data application further demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# USP:Long Context Generative AIのための統一シーケンス並列処理アプローチ

USP: A Unified Sequence Parallelism Approach for Long Context Generative AI ( http://arxiv.org/abs/2405.07719v4 )

ライセンス: Link先を確認
Jiarui Fang, Shangchun Zhao, (参考訳) 複数の計算装置にまたがって入力テンソルのシーケンス次元を分割するシーケンス並列性(SP)は、生成AIモデルの長いコンテキスト能力を解放する鍵となっている。 本稿では,最先端のSPアプローチであるDeepSpeed-UlyssesとRing-Attentionについて検討し,モデルアーキテクチャやネットワークハードウェアトポロジをより堅牢な統一SPアプローチを提案する。 本稿では,SPの通信・メモリコストと,データ/テンソル/ゼロ/ピペリン並列性を含む既存の並列性を比較し,SPを含むハイブリッド4次元並列性の設計におけるベストプラクティスについて議論する。 LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。 私たちのコードはhttps://github.com/feifeibear/long-context-attention.comで公開されています。

Sequence parallelism (SP), which divides the sequence dimension of input tensors across multiple computational devices, is becoming key to unlocking the long-context capabilities of generative AI models. This paper investigates the state-of-the-art SP approaches, i.e. DeepSpeed-Ulysses and Ring-Attention, and proposes a unified SP approach, which is more robust to transformer model architectures and network hardware topology. This paper compares the communication and memory cost of SP and existing parallelism, including data/tensor/zero/pipeline parallelism, and discusses the best practices for designing hybrid 4D parallelism involving SP. We achieved 47% MFU on two 8xA800 nodes using SP for the LLAMA3-8B model training using sequence length 208K. Our code is publicly available at https://github.com/feifeibear/long-context-attention.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# 画像超解像における低パスフィルタ挙動の探索

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution ( http://arxiv.org/abs/2405.07919v3 )

ライセンス: Link先を確認
Haoyu Deng, Zijing Xu, Yule Duan, Xiao Wu, Wenjie Shu, Liang-Jian Deng, (参考訳) 画像超解像のためのディープニューラルネットワーク(ISR)は、補間のような従来のアプローチよりも大きな優位性を示している。 しかし、堅固な数学的基礎を持つ伝統的なアプローチに比べて「黒い箱」と批判されることが多い。 本稿では、信号処理の分野からの理論を用いて、ISRにおけるディープニューラルネットワークの挙動を解釈しようとする。 まず,「シンク現象」と呼ばれる興味深い現象を報告する。 「インパルス入力をニューラルネットワークに入力した場合に発生する。」 そこで本研究では,AIRタスクにおけるニューラルネットワークの挙動を解析するHybrid Response Analysis (Hybrid Response Analysis, HyRA) を提案する。 具体的には、線形系と非線形系の並列接続にニューラルネットワークを分解し、非線形系が高周波情報を注入している間に、線形系がローパスフィルタとして機能することを示す。 最後に、入射した高周波情報を定量化するために、周波数スペクトル分布類似度(FSDS)と呼ばれる画像から画像へのタスクのメトリクスを導入する。 FSDSは、異なる周波数成分の分布類似性を反映し、従来のメトリクスが見落としている可能性のあるニュアンスをキャプチャすることができる。 この論文のコード、ビデオ、生の実験結果は、https://github.com/RisingEntropy/LPFInISR.comで見ることができる。

Deep neural networks for image super-resolution (ISR) have shown significant advantages over traditional approaches like the interpolation. However, they are often criticized as 'black boxes' compared to traditional approaches with solid mathematical foundations. In this paper, we attempt to interpret the behavior of deep neural networks in ISR using theories from the field of signal processing. First, we report an intriguing phenomenon, referred to as `the sinc phenomenon.' It occurs when an impulse input is fed to a neural network. Then, building on this observation, we propose a method named Hybrid Response Analysis (HyRA) to analyze the behavior of neural networks in ISR tasks. Specifically, HyRA decomposes a neural network into a parallel connection of a linear system and a non-linear system and demonstrates that the linear system functions as a low-pass filter while the non-linear system injects high-frequency information. Finally, to quantify the injected high-frequency information, we introduce a metric for image-to-image tasks called Frequency Spectrum Distribution Similarity (FSDS). FSDS reflects the distribution similarity of different frequency components and can capture nuances that traditional metrics may overlook. Code, videos and raw experimental results for this paper can be found in: https://github.com/RisingEntropy/LPFInISR.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# ガウス支援インラインホログラフィーを用いた複素数値3次元原子分光法

Complex-valued 3D atomic spectroscopy with Gaussian-assisted inline holography ( http://arxiv.org/abs/2405.09117v2 )

ライセンス: Link先を確認
Xing Huang, Yuzhuo Wang, Jian Zhao, Saijun Wu, (参考訳) レーザー冷却された原子サンプルが光学的に励起されると、コヒーレント前方散乱の包絡はいくつかの複雑なガウスプロファイルに分解される。 ガウス伝播の利便性は、デジタルホログラフィーにおける重要な課題に対処するのに役立つ。 本研究では, 単発ホログラフィにおけるガウス分解支援手法を理論的に開発し, 実験的に実証した。 実験的に,D2線上には$^{87}$Rbのスパース格子を像化し,その軸位置をマイクロメートル精度で解き,複素値の分光像を検索した。 原子数や相互作用強度の不確かさに非常に敏感な位相角の読み出しでは、数百原子の遷移周波数に対して100kHzレベルの単発分解能が得られる。 さらに,マイクロメートル空間分解能による局所光シフトの3次元センシングを実証した。

When a laser-cooled atomic sample is optically excited, the envelope of coherent forward scattering can often be decomposed into a few complex Gaussian profiles. The convenience of Gaussian propagation helps addressing key challenges in digital holography. In this work, we theoretically develop and experimentally demonstrate a Gaussian-decomposition-assisted approach to inline holography, for single-shot, simultaneous measurements of absorption and phase shift of small atomic samples sparsely distributed in 3D. Experimentally, we image a sparse lattice of $^{87}$Rb samples on the D2 line, to resolve their axial positions with micrometer precision, and to retrieve their complex-valued spectroscopic images. With the phase-angle readouts that are highly insensitive to atom-number and interaction-strength uncertainties, we achieve hundred-kHz-level single-shot-resolution to the transition frequency with merely hundreds of atoms. We further demonstrate 3D sensing of local light shift with micrometer spatial resolution.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-23
# オンラインバイパーティイトマッチングと不完全なアドバイス

Online bipartite matching with imperfect advice ( http://arxiv.org/abs/2405.09784v3 )

ライセンス: Link先を確認
Davin Choo, Themis Gouleakis, Chun Kai Ling, Arnab Bhattacharyya, (参考訳) オンラインの非重み付き二部マッチングと$n$オフラインの頂点と$n$オンラインの頂点との問題は、最適なオフラインアルゴリズムと競合することを望んでいる。 Karp et al [1990] の古典的 RANKing アルゴリズムは、1-1/e > 1/2$ の競合比を確実に達成するが、1-一貫性と1/2$-robust よりも厳密に優れた学習拡張法は存在しないことを示す。 一方, ランダム到着モデルでは, オンライン頂点に対する外部アドバイスを取り入れ, アドバイスフリーで達成可能な任意の比率と, アドバイス品質に応じて最適な1の比率を補間するアルゴリズムを設計するために, 分散テストの手法をいかに活用できるかを示す。

We study the problem of online unweighted bipartite matching with $n$ offline vertices and $n$ online vertices where one wishes to be competitive against the optimal offline algorithm. While the classic RANKING algorithm of Karp et al. [1990] provably attains competitive ratio of $1-1/e > 1/2$, we show that no learning-augmented method can be both 1-consistent and strictly better than $1/2$-robust under the adversarial arrival model. Meanwhile, under the random arrival model, we show how one can utilize methods from distribution testing to design an algorithm that takes in external advice about the online vertices and provably achieves competitive ratio interpolating between any ratio attainable by advice-free methods and the optimal ratio of 1, depending on the advice quality.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-23
# ヘノンマップにおける逐次ステップの予測の比較解析

Comparative Analysis of Predicting Subsequent Steps in Hénon Map ( http://arxiv.org/abs/2405.10190v2 )

ライセンス: Link先を確認
Vismaya V S, Alok Hareendran, Bharath V Nair, Sishu Shankar Muni, Martin Lellep, (参考訳) 本稿では,H'enon Mapにおけるその後のステップの予測について,さまざまな機械学習手法を用いて検討する。 H\'enonマップはカオス的な振る舞いで知られており、暗号、画像暗号化、パターン認識など様々な分野で応用されている。 機械学習、特にディープラーニングは、カオス現象を理解し予測するためにますます不可欠になっている。 本研究では,Ranom Forest,Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) Network, Support Vector Machines (SVM), Feed Forward Neural Networks (FNN) など,さまざまな機械学習モデルの性能を評価する。 その結果、LSTMネットワークは、特に極端な事象予測において、予測精度が優れていることが示唆された。 さらに、LSTMモデルとFNNモデルの比較により、LSTMのアドバンテージが明らかにされている。 本研究は、カオス力学の解明における機械学習の重要性を強調し、カオスシステムにおけるその後のステップを予測する上で、モデル選択とデータセットサイズの重要性を強調する。

This paper explores the prediction of subsequent steps in H\'enon Map using various machine learning techniques. The H\'enon map, well known for its chaotic behaviour, finds applications in various fields including cryptography, image encryption, and pattern recognition. Machine learning methods, particularly deep learning, are increasingly essential for understanding and predicting chaotic phenomena. This study evaluates the performance of different machine learning models including Random Forest, Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) networks, Support Vector Machines (SVM), and Feed Forward Neural Networks (FNN) in predicting the evolution of the H\'enon map. Results indicate that LSTM network demonstrate superior predictive accuracy, particularly in extreme event prediction. Furthermore, a comparison between LSTM and FNN models reveals the LSTM's advantage, especially for longer prediction horizons and larger datasets. This research underscores the significance of machine learning in elucidating chaotic dynamics and highlights the importance of model selection and dataset size in forecasting subsequent steps in chaotic systems.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-23
# 下次収束は弱凸関数に部分微分収束をもたらす:一様速度保証を伴う

Subgradient Convergence Implies Subdifferential Convergence on Weakly Convex Functions: With Uniform Rates Guarantees ( http://arxiv.org/abs/2405.10289v2 )

ライセンス: Link先を確認
Feng Ruan, (参考訳) 非平滑で非凸確率最適化では、集団リスクにアプローチする際のサンプル平均推定値の定常点を解析するために、部分微分写像の均一収束を理解することが重要である。 しかし、この収束を特徴づけることは依然として根本的な課題である。 この研究は、経験的リスクが集団リスクに収束するにつれて、部分微分写像の均一収束と下次写像の均一収束を結びつけることによって、新しい視点を導入する。 確率的弱凸対象に対しては、任意の開集合において、級数(対応する部分微分集合から任意に選択される)の収束に関する一様有界は、ハウスドルフ計量によって測られる部分微分集合自体の収束に関する一様有界となることを証明している。 この手法を用いて,確率凸合成対象の偏微分集合に対する一様収束率を導出する。 我々の結果は、Hausdorff計量において、集団と有限サンプル部分微分が連続である必要があるが、それでも厳密な収束速度を提供する、文学における主要な分布仮定に頼らない。 これらの保証は、有限サンプル内のそのような目的の非滑らかな風景に対する新たな洞察をもたらす。

In nonsmooth, nonconvex stochastic optimization, understanding the uniform convergence of subdifferential mappings is crucial for analyzing stationary points of sample average approximations of risk as they approach the population risk. Yet, characterizing this convergence remains a fundamental challenge. This work introduces a novel perspective by connecting the uniform convergence of subdifferential mappings to that of subgradient mappings as empirical risk converges to the population risk. We prove that, for stochastic weakly-convex objectives, and within any open set, a uniform bound on the convergence of subgradients -- chosen arbitrarily from the corresponding subdifferential sets -- translates to a uniform bound on the convergence of the subdifferential sets itself, measured by the Hausdorff metric. Using this technique, we derive uniform convergence rates for subdifferential sets of stochastic convex-composite objectives. Our results do not rely on key distributional assumptions in the literature, which require the population and finite sample subdifferentials to be continuous in the Hausdorff metric, yet still provide tight convergence rates. These guarantees lead to new insights into the nonsmooth landscapes of such objectives within finite samples.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-23
# AdaAugment: チューニング不要で適応的なデータ拡張アプローチ

AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation ( http://arxiv.org/abs/2405.11467v2 )

ライセンス: Link先を確認
Suorong Yang, Peijia Li, Xin Xiong, Furao Shen, Jian Zhao, (参考訳) データ拡張(DA)は深層モデルの一般化性能を向上させるために広く用いられている。 しかし、既存のDA手法の多くは訓練を通して無作為な大きさの拡張演算を使用する。 これは多様性を育む一方で、必然的に強化されたデータに制御不能な変数を導入し、ターゲットモデルのトレーニング状態の悪化と不一致を引き起こす可能性がある。 理論的および実証的な結果は、このミスアライメントが不適合と過適合のリスクを高めることを示唆している。 これらの制約に対処するため,AdaAugmentを提案する。AdaAugmentは,強化学習を利用して,対象ネットワークからのリアルタイムフィードバックに基づいて,個別のトレーニングサンプルに対する適応度を動的に調整する,革新的でチューニング不要な適応拡張手法である。 特に、AdaAugmentはポリシーネットワークとターゲットネットワークで構成されるデュアルモデルアーキテクチャを備えており、拡張の規模を効果的に適応するために共同最適化されている。 ポリシーネットワークは、トレーニングに適応的に強化されたサンプルを利用する一方、拡張データ内の変動性を最適化する。 ベンチマークデータセットとディープアーキテクチャにわたる大規模な実験は、AdaAugmentが目覚ましい効率を維持しながら、他の最先端のDAメソッドを一貫して上回っていることを示している。

Data augmentation (DA) is widely employed to improve the generalization performance of deep models. However, most existing DA methods use augmentation operations with random magnitudes throughout training. While this fosters diversity, it can also inevitably introduce uncontrolled variability in augmented data, which may cause misalignment with the evolving training status of the target models. Both theoretical and empirical findings suggest that this misalignment increases the risks of underfitting and overfitting. To address these limitations, we propose AdaAugment, an innovative and tuning-free Adaptive Augmentation method that utilizes reinforcement learning to dynamically adjust augmentation magnitudes for individual training samples based on real-time feedback from the target network. Specifically, AdaAugment features a dual-model architecture consisting of a policy network and a target network, which are jointly optimized to effectively adapt augmentation magnitudes. The policy network optimizes the variability within the augmented data, while the target network utilizes the adaptively augmented samples for training. Extensive experiments across benchmark datasets and deep architectures demonstrate that AdaAugment consistently outperforms other state-of-the-art DA methods in effectiveness while maintaining remarkable efficiency.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-23
# Switched Flow Matching:Singing ODEによる特異点の除去

Switched Flow Matching: Eliminating Singularities via Switching ODEs ( http://arxiv.org/abs/2405.11605v2 )

ライセンス: Link先を確認
Qunxi Zhu, Wei Lin, (参考訳) フローマッチング(FM)のような連続時間生成モデルは、ニューラル常微分方程式(ODE)のシミュレーションなし学習を通じて、ある分布と別の分布の間を移動する確率経路を構築する。 しかし、推論の間、学習したモデルはフローを正確に統合するために複数のニューラルネットワーク評価を必要とすることが多く、結果としてサンプリング速度が遅くなる。 我々は、ソースおよび/またはターゲット分布の固有の(結合した)不均一性、すなわち特異性問題に起因し、ニューラルODEを効果的に訓練する上での課題を提起する。 この問題に対処するために,一様ODEをFMで使用するのに対して,一様ODEを切り替えることにより特異性を排除した,より一般的なフレームワークであるSwitched FM(SFM)を提案する。 重要なことは、理論上、FMはODEの初期値問題の存在と特異性のために2つの単純な分布間では移動できないが、これらの制限はSFMによってうまく取り扱えることである。 直交的な観点から,我々のフレームワークは, 最適輸送などの既存の技術とシームレスに統合し, 流れの直線性をさらに向上し, コストの低減を図り, より効率的なサンプリングプロセスを実現する。 本稿では, 新たに提案したSFMの有効性をいくつかの数値例で示す。

Continuous-time generative models, such as Flow Matching (FM), construct probability paths to transport between one distribution and another through the simulation-free learning of the neural ordinary differential equations (ODEs). During inference, however, the learned model often requires multiple neural network evaluations to accurately integrate the flow, resulting in a slow sampling speed. We attribute the reason to the inherent (joint) heterogeneity of source and/or target distributions, namely the singularity problem, which poses challenges for training the neural ODEs effectively. To address this issue, we propose a more general framework, termed Switched FM (SFM), that eliminates singularities via switching ODEs, as opposed to using a uniform ODE in FM. Importantly, we theoretically show that FM cannot transport between two simple distributions due to the existence and uniqueness of initial value problems of ODEs, while these limitations can be well tackled by SFM. From an orthogonal perspective, our framework can seamlessly integrate with the existing advanced techniques, such as minibatch optimal transport, to further enhance the straightness of the flow, yielding a more efficient sampling process with reduced costs. We demonstrate the effectiveness of the newly proposed SFM through several numerical examples.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-23
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v2 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-23
# 量子赤外分光法による有機気の開孔検出

Open-Path Detection of Organic Vapors via Quantum Infrared Spectroscopy ( http://arxiv.org/abs/2405.12822v2 )

ライセンス: Link先を確認
Simon Neves, Adimulya Kartiyasa, Shayantani Ghosh, Geoffrey Gaulier, Luca La Volpe, Jean-Pierre Wolf, (参考訳) 近年では、量子フーリエ変換赤外分光法(QFTIR)が、スペクトルの中赤外領域における従来の分光法に代わるものとして出現している。 誘導コヒーレンスとスペクトルの絡み合いを利用して、QFTIRは有機ガスの実用的な検出に有望なポテンシャルを提供する。 しかし、QFTIR分光計を国内や現地での使用に近づける研究はほとんど行われなかった。 本研究では、QFTIR分光計を用いて、大気中における複数の干渉性有機ガスのオープンパス検出を行う。 QFTIR分光計を用いて,アセトン,メタノール,エタノールの混合物の正確な同定を行った。 我々は1.7mの腕を持つ非線形ミッチェルソン干渉計を構築し、吸収長を増大させるとともに、差分吸収分光法による解析技術を開発した。 環境空気中の異なるガスの濃度の進化は、時間を通して測定された。 これらの結果は、有機ガス検出器としてのQFTIR分光器の最初の使用例であり、実際的な状況において、これらの検出器の開発に向けた重要なマイルストーンとなっている。

In recent years, quantum Fourier transform infrared (QFTIR) spectroscopy emerged as an alternative to conventional spectroscopy in the mid-infrared region of the spectrum. By harnessing induced coherence and spectral entanglement, QFTIR offers promising potential for the practical detection of organic gasses. However, little research was conducted to bring QFTIR spectrometers closer to domestic or in-field usage. In this work, we present the first use of a QFTIR spectrometer for open-path detection of multiple interfering organic gases in ambient air. The accurate identification of mixtures of acetone, methanol, and ethanol vapors is demonstrated with a QFTIR spectrometer. We achieved this breakthrough by building a nonlinear Michelson interferometer with 1.7m-long arms to increase the absorption length, coupled with analysis techniques from differential absorption spectroscopy. The evolution of different gasses' concentrations in ambient air was measured through time. These results constitute the first use-case of a QFTIR spectrometer as a detector of organic gasses, and thus represent an important milestone towards the development of such detectors in practical situations.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-23
# コヒーレント・環境駆動によるC-NOTおよびC-PHASEゲートの高忠実化のための制御景観

Control landscapes for high-fidelity generation of C-NOT and C-PHASE gates with coherent and environmental driving ( http://arxiv.org/abs/2405.14069v1 )

ライセンス: Link先を確認
Alexander N. Pechen, Vadim N. Petruhanov, Oleg V. Morzhin, Boris O. Volkov, (参考訳) 2量子ビットゲートの高忠実度生成は量子計算において重要である。 本稿では,環境下でのC-Zゲートを詳細に検討した2量子ビットC-NOTとC-PHASEの高忠実度発生問題について考察する。 量子ビットがコヒーレントかつ非コヒーレントな制御によって操作される場合の一般的な状況を考える。 これらのゲートの高忠実度生成のための最適化手法の効率を推定するために、制御の関数としてその忠実さの挙動を記述する量子制御ランドスケープについて検討する。 そこで我々は,非コヒーレント・グラディエント・アセント・パルス・エンジニアリング(InGRAPE)手法により得られた最適目標値の統計的分布を生成し,解析する。 また,InGRAPEと確率零次法を適用し,最小不忠実度を数値的に推定する。 その結果, 単一量子ゲートの場合と異なり, 平滑なトラップフリー動作を示す。

High fidelity generation of two-qubit gates is important for quantum computation, since such gates are components of popular universal sets of gates. Here we consider the problem of high fidelity generation of two-qubit C-NOT and C-PHASE (with a detailed study of C-Z) gates in presence of the environment. We consider the general situation when qubits are manipulated by coherent and incoherent controls; the latter is used to induce generally time-dependent decoherence rates. For estimating efficiency of optimization methods for high fidelity generation of these gates, we study quantum control landscapes which describe the behaviour of the fidelity as a function of the controls. For this, we generate and analyze the statistical distributions of best objective values obtained by incoherent GRadient Ascent Pulse Engineering (inGRAPE) approach. We also apply inGRAPE and stochastic zero-order method to numerically estimate minimal infidelity values. The results are different from the case of single-qubit gates and indicate a smooth trap-free behaviour of the fidelity.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 問題インフォームドなグラフ量子生成学習

Problem-informed Graphical Quantum Generative Learning ( http://arxiv.org/abs/2405.14072v1 )

ライセンス: Link先を確認
Bence Bakó, Dániel T. R. Nagy, Péter Hága, Zsófia Kallus, Zoltán Zimborás, (参考訳) 量子システムの本質的な確率的性質を活用することで、生成量子機械学習(QML)は古典的な学習モデルを上回る可能性を秘めている。 現在の生成QMLアルゴリズムは主に汎用モデルに依存しており、非常に表現力があるが、いくつかの訓練課題に直面している。 これらのセットバックに対処する潜在的な方法は、構造化された問題に対するより効率的なトレーニングが可能な問題情報モデルを構築することである。 特に確率的グラフィカルモデルは、生成的学習問題の構造を表現するフレキシブルなフレームワークを提供するため、QMLアルゴリズムに帰納バイアスを組み込むことができる。 本研究では,確率変数の連立確率分布を効率よくマルコフネットワーク(MN)で表すことができる問題インフォームド量子回路であるBorn Machine Ansatzを提案する。 さらに、生成学習ベンチマークの構築におけるMNフレームワークの適用性を実証し、我々のモデルの性能を以前の設計と比較し、問題に依存しない回路よりも優れていることを示す。 トレーニング性に関する予備的な分析に基づいて,MNのクラスを,良好なトレーニング性を示すクラスに絞り込む。 最後に、生成学習の文脈で量子的優位性を提供するモデルの可能性について論じる。

Leveraging the intrinsic probabilistic nature of quantum systems, generative quantum machine learning (QML) offers the potential to outperform classical learning models. Current generative QML algorithms mostly rely on general-purpose models that, while being very expressive, face several training challenges. A potential way to address these setbacks involves constructing problem-informed models capable of more efficient training on structured problems. In particular, probabilistic graphical models provide a flexible framework for representing structure in generative learning problems and can thus be exploited to incorporate inductive bias in QML algorithms. In this work, we propose a problem-informed quantum circuit Born machine Ansatz for learning the joint probability distribution of random variables, with independence relations efficiently represented by a Markov network (MN). We further demonstrate the applicability of the MN framework in constructing generative learning benchmarks and compare our model's performance to previous designs, showing it outperforms problem-agnostic circuits. Based on a preliminary analysis of trainability, we narrow down the class of MNs to those exhibiting favorable trainability properties. Finally, we discuss the potential of our model to offer quantum advantage in the context of generative learning.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# PEAC:クロスエンボディメント強化学習のための教師なし事前学習

PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning ( http://arxiv.org/abs/2405.14073v1 )

ライセンス: Link先を確認
Chengyang Ying, Zhongkai Hao, Xinning Zhou, Xuezhou Xu, Hang Su, Xingxing Zhang, Jun Zhu, (参考訳) 多様な実施形態に適応できる汎用エージェントを設計することは、RLエージェントを現実世界の様々なアプリケーションに展開するのに重要な強化学習(RL)において大きな注目を集めている。 従来のクロス・エンボディメント・RLアプローチは、特定のタスクにおける実施物間での知識の伝達に重点を置いてきた。 これらの手法は、しばしばこれらのタスクと密結合した知識をもたらし、異なる実施形態の異なる特徴を適切に捉えることができない。 この制限に対処するために、エージェントが報酬のない環境でのオンラインインタラクションを通じて、教師なし学習を利用して、実施意識とタスク非依存の知識を取得することができるクロス・エボディメント・アントラクショナル・RL(CEURL)の概念を導入する。 CEURLは,CE-MDPに基づくCEURLの事前学習目標を体系的に解析し,新しいCE-MDPとして定式化する。 そこで本研究では,CEURL を扱うための事前学習型身体認識制御(PEAC)アルゴリズムを開発し,クロス・エボディメント・プレトレーニングに特化して設計された本質的な報酬関数を組み込んだ。 PEACは、クロス・エボディメント事前訓練のための直感的な最適化戦略を提供するだけでなく、既存の教師なしRL手法と柔軟に統合し、クロス・エボディメント探索とスキル発見を容易にする。 シミュレーション(例, DMC, Robosuite)と実環境(例, 足の移動)の両方における大規模な実験により, PEACは適応性能とクロスボデーメントの一般化を著しく改善し, CEURLのユニークな課題を克服する効果を示した。

Designing generalizable agents capable of adapting to diverse embodiments has achieved significant attention in Reinforcement Learning (RL), which is critical for deploying RL agents in various real-world applications. Previous Cross-Embodiment RL approaches have focused on transferring knowledge across embodiments within specific tasks. These methods often result in knowledge tightly coupled with those tasks and fail to adequately capture the distinct characteristics of different embodiments. To address this limitation, we introduce the notion of Cross-Embodiment Unsupervised RL (CEURL), which leverages unsupervised learning to enable agents to acquire embodiment-aware and task-agnostic knowledge through online interactions within reward-free environments. We formulate CEURL as a novel Controlled Embodiment Markov Decision Process (CE-MDP) and systematically analyze CEURL's pre-training objectives under CE-MDP. Based on these analyses, we develop a novel algorithm Pre-trained Embodiment-Aware Control (PEAC) for handling CEURL, incorporating an intrinsic reward function specifically designed for cross-embodiment pre-training. PEAC not only provides an intuitive optimization strategy for cross-embodiment pre-training but also can integrate flexibly with existing unsupervised RL methods, facilitating cross-embodiment exploration and skill discovery. Extensive experiments in both simulated (e.g., DMC and Robosuite) and real-world environments (e.g., legged locomotion) demonstrate that PEAC significantly improves adaptation performance and cross-embodiment generalization, demonstrating its effectiveness in overcoming the unique challenges of CEURL.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# クリティカルインフラストラクチャのサイバーセキュリティを強化する - クラウド連続体における協調的なDNN合成

Enhancing Critical Infrastructure Cybersecurity: Collaborative DNN Synthesis in the Cloud Continuum ( http://arxiv.org/abs/2405.14074v1 )

ライセンス: Link先を確認
Lav Gupta, Guoxing Yao, (参考訳) 研究者たちは、重要なインフラストラクチャ(CI)システムのコスト効率性と効率性を高めるために、IoTとクラウド連続体の統合をAIとともに検討している。 しかし、この統合はCIシステムのサイバー攻撃に対する感受性を高め、停電、石油流出、核事故などの破壊につながる可能性がある。 CIシステムは本質的に複雑で、大量の異種データと高次元データを生成し、それらを相互接続する通信ネットワーク上でIoT、エッジ、クラウドドメインを横断して、多くの信頼境界を越えています。 その結果、攻撃面が拡大した。 これらのデータフローの安全性を確保するために、研究者は深層ニューラルネットワークモデルを使用して結果を奨励している。 それでも残る2つの重要な課題は、収束時間を短縮し、完全性に反する侵入の検出の精度を維持するために、これらのモデルの計算複雑性に取り組むことである。 本稿では、訓練されたエッジクラウドモデルを用いて、中央クラウドモデルを合成し、これらの課題を効果的に克服する革新的なアプローチを提案する。 提案手法の有効性を,従来の中央集権的・分散的手法との比較により実証的に検証した。

Researchers are exploring the integration of IoT and the cloud continuum, together with AI to enhance the cost-effectiveness and efficiency of critical infrastructure (CI) systems. This integration, however, increases susceptibility of CI systems to cyberattacks, potentially leading to disruptions like power outages, oil spills, or even a nuclear mishap. CI systems are inherently complex and generate vast amounts of heterogeneous and high-dimensional data, which crosses many trust boundaries in their journey across the IoT, edge, and cloud domains over the communication network interconnecting them. As a result, they face expanded attack surfaces. To ensure the security of these dataflows, researchers have used deep neural network models with encouraging results. Nevertheless, two important challenges that remain are tackling the computational complexity of these models to reduce convergence times and preserving the accuracy of detection of integrity-violating intrusions. In this paper, we propose an innovative approach that utilizes trained edge cloud models to synthesize central cloud models, effectively overcoming these challenges. We empirically validate the effectiveness of the proposed method by comparing it with traditional centralized and distributed techniques, including a contemporary collaborative technique.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 思考の$T^2$:大規模言語モデルにおける温度木推論を緩和する

$T^2$ of Thoughts: Temperature Tree Elicits Reasoning in Large Language Models ( http://arxiv.org/abs/2405.14075v1 )

ライセンス: Link先を確認
Chengkun Cai, Xu Zhao, Yucheng Du, Haoliang Liu, Lei Li, (参考訳) 大規模言語モデル(LLM)は、人工知能、特に複雑な意思決定シナリオにおいて強力なツールとして登場したが、静的な問題解決戦略はしばしば動的環境への適応性を制限している。 本研究では,LLMにおける温度木(T^2$)による推論能力の向上について,粒子群最適化(T^2$ of Thoughts(T^2oT$)と呼ぶ)を通じて検討する。 主な焦点は、探索パラメータ、特に温度を動的に調整し、計算要求を増大させることなく精度を向上させることで意思決定プロセスを強化することである。 我々は,我々のハイブリッドな$T^2oT$アプローチが,単解精度,多解生成,テキスト生成品質の向上をもたらすことを実証的に検証した。 温度に基づく動的探索深度調整は混合結果が得られるが,T^2oT$の適応能力と組み合わせた固定探索深度は,より信頼性が高く,汎用的な問題解決戦略をもたらすことが示唆された。 この研究は、基礎言語モデルとのアルゴリズム的相互作用を最適化する将来の探索の可能性を強調し、特にゲーム・オブ・24とクリエイティブ・ライティング・タスクの開発で示される。

Large Language Models (LLMs) have emerged as powerful tools in artificial intelligence, especially in complex decision-making scenarios, but their static problem-solving strategies often limit their adaptability to dynamic environments. We explore the enhancement of reasoning capabilities in LLMs through Temperature Tree ($T^2$) prompting via Particle Swarm Optimization, termed as $T^2$ of Thoughts ($T^2oT$). The primary focus is on enhancing decision-making processes by dynamically adjusting search parameters, especially temperature, to improve accuracy without increasing computational demands. We empirically validate that our hybrid $T^2oT$ approach yields enhancements in, single-solution accuracy, multi-solution generation and text generation quality. Our findings suggest that while dynamic search depth adjustments based on temperature can yield mixed results, a fixed search depth, when coupled with adaptive capabilities of $T^2oT$, provides a more reliable and versatile problem-solving strategy. This work highlights the potential for future explorations in optimizing algorithmic interactions with foundational language models, particularly illustrated by our development for the Game of 24 and Creative Writing tasks.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 対向移動性向上のための動的変換の学習

Learning to Transform Dynamically for Better Adversarial Transferability ( http://arxiv.org/abs/2405.14077v1 )

ライセンス: Link先を確認
Rongyi Zhu, Zeliang Zhang, Susan Liang, Zhuo Liu, Chenliang Xu, (参考訳) 人間に知覚できない摂動を加えることで構築された敵対的な例は、ニューラルネットワークを欺く可能性がある。 近年の研究では, 各種モデルの対向移動性, 対向サンプルの対向攻撃能力について検討している。 このような逆変換性を高めるために、既存の入力変換ベースの手法は変換拡張で入力データを多様化する。 しかし、それらの有効性は、利用可能な変換の有限個によって制限される。 本研究では,L2T(Learning to Transform)という新しいアプローチを提案する。 L2Tは、候補プールからの操作の最適な組み合わせを選択して変換画像の多様性を高め、対向転写性を向上させる。 軌道最適化問題として最適変換の組み合わせの選択を概念化し、この問題を効果的に解くために強化学習戦略を用いる。 ImageNetデータセットの総合的な実験と、Google VisionとGPT-4Vによる実践的なテストにより、L2Tが現在の手法を超越し、対向転送可能性を高め、その有効性と実用的重要性を確認することが判明した。 コードはhttps://github.com/RongyiZhu/L2Tで公開されている。

Adversarial examples, crafted by adding perturbations imperceptible to humans, can deceive neural networks. Recent studies identify the adversarial transferability across various models, \textit{i.e.}, the cross-model attack ability of adversarial samples. To enhance such adversarial transferability, existing input transformation-based methods diversify input data with transformation augmentation. However, their effectiveness is limited by the finite number of available transformations. In our study, we introduce a novel approach named Learning to Transform (L2T). L2T increases the diversity of transformed images by selecting the optimal combination of operations from a pool of candidates, consequently improving adversarial transferability. We conceptualize the selection of optimal transformation combinations as a trajectory optimization problem and employ a reinforcement learning strategy to effectively solve the problem. Comprehensive experiments on the ImageNet dataset, as well as practical tests with Google Vision and GPT-4V, reveal that L2T surpasses current methodologies in enhancing adversarial transferability, thereby confirming its effectiveness and practical significance. The code is available at https://github.com/RongyiZhu/L2T.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 分散Q-ラーニングの有限時間解析

A finite time analysis of distributed Q-learning ( http://arxiv.org/abs/2405.14078v1 )

ライセンス: Link先を確認
Han-Dong Lim, Donghwan Lee, (参考訳) マルチエージェント強化学習(MARL)は、シングルエージェント強化学習(RL)の適用で達成された経験的成功によって、目覚ましい関心の高まりを目撃している。 本研究では,多くのエージェントが局所報酬の平均値である中央報酬関数にアクセスせずに逐次意思決定問題を協調的に解決する分散Q-ラーニングシナリオについて考察する。 特に、分散Q-ラーニングアルゴリズムの有限時間解析について検討し、新しいサンプル複雑性結果である $\tilde{\mathcal{O}}\left( \min\left\{\frac{1}{\epsilon^2}\frac{t_{\text{mix}}}{(1-\gamma)^6 d_{\min}^4 } ,\frac{1}{\epsilon}\frac{\sqrt{|\gS||\gA|}}{(1-\sigma_2(\boldsymbol{W}))(1-\gamma)^4 d_{\min}^3} \right\right)$

Multi-agent reinforcement learning (MARL) has witnessed a remarkable surge in interest, fueled by the empirical success achieved in applications of single-agent reinforcement learning (RL). In this study, we consider a distributed Q-learning scenario, wherein a number of agents cooperatively solve a sequential decision making problem without access to the central reward function which is an average of the local rewards. In particular, we study finite-time analysis of a distributed Q-learning algorithm, and provide a new sample complexity result of $\tilde{\mathcal{O}}\left( \min\left\{\frac{1}{\epsilon^2}\frac{t_{\text{mix}}}{(1-\gamma)^6 d_{\min}^4 } ,\frac{1}{\epsilon}\frac{\sqrt{|\gS||\gA|}}{(1-\sigma_2(\boldsymbol{W}))(1-\gamma)^4 d_{\min}^3} \right\}\right)$ under tabular lookup
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 環境構築による交通モード共有分析の促進:都市道路網を用いたディープハイブリッドモデル

Advancing Transportation Mode Share Analysis with Built Environment: Deep Hybrid Models with Urban Road Network ( http://arxiv.org/abs/2405.14079v1 )

ライセンス: Link先を確認
Dingyi Zhuang, Qingyi Wang, Yunhan Zheng, Xiaotong Guo, Shenhao Wang, Haris N Koutsopoulos, Jinhua Zhao, (参考訳) 移動モードの共有分析は、研究者が乗客の移動行動や選択を理解するのに役立つため、様々な現実の輸送作業において重要である。 典型的な例として、社会デマグラフィー(年齢、収入など)や旅行モードの属性(旅行コストや時間など)を考慮することで、コミュニティの旅行モードの共有を予測することが挙げられる。 しかし,都市構築環境の構造,例えば道路ネットワークをモード共有モデルに統合して,建設環境への影響を把握しようとする試みは限られている。 この作業は通常、手動の特徴工学または都市デザインの特徴に関する事前知識を必要とする。 本研究では,移動モード共有分析のための入力として,道路ネットワークと社会デマログラフを直接結合したディープハイブリッドモデル(DHM)を提案する。 グラフ埋め込み(GE)技術を用いて、都市構造のより強力な表現による旅行需要モデルを強化する。 シカゴにおけるモード共有予測実験において、DHMは、都市レベルで異なるモード共有を推定する際に、旅行需要モデルの性能を向上させることにより、社会デミノグラフィー構造に対する価値ある空間的洞察を提供することができることを示した。 具体的には、DHMは、選択モデルの解釈能力を維持しつつ、その解釈可能性、予測精度、地理的洞察の優位性を実証しながら、結果を20%以上改善する。

Transportation mode share analysis is important to various real-world transportation tasks as it helps researchers understand the travel behaviors and choices of passengers. A typical example is the prediction of communities' travel mode share by accounting for their sociodemographics like age, income, etc., and travel modes' attributes (e.g. travel cost and time). However, there exist only limited efforts in integrating the structure of the urban built environment, e.g., road networks, into the mode share models to capture the impacts of the built environment. This task usually requires manual feature engineering or prior knowledge of the urban design features. In this study, we propose deep hybrid models (DHM), which directly combine road networks and sociodemographic features as inputs for travel mode share analysis. Using graph embedding (GE) techniques, we enhance travel demand models with a more powerful representation of urban structures. In experiments of mode share prediction in Chicago, results demonstrate that DHM can provide valuable spatial insights into the sociodemographic structure, improving the performance of travel demand models in estimating different mode shares at the city level. Specifically, DHM improves the results by more than 20\% while retaining the interpretation power of the choice models, demonstrating its superiority in interpretability, prediction accuracy, and geographical insights.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# オフライン強化学習のための排他的罰則Q-ラーニング

Exclusively Penalized Q-learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.14082v1 )

ライセンス: Link先を確認
Junghyuk Yeom, Yonghyeon Jo, Jungmo Kim, Sanghyeon Lee, Seungyul Han, (参考訳) 制約に基づくオフライン強化学習(RL)は、分散シフトに起因する過大評価誤差を軽減するために、政策制約や値関数に対する罰則を課す。 本稿では、ペナル化値関数を持つ既存のオフラインRL法における制限に着目し、値関数に導入される不要なバイアスによる過小評価バイアスの可能性を示す。 この問題に対処するため,推定誤差を誘導し易い状態を選択的にペナライズすることで,値関数における推定バイアスを低減できる排他的ペナライズQ-ラーニング(EPQ)を提案する。 数値計算の結果,本手法は,他のオフラインRL法と比較して,過小評価バイアスを著しく低減し,オフライン制御タスクの性能向上を図っている。

Constraint-based offline reinforcement learning (RL) involves policy constraints or imposing penalties on the value function to mitigate overestimation errors caused by distributional shift. This paper focuses on a limitation in existing offline RL methods with penalized value function, indicating the potential for underestimation bias due to unnecessary bias introduced in the value function. To address this concern, we propose Exclusively Penalized Q-learning (EPQ), which reduces estimation bias in the value function by selectively penalizing states that are prone to inducing estimation errors. Numerical results show that our method significantly reduces underestimation bias and improves performance in various offline control tasks compared to other offline RL methods
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 時間結合型量子乱数発生器の光子統計による量子性試験

Testing Quantumness via Photon Statistics for Time-Bin based Quantum Random Number Generators ( http://arxiv.org/abs/2405.14085v1 )

ライセンス: Link先を確認
Nirupam Basak, Soumya Das, Goutam Paul, (参考訳) ランダム性は、暗号やシミュレーションを含む多くの分野において欠かせない要素の1つである。 量子乱数生成器(QRNG)モデルは量子乱数を生成するために提案されているが、量子論のため、従来のものよりも安全である。 しかし、QRNGは決定論的古典的後処理なしで真の乱数を生成することはできない。 QRNGの基底分布が一様分布に近い場合、少量の後処理で量子性を保持する良い乱数を生成するのに十分である。 本研究ではQRNGによって生成される乱数におけるランダム性と量子性について述べる。 QRNGの2つのモデルについて検討し、異なる分布(指数と一様)に従う乱数を理想的に生成し、実際には類似した分布に従っていることを示す。 これらの経験的な光子分布はQRNGの量子性をテストするために用いられる。 このレターでは、サンプルデータが既知の分布に従うかどうかをテストする効果的な方法として知られているので、量子性をテストするのに適した$\chi^2$善意を提案する。 QRNGの基底となるサンプリング分布が$\epsilon$-randomとなるときの関係を導出する。 この関係により、適切な後処理アルゴリズムを選択することができる。

Randomness is one of the essential components in many fields including cryptography and simulations. Several Quantum Random Number Generator (QRNG) models have been proposed to produce quantum random numbers, which, due to the quantum theory, are more secure than their classical counterparts. However, QRNGs can not produce true random numbers without deterministic classical post-processing. If the underlying distribution of the QRNG is close to a uniform distribution, a small amount of post-processing is sufficient to produce good random numbers retaining quantumness. In this work, we address the randomness and quantumness in the random numbers generated by the QRNGs. We consider two models of QRNGs, which ideally produce random numbers following different distributions (exponential and uniform), and show that, in practice, they are following similar distributions. These empirical photon distributions can be used to test the quantumness of a QRNG. In this letter, we suggest the $\chi^2$ goodness-of-fit to test quantumness, as it is known to be an effective method to test if sample data follows a known distribution. We derive a relation when the underlying sampling distributions of the QRNGs will be $\epsilon$-random. Depending on this relation, a suitable post-processing algorithm can be chosen.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# 雑音ラベルを用いた高次元学習

High-dimensional Learning with Noisy Labels ( http://arxiv.org/abs/2405.14088v1 )

ライセンス: Link先を確認
Aymane El Firdoussi, Mohamed El Amine Seddik, (参考訳) 本稿では,クラス条件付き雑音ラベルを用いた高次元二項分類に関する理論的知見を提供する。 具体的には,データサイズ$p$とサンプルサイズ$n$の両方が大きい場合,ラベルノイズ認識損失関数を持つ線形分類器の挙動について検討する。 ガウス混合データモデルによるランダム行列理論に基づいて、$p,n\to \infty$の線形分類器の性能は、データのスカラー統計を含む極限に向かって収束する。 以上の結果から,低次元雑音に対する低次元の直観は,低次元の最適分類器が高次元で劇的に失敗するという意味では,高次元雑音を扱えないことが示唆された。 導出に基づいて,高次元のノイズラベル処理において,より効率の良い最適化手法を設計する。 我々の理論的な結論は、実際のデータセットの実験によってさらに確認され、最適化されたアプローチが考慮されたベースラインよりも優れていることを示す。

This paper provides theoretical insights into high-dimensional binary classification with class-conditional noisy labels. Specifically, we study the behavior of a linear classifier with a label noisiness aware loss function, when both the dimension of data $p$ and the sample size $n$ are large and comparable. Relying on random matrix theory by supposing a Gaussian mixture data model, the performance of the linear classifier when $p,n\to \infty$ is shown to converge towards a limit, involving scalar statistics of the data. Importantly, our findings show that the low-dimensional intuitions to handle label noise do not hold in high-dimension, in the sense that the optimal classifier in low-dimension dramatically fails in high-dimension. Based on our derivations, we design an optimized method that is shown to be provably more efficient in handling noisy labels in high dimensions. Our theoretical conclusions are further confirmed by experiments on real datasets, where we show that our optimized approach outperforms the considered baselines.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-23
# モデル非依存等価性のための改良された正準化

Improved Canonicalization for Model Agnostic Equivariance ( http://arxiv.org/abs/2405.14089v1 )

ライセンス: Link先を確認
Siba Smarak Panigrahi, Arnab Kumar Mondal, (参考訳) この研究は、ディープラーニングにおけるアーキテクチャ非依存の等価性を達成するための新しいアプローチを導入し、特に従来の同変アーキテクチャの限界と既存のアーキテクチャ非依存手法の非効率性に対処する。 従来の手法を用いた同変モデルの構築には、既存モデルの同変モデルの設計と、非現実的かつ資源集約的なプロセスであるスクラッチからのトレーニングが必要である。 正準化はモデルアーキテクチャを変更することなく同分散を誘導する有望な代替手段として現れてきたが、正準化を正確に学習するために高表現性で高価な同変ネットワークの必要性に悩まされている。 そこで本研究では,任意の非同変ネットワークを正準化に利用する新しい手法を提案する。 提案手法はコントラスト学習を用いて,一意な正準方向を効率よく学習し,正準化ネットワークの選択に柔軟性を提供する。 実験により,本手法は,大規模事前学習モデルの等価性を達成し,正準化過程を著しく高速化し,最大2倍の高速化を実現した。

This work introduces a novel approach to achieving architecture-agnostic equivariance in deep learning, particularly addressing the limitations of traditional equivariant architectures and the inefficiencies of the existing architecture-agnostic methods. Building equivariant models using traditional methods requires designing equivariant versions of existing models and training them from scratch, a process that is both impractical and resource-intensive. Canonicalization has emerged as a promising alternative for inducing equivariance without altering model architecture, but it suffers from the need for highly expressive and expensive equivariant networks to learn canonical orientations accurately. We propose a new method that employs any non-equivariant network for canonicalization. Our method uses contrastive learning to efficiently learn a unique canonical orientation and offers more flexibility for the choice of canonicalization network. We empirically demonstrate that this approach outperforms existing methods in achieving equivariance for large pretrained models and significantly speeds up the canonicalization process, making it up to 2 times faster.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 会員制Oracleによる組合せ最適化のアクティブラーニング

Actively Learning Combinatorial Optimization Using a Membership Oracle ( http://arxiv.org/abs/2405.14090v1 )

ライセンス: Link先を確認
Rosario Messana, Rui Chen, Andrea Lodi, (参考訳) 我々は、解が与えられた場合、それが絶対的確実性で実現可能か不可能かを判断する会員オラクルを用いて、未知の線形制約で組合せ最適化問題を解くことを検討する。 意思決定者の目標は、オラクルの呼び出し数に関する予算の対象となる最善の解決策を見つけることである。 SVM(Support Vector Machines)に基づく能動的学習に着想を得て,代用線形制約を学習し,活用することによって問題を解決するために,古典的なフレームワークを適用した。 得られた新しいフレームワークは、ラベル付きポイント上で線形分離器を訓練し、ラベル付けされる新しいポイントを選択することを含み、サンプリング戦略を適用し、0-1整数線形プログラムを解くことで達成される。 アクティブラーニングの文献に従えば、SVMを線形分類器として使用することや、シンプルマージンとして知られる情報に基づくサンプリング戦略を考えることができる。 我々は,混合整数二次計画法に基づく別のサンプリング手法と,オラクルモデルにおける凸最適化アルゴリズムにインスパイアされた線形分離法を提案する。 本研究は, 純クナップサック問題と大学研究計画問題に関する実験を行い, 異なる線形分離法とサンプリング手法が, 目的値の点から結果の質にどのように影響するかを示す。

We consider solving a combinatorial optimization problem with an unknown linear constraint using a membership oracle that, given a solution, determines whether it is feasible or infeasible with absolute certainty. The goal of the decision maker is to find the best possible solution subject to a budget on the number of oracle calls. Inspired by active learning based on Support Vector Machines (SVMs), we adapt a classical framework in order to solve the problem by learning and exploiting a surrogate linear constraint. The resulting new framework includes training a linear separator on the labeled points and selecting new points to be labeled, which is achieved by applying a sampling strategy and solving a 0-1 integer linear program. Following the active learning literature, one can consider using SVM as a linear classifier and the information-based sampling strategy known as Simple margin. We improve on both sides: we propose an alternative sampling strategy based on mixed-integer quadratic programming and a linear separation method inspired by an algorithm for convex optimization in the oracle model. We conduct experiments on the pure knapsack problem and on a college study plan problem from the literature to show how different linear separation methods and sampling strategies influence the quality of the results in terms of objective value.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 大規模言語モデルは最小限の努力で自己修正できる

Large Language Models Can Self-Correct with Minimal Effort ( http://arxiv.org/abs/2405.14092v1 )

ライセンス: Link先を確認
Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang, (参考訳) 内在的自己正当性(英: Intrinsic self-correct)とは、大きな言語モデル(LLM)に対して、外部からのフィードバックなしにその応答を検証し、修正するように指示する手法である。 残念なことに、この研究はLSMが自己正しい推論をまだできないと結論づけた。 単純で効果的な検証手法は,LLMの本質的な能力を解き放つことができる。 すなわち、質問のキー条件を隠蔽し、現在の応答を追加して検証問題を構築し、応答を検証する条件を予測する。 この条件は、オープンドメインの質問の実体や、数学の質問の数値となり得る。 本稿では,ProCo という名前の偽応答を段階的に同定し,訂正する反復的検証列補正フレームワークを提案する。 私たちは3つの推論タスクで実験を行います。 平均して、GPT-3.5-Turbo をバックエンド LLM として持つ ProCo は、4つのオープンドメインの質問応答データセットで$6.8$、算術的推論データセットで$+14.1$、常識的推論データセットで$9.6$と、Self-Correct と比較すると$9.6$の精度を持つ。

Intrinsic self-correct was a method that instructed large language models (LLMs) to verify and correct their responses without external feedback. Unfortunately, the study concluded that the LLMs could not self-correct reasoning yet. We find that a simple yet effective verification method can unleash inherent capabilities of the LLMs. That is to mask a key condition in the question, add the current response to construct a verification question, and predict the condition to verify the response. The condition can be an entity in an open-domain question or a numeric value in a math question, which requires minimal effort (via prompting) to identify. We propose an iterative verify-then-correct framework to progressively identify and correct (probably) false responses, named ProCo. We conduct experiments on three reasoning tasks. On average, ProCo, with GPT-3.5-Turbo as the backend LLM, yields $+6.8$ exact match on four open-domain question answering datasets, $+14.1$ accuracy on three arithmetic reasoning datasets, and $+9.6$ accuracy on a commonsense reasoning dataset, compared to Self-Correct.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 身体的AIにおける視覚・言語・行動モデルの検討

A Survey on Vision-Language-Action Models for Embodied AI ( http://arxiv.org/abs/2405.14093v1 )

ライセンス: Link先を確認
Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King, (参考訳) ディープラーニングは、コンピュータビジョン、自然言語処理、強化学習など、多くの領域で顕著な成功を収めている。 これらの分野の代表的な人工ニューラルネットワークは、畳み込みニューラルネットワーク、トランスフォーマー、深層Q-networksにまたがる。 ユニモーダルニューラルネットワークを基盤として、視覚的質問応答、画像キャプション、音声認識などのタスクに対処するために、多数のマルチモーダルモデルが導入されている。 インボディードAIにおける指示追従ロボットポリシーの台頭は、視覚言語アクションモデル(VLA)として知られる新しいマルチモーダルモデルのカテゴリの開発を加速させた。 マルチモダリティ能力は、ロボット学習の基本的な要素となっている。 汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。 いくつかのモデルは、事前トレーニングを通じて特定のコンポーネントを精錬することに焦点を当てている。 また、低レベルの行動を予測するための制御ポリシーの開発も目指している。 ある種のVLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。 過去数年間、無数のVLAが出現し、エンボディドAIの急速な進歩を反映している。 そのため、総合的な調査を通じて、発展途上の景観を捉えることが不可欠である。

Deep learning has demonstrated remarkable success across many domains, including computer vision, natural language processing, and reinforcement learning. Representative artificial neural networks in these fields span convolutional neural networks, Transformers, and deep Q-networks. Built upon unimodal neural networks, numerous multi-modal models have been introduced to address a range of tasks such as visual question answering, image captioning, and speech recognition. The rise of instruction-following robotic policies in embodied AI has spurred the development of a novel category of multi-modal models known as vision-language-action models (VLAs). Their multi-modality capability has become a foundational element in robot learning. Various methods have been proposed to enhance traits such as versatility, dexterity, and generalizability. Some models focus on refining specific components through pretraining. Others aim to develop control policies adept at predicting low-level actions. Certain VLAs serve as high-level task planners capable of decomposing long-horizon tasks into executable subtasks. Over the past few years, a myriad of VLAs have emerged, reflecting the rapid advancement of embodied AI. Therefore, it is imperative to capture the evolving landscape through a comprehensive survey.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# トポロジカル・スペースへの挑戦:セル変換器

Attending to Topological Spaces: The Cellular Transformer ( http://arxiv.org/abs/2405.14094v1 )

ライセンス: Link先を確認
Rubén Ballester, Pablo Hernández-García, Mathilde Papillon, Claudio Battiloro, Nina Miolane, Tolga Birdal, Carles Casacuberta, Sergio Escalera, Mustafa Hajij, (参考訳) トポロジカルディープラーニングは、入力データにトポロジ的構造を活用することにより、ニューラルネットワークモデルの予測性能を高めることを目指している。 トポロジカルニューラルネットワークは、グラフの一般化と見なせる細胞複合体やハイパーグラフのような空間で動作する。 本稿では,グラフベースの変換器をセル複合体に一般化する新しいアーキテクチャであるセル変換器(CT)を紹介する。 まず, 細胞複合体, エッジ面, ノードエッジ関係における入射関係を活用するための, 通常の自己・横断的機構の新たな定式化を提案する。 さらに,細胞複合体に特化して設計されたトポロジカルな位置符号化法を提案する。 3つのグラフデータセットをセル複雑なデータセットに変換することで、CTは最先端のパフォーマンスを達成するだけでなく、仮想ノード、ドメイン内構造エンコーディング、グラフのリウィリングといった複雑な拡張を必要とせずに実現できることを示した。

Topological Deep Learning seeks to enhance the predictive performance of neural network models by harnessing topological structures in input data. Topological neural networks operate on spaces such as cell complexes and hypergraphs, that can be seen as generalizations of graphs. In this work, we introduce the Cellular Transformer (CT), a novel architecture that generalizes graph-based transformers to cell complexes. First, we propose a new formulation of the usual self- and cross-attention mechanisms, tailored to leverage incidence relations in cell complexes, e.g., edge-face and node-edge relations. Additionally, we propose a set of topological positional encodings specifically designed for cell complexes. By transforming three graph datasets into cell complex datasets, our experiments reveal that CT not only achieves state-of-the-art performance, but it does so without the need for more complex enhancements such as virtual nodes, in-domain structural encodings, or graph rewiring.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 非線形部分微分方程式の多重解計算のためのニュートンインフォームドニューラル演算子

Newton Informed Neural Operator for Computing Multiple Solutions of Nonlinear Partials Differential Equations ( http://arxiv.org/abs/2405.14096v1 )

ライセンス: Link先を確認
Wenrui Hao, Xinliang Liu, Yahong Yang, (参考訳) ニューラルネットワークを用いた非線形偏微分方程式(PDE)の解法は、物理学、生物学、工学など様々な分野に広く応用されている。 しかし、物理情報ニューラルネットワーク(PINN)やディープ・リッツ法(Deep Ritz method)、ディープ・オネット(DeepONet)といった非線形PDEを解く古典的なニューラルネットワーク手法は、非線形問題に固有の複数の解が存在することに直面することが多い。 これらの方法は不適切な問題に遭遇する可能性がある。 本稿では,非線形性に対処する既存のニューラルネットワーク技術に基づいて,Newton Informed Neural Operatorと呼ばれる新しいアプローチを提案する。 提案手法は,従来のNewton法を組み合わせ,適切な問題に対処し,既存のニューラルネットワーク法と比較して教師付きデータポイントを少なくしながら,単一の学習プロセスで複数の解を効率的に学習する。

Solving nonlinear partial differential equations (PDEs) with multiple solutions using neural networks has found widespread applications in various fields such as physics, biology, and engineering. However, classical neural network methods for solving nonlinear PDEs, such as Physics-Informed Neural Networks (PINN), Deep Ritz methods, and DeepONet, often encounter challenges when confronted with the presence of multiple solutions inherent in the nonlinear problem. These methods may encounter ill-posedness issues. In this paper, we propose a novel approach called the Newton Informed Neural Operator, which builds upon existing neural network techniques to tackle nonlinearities. Our method combines classical Newton methods, addressing well-posed problems, and efficiently learns multiple solutions in a single learning process while requiring fewer supervised data points compared to existing neural network methods.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 微分方程式を解くニューラルネットワークの学習において、自動微分は不可欠である

Automatic Differentiation is Essential in Training Neural Networks for Solving Differential Equations ( http://arxiv.org/abs/2405.14099v1 )

ライセンス: Link先を確認
Chuqi Chen, Yahong Yang, Yang Xiang, Wenrui Hao, (参考訳) ニューラルネットワークベースのアプローチは、科学と工学における偏微分方程式(PDE)の解法において、特に複雑なドメインや経験的データの導入を特徴とするシナリオにおいて、非常に有望であることを示している。 PDEのニューラルネットワーク手法の利点の1つは、その自動微分(AD)であり、微分を計算するために近くの局所点を必要とする従来の有限差分(FD)近似とは異なり、標本点自身だけを必要とする。 本稿では、ニューラルネットワークのトレーニングにおけるADの利点を定量的に示す。 トランキャットエントロピーの概念は、トレーニング特性を特徴づけるために導入された。 具体的には、ランダム特徴モデルと2層ニューラルネットワークを用いた総合的な実験および理論的解析により、決定されたトランケートエントロピーが、ランダム特徴モデルの残留損失と、ADおよびFD法のニューラルネットワークのトレーニング速度を定量化するための信頼性の高い指標であることがわかった。 実験および理論的解析により、ADは偏微分方程式の解法においてFDよりも優れていることが示された。

Neural network-based approaches have recently shown significant promise in solving partial differential equations (PDEs) in science and engineering, especially in scenarios featuring complex domains or the incorporation of empirical data. One advantage of the neural network method for PDEs lies in its automatic differentiation (AD), which necessitates only the sample points themselves, unlike traditional finite difference (FD) approximations that require nearby local points to compute derivatives. In this paper, we quantitatively demonstrate the advantage of AD in training neural networks. The concept of truncated entropy is introduced to characterize the training property. Specifically, through comprehensive experimental and theoretical analyses conducted on random feature models and two-layer neural networks, we discover that the defined truncated entropy serves as a reliable metric for quantifying the residual loss of random feature models and the training speed of neural networks for both AD and FD methods. Our experimental and theoretical analyses demonstrate that, from a training perspective, AD outperforms FD in solving partial differential equations.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 損失誘導拡散モデルによる画像レイアウト制御の強化

Enhancing Image Layout Control with Loss-Guided Diffusion Models ( http://arxiv.org/abs/2405.14101v1 )

ライセンス: Link先を確認
Zakaria Patel, Kirill Serkh, (参考訳) 拡散モデルは、純粋なノイズから高品質な画像を生成することができる強力な生成モデルのクラスである。 特に条件付き拡散モデルでは、簡単なテキストプロンプトを使って所望の画像の内容を指定することができる。 しかし、テキストプロンプトのみの条件付けは、最終的な画像の構成とレイアウトをきめ細かな制御を許さない。 空間制約(例えば、バウンディングボックス)を導入するほとんどのメソッドは微調整を必要とするが、これらのメソッドのより小型でより最近のサブセットはトレーニング不要である。 これらは、刺激が注意機構を通じてモデルに影響を与えるたびに適用でき、一般的に2つのカテゴリのうちの1つに分類される。 1つ目は、画像の特定の領域における信号を強化するために、特定のトークンのクロスアテンションマップを直接変更することである。 2つ目は、クロスアテンション写像上の損失関数を定義し、この損失の勾配を使って潜伏関数を導くことである。 従来の研究は,これらを代替戦略として検討する一方で,これらの手法を補完的特徴を強調した解釈を提供し,両手法をコンサートで使用する場合,優れた性能が得られることを示す。

Diffusion models are a powerful class of generative models capable of producing high-quality images from pure noise. In particular, conditional diffusion models allow one to specify the contents of the desired image using a simple text prompt. Conditioning on a text prompt alone, however, does not allow for fine-grained control over the composition and layout of the final image, which instead depends closely on the initial noise distribution. While most methods which introduce spatial constraints (e.g., bounding boxes) require fine-tuning, a smaller and more recent subset of these methods are training-free. They are applicable whenever the prompt influences the model through an attention mechanism, and generally fall into one of two categories. The first entails modifying the cross-attention maps of specific tokens directly to enhance the signal in certain regions of the image. The second works by defining a loss function over the cross-attention maps, and using the gradient of this loss to guide the latent. While previous work explores these as alternative strategies, we provide an interpretation for these methods which highlights their complimentary features, and demonstrate that it is possible to obtain superior performance when both methods are used in concert.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# オンライン自己優先型言語モデル

Online Self-Preferring Language Models ( http://arxiv.org/abs/2405.14103v1 )

ライセンス: Link先を確認
Yuanzhao Zhai, Zhuo Zhang, Kele Xu, Hanyang Peng, Yue Yu, Dawei Feng, Cheng Yang, Bo Ding, Huaimin Wang, (参考訳) 人間の嗜好データセットの調整は、大きな言語モデル(LLM)の成功に不可欠である。 人的フィードバックからの強化学習(RLHF)は、費用のかかる報酬モデルを用いて、オンラインサンプリング応答に対するフィードバックを提供する。 最近、データセットのバイナリの好みに応答を直接適合するオフラインメソッドが代替手段として登場した。 しかし、既存の手法では、異なる応答対の区別に不可欠である選好強度情報を明示的にモデル化していない。 この制限を克服するために,自己生成型応答対と自己判断型選好強度から学習するオンライン自己選好(OSP)言語モデルを提案する。 各プロンプトおよびそれに対応する自己生成応答に対して、優先強度情報を含む複数の応答ペアを構築するためにランク付けされたペアリング手法を導入する。 そこで我々は,そのような情報を活用するために,ソフト推論のクロスエントロピー損失を提案する。 実験により,アライメント性能の過度な調整や改善には,選好強度の活用が不可欠であることを実証した。 OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。 OSPはパラメータ効率が高く、オフラインデータに制限がある場合のRLHFよりも堅牢で、ドメイン外のタスクに一般化されている。 さらに,LLMが自己選好能力を有するOSP言語モデルは,外部の監督なしに効率的に自己改善することができる。

Aligning with human preference datasets has been critical to the success of large language models (LLMs). Reinforcement learning from human feedback (RLHF) employs a costly reward model to provide feedback for on-policy sampling responses. Recently, offline methods that directly fit responses with binary preferences in the dataset have emerged as alternatives. However, existing methods do not explicitly model preference strength information, which is crucial for distinguishing different response pairs. To overcome this limitation, we propose Online Self-Preferring (OSP) language models to learn from self-generated response pairs and self-judged preference strengths. For each prompt and corresponding self-generated responses, we introduce a ranked pairing method to construct multiple response pairs with preference strength information. We then propose the soft-preference cross-entropy loss to leverage such information. Empirically, we demonstrate that leveraging preference strength is crucial for avoiding overfitting and enhancing alignment performance. OSP achieves state-of-the-art alignment performance across various metrics in two widely used human preference datasets. OSP is parameter-efficient and more robust than the dominant online method, RLHF when limited offline data are available and generalizing to out-of-domain tasks. Moreover, OSP language models established by LLMs with proficiency in self-preferring can efficiently self-improve without external supervision.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 大規模言語モデルの分散投機的推測

Distributed Speculative Inference of Large Language Models ( http://arxiv.org/abs/2405.14105v1 )

ライセンス: Link先を確認
Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel, (参考訳) 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。 本稿では,分散投機推論 (DSI) と従来の自己回帰推論 (非SI) を比較検討する。 他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。 SIに関する以前の研究は、実験的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフトラダーLSMが必要である。 実際には、既成のLLMは、十分に高速で正確であるような、整合したドラフトラを持っていないことが多い。 SIが非SIよりも遅くなるか、より正確でないドラフトラを使う場合、私たちはギャップを示します。 DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。 ターゲットとドラフトの複数のインスタンスをオーケストレーションすることで、DSIはSIよりも高速なだけでなく、SIで加速できないLLMもサポートする。 DSI は SI よりも 1.29-1.92 倍高速である。

Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces distributed speculative inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require a fast and accurate drafter LLM. In practice, off-the-shelf LLMs often do not have matching drafters that are sufficiently fast and accurate. We show a gap: SI gets slower than non-SI when using slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI given any drafters. By orchestrating multiple instances of the target and drafters, DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic settings: DSI is 1.29-1.92x faster than SI.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 差分プライベート機械学習における近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近

Nearly Tight Black-Box Auditing of Differentially Private Machine Learning ( http://arxiv.org/abs/2405.14106v1 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, (参考訳) 本稿では,ブラックボックスモデルにおけるDP-SGDアルゴリズムについて,ほぼ厳密な検証を行った。 本研究は,DP-SGDのプライバシー漏洩を会員推測攻撃を用いて実証的に推定する手法である。 DP-SGDのプライバシ分析は、初期モデルパラメータの選択に非依存であるからである。 理論的な$\varepsilon=10.0$ on MNISTとCIFAR-10で訓練されたモデルの場合、監査手順は1,000レコードサンプルに対してそれぞれ7.21$と6.95$、全データセットで6.48$と4.96$という経験的な見積もりを得る。 対照的に、以前の研究はより強い(非現実的な)ホワイトボックスモデルでのみ厳密な監査を達成し、敵がモデルの内的パラメータにアクセスし、任意の勾配を挿入できるようにした。 本研究は,DP-SGDのプライバシー解析をさらに改善する方法について,より容易にバグやDP違反の検出に利用することができる。

This paper presents a nearly tight audit of the Differentially Private Stochastic Gradient Descent (DP-SGD) algorithm in the black-box model. Our auditing procedure empirically estimates the privacy leakage from DP-SGD using membership inference attacks; unlike prior work, the estimates are appreciably close to the theoretical DP bounds. The main intuition is to craft worst-case initial model parameters, as DP-SGD's privacy analysis is agnostic to the choice of the initial model parameters. For models trained with theoretical $\varepsilon=10.0$ on MNIST and CIFAR-10, our auditing procedure yields empirical estimates of $7.21$ and $6.95$, respectively, on 1,000-record samples and $6.48$ and $4.96$ on the full datasets. By contrast, previous work achieved tight audits only in stronger (i.e., less realistic) white-box models that allow the adversary to access the model's inner parameters and insert arbitrary gradients. Our auditing procedure can be used to detect bugs and DP violations more easily and offers valuable insight into how the privacy analysis of DP-SGD can be further improved.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# タンパク質リガンドドッキングの深層学習:まだ存在するか?

Deep Learning for Protein-Ligand Docking: Are We There Yet? ( http://arxiv.org/abs/2405.14108v1 )

ライセンス: Link先を確認
Alex Morehead, Nabin Giri, Jian Liu, Jianlin Cheng, (参考訳) リガンド結合がタンパク質の構造と生体機能に与える影響は、現代の生物医学研究や薬物発見のようなバイオテクノロジー開発に多くの意味を持つ。 タンパク質-リガンドドッキング用に設計されたいくつかの深層学習(DL)手法やベンチマークが近年導入されているが、(1)予測された(apo)タンパク質構造、(2)特定の標的タンパク質に同時に結合する複数のリガンド、(3)結合ポケットの事前知識のないドッキング手法の振る舞いを体系的に研究する以前の研究は行われていない。 ドッキング手法の実用性についてより深く理解するために,実用的タンパク質リガンドドッキングのための最初の包括的なベンチマークであるPoseBenchを紹介した。 PoseBenchは、単一およびマルチリガンドベンチマークデータセットを用いて、Apo-to-holoタンパク-リガンドドッキングとタンパク質-リガンド構造生成のためのDLドッキング手法を厳格かつ体系的に評価することを可能にする。 実証的にPoseBenchを用いた場合,最近のDLドッキング手法はすべてマルチリガンドタンパク質ターゲットへの一般化に失敗し,テンプレートベースのドッキングアルゴリズムは最近の単一リガンドDLドッキング法と同様に,マルチリガンドドドッキングに対して等しく,あるいは良好に動作し,今後の作業改善の領域を示唆している。 コード、データ、チュートリアル、ベンチマーク結果はhttps://github.com/BioinfoMachineLearning/PoseBench.comで公開されている。

The effects of ligand binding on protein structures and their in vivo functions carry numerous implications for modern biomedical research and biotechnology development efforts such as drug discovery. Although several deep learning (DL) methods and benchmarks designed for protein-ligand docking have recently been introduced, to date no prior works have systematically studied the behavior of docking methods within the practical context of (1) predicted (apo) protein structures, (2) multiple ligands concurrently binding to a given target protein, and (3) having no prior knowledge of binding pockets. To enable a deeper understanding of docking methods' real-world utility, we introduce PoseBench, the first comprehensive benchmark for practical protein-ligand docking. PoseBench enables researchers to rigorously and systematically evaluate DL docking methods for apo-to-holo protein-ligand docking and protein-ligand structure generation using both single and multi-ligand benchmark datasets, the latter of which we introduce for the first time to the DL community. Empirically, using PoseBench, we find that all recent DL docking methods but one fail to generalize to multi-ligand protein targets and also that template-based docking algorithms perform equally well or better for multi-ligand docking as recent single-ligand DL docking methods, suggesting areas of improvement for future work. Code, data, tutorials, and benchmark results are available at https://github.com/BioinfoMachineLearning/PoseBench.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 最適化シフトによるディープニューラルネットワークの一般化改善

Improving Generalization of Deep Neural Networks by Optimum Shifting ( http://arxiv.org/abs/2405.14111v1 )

ライセンス: Link先を確認
Yuyan Zhou, Ye Li, Lei Feng, Sheng-Jun Huang, (参考訳) 近年の研究では、ニューラルネットワークの一般化はロスランドスケープのシャープネスと相関していることが示されており、フラット・ミニマはシャープ・ミニマよりも優れた一般化能力を示唆している。 本稿では,ニューラルネットワークのパラメータを最大値からフラット値に変更し,同じトレーニング損失値を維持しながら,新しい手法である「emph{optimum shifting"」を提案する。 提案手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を未決定線形方程式系として扱うことができ,制約付き最適化問題を解くことで,解空間内のパラメータの調整を可能にする。 さらに,ニューラルネットワークを用いた確率的最適シフト技術を導入し,計算コストを削減し,最適シフトのための自由度を向上する。 ベンチマークデータセット上での様々なディープニューラルネットワークアーキテクチャを用いた大規模な実験(分類と検出を含む)により,本手法の有効性が示された。

Recent studies showed that the generalization of neural networks is correlated with the sharpness of the loss landscape, and flat minima suggests a better generalization ability than sharp minima. In this paper, we propose a novel method called \emph{optimum shifting}, which changes the parameters of a neural network from a sharp minimum to a flatter one while maintaining the same training loss value. Our method is based on the observation that when the input and output of a neural network are fixed, the matrix multiplications within the network can be treated as systems of under-determined linear equations, enabling adjustment of parameters in the solution space, which can be simply accomplished by solving a constrained optimization problem. Furthermore, we introduce a practical stochastic optimum shifting technique utilizing the Neural Collapse theory to reduce computational costs and provide more degrees of freedom for optimum shifting. Extensive experiments (including classification and detection) with various deep neural network architectures on benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 共有X線生存予測のための多モード地域アライメントネットワークとレポート生成

Multi-modality Regional Alignment Network for Covid X-Ray Survival Prediction and Report Generation ( http://arxiv.org/abs/2405.14113v1 )

ライセンス: Link先を確認
Zhusi Zhong, Jie Li, John Sollee, Scott Collins, Harrison Bai, Paul Zhang, Terrence Healey, Michael Atalay, Xinbo Gao, Zhicheng Jiao, (参考訳) 世界規模の新型コロナウイルス(COVID-19)パンデミックへの対応として、医療専門家が放射線診断レポートの生成と予後分析を改善することで、作業量の増加を管理する上で有用なツールとして、高度な自動化技術が登場した。 本研究では,高リスク領域に着目した放射線学レポート生成と生存予測のための説明可能なモデルであるマルチモダリティ地域アライメントネットワーク(MRANet)を提案する。 検出器内の空間相関を学習することにより、MRANetは領域固有の記述を視覚的にグラウンド化し、完了戦略を備えた堅牢な解剖学的領域を提供する。 各領域の視覚的特徴は、タスク間のグローバルコヒーレンスを維持しながら、文エンコーディングのための空間的およびリスク認識機能を提供する、新しいサバイバルアテンション機構を用いて埋め込む。 横断LDMアライメントは、画像からテキストへの転送プロセスを強化するために使用され、その結果、臨床詳細に富んだ文と、放射線医の説明可能性が改善された。 マルチセンター実験は、MRANetの全体的なパフォーマンスとモデル内の各モジュールの構成を検証し、医療研究に適用されたAIモデルの臨床的解釈と信頼性を強調する放射線学レポート生成研究のさらなる進歩を奨励する。 コードはhttps://github.com/zzs95/MRANet.comで入手できる。

In response to the worldwide COVID-19 pandemic, advanced automated technologies have emerged as valuable tools to aid healthcare professionals in managing an increased workload by improving radiology report generation and prognostic analysis. This study proposes Multi-modality Regional Alignment Network (MRANet), an explainable model for radiology report generation and survival prediction that focuses on high-risk regions. By learning spatial correlation in the detector, MRANet visually grounds region-specific descriptions, providing robust anatomical regions with a completion strategy. The visual features of each region are embedded using a novel survival attention mechanism, offering spatially and risk-aware features for sentence encoding while maintaining global coherence across tasks. A cross LLMs alignment is employed to enhance the image-to-text transfer process, resulting in sentences rich with clinical detail and improved explainability for radiologist. Multi-center experiments validate both MRANet's overall performance and each module's composition within the model, encouraging further advancements in radiology report generation research emphasizing clinical interpretation and trustworthiness in AI models applied to medical studies. The code is available at https://github.com/zzs95/MRANet.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 構造的非定常なデータセットからのオフライン強化学習

Offline Reinforcement Learning from Datasets with Structured Non-Stationarity ( http://arxiv.org/abs/2405.14114v1 )

ライセンス: Link先を確認
Johannes Ackermann, Takayuki Osa, Masashi Sugiyama, (参考訳) 現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。 Offline RLは、異なる行動ポリシーによって収集された遷移を使用することで、この問題を解決することを目指している。 本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。 本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。 提案手法を解析し, 簡単な連続制御タスクや, 挑戦的で高次元の移動タスクでうまく動作することを示す。 提案手法は,しばしばオラクルのパフォーマンスを達成し,ベースラインよりも優れた性能を示す。

Current Reinforcement Learning (RL) is often limited by the large amount of data needed to learn a successful policy. Offline RL aims to solve this issue by using transitions collected by a different behavior policy. We address a novel Offline RL problem setting in which, while collecting the dataset, the transition and reward functions gradually change between episodes but stay constant within each episode. We propose a method based on Contrastive Predictive Coding that identifies this non-stationarity in the offline dataset, accounts for it when training a policy, and predicts it during evaluation. We analyze our proposed method and show that it performs well in simple continuous control tasks and challenging, high-dimensional locomotion tasks. We show that our method often achieves the oracle performance and performs better than baselines.
翻訳日:2024-05-24 19:24:51 公開日:2024-05-23
# 視覚変換器の位置埋め込みにおける可変シフトを低減するためのデータ拡張の構成

Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision Transformers ( http://arxiv.org/abs/2405.14115v1 )

ライセンス: Link先を確認
Bum Jun Kim, Sang Woo Kim, (参考訳) 視覚変換器(ViT)は様々な視覚タスクにおいて顕著な性能を示した。 有望な能力にもかかわらず、ViTのトレーニングには大量の多様なデータが必要である。 いくつかの研究では、Mixup、Cutmix、ランダム消去といったリッチなデータ拡張を使用することが、ViTのトレーニングの成功に重要であることが実証されている。 今や、リッチなデータ拡張の使用は、現在の状態において標準のプラクティスになっています。 しかし,本稿では,Mixupなどのデータ拡張によって,ViTの位置埋め込みのばらつきが生じるという脆弱性を報告している。 我々は、位置埋め込みによる安定した効果を達成するには、画像に特定の条件が必要であると主張している。 分散シフトの副作用を除去するために、この問題の詳細な分析と、これらのデータ拡張の正しい構成を提供する。 実験の結果、我々のガイドラインを採用することで、現在のデータ拡張構成と比較して、ViTの性能が向上することがわかった。

Vision transformers (ViTs) have demonstrated remarkable performance in a variety of vision tasks. Despite their promising capabilities, training a ViT requires a large amount of diverse data. Several studies empirically found that using rich data augmentations, such as Mixup, Cutmix, and random erasing, is critical to the successful training of ViTs. Now, the use of rich data augmentations has become a standard practice in the current state. However, we report a vulnerability to this practice: Certain data augmentations such as Mixup cause a variance shift in the positional embedding of ViT, which has been a hidden factor that degrades the performance of ViT during the test phase. We claim that achieving a stable effect from positional embedding requires a specific condition on the image, which is often broken for the current data augmentation methods. We provide a detailed analysis of this problem as well as the correct configuration for these data augmentations to remove the side effects of variance shift. Experiments showed that adopting our guidelines improves the performance of ViTs compared with the current configuration of data augmentations.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 人間-ロボットインタラクションにおける意図認識のためのマルチモーダル信頼の学習

Learning Multimodal Confidence for Intention Recognition in Human-Robot Interaction ( http://arxiv.org/abs/2405.14116v1 )

ライセンス: Link先を確認
Xiyuan Zhao, Huijun Li, Tianyuan Miao, Xianyi Zhu, Zhikai Wei, Aiguo Song, (参考訳) コラボレーションロボティクスの急速な発展は、日常生活に困難を抱える高齢者を助ける新たな可能性を提供し、特定の意図に応じてロボットを動作させることを可能にした。 しかし、効率的な人間とロボットの協力は、共有環境において自然で正確で信頼性の高い意図認識を必要とする。 これに対する現在の課題は、現在の対話的条件にもかかわらず、認識すべきマルチモーダルフューズド意図の不確実性を低減し、より信頼性の高い結果を適応的に推論することである。 本研究では,新たな学習ベースのマルチモーダル融合フレームワークであるBatch Multimodal Confidence Learning for Opinion Pool (BMCLOP)を提案する。 本手法はベイジアン多モード融合法とバッチ信頼度学習アルゴリズムを組み合わせることで,対話型条件から精度,不確実性低減,成功率を向上させる。 特に、汎用的で実用的なマルチモーダルな意図認識フレームワークをより容易に拡張することができる。 所望の補助シナリオでは、3つのモーダルティ・ジェスチャ、スピーチ、視線を考慮し、これらすべてがすべての有限の意図に対してカテゴリー分布を生成する。 提案手法は広汎な実験により6自由度ロボットを用いて検証し,ベースラインと比較して高い性能を示す。

The rapid development of collaborative robotics has provided a new possibility of helping the elderly who has difficulties in daily life, allowing robots to operate according to specific intentions. However, efficient human-robot cooperation requires natural, accurate and reliable intention recognition in shared environments. The current paramount challenge for this is reducing the uncertainty of multimodal fused intention to be recognized and reasoning adaptively a more reliable result despite current interactive condition. In this work we propose a novel learning-based multimodal fusion framework Batch Multimodal Confidence Learning for Opinion Pool (BMCLOP). Our approach combines Bayesian multimodal fusion method and batch confidence learning algorithm to improve accuracy, uncertainty reduction and success rate given the interactive condition. In particular, the generic and practical multimodal intention recognition framework can be easily extended further. Our desired assistive scenarios consider three modalities gestures, speech and gaze, all of which produce categorical distributions over all the finite intentions. The proposed method is validated with a six-DoF robot through extensive experiments and exhibits high performance compared to baselines.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 知識のローカライゼーション: ミッションは複雑ではないか? クエリローカライゼーションに入る!

Knowledge Localization: Mission Not Accomplished? Enter Query Localization! ( http://arxiv.org/abs/2405.14117v1 )

ライセンス: Link先を確認
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)は、膨大な事実知識を格納するが、それらの知識の保存と表現方法の背後にあるメカニズムはいまだ不明である。 知識ニューロン(KN)理論は、これらのメカニズムを説明するための顕著な理論である。 この理論は知識局所化(KL)の仮定に基づいており、これは事実を知識記憶ユニット(すなわち知識ニューロン)に局所化することができることを示唆している。 しかし、この仮定は知識記憶に関して過度に強くなり、知識表現機構を無視する可能性がある。 したがって、KL仮定を再検討し、統計的・知識的な修正の観点から、その仮定に固執しない事実の存在を確認する。 さらに、クエリローカライゼーション(QL)の仮定を提案する。 1) クエリ-KNマッピング: ローカライゼーションの結果は、事実ではなくクエリに関連付けられている。 2) Dynamic KN Selection: クエリに応答するKNの選択にアテンションモジュールが貢献する。 そこで本研究では,知識修正の性能を向上するConsistency-Aware KN修飾法を提案する。 我々は39の実験を行い、さらに可視化実験を行い、結論を厳格に検証した。

Large language models (LLMs) store extensive factual knowledge, but the mechanisms behind how they store and express this knowledge remain unclear. The Knowledge Neuron (KN) thesis is a prominent theory for explaining these mechanisms. This theory is based on the knowledge localization (KL) assumption, which suggests that a fact can be localized to a few knowledge storage units, namely knowledge neurons. However, this assumption may be overly strong regarding knowledge storage and neglects knowledge expression mechanisms. Thus, we re-examine the KL assumption and confirm the existence of facts that do not adhere to it from both statistical and knowledge modification perspectives. Furthermore, we propose the Query Localization (QL) assumption. (1) Query-KN Mapping: The localization results are associated with the query rather than the fact. (2) Dynamic KN Selection: The attention module contributes to the selection of KNs for answering a query. Based on this, we further propose the Consistency-Aware KN modification method, which improves the performance of knowledge modification. We conduct 39 sets of experiments, along with additional visualization experiments, to rigorously validate our conclusions.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 光メモリと単一モード位相共役受信器を用いたマイクロ波量子照明

Microwave Quantum Illumination with Optical Memory and Single-Mode Phase-Conjugate Receiver ( http://arxiv.org/abs/2405.14118v1 )

ライセンス: Link先を確認
Sangwoo Jeon, Jihwan Kim, Duk Y. Kim, Zaeill Kim, Taek Jeong, Su-Yong Lee, (参考訳) マイクロ波信号と光アイドラーモードが絡み合ったマイクロ波量子照明は、信号とアイドラーモードのジョイント測定による準最適性能を実現することができる。 本稿では、まず、イドラーモードにおける遅延線を模擬した光メモリを用いたマイクロ波量子照明のテストベッドを提案する。 これは、コヒーレント状態よりも量子的優位性を維持しながら、光メモリの損失を補うために、入力された2モードのスクイーズがどれだけ必要かを提供する。 メモリが失われると、入力された2モードのスクイージングは、光モードにおける高い協調性によって高くなる。 本稿では,低反射率ビームスプリッタ,電気光学式位相共役器,光子数分解検出器からなる単一モード位相共役受信機を提案する。 新たに提案した受信機の性能は,局所測定における最大量子優位性に近づいた。 さらに、メモリの損失に対して堅牢でありながら、オンオフ検出しても量子優位性が得られる。

Microwave quantum illumination with entangled pairs of microwave signal and optical idler modes, can achieve the sub-optimal performance with joint measurement of the signal and idler modes. Here, we first propose a testbed of microwave quantum illumination with an optical memory which is simulated with a delay line in the idler mode. It provides how much an input two-mode squeezing is necessary to compensate the loss of the optical memory, while maintaining quantum advantage over coherent state. When the memory is lossy, the input two-mode squeezing has to be higher through high cooperativity in the optical mode. Under the testbed, we propose a single-mode phase conjugate receiver that consists of a low-reflectivity beam splitter, an electro-optomechanical phase conjugator, and a photon number resolving detector. The performance of the newly proposed receiver approaches the maximum quantum advantage for local measurement. Furthermore, the quantum advantage is obtained even with an on-off detection while being robust against the loss of the memory.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# PuTR: 分離されたオンラインマルチオブジェクト追跡のための純変換器

PuTR: A Pure Transformer for Decoupled and Online Multi-Object Tracking ( http://arxiv.org/abs/2405.14119v1 )

ライセンス: Link先を確認
Chongwei Liu, Haojie Li, Zhihui Wang, Rui Xu, (参考訳) 近年のMOT(Multi-Object Tracking)の進歩は、非結合型トラッキング・バイ・検出オンラインパラダイムにおける短期的関連において、顕著な成功を収めている。 しかし、長期的な追跡は依然として困難な課題である。 グラフベースのアプローチでは、トラジェクトリを疎結合なグラフとしてモデル化することでこの問題に対処できるが、その非オンライン性はリアルタイムアプリケーションに障害をもたらす。 本稿では, トラジェクトリグラフが有向非巡回グラフであることを示す。 二項行列がトランスフォーマーのアテンションマスクと一致するのは偶然であり、オブジェクトシーケンスはちょうど自然な入力シーケンスとして機能する。 直感的には、純粋なトランスフォーマーは、疎結合でオンラインな方法で、短・長期の関連を自然に統一することができる。 実験の結果,従来のトランスフォーマーアーキテクチャは,DanceTrack,SportsMOT,MOT17,MOT20という4つのデータセットにまたがる既存の基本手法と比較して,相関問題に自然に適合し,強力なベースラインを実現していることがわかった。 さらに、分離されたプロパティは、効率的なトレーニングと推論を可能にする。 この作業は、MOTタスクのための有望なTransformerベースのアプローチの先駆者であり、さらなる研究を促進するためのコードを提供する。 https://github.com/chongweiliu/PuTR

Recent advances in Multi-Object Tracking (MOT) have achieved remarkable success in short-term association within the decoupled tracking-by-detection online paradigm. However, long-term tracking still remains a challenging task. Although graph-based approaches can address this issue by modeling trajectories as a graph in the decoupled manner, their non-online nature poses obstacles for real-time applications. In this paper, we demonstrate that the trajectory graph is a directed acyclic graph, which can be represented by an object sequence arranged by frame and a binary adjacency matrix. It is a coincidence that the binary matrix matches the attention mask in the Transformer, and the object sequence serves exactly as a natural input sequence. Intuitively, we propose that a pure Transformer can naturally unify short- and long-term associations in a decoupled and online manner. Our experiments show that a classic Transformer architecture naturally suits the association problem and achieves a strong baseline compared to existing foundational methods across four datasets: DanceTrack, SportsMOT, MOT17, and MOT20, as well as superior generalizability in domain shift. Moreover, the decoupled property also enables efficient training and inference. This work pioneers a promising Transformer-based approach for the MOT task, and provides code to facilitate further research. https://github.com/chongweiliu/PuTR
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# ルイス重みサンプリングに基づく複数深度モデルのワンショット能動学習

One-shot Active Learning Based on Lewis Weight Sampling for Multiple Deep Models ( http://arxiv.org/abs/2405.14121v1 )

ライセンス: Link先を確認
Sheng-Jun Huang, Yi Li, Yiming Sun, Ying-Peng Tang, (参考訳) 複数のターゲットモデルに対するアクティブラーニング(AL)は、ラベル付きデータクエリの削減と、複数のモデルを並列に効果的にトレーニングすることを目的としている。 既存のALアルゴリズムはしばしば反復モデルトレーニングに依存しており、特に深層モデルでは計算コストがかかる。 本稿では,この課題に対処する一発AL手法を提案する。 具体的には、異なるネットワークバックボーンを用いて同一データセットの異なる表現を抽出し、$\ell_p$-regressionの定式化により各表現上の線形予測層を積極的に学習する。 回帰問題は、表象全体にわたるルイス重みの最大値に基づいて、ラベルのないインスタンスのサンプリングと再重み付けによって、ほぼ解決される。 必要なサンプルの数に関する上限は、$p\in [1, +\infty)$に対する厳密な解析を持つ。 11のベンチマークによる実験結果から,我々のワンショットアプローチは,複数のターゲットモデルに対する最先端のAL手法と競合する性能を発揮することが示された。

Active learning (AL) for multiple target models aims to reduce labeled data querying while effectively training multiple models concurrently. Existing AL algorithms often rely on iterative model training, which can be computationally expensive, particularly for deep models. In this paper, we propose a one-shot AL method to address this challenge, which performs all label queries without repeated model training. Specifically, we extract different representations of the same dataset using distinct network backbones, and actively learn the linear prediction layer on each representation via an $\ell_p$-regression formulation. The regression problems are solved approximately by sampling and reweighting the unlabeled instances based on their maximum Lewis weights across the representations. An upper bound on the number of samples needed is provided with a rigorous analysis for $p\in [1, +\infty)$. Experimental results on 11 benchmarks show that our one-shot approach achieves competitive performances with the state-of-the-art AL methods for multiple target models.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# プロンプトをベースとした継続的学習を専門とするMixture of Experts

Mixture of Experts Meets Prompt-Based Continual Learning ( http://arxiv.org/abs/2405.14124v1 )

ライセンス: Link先を確認
Minh Le, An Nguyen, Huy Nguyen, Trang Nguyen, Trang Pham, Linh Van Ngo, Nhat Ho, (参考訳) 学習可能なパラメータがほとんどなく、メモリバッファを必要とせずとも、破滅的な忘れ込みを効果的に防ぐために、他の連続学習ソリューションと比較して、事前訓練されたモデルのパワーをエクスプロイトベースのアプローチは際立っている。 既存のプロンプトベースの連続学習手法は、最先端のパフォーマンスにプロンプトを活用するのに優れているが、プロンプトの有効性に関する理論的説明が欠けていることが多い。 本稿では、連続学習におけるこのような利点をいかに促進するかを解明するために理論的解析を行い、即興設計の新しい視点を提供する。 まず、視覚変換器のような事前学習モデルの注意ブロックは、本質的には、線形専門家と二次ゲーティングスコア関数によって特徴づけられる、専門家アーキテクチャの特別な混合を符号化していることを示す。 この実現によって私たちは,新しいタスク固有の専門家の追加としてプレフィックスチューニングの新たな視点を提供することができ,非線形残留ゲート(NoRGa)と呼ばれる新しいゲーティング機構の設計を刺激することができる。 非線形活性化と残差接続の一体化により、NoRGaはパラメータ効率を保ちながら連続学習性能を向上させる。 NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。

Exploiting the power of pre-trained models, prompt-based approaches stand out compared to other continual learning solutions in effectively preventing catastrophic forgetting, even with very few learnable parameters and without the need for a memory buffer. While existing prompt-based continual learning methods excel in leveraging prompts for state-of-the-art performance, they often lack a theoretical explanation for the effectiveness of prompting. This paper conducts a theoretical analysis to unravel how prompts bestow such advantages in continual learning, thus offering a new perspective on prompt design. We first show that the attention block of pre-trained models like Vision Transformers inherently encodes a special mixture of experts architecture, characterized by linear experts and quadratic gating score functions. This realization drives us to provide a novel view on prefix tuning, reframing it as the addition of new task-specific experts, thereby inspiring the design of a novel gating mechanism termed Non-linear Residual Gates (NoRGa). Through the incorporation of non-linear activation and residual connection, NoRGa enhances continual learning performance while preserving parameter efficiency. The effectiveness of NoRGa is substantiated both theoretically and empirically across diverse benchmarks and pretraining paradigms.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# ALI-Agent:エージェントによる評価によるLLMと人的価値のアライメントの評価

ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation ( http://arxiv.org/abs/2405.14125v1 )

ライセンス: Link先を確認
Jingnan Zheng, Han Wang, An Zhang, Tai D. Nguyen, Jun Sun, Tat-Seng Chua, (参考訳) 大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図せず有害なコンテンツも引き起こし、ユーザや社会に深刻なリスクを及ぼす可能性がある。 これらのリスクを軽減するため、現在の評価ベンチマークでは、専門家が設計したコンテキストシナリオを使用して、LLMが人的価値とどの程度うまく一致しているかを評価する。 しかし、これらのベンチマークの労働集約性はテスト範囲を制限し、様々なオープンワールドのユースケースに一般化し、稀だが重要な長期的リスクを特定する能力を妨げている。 さらに、これらの静的テストはLLMの急速な進化に対応できず、タイムリーなアライメントの問題を評価することは困難である。 これらの課題に対処するために, LLM エージェントの自律能力を活用し, 奥行き及び適応アライメントアセスメントアセスメントを行う評価フレームワーク ALI-Agent を提案する。 ALI-Agentはエミュレーションとリファインメントの2つの主要な段階を通している。 Emulationの段階では、ALI-Agentは現実的なテストシナリオの生成を自動化する。 リファインメント段階では、長期的リスクを調査するためにシナリオを反復的に洗練します。 具体的には、ALI-Agentには、テストシナリオ生成をガイドするメモリモジュール、目標のLSMからのフィードバックの評価などのタスクにおける人的労力を削減するツール使用モジュール、テストを洗練するためのアクションモジュールが組み込まれている。 ALI-Agentは、一般的な評価の枠組みとして、モデルミスアライメントを効果的に識別する。 システム分析はまた、生成されたテストシナリオが意味のあるユースケースを表すこと、および長期的リスクを調査するための強化された措置を統合することを検証する。 私たちのコードはhttps://github.com/SophieZheng998/ALI-Agent.gitで利用可能です。

Large Language Models (LLMs) can elicit unintended and even harmful content when misaligned with human values, posing severe risks to users and society. To mitigate these risks, current evaluation benchmarks predominantly employ expert-designed contextual scenarios to assess how well LLMs align with human values. However, the labor-intensive nature of these benchmarks limits their test scope, hindering their ability to generalize to the extensive variety of open-world use cases and identify rare but crucial long-tail risks. Additionally, these static tests fail to adapt to the rapid evolution of LLMs, making it hard to evaluate timely alignment issues. To address these challenges, we propose ALI-Agent, an evaluation framework that leverages the autonomous abilities of LLM-powered agents to conduct in-depth and adaptive alignment assessments. ALI-Agent operates through two principal stages: Emulation and Refinement. During the Emulation stage, ALI-Agent automates the generation of realistic test scenarios. In the Refinement stage, it iteratively refines the scenarios to probe long-tail risks. Specifically, ALI-Agent incorporates a memory module to guide test scenario generation, a tool-using module to reduce human labor in tasks such as evaluating feedback from target LLMs, and an action module to refine tests. Extensive experiments across three aspects of human values--stereotypes, morality, and legality--demonstrate that ALI-Agent, as a general evaluation framework, effectively identifies model misalignment. Systematic analysis also validates that the generated test scenarios represent meaningful use cases, as well as integrate enhanced measures to probe long-tail risks. Our code is available at https://github.com/SophieZheng998/ALI-Agent.git
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 現代の時間依存ニューラルネットにおけるタイムステップ埋め込みの消失

The Disappearance of Timestep Embedding in Modern Time-Dependent Neural Networks ( http://arxiv.org/abs/2405.14126v1 )

ライセンス: Link先を確認
Bum Jun Kim, Yoshinobu Kawahara, Sang Woo Kim, (参考訳) 力学系はしばしば時間変化があり、そのモデリングには時間に関して進化する関数が必要である。 ニューラル常微分方程式のような最近の研究では、時間に応じて異なるニューラルネットワークを提供する時間依存ニューラルネットワークが提案されている。 しかし、時間依存ニューラルネットワークを構築するというアーキテクチャ上の選択は、その時間認識に大きく影響するが、現在の状態では十分な検証が不十分である、と我々は主張する。 本研究では,現代の時間依存ニューラルネットワークのアーキテクチャを詳細に分析する。 本稿では、時間依存ニューラルネットワークの時間認識を無効にする時間ステップ埋め込みの脆弱性を報告する。 さらに, この脆弱性は拡散過程中に異なる時間ステップを識別するために, タイムステップ埋め込みを組み込んだ類似のアーキテクチャを用いているため, 拡散モデルでも観察できることがわかった。 我々の分析は、この現象の詳細な説明と、根本原因に対処するいくつかの解決策を提供する。 ニューラル常微分方程式と拡散モデルの実験により,提案手法による生存時間認識の確保が性能を向上し,現在の実装に十分な時間依存性が欠如していることが観察された。

Dynamical systems are often time-varying, whose modeling requires a function that evolves with respect to time. Recent studies such as the neural ordinary differential equation proposed a time-dependent neural network, which provides a neural network varying with respect to time. However, we claim that the architectural choice to build a time-dependent neural network significantly affects its time-awareness but still lacks sufficient validation in its current states. In this study, we conduct an in-depth analysis of the architecture of modern time-dependent neural networks. Here, we report a vulnerability of vanishing timestep embedding, which disables the time-awareness of a time-dependent neural network. Furthermore, we find that this vulnerability can also be observed in diffusion models because they employ a similar architecture that incorporates timestep embedding to discriminate between different timesteps during a diffusion process. Our analysis provides a detailed description of this phenomenon as well as several solutions to address the root cause. Through experiments on neural ordinary differential equations and diffusion models, we observed that ensuring alive time-awareness via proposed solutions boosted their performance, which implies that their current implementations lack sufficient time-dependency.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 画像方向ナビゲーション用変圧器

Transformers for Image-Goal Navigation ( http://arxiv.org/abs/2405.14128v1 )

ライセンス: Link先を確認
Nikhilanj Pelluri, (参考訳) 視覚知覚とナビゲーションは、具体的人工知能の分野における主要な焦点領域として現れてきた。 本稿では,カメラ上の画像のみに頼って,エージェントが画像によって特定された目標にナビゲートする作業である画像ゴールナビゲーションの課題について考察する。 このタスクは、堅牢なシーン理解、目標指向の計画、長距離ナビゲーションを必要とするため、特に難しい。 既存のほとんどのアプローチは、オンライン強化学習を通じてトレーニングされたリカレントニューラルネットワークに依存するナビゲーションポリシーを学習する。 しかし、そのような政策の訓練にはかなりの計算資源と時間が必要であり、これらのモデルの性能は長距離航法では信頼できない。 本研究では,画像目標,カメラ観測,ロボットの過去の動作を共同でモデル化し,将来的な行動を予測できる生成トランスフォーマーモデルを提案する。 我々は、現状の認識モデルとナビゲーションポリシーを使用して、環境とのリアルタイムインタラクションを必要とせずに、堅牢な目標条件付きポリシーを学習する。 本モデルでは,長期間の地平線上での視覚情報の収集と関連性を実証し,ナビゲーションの効率化に寄与する。

Visual perception and navigation have emerged as major focus areas in the field of embodied artificial intelligence. We consider the task of image-goal navigation, where an agent is tasked to navigate to a goal specified by an image, relying only on images from an onboard camera. This task is particularly challenging since it demands robust scene understanding, goal-oriented planning and long-horizon navigation. Most existing approaches typically learn navigation policies reliant on recurrent neural networks trained via online reinforcement learning. However, training such policies requires substantial computational resources and time, and performance of these models is not reliable on long-horizon navigation. In this work, we present a generative Transformer based model that jointly models image goals, camera observations and the robot's past actions to predict future actions. We use state-of-the-art perception models and navigation policies to learn robust goal conditioned policies without the need for real-time interaction with the environment. Our model demonstrates capability in capturing and associating visual information across long time horizons, helping in effective navigation.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# AlignGPT:適応的アライメント能力を持つ多モード大言語モデル

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability ( http://arxiv.org/abs/2405.14129v1 )

ライセンス: Link先を確認
Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai, (参考訳) MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。 MLLMのコアは、クロスモーダルアライメントを実現する能力にある。 この目標を達成するために、現在のMLLMは通常、事前学習フェーズと命令調整フェーズという2段階の訓練パラダイムに従う。 彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。 第一に、トレーニング前の段階では、モデルは通常、すべての画像とテキストのペアが一様に整列していると仮定するが、実際には異なる画像とテキストのペア間のアライメントの程度は矛盾する。 第二に、現在ファインタニングに使われている命令には様々なタスクが組み込まれており、異なるタスクの指示は通常異なるレベルのアライメント能力を必要とするが、以前のMLLMはこれらの異なるアライメントのニーズを軽視していた。 これらの問題に対処するため、我々は新しいマルチモーダルな大規模言語モデルAlignGPTを提案する。 事前学習の段階では、すべての画像テキストペアを平等に扱う代わりに、異なる画像テキストペアに異なるレベルのアライメント能力を割り当てる。 そして、命令調整フェーズにおいて、異なる命令の動的アライメント要求を満たすために、これらの異なるアライメント能力のレベルを適応的に組み合わせる。 大規模な実験結果から,12ベンチマークの競合性能が得られた。

Multimodal Large Language Models (MLLMs) are widely regarded as crucial in the exploration of Artificial General Intelligence (AGI). The core of MLLMs lies in their capability to achieve cross-modal alignment. To attain this goal, current MLLMs typically follow a two-phase training paradigm: the pre-training phase and the instruction-tuning phase. Despite their success, there are shortcomings in the modeling of alignment capabilities within these models. Firstly, during the pre-training phase, the model usually assumes that all image-text pairs are uniformly aligned, but in fact the degree of alignment between different image-text pairs is inconsistent. Secondly, the instructions currently used for finetuning incorporate a variety of tasks, different tasks's instructions usually require different levels of alignment capabilities, but previous MLLMs overlook these differentiated alignment needs. To tackle these issues, we propose a new multimodal large language model AlignGPT. In the pre-training stage, instead of treating all image-text pairs equally, we assign different levels of alignment capabilities to different image-text pairs. Then, in the instruction-tuning phase, we adaptively combine these different levels of alignment capabilities to meet the dynamic alignment needs of different instructions. Extensive experimental results show that our model achieves competitive performance on 12 benchmarks.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# スパースミキサーにおける摂動型コサインルータの統計的有用性

Statistical Advantages of Perturbing Cosine Router in Sparse Mixture of Experts ( http://arxiv.org/abs/2405.14131v1 )

ライセンス: Link先を確認
Huy Nguyen, Pedram Akbarian, Trang Pham, Trang Nguyen, Shujian Zhang, Nhat Ho, (参考訳) The cosine router in sparse Mixture of Experts (MoE) is recently appeared as a attractive alternative to the conventional linear router。 実際、コサインルータは画像および言語タスクにおいて良好な性能を示し、表現崩壊問題を緩和する優れた能力を示し、しばしばパラメータ冗長性と限られた表現ポテンシャルをもたらす。 実証的な成功にもかかわらず、スパースMoEにおけるコサインルータの包括的解析は不足している。 余弦ルーティングスパース MoE の最小二乗推定を考えると、ある種の偏微分方程式によるコサインルータのモデルパラメータの内在的相互作用により、専門家の構造に関係なく、専門家とモデルのパラメータの推定速度は $\mathcal{O}(1/\log^{\tau}(n)$ と同じくらい遅く、$\tau > 0$ は定数であり、$n$ はサンプルサイズであることを示す。 驚くべきことに、これらの悲観的な非多項式収束速度は、コサインルータを安定化するために広く使われている技法によって回避することができる。 専門家関数の強い同定可能な設定の下で、摂動コサインルーティングスパースMOEの下での専門家とモデルパラメータの両方の推定率が多項式率に大きく改善されることを証明した。 最後に,我々の理論的結果を実証的に検証するために,合成データ設定と実データ設定の両方において広範なシミュレーション研究を行う。

The cosine router in sparse Mixture of Experts (MoE) has recently emerged as an attractive alternative to the conventional linear router. Indeed, the cosine router demonstrates favorable performance in image and language tasks and exhibits better ability to mitigate the representation collapse issue, which often leads to parameter redundancy and limited representation potentials. Despite its empirical success, a comprehensive analysis of the cosine router in sparse MoE has been lacking. Considering the least square estimation of the cosine routing sparse MoE, we demonstrate that due to the intrinsic interaction of the model parameters in the cosine router via some partial differential equations, regardless of the structures of the experts, the estimation rates of experts and model parameters can be as slow as $\mathcal{O}(1/\log^{\tau}(n))$ where $\tau > 0$ is some constant and $n$ is the sample size. Surprisingly, these pessimistic non-polynomial convergence rates can be circumvented by the widely used technique in practice to stabilize the cosine router -- simply adding noises to the $\mathbb{L}_{2}$ norms in the cosine router, which we refer to as \textit{perturbed cosine router}. Under the strongly identifiable settings of the expert functions, we prove that the estimation rates for both the experts and model parameters under the perturbed cosine routing sparse MoE are significantly improved to polynomial rates. Finally, we conduct extensive simulation studies in both synthetic and real data settings to empirically validate our theoretical results.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# テキスト・ツー・モデル:全方向パーソナライズのためのテキスト記述型ニューラルネットワーク拡散

Text-to-Model: Text-Conditioned Neural Network Diffusion for Train-Once-for-All Personalization ( http://arxiv.org/abs/2405.14132v1 )

ライセンス: Link先を確認
Zexi Li, Lingzhi Gao, Chao Wu, (参考訳) 生成人工知能(GenAI)は、テキストからテキストまでの大規模言語モデル、テキストから画像への安定した拡散、テキストからビデオへのソラなど、多岐にわたる世界的知識の理解と人間の言語からのコンテンツ生成において大きな進歩を遂げている。 本稿では、テキスト・モデル生成におけるGenAIの能力について検討し、GenAIがAI自体のパラメータに埋め込まれた超レベルの知識を理解できるかを検討する。 具体的には、テキストプロンプトを用いて、多様なエンドユーザやタスクに対してパーソナライズされたモデルを生成することを目的とした、Train-once-for-allパーソナライゼーションと呼ばれる現実的なシナリオについて検討する。 最近のニューラルネットワーク拡散の出現に触発されて、私たちはTinaを紹介した。 Tinaは、CLIPモデルを使用して埋め込まれたタスク記述に条件付き拡散トランスフォーマーモデルを活用する。 私たちの設計では、潜在的なパーソナライズされたタスクの数(例えば、$1.73\times10^{13}$)にもかかわらず、Tinaは、小さなデータセット(\sim 1000$)でトレーニングされたとしても、顕著な分布内および分布外一般化を示している。 さらに,ゼロショット/ファウショット画像のプロンプト,パーソナライズされたクラス数,自然言語記述のプロンプト,未知のエンティティの予測によって,世界の知識をどう理解するかを検証する。

Generative artificial intelligence (GenAI) has made significant progress in understanding world knowledge and generating content from human languages across various modalities, like text-to-text large language models, text-to-image stable diffusion, and text-to-video Sora. While in this paper, we investigate the capability of GenAI for text-to-model generation, to see whether GenAI can comprehend hyper-level knowledge embedded within AI itself parameters. Specifically, we study a practical scenario termed train-once-for-all personalization, aiming to generate personalized models for diverse end-users and tasks using text prompts. Inspired by the recent emergence of neural network diffusion, we present Tina, a text-conditioned neural network diffusion for train-once-for-all personalization. Tina leverages a diffusion transformer model conditioned on task descriptions embedded using a CLIP model. Despite the astronomical number of potential personalized tasks (e.g., $1.73\times10^{13}$), by our design, Tina demonstrates remarkable in-distribution and out-of-distribution generalization even trained on small datasets ($\sim 1000$). We further verify whether and how \Tina understands world knowledge by analyzing its capabilities under zero-shot/few-shot image prompts, different numbers of personalized classes, prompts of natural language descriptions, and predicting unseen entities.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# クラス不均衡ノード分類のための損失関数の自動探索

Automated Loss function Search for Class-imbalanced Node Classification ( http://arxiv.org/abs/2405.14133v1 )

ライセンス: Link先を確認
Xinyu Guo, Kai Wu, Xiaoyu Zhang, Jing Liu, (参考訳) クラス不均衡ノード分類タスクは、現実世界のシナリオで一般的である。 異なるクラスにまたがるノードの不均一な分散のため、高品質なノード表現の学習は依然として困難な作業である。 損失関数の工学はこの問題に対処する有望な可能性を示している。 損失関数を巧妙に設計し、異なるカテゴリのノードの量とネットワークのトポロジーの情報を利用して、バイアスのないノード表現を学習する。 しかしながら、これらの損失関数の設計は人間の知識に大きく依存しており、特定の目標タスクへの適応性が制限されている。 本稿では,この課題に対処するために,高性能でフレキシブルで汎用的な自動損失関数探索フレームワークを提案する。 グラフニューラルネットワークとデータセットを組み合わせた15の組合せにおいて,我々のフレームワークは最先端の手法と比較して,大幅な性能向上を実現している。 さらに,グラフ構造データにおけるホモフィリは,提案フレームワークの転送可能性に大きく寄与すると考えられる。

Class-imbalanced node classification tasks are prevalent in real-world scenarios. Due to the uneven distribution of nodes across different classes, learning high-quality node representations remains a challenging endeavor. The engineering of loss functions has shown promising potential in addressing this issue. It involves the meticulous design of loss functions, utilizing information about the quantities of nodes in different categories and the network's topology to learn unbiased node representations. However, the design of these loss functions heavily relies on human expert knowledge and exhibits limited adaptability to specific target tasks. In this paper, we introduce a high-performance, flexible, and generalizable automated loss function search framework to tackle this challenge. Across 15 combinations of graph neural networks and datasets, our framework achieves a significant improvement in performance compared to state-of-the-art methods. Additionally, we observe that homophily in graph-structured data significantly contributes to the transferability of the proposed framework.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 不均一グラフを用いた地理空間領域の学習

Learning Geospatial Region Embedding with Heterogeneous Graph ( http://arxiv.org/abs/2405.14135v1 )

ライセンス: Link先を確認
Xingchen Zou, Jiani Huang, Xixuan Hao, Yuhao Yang, Haomin Wen, Yibo Yan, Chao Huang, Yuxuan Liang, (参考訳) 効果的な地理空間埋め込みの学習は、都市分析や地球モニタリングなど、一連の地理空間的応用に不可欠である。 しかし、包括的領域表現の学習は、第一に、効果的な領域内特徴表現の欠如、第二に、複雑な領域間の依存関係から学ぶことの難しさの2つの重要な課題を示す。 本稿では,様々な下流タスクに対する包括的領域埋め込みを学習するための有効なヘテロジニアスグラフ構造であるGeoHGを提案する。 具体的には、地理的領域分割とPOI(point-of-interest)統合による衛星画像表現学習を、表現的地域内特徴のために調整する。 さらに、GeoHGは情報的空間依存性と社会環境特性を強力なヘテロジニアスグラフに統合し、高次の地域間関係の明示的なモデリングを促進する。 地域内特徴と地域間相関は、様々な下流タスクのためのモデルに依存しないグラフ学習フレームワークによってシームレスに統合される。 過剰なデータ不足下でも(トレーニングデータの5%しか持たない)、GeoHGが既存の方法と比較してジオプレディションタスクにおける有効性を示す実験が広く行われている。 解釈可能な領域表現により、GeoHGは領域間で強力な一般化能力を示す。 コードとデータは、紙の通知で公開します。

Learning effective geospatial embeddings is crucial for a series of geospatial applications such as city analytics and earth monitoring. However, learning comprehensive region representations presents two significant challenges: first, the deficiency of effective intra-region feature representation; and second, the difficulty of learning from intricate inter-region dependencies. In this paper, we present GeoHG, an effective heterogeneous graph structure for learning comprehensive region embeddings for various downstream tasks. Specifically, we tailor satellite image representation learning through geo-entity segmentation and point-of-interest (POI) integration for expressive intra-regional features. Furthermore, GeoHG unifies informative spatial interdependencies and socio-environmental attributes into a powerful heterogeneous graph to encourage explicit modeling of higher-order inter-regional relationships. The intra-regional features and inter-regional correlations are seamlessly integrated by a model-agnostic graph learning framework for diverse downstream tasks. Extensive experiments demonstrate the effectiveness of GeoHG in geo-prediction tasks compared to existing methods, even under extreme data scarcity (with just 5% of training data). With interpretable region representations, GeoHG exhibits strong generalization capabilities across regions. We will release code and data upon paper notification.
翻訳日:2024-05-24 19:15:00 公開日:2024-05-23
# 二元化による効率的なマルチタスク距離予測器

Efficient Multitask Dense Predictor via Binarization ( http://arxiv.org/abs/2405.14136v1 )

ライセンス: Link先を確認
Yuzhang Shang, Dan Xu, Gaowen Liu, Ramana Rao Kompella, Yan Yan, (参考訳) 濃密な予測のためのマルチタスク学習は、コンピュータビジョンにおいて重要な領域として現れ、多様な画素間関係の予測タスクの同時処理を可能にしている。 しかし、最先端モデル(SoTA)のかなりの計算要求は、しばしばその広範な展開を制限する。 本稿では,資源集約型マルチタスク密度予測器を圧縮するネットワークバイナライゼーションを導入することで,この問題に対処する。 具体的には、BNN(Binary Neural Networks)を介してマルチタスクの高密度予測モデルを大幅に高速化し、同時にモデル性能を維持・改善することを目的としている。 この目標を達成するために,Binary Multi-task Dense Predictor, Bi-MTDP, and severalvariants of Bi-MTDP, which which a multi-task dense predictor are constructed via specific binarized module。 この予測器の系統的解析により,バイナライゼーションによる性能低下は主に情報劣化が原因であることが判明した。 この問題に対処するために,ガウス分布を満たす下流タスクの表現を前方伝播で強制する情報ボトルネック層を導入する。 さらに,後方伝播における情報流の方向を補正する知識蒸留機構を導入する。 興味深いことに、Bi-MTDPの1つの変種はフル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)を上回っている。 この結果から, Bi-MTDP は単に性能と効率の単純なトレードオフであるだけでなく,マルチタスクアーキテクチャによる冗長な情報フローの利点であることが示唆された。 コードはhttps://github.com/42Shawn/BiMTDPで入手できる。

Multi-task learning for dense prediction has emerged as a pivotal area in computer vision, enabling simultaneous processing of diverse yet interrelated pixel-wise prediction tasks. However, the substantial computational demands of state-of-the-art (SoTA) models often limit their widespread deployment. This paper addresses this challenge by introducing network binarization to compress resource-intensive multi-task dense predictors. Specifically, our goal is to significantly accelerate multi-task dense prediction models via Binary Neural Networks (BNNs) while maintaining and even improving model performance at the same time. To reach this goal, we propose a Binary Multi-task Dense Predictor, Bi-MTDP, and several variants of Bi-MTDP, in which a multi-task dense predictor is constructed via specified binarized modules. Our systematical analysis of this predictor reveals that performance drop from binarization is primarily caused by severe information degradation. To address this issue, we introduce a deep information bottleneck layer that enforces representations for downstream tasks satisfying Gaussian distribution in forward propagation. Moreover, we introduce a knowledge distillation mechanism to correct the direction of information flow in backward propagation. Intriguingly, one variant of Bi-MTDP outperforms full-precision (FP) multi-task dense prediction SoTAs, ARTC (CNN-based) and InvPT (ViT-Based). This result indicates that Bi-MTDP is not merely a naive trade-off between performance and efficiency, but is rather a benefit of the redundant information flow thanks to the multi-task architecture. Code is available at https://github.com/42Shawn/BiMTDP.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 網膜イメージファウンデーションモデルRET-CLIPの臨床診断報告

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports ( http://arxiv.org/abs/2405.14137v1 )

ライセンス: Link先を確認
Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang, (参考訳) Vision-Language Foundationのモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されているが、眼科や広範囲の医学的応用の探究は依然として限られている。 課題は、基礎モデルのトレーニングのためのラベル付きデータの欠如である。 この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。 我々の基礎モデルであるRET-CLIPは、左目、右目、患者レベルに焦点をあてて実世界の臨床シナリオを反映し、カラーファンドス写真(CFP)の一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。 RET-CLIPは糖尿病網膜症、緑内障、多発性疾患診断、多発性疾患の多ラベル分類という4つの重要な診断カテゴリにまたがる8つのデータセットで既存のベンチマークよりも優れており、基礎モデルの性能と汎用性を示している。 sourseコードと事前訓練されたモデルはhttps://github.com/sStonemason/RET-CLIPで入手できる。

The Vision-Language Foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader medical applications remains limited. The challenge is the lack of labeled data for the training of foundation model. To handle this issue, a CLIP-style retinal image foundation model is developed in this paper. Our foundation model, RET-CLIP, is specifically trained on a dataset of 193,865 patients to extract general features of color fundus photographs (CFPs), employing a tripartite optimization strategy to focus on left eye, right eye, and patient level to reflect real-world clinical scenarios. Extensive experiments demonstrate that RET-CLIP outperforms existing benchmarks across eight diverse datasets spanning four critical diagnostic categories: diabetic retinopathy, glaucoma, multiple disease diagnosis, and multi-label classification of multiple diseases, which demonstrate the performance and generality of our foundation model. The sourse code and pre-trained model are available at https://github.com/sStonemason/RET-CLIP.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 未ドープInAs/AlGaSb表面量子井戸における電界効果2次元電子ガスの高透明性誘導超伝導

High transparency induced superconductivity in field effect two-dimensional electron gases in undoped InAs/AlGaSb surface quantum wells ( http://arxiv.org/abs/2405.14138v1 )

ライセンス: Link先を確認
E. Annelise Bergeron, F. Sfigakis, A. Elbaroudy, A. W. M. Jordan, F. Thompson, George Nichols, Y. Shi, Man Chun Tam, Z. R. Wasilewski, J. Baugh, (参考訳) 本研究では,24nm幅のヒ素表面量子井戸における電界効果2次元電子ガス(2DEG)の輸送特性について報告する。 量子化整数量子ホールプラトーを持つ高品質の単一サブバンド磁気輸送は、B = 18 Tの磁場において、最大8$\times 10^{11}$ /cm$^2$までの電子密度で$\nu=2$の充填係数で観測される。 ピークモビリティは、11,000 cm$^2$/Vs at 2$\times 10^{12}$ /cm$^2$である。 124 meV$\cdot$\r{A} までの大きなラシュバスピン軌道係数は、弱い反局在化(WAL)測定によって得られる。 Nb系超伝導体-正規超伝導体(SNS)接合では, 超伝導接触体から78$-99%の界面透過性が得られることが実証された。 これらの透明性は、エピタキシャルに成長した超伝導体と同等である。 これらのSNS接続は特性電圧$I_c R_{\text{N}}$ 870$\mu$V、臨界電流密度$9.6$\mu$A/$\mu$mを示す。

We report on transport characteristics of field effect two-dimensional electron gases (2DEG) in 24 nm wide indium arsenide surface quantum wells. High quality single-subband magnetotransport with clear quantized integer quantum Hall plateaus are observed to filling factor $\nu=2$ in magnetic fields of up to B = 18 T, at electron densities up to 8$\times 10^{11}$ /cm$^2$. Peak mobility is 11,000 cm$^2$/Vs at 2$\times 10^{12}$ /cm$^2$. Large Rashba spin-orbit coefficients up to 124 meV$\cdot$\r{A} are obtained through weak anti-localization (WAL) measurements. Proximitized superconductivity is demonstrated in Nb-based superconductor-normal-superconductor (SNS) junctions, yielding 78$-$99% interface transparencies from superconducting contacts fabricated ex-situ (post-growth), using two commonly-used experimental techniques for measuring transparencies. These transparencies are on a par with those reported for epitaxially-grown superconductors. These SNS junctions show characteristic voltages $I_c R_{\text{N}}$ up to 870 $\mu$V and critical current densities up to 9.6 $\mu$A/$\mu$m, among the largest values reported for Nb-InAs SNS devices.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# バランス・ワイヤ・イン・アフォーメーションへの貢献: 単純で生物学的に証明可能な神経可塑性規則からのバックプロパゲーションの創出

Contribute to balance, wire in accordance: Emergence of backpropagation from a simple, bio-plausible neuroplasticity rule ( http://arxiv.org/abs/2405.14139v1 )

ライセンス: Link先を確認
Xinhao Fan, Shreesh P Mysore, (参考訳) バックプロパゲーション(BP)は、機械学習の進歩において重要な役割を担い、計算応用と生物学的および人工ニューラルネットワークの比較研究に依然として不可欠である。 BPの脳への実装は広く使われているが、前と後ろの接続間の重みの対称性の必要性や、計算の異なる前方と後方のフェーズの必要性など、その生物学的な妥当性に疑問が呈されることが多い。 ここでは,脳にBPを実装するメカニズムを提供する新しい神経可塑性規則を導入する。 古典的なヘッブの規則と同様に、この規則は興奮性および抑制性の入力のバランスを保ち、逆行性シグナルのバランスを保ち、徐々に遅い3つの時間スケール(ニューラルファイア、逆行性シグナリング、神経可塑性)で機能する。 我々は、各ニューロンが、その発射速度に加えて、クレジットと呼ばれる内部状態を持っていると仮定する。 発射速度の平衡を達成した後、神経細胞は後シナプスニューロンのE-Iバランスへの寄与に基づいて、逆行性シグナルによってクレジットを受け取る。 ネットワークの信用分布が安定するにつれて、これらのシナプス前ニューロンからの接続が強化され、シナプス後ニューロンのバランスに大きく寄与する。 我々は,我々の学習規則が階層型ニューラルネットワークのBPを近似なしで正確に再現できることを数学的に証明した。 ニューラルネットワークのシミュレーションにより、このルールは学習率に応じて、ネットワーク内の様々なコミュニティ構造を誘導することが明らかになった。 この単純な理論的な枠組みは、生物学的実験を通じて評価できる検証可能な仮定と予測を備えた、生物学的に妥当なBPの実装を示す。

Backpropagation (BP) has been pivotal in advancing machine learning and remains essential in computational applications and comparative studies of biological and artificial neural networks. Despite its widespread use, the implementation of BP in the brain remains elusive, and its biological plausibility is often questioned due to inherent issues such as the need for symmetry of weights between forward and backward connections, and the requirement of distinct forward and backward phases of computation. Here, we introduce a novel neuroplasticity rule that offers a potential mechanism for implementing BP in the brain. Similar in general form to the classical Hebbian rule, this rule is based on the core principles of maintaining the balance of excitatory and inhibitory inputs as well as on retrograde signaling, and operates over three progressively slower timescales: neural firing, retrograde signaling, and neural plasticity. We hypothesize that each neuron possesses an internal state, termed credit, in addition to its firing rate. After achieving equilibrium in firing rates, neurons receive credits based on their contribution to the E-I balance of postsynaptic neurons through retrograde signaling. As the network's credit distribution stabilizes, connections from those presynaptic neurons are strengthened that significantly contribute to the balance of postsynaptic neurons. We demonstrate mathematically that our learning rule precisely replicates BP in layered neural networks without any approximations. Simulations on artificial neural networks reveal that this rule induces varying community structures in networks, depending on the learning rate. This simple theoretical framework presents a biologically plausible implementation of BP, with testable assumptions and predictions that may be evaluated through biological experiments.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# ViHateT5:統一テキスト・テキスト・トランスモデルによるベトナムにおけるヘイトスピーチ検出の強化

ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model ( http://arxiv.org/abs/2405.14141v1 )

ライセンス: Link先を確認
Luan Thanh Nguyen, (参考訳) 近年のベトナムにおけるヘイトスピーチ検出(HSD)の進歩は、主にトランスフォーマーベースの事前訓練言語モデル、特にBERTアーキテクチャを基盤としたモデルが出現したことに起因する。 しかし、特殊な微調整モデルの必要性は、マルチタスク型HSDシステムの開発の複雑さと断片化をもたらしている。 さらに、現在の方法論のほとんどは、オンラインプラットフォーム上での人間の振る舞いを正確に捉えないWikipediaのような形式的なテキストデータセットに基づいてトレーニングされた、微調整された一般的な事前訓練モデルに焦点を当てている。 本研究では,提案する大規模ドメイン固有データセット VOZ-HSD を事前学習した T5 ベースのモデルである ViHateT5 を紹介する。 ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。 また,本実験は,モデルの有効性に関する事前学習データにおけるラベル分布の重要性も明らかにした。 我々は、VOZ-HSDデータセット、事前訓練されたチェックポイント、統合されたHSD-multitask ViHateT5モデル、GitHub上の関連ソースコードなど、研究目的で実験資料を提供しています。

Recent advancements in hate speech detection (HSD) in Vietnamese have made significant progress, primarily attributed to the emergence of transformer-based pre-trained language models, particularly those built on the BERT architecture. However, the necessity for specialized fine-tuned models has resulted in the complexity and fragmentation of developing a multitasking HSD system. Moreover, most current methodologies focus on fine-tuning general pre-trained models, primarily trained on formal textual datasets like Wikipedia, which may not accurately capture human behavior on online platforms. In this research, we introduce ViHateT5, a T5-based model pre-trained on our proposed large-scale domain-specific dataset named VOZ-HSD. By harnessing the power of a text-to-text architecture, ViHateT5 can tackle multiple tasks using a unified model and achieve state-of-the-art performance across all standard HSD benchmarks in Vietnamese. Our experiments also underscore the significance of label distribution in pre-training data on model efficacy. We provide our experimental materials for research purposes, including the VOZ-HSD dataset, pre-trained checkpoint, the unified HSD-multitask ViHateT5 model, and related source code on GitHub publicly.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 質問としてのイメージ:会話推薦のためのマルチモーダルデータセットの探索

Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation ( http://arxiv.org/abs/2405.14142v1 )

ライセンス: Link先を確認
Se-eun Yoon, Hyunsik Jeon, Julian McAuley, (参考訳) ユーザの好みを画像で表現するマルチモーダルデータセットを提案する。 これらの画像は、風景から芸術的な描写まで幅広い視覚表現を含んでいる。 ユーザーは、画像に写っているものと同様の感情を誘発する本や音楽のレコメンデーションをリクエストする。 このデータセットはタイトル生成と複数選択という2つの推奨タスクをサポートする。 大規模な基礎モデルによる実験は,これらの課題における限界を明らかにする。 特に、視覚言語モデルでは、記述を使用する言語のみと比較して大きな優位性は示されていない。 これらの能力をより有効活用するために、我々は画像の連鎖プロンプトを提案し、それによって顕著な改善がもたらされる。 コードとデータセットをリリースします。

We introduce a multimodal dataset where users express preferences through images. These images encompass a broad spectrum of visual expressions ranging from landscapes to artistic depictions. Users request recommendations for books or music that evoke similar feelings to those captured in the images, and recommendations are endorsed by the community through upvotes. This dataset supports two recommendation tasks: title generation and multiple-choice selection. Our experiments with large foundation models reveal their limitations in these tasks. Particularly, vision-language models show no significant advantage over language-only counterparts that use descriptions, which we hypothesize is due to underutilized visual capabilities. To better harness these abilities, we propose the chain-of-imagery prompting, which results in notable improvements. We release our code and datasets.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# ペンギン識別のためのハイパースペクトル画像データセット

Hyperspectral Image Dataset for Individual Penguin Identification ( http://arxiv.org/abs/2405.14146v1 )

ライセンス: Link先を確認
Youta Noboru, Yuko Ozasa, Masayuki Tanaka, (参考訳) 遠隔での個体識別は、食品の安全性、スポーツ、動物保護にとって重要である。 既存の遠隔動物識別研究は、RGB画像に重点を置いている。 本稿では,ハイパースペクトル(HS)画像を用いたペンギンの識別手法を提案する。 我々の知る限りでは、HSカメラを用いてペンギンの個体間のスペクトル差を初めて分析する研究である。 我々は,27羽のペンギンの990個のハイパースペクトル画像を含む,新しいペンギンHS画像データセットを構築した。 我々は,個々のペンギンの識別にHS画像画素のスペクトル情報を使用することを実験的に実証した。 実験の結果,個々のペンギンの識別にHS画像を用いることの有効性が示された。 データセットとソースコードは以下の通りである。

Remote individual animal identification is important for food safety, sport, and animal conservation. Numerous existing remote individual animal identification studies have focused on RGB images. In this paper, we tackle individual penguin identification using hyperspectral (HS) images. To the best of our knowledge, it is the first work to analyze spectral differences between penguin individuals using an HS camera. We have constructed a novel penguin HS image dataset, including 990 hyperspectral images of 27 penguins. We experimentally demonstrate that the spectral information of HS image pixels can be used for individual penguin identification. The experimental results show the effectiveness of using HS images for individual penguin identification. The dataset and source code are available here: https://033labcodes.github.io/igrass24_penguin/
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 与えられたニューラルネットワークの完全連結層におけるニューロンの最小数(最初の近似)

Minimum number of neurons in fully connected layers of a given neural network (the first approximation) ( http://arxiv.org/abs/2405.14147v1 )

ライセンス: Link先を確認
Oleg I. Berngardt, (参考訳) 本稿では,ニューロン数が異なるネットワークを複数回学習する必要のない任意のネットワークの完全連結層において,最小数のニューロンを探索するアルゴリズムを提案する。 このアルゴリズムは、少なくとも2つの折り畳みのクロスバリデーション法を用いて、初期広帯域ネットワークをトレーニングすることに基づいている。 次に,学習ネットワークの学習層に挿入された特異値分解オートエンコーダを用いて,ネットワークの推論のみモードで最小数のニューロンを探索する。 完全連結層内のニューロンの最小数は、ネットワークの他のハイパーパラメータと関連するネットワークハイパーパラメータではなく、ネットワークアーキテクチャ、トレーニングデータセット、レイヤ位置、使用する品質指標によって決定されるソリューションの内部(遅延)特性として解釈できることが示されている。 したがって、隠れた完全連結層ごとに最小数のニューロンを独立に推定することができる。 提案アルゴリズムは,最少ニューロン数を推定するための最初の近似であり,一方,検出されたニューロン数のニューラルネットワークが要求品質に適応可能であることを保証せず,一方,最小ニューロン数を限定的に探索する。 このソリューションは、分類と回帰問題のいくつかのデータセットでテストされた。

This paper presents an algorithm for searching for the minimum number of neurons in fully connected layers of an arbitrary network solving given problem, which does not require multiple training of the network with different number of neurons. The algorithm is based at training the initial wide network using the cross-validation method over at least two folds. Then by using truncated singular value decomposition autoencoder inserted after the studied layer of trained network we search the minimum number of neurons in inference only mode of the network. It is shown that the minimum number of neurons in a fully connected layer could be interpreted not as network hyperparameter associated with the other hyperparameters of the network, but as internal (latent) property of the solution, determined by the network architecture, the training dataset, layer position, and the quality metric used. So the minimum number of neurons can be estimated for each hidden fully connected layer independently. The proposed algorithm is the first approximation for estimating the minimum number of neurons in the layer, since, on the one hand, the algorithm does not guarantee that a neural network with the found number of neurons can be trained to the required quality, and on the other hand, it searches for the minimum number of neurons in a limited class of possible solutions. The solution was tested on several datasets in classification and regression problems.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 実時間深層学習ウェポン検出による狼攻撃の軽減

Real Time Deep Learning Weapon Detection Techniques for Mitigating Lone Wolf Attacks ( http://arxiv.org/abs/2405.14148v1 )

ライセンス: Link先を確認
Kambhatla Akhila, Khaled R Ahmed, (参考訳) 銃乱射事件や刺殺事件は激しく、重傷を負い、公衆の安全を脅かす。 人間の監督なしに単独の狼の攻撃を防ぐには技術が必要である。 したがって、ディープラーニングを用いた自動兵器検出を設計することは、ニューラルネットワークを用いて兵器オブジェクトをローカライズし、検出する最適化されたソリューションである。 本研究は、兵器の存在を検知するだけでなく、拳銃、ナイフ、リボルバー、ライフルなど、それぞれの武器クラスに分類する、統合型およびII段階の物体検出器と、人体検知の両方に焦点を当てる。 本研究は、モデル検証とトレーニングのための(You Look Only Once)ファミリーとFaster RCNNファミリに焦点を当てる。 Pruning and Ensembling Technique は YOLOv5 に応用され、その速度と性能が向上した。 推定速度は8.1msで 最高スコアは78%。 しかし、より高速なR-CNNモデルはAP 89%を達成している。

Firearm Shootings and stabbings attacks are intense and result in severe trauma and threat to public safety. Technology is needed to prevent lone-wolf attacks without human supervision. Hence designing an automatic weapon detection using deep learning, is an optimized solution to localize and detect the presence of weapon objects using Neural Networks. This research focuses on both unified and II-stage object detectors whose resultant model not only detects the presence of weapons but also classifies with respective to its weapon classes, including handgun, knife, revolver, and rifle, along with person detection. This research focuses on (You Look Only Once) family and Faster RCNN family for model validation and training. Pruning and Ensembling techniques were applied to YOLOv5 to enhance their speed and performance. models achieve the highest score of 78% with an inference speed of 8.1ms. However, Faster R-CNN models achieve the highest AP 89%.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# jp-evalb:ロバストアライメントに基づくPARSEVAL対策

jp-evalb: Robust Alignment-based PARSEVAL Measures ( http://arxiv.org/abs/2405.14150v1 )

ライセンス: Link先を確認
Jungyeul Park, Junrui Wang, Eunkyul Leah Jo, Angela Yoonseo Park, (参考訳) 本稿では, PARSEVAL測度を計算するために設計された評価システムを導入し, 選挙区解析評価によく用いられる「texttt{evalb}」の代替手段を提供する。 広く使われている‘texttt{evalb} スクリプトは伝統的に、一貫したトークン化と文境界の要件にもかかわらず、選挙区解析結果の精度を評価するために使われてきた。 対照的に、我々のアプローチは、アライメント法に基づいて、texttt{jp-evalb} と呼ばれる。 この方法は、相違が生じたときに文と単語を一致させる。 これは、 'jointly preprocessed (JP)' アライメントベースのメソッドを利用することで、‘texttt{evalb} に関連する既知の問題を克服することを目的としている。 より柔軟で適応的なフレームワークを導入し、究極的には、選挙区解析性能のより正確な評価に寄与する。

We introduce an evaluation system designed to compute PARSEVAL measures, offering a viable alternative to \texttt{evalb} commonly used for constituency parsing evaluation. The widely used \texttt{evalb} script has traditionally been employed for evaluating the accuracy of constituency parsing results, albeit with the requirement for consistent tokenization and sentence boundaries. In contrast, our approach, named \texttt{jp-evalb}, is founded on an alignment method. This method aligns sentences and words when discrepancies arise. It aims to overcome several known issues associated with \texttt{evalb} by utilizing the `jointly preprocessed (JP)' alignment-based method. We introduce a more flexible and adaptive framework, ultimately contributing to a more accurate assessment of constituency parsing performance.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 隣り合う離散性に基づく進化データ学習のためのドリフト検出方式

A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data ( http://arxiv.org/abs/2405.14153v1 )

ライセンス: Link先を確認
Feng Gu, Jie Lu, Zhen Fang, Kun Wang, Guangquan Zhang, (参考訳) データストリームの不確実な変更は、機械学習モデルが動的に適応し、リアルタイムでパフォーマンスを維持する上での課題である。 特に、分類境界の変化は、実概念ドリフトとしても知られ、分類性能劣化の主な原因である。 しかし、既存のドリフト検出手法の理論的基礎である2サンプルの分布試験と分類誤差の監視は、仮想ドリフトを識別できない(分類境界に影響を与えない変更は、不要なモデル保守を導入する)、統計力の制限、高い計算コストといった固有の制限に悩まされているため、正確な概念ドリフトの検出は依然として困難である。 さらに, ドリフトの傾向に関する情報を提供する既存の検出手法は存在せず, モデル維持には有用ではない。 本研究は,2つのサンプルの分類境界差を測定する新しい統計手法であるNighbor-Searching Discrepancyに基づく,新しい概念ドリフト検出手法を提案する。 提案手法は,仮想ドリフトを無視しながら,実概念ドリフトを高精度に検出することができる。 また、クラス間の分離性の変化を示す指標として、あるクラスの侵入や後退を特定することで、分類境界の変化の方向を示すこともできる。 人工データセットを用いた提案理論の実証的検証や,実世界のデータセット上でよく使用されるドリフトハンドリング手法との比較など,11実験の総合的な評価を行った。 その結果,提案理論は分布と次元の範囲に対して頑健であり,ドリフト検出法は最先端の代替手法よりも優れていることがわかった。

Uncertain changes in data streams present challenges for machine learning models to dynamically adapt and uphold performance in real-time. Particularly, classification boundary change, also known as real concept drift, is the major cause of classification performance deterioration. However, accurately detecting real concept drift remains challenging because the theoretical foundations of existing drift detection methods - two-sample distribution tests and monitoring classification error rate, both suffer from inherent limitations such as the inability to distinguish virtual drift (changes not affecting the classification boundary, will introduce unnecessary model maintenance), limited statistical power, or high computational cost. Furthermore, no existing detection method can provide information on the trend of the drift, which could be invaluable for model maintenance. This work presents a novel real concept drift detection method based on Neighbor-Searching Discrepancy, a new statistic that measures the classification boundary difference between two samples. The proposed method is able to detect real concept drift with high accuracy while ignoring virtual drift. It can also indicate the direction of the classification boundary change by identifying the invasion or retreat of a certain class, which is also an indicator of separability change between classes. A comprehensive evaluation of 11 experiments is conducted, including empirical verification of the proposed theory using artificial datasets, and experimental comparisons with commonly used drift handling methods on real-world datasets. The results show that the proposed theory is robust against a range of distributions and dimensions, and the drift detection method outperforms state-of-the-art alternative methods.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 大規模視線モデルにおける一貫性のタペストリーの展開

Unveiling the Tapestry of Consistency in Large Vision-Language Models ( http://arxiv.org/abs/2405.14156v1 )

ライセンス: Link先を確認
Yuan Zhang, Fei Xiao, Tao Huang, Chun-Kai Fan, Hongyuan Dong, Jiawen Li, Jiacong Wang, Kuan Cheng, Shanghang Zhang, Haoyuan Guo, (参考訳) 視覚言語モデル(LVLM)は近年急速に進歩し,視覚情報に対する認識と推論能力が向上している。 しかし、解空間の異なる大きさのプロンプトに直面すると、LVLMは必ずしも同じ知識点に関して一貫した答えを与えない。 異なる解空間間の答えの不整合は、LVLM やエローズ信頼においてよく見られる。 この目的のために、我々はマルチモーダルベンチマークConBenchを提供し、プロンプトの解空間が知識点を中心に回転するときにLVLMがどのように機能するかを直感的に解析する。 ConBenchツールをベースとして,(1)識別領域では,プロンプトの解空間が大きくなるほど,解の精度が低下する。 2)識別的領域と生成的領域の関係を確立する:識別的質問型の精度はキャプションとの一貫性と強い正の相関を示す。 (3) オープンソースモデルと比較して, クローズドソースモデルは一貫性の点で顕著なバイアス優位性を示す。 最終的には、トリガーベースの診断改善によりLVLMの整合性を改善し、キャプションの性能を間接的に改善する。 我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。

Large vision-language models (LVLMs) have recently achieved rapid progress, exhibiting great perception and reasoning abilities concerning visual information. However, when faced with prompts in different sizes of solution spaces, LVLMs fail to always give consistent answers regarding the same knowledge point. This inconsistency of answers between different solution spaces is prevalent in LVLMs and erodes trust. To this end, we provide a multi-modal benchmark ConBench, to intuitively analyze how LVLMs perform when the solution space of a prompt revolves around a knowledge point. Based on the ConBench tool, we are the first to reveal the tapestry and get the following findings: (1) In the discriminate realm, the larger the solution space of the prompt, the lower the accuracy of the answers. (2) Establish the relationship between the discriminative and generative realms: the accuracy of the discriminative question type exhibits a strong positive correlation with its Consistency with the caption. (3) Compared to open-source models, closed-source models exhibit a pronounced bias advantage in terms of Consistency. Eventually, we ameliorate the consistency of LVLMs by trigger-based diagnostic refinement, indirectly improving the performance of their caption. We hope this paper will accelerate the research community in better evaluating their models and encourage future advancements in the consistency domain.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 超ティニー言語モデル

Super Tiny Language Models ( http://arxiv.org/abs/2405.14159v1 )

ライセンス: Link先を確認
Dylan Hillier, Leon Guertler, Cheston Tan, Palaash Agrawal, Chen Ruirui, Bobby Cheng, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理の大幅な改善につながったが、高い計算量とエネルギー需要のため、課題も生じている。 本稿では,パラメータ数を大幅に削減して高い性能を実現することを目的とした,Super Tiny Language Models (STLM) に着目した一連の研究成果を紹介する。 我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。 これらの手法は、競合性能を維持しながら、従来のモデルと比較して、パラメータカウントを90 %$から95 %$に減らします。 この一連の論文は、トークンフリーモデル、セルフプレイベースのトレーニング、代替のトレーニング目標など、さまざまなサブプロブレムを探求し、10M、50M、100Mのモデルをターゲットにする。 我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。

The rapid advancement of large language models (LLMs) has led to significant improvements in natural language processing but also poses challenges due to their high computational and energy demands. This paper introduces a series of research efforts focused on Super Tiny Language Models (STLMs), which aim to deliver high performance with significantly reduced parameter counts. We explore innovative techniques such as byte-level tokenization with a pooling mechanism, weight tying, and efficient training strategies. These methods collectively reduce the parameter count by $90\%$ to $95\%$ compared to traditional models while maintaining competitive performance. This series of papers will explore into various subproblems, including tokenizer-free models, self-play based training, and alternative training objectives, targeting models with 10M, 50M, and 100M parameters. Our ultimate goal is to make high-performance language models more accessible and practical for a wide range of applications.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 自己学習認識:音声基礎モデルの教師なし適応に向けて

Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models ( http://arxiv.org/abs/2405.14161v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Chengwei Qin, Pin-Yu Chen, Eng Siong Chng, Chao Zhang, (参考訳) 雑音やアクセントなどの多様な対象領域における音声認識システム(ASR)の堅牢性を高めるために,ラベル付きデータを活用する,教師なし適応フレームワークであるSelf-Taught Recognizer(STAR)を提案する。 STARは、自動回帰デコーディング(例えばWhisper, Canary)を備えたTransformer関連アーキテクチャに基づく、一般的な音声基礎モデルのために開発された。 具体的には、デコード中にステップワイズ情報を経験的に統合して擬似ラベルのトークンレベルの品質を評価することで、効果的な教師なし適応のためのモデル更新を導出する新しい指標を提案する。 実験の結果、STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を達成し、時には教師付き適応の上限性能に近づいた。 驚いたことに、STARはソース・ドメインデータをリコールすることなく、適応モデルが一般的な破滅的忘れ問題から防ぐことも観察した。 さらに、STARは1時間未満の未ラベルデータしか必要とせず、代替の大規模音声モデルや音声翻訳タスクに対してシームレスに一般化できる高いデータ効率を示す。 私たちのコードは研究コミュニティにオープンソース化することを目的としています。

We propose an unsupervised adaptation framework, Self-TAught Recognizer (STAR), which leverages unlabeled data to enhance the robustness of automatic speech recognition (ASR) systems in diverse target domains, such as noise and accents. STAR is developed for prevalent speech foundation models based on Transformer-related architecture with auto-regressive decoding (e.g., Whisper, Canary). Specifically, we propose a novel indicator that empirically integrates step-wise information during decoding to assess the token-level quality of pseudo labels without ground truth, thereby guiding model updates for effective unsupervised adaptation. Experimental results show that STAR achieves an average of 13.5% relative reduction in word error rate across 14 target domains, and it sometimes even approaches the upper-bound performance of supervised adaptation. Surprisingly, we also observe that STAR prevents the adapted model from the common catastrophic forgetting problem without recalling source-domain data. Furthermore, STAR exhibits high data efficiency that only requires less than one-hour unlabeled data, and seamless generality to alternative large speech models and speech translation tasks. Our code aims to open source to the research communities.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# 埋め込み型セマンティックセグメンテーションマスクの微細粒度分類への応用

Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification ( http://arxiv.org/abs/2405.14162v1 )

ライセンス: Link先を確認
Taylor Archibald, Tony Martinez, (参考訳) 史料の効率的な分類は、系譜学、法学研究、歴史学などの分野において重要であり、手作業による分類は、労働集約的かつ誤りを生じやすい性質から、大規模な収集には不実用である。 これを解決するために、セマンティックセグメンテーションと深層学習モデル(ResNets、CLIP、Document Image Transformer(DiT)、マスク付き自動エンコーダ(MAE))を統合する表現型学習戦略を提案し、事前に定義されたラベルなしで文書機能をキャプチャする埋め込みを生成する。 我々の知識を最大限に活用するために、我々は、きめ細かい、教師なしの形式分類への埋め込みを初めて評価する。 これらの埋め込みを改善するために,まずセマンティックセグメンテーションを前処理のステップとして活用することを提案する。 我々は、我々のアプローチを実証するために、2つの新しいデータセット(19世紀と1950年の国勢調査記録)をコントリビュートした。 本研究は, 類似の文書型を識別するための埋め込み手法の有効性を示し, セマンティックセグメンテーションを適用することにより, クラスタリングや分類結果を大幅に改善できることを示す。 国勢調査データセットは \href{https://github.com/tahlor/census_forms}{https://github.com/tahlor/census\_forms} で公開されている。

Efficient categorization of historical documents is crucial for fields such as genealogy, legal research, and historical scholarship, where manual classification is impractical for large collections due to its labor-intensive and error-prone nature. To address this, we propose a representational learning strategy that integrates semantic segmentation and deep learning models -- ResNets, CLIP, the Document Image Transformer (DiT), and masked auto-encoders (MAE) -- to generate embeddings that capture document features without predefined labels. To the best of our knowledge, we are the first to evaluate embeddings on fine-grained, unsupervised form classification. To improve these embeddings, we propose to first employ semantic segmentation as a preprocessing step. We contribute two novel datasets -- French 19th-century and U.S. 1950 Census records -- to demonstrate our approach. Our results show the effectiveness of these various embedding techniques in distinguishing similar document types and indicate that applying semantic segmentation can greatly improve clustering and classification results. The census datasets are available at \href{https://github.com/tahlor/census_forms}{https://github.com/tahlor/census\_forms}.
翻訳日:2024-05-24 19:05:09 公開日:2024-05-23
# タイポグラフィーを用いた自律走行における視覚LLMに対する移動可能な攻撃に向けて

Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography ( http://arxiv.org/abs/2405.14169v1 )

ライセンス: Link先を確認
Nhat Chung, Sensen Gao, Tuan-Anh Vu, Jie Zhang, Aishan Liu, Yun Lin, Jin Song Dong, Qing Guo, (参考訳) Vision-Large-Language-Models (Vision-LLMs) は、知覚、予測、計画、制御メカニズムをターゲットにした高度な視覚言語推論能力により、自律運転(AD)システムに統合されつつある。 しかし、Vision-LLMは様々な種類の敵攻撃に対する感受性を示しており、それによってその信頼性と安全性が損なわれる。 本稿では,ADシステムにおけるリスクと実用的脅威の伝達可能性について,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。 タイポグラフィー攻撃の一般的なデータセットを開発する数少ない研究とは違い,本論文では,これらの攻撃を展開可能な現実的な交通シナリオ,意思決定自律性への潜在的な影響,およびこれらの攻撃を物理的に提示する実践的方法に焦点を当てる。 上記の目的を達成するために、まず、Vision-LLMの推論を誤解させる可能性のある誤答を自動的に生成するデータセットに依存しないフレームワークを提案する。 次に,画像レベルの推論や領域レベルの推論に対する攻撃を容易にする言語拡張手法を提案し,複数の推論タスクに対する攻撃パターンを同時に拡張する。 これらに基づいて、物理的な交通シナリオにおいて、これらの攻撃がどのように実現されるかの研究を行う。 本研究では,交通現場におけるタイポグラフィー攻撃の有効性,伝達性,実現可能性について検討した。 以上の結果から,既存のVision-LLM(LLaVA,Qwen-VL,VILA,Imp)に対するタイポグラフィー攻撃は,ADシステムに組み込んだ場合の脆弱性に対するコミュニティの認識を高めることが示唆された。 私たちは受け入れに応じてソースコードをリリースします。

Vision-Large-Language-Models (Vision-LLMs) are increasingly being integrated into autonomous driving (AD) systems due to their advanced visual-language reasoning capabilities, targeting the perception, prediction, planning, and control mechanisms. However, Vision-LLMs have demonstrated susceptibilities against various types of adversarial attacks, which would compromise their reliability and safety. To further explore the risk in AD systems and the transferability of practical threats, we propose to leverage typographic attacks against AD systems relying on the decision-making capabilities of Vision-LLMs. Different from the few existing works developing general datasets of typographic attacks, this paper focuses on realistic traffic scenarios where these attacks can be deployed, on their potential effects on the decision-making autonomy, and on the practical ways in which these attacks can be physically presented. To achieve the above goals, we first propose a dataset-agnostic framework for automatically generating false answers that can mislead Vision-LLMs' reasoning. Then, we present a linguistic augmentation scheme that facilitates attacks at image-level and region-level reasoning, and we extend it with attack patterns against multiple reasoning tasks simultaneously. Based on these, we conduct a study on how these attacks can be realized in physical traffic scenarios. Through our empirical study, we evaluate the effectiveness, transferability, and realizability of typographic attacks in traffic scenes. Our findings demonstrate particular harmfulness of the typographic attacks against existing Vision-LLMs (e.g., LLaVA, Qwen-VL, VILA, and Imp), thereby raising community awareness of vulnerabilities when incorporating such models into AD systems. We will release our source code upon acceptance.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# 時間的知識グラフ推論のための大規模言語モデル誘導動的適応

Large Language Models-guided Dynamic Adaptation for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2405.14170v1 )

ライセンス: Link先を確認
Jiapu Wang, Kai Sun, Linhao Luo, Wei Wei, Yongli Hu, Alan Wee-Chung Liew, Shirui Pan, Baocai Yin, (参考訳) TKGR(Temporal Knowledge Graph Reasoning)は、時間的情報を利用して、時間的知識グラフ(TKG)内の複雑な関係を捉え、新しい知識を推論するプロセスである。 TKGRの従来の手法は、一般的に深層学習アルゴリズムや時間論理規則に依存している。 しかし、ディープラーニングベースのTKGRは解釈可能性に欠けることが多いが、ルールベースのTKGRは時間的パターンをキャプチャする時間的規則を効果的に学習するのに苦労している。 近年,Large Language Models (LLMs) は時間的推論において広範囲の知識と卓越した能力を示した。 その結果, 時間知識グラフ推論(TKGR)におけるLLMの利用が, 研究者の間での関心が高まっている。 それでも、LSMはブラックボックスとして機能することが知られており、それらの推論過程を理解することは困難である。 さらに、微調整の資源集約的な性質のため、即座にLLMを更新し、推論のためのTKG内で進化する知識を統合することは不可能である。 本稿では,TKGの推論のためのLarge Language Models-Guided Dynamic Adaptation (LLM-DA)法を提案する。 具体的には、LLM-DAは、歴史的データを解析し、時間的論理規則を抽出するLLMの機能を利用する。 これらの規則は時間的パターンを明らかにし、解釈可能な推論を促進する。 TKGsの進化的性質を考慮し,LLM生成規則を更新する動的適応戦略を提案する。 これにより、抽出されたルールが常に最新の知識を取り入れ、将来の事象の予測により良い一般化をすることができる。 実験結果から, 微調整を必要とせずに, LLM-DAは複数の共通データセットに対する推論精度を大幅に向上し, TKGRタスクの堅牢なフレームワークを提供することがわかった。

Temporal Knowledge Graph Reasoning (TKGR) is the process of utilizing temporal information to capture complex relations within a Temporal Knowledge Graph (TKG) to infer new knowledge. Conventional methods in TKGR typically depend on deep learning algorithms or temporal logical rules. However, deep learning-based TKGRs often lack interpretability, whereas rule-based TKGRs struggle to effectively learn temporal rules that capture temporal patterns. Recently, Large Language Models (LLMs) have demonstrated extensive knowledge and remarkable proficiency in temporal reasoning. Consequently, the employment of LLMs for Temporal Knowledge Graph Reasoning (TKGR) has sparked increasing interest among researchers. Nonetheless, LLMs are known to function as black boxes, making it challenging to comprehend their reasoning process. Additionally, due to the resource-intensive nature of fine-tuning, promptly updating LLMs to integrate evolving knowledge within TKGs for reasoning is impractical. To address these challenges, in this paper, we propose a Large Language Models-guided Dynamic Adaptation (LLM-DA) method for reasoning on TKGs. Specifically, LLM-DA harnesses the capabilities of LLMs to analyze historical data and extract temporal logical rules. These rules unveil temporal patterns and facilitate interpretable reasoning. To account for the evolving nature of TKGs, a dynamic adaptation strategy is proposed to update the LLM-generated rules with the latest events. This ensures that the extracted rules always incorporate the most recent knowledge and better generalize to the predictions on future events. Experimental results show that without the need of fine-tuning, LLM-DA significantly improves the accuracy of reasoning over several common datasets, providing a robust framework for TKGR tasks.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# SAM先行画像を用いた多視点リモートセンシング画像分割

Multi-view Remote Sensing Image Segmentation With SAM priors ( http://arxiv.org/abs/2405.14171v1 )

ライセンス: Link先を確認
Zipeng Qi, Chenyang Liu, Zili Liu, Hao Chen, Yongchang Wu, Zhengxia Zou, Zhenwei Sh, (参考訳) リモートセンシング(RS)におけるマルチビューセグメンテーションは、シーン内の様々な視点から画像を分割することを目指している。 最近の手法では、インプシットニューラルネットワーク(INF)から抽出した3D情報を活用し、複数のビューにまたがって結果の一貫性を高め、ラベルの限られたアカウント(3~5ラベル以内)を使用して作業の合理化を行っている。 それでも、限定ビューラベルの制約の中で優れたパフォーマンスを達成することは、シーン全体の監督が不十分で、INF内でのセマンティックな特徴が不十分であるため、依然として困難である。 これらの問題に対処する。 本稿では,視覚基盤モデル-Segment Anything(SAM)の先行をINFに注入して,限られたトレーニングデータ数でより良い結果を得る方法を提案する。 具体的には,テストビューとトレーニングビューのSAM特徴を対比し,各テストビューに擬似ラベルを導出し,シーンワイドなラベリング情報を増強する。 次に,シーンのINFにトランスフォーマーを介してSAM機能を導入し,セマンティック情報を補完する。 実験の結果,本手法は本手法よりも優れており,この課題に対するINFの補充としてSAMの有効性が確認された。

Multi-view segmentation in Remote Sensing (RS) seeks to segment images from diverse perspectives within a scene. Recent methods leverage 3D information extracted from an Implicit Neural Field (INF), bolstering result consistency across multiple views while using limited accounts of labels (even within 3-5 labels) to streamline labor. Nonetheless, achieving superior performance within the constraints of limited-view labels remains challenging due to inadequate scene-wide supervision and insufficient semantic features within the INF. To address these. we propose to inject the prior of the visual foundation model-Segment Anything(SAM), to the INF to obtain better results under the limited number of training data. Specifically, we contrast SAM features between testing and training views to derive pseudo labels for each testing view, augmenting scene-wide labeling information. Subsequently, we introduce SAM features via a transformer into the INF of the scene, supplementing the semantic information. The experimental results demonstrate that our method outperforms the mainstream method, confirming the efficacy of SAM as a supplement to the INF for this task.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# 動物シェルター用最適レイアウトジェネレータ -遺伝的アルゴリズム, TOPSIS, グラフ理論に基づくフレームワーク-

Automated Optimal Layout Generator for Animal Shelters: A framework based on Genetic Algorithm, TOPSIS and Graph Theory ( http://arxiv.org/abs/2405.14172v1 )

ライセンス: Link先を確認
Arghavan Jalayer, Masoud Jalayer, Mehdi Khahzand, Mohsen Faizi, (参考訳) 動物保護区の人口過多は、病気の拡大と動物の医療費の増加に寄与し、養子縁組の減少とシェルター死の増加につながっている。 さらに、直面する最大の課題の1つは犬小屋の騒音レベルであり、動物とスタッフの両方にとって身体的かつ生理学的に危険である。 本稿では, 避難所容量を最大化し, 犬小屋面積の緊張を最小化し, 対向するケージの数を減らすとともに, スタッフやビジターへのアクセシビリティを確保するため, ケージレイアウトを自動設計する多基準最適化フレームワークを提案する。 提案フレームワークはGAを用いてレイアウトを体系的に生成し改善する。 グラフ理論に基づく新しいアルゴリズムが提案され、解を処理し、適合値を計算する。 さらに、各イテレーションにおけるレイアウトのランク付けとソートには、TOPSIS(TOPSIS)と類似性による優先順位付けのテクニックが使用されている。 グラフベースのアルゴリズムは、ケージアクセシビリティやアクセスポイントへの最短経路などの変数を計算する。 さらに, 対向するケージの数に基づいて, レイアウトスコアを計算するためのヒューリスティックアルゴリズムを開発した。 この枠組みは、動物保護管理に柔軟な意思決定支援システムを提供し、TOPSIS基準に様々な重みを割り当てることで、異なる戦略を可能にする。 猫と犬の犬小屋エリアの結果から、提案したフレームワークは、許容可能なランタイム内で異なる優先順位を尊重する最適なレイアウトを提案できることが示された。

Overpopulation in animal shelters contributes to increased disease spread and higher expenses on animal healthcare, leading to fewer adoptions and more shelter deaths. Additionally, one of the greatest challenges that shelters face is the noise level in the dog kennel area, which is physically and physiologically hazardous for both animals and staff. This paper proposes a multi-criteria optimization framework to automatically design cage layouts that maximize shelter capacity, minimize tension in the dog kennel area by reducing the number of cages facing each other, and ensure accessibility for staff and visitors. The proposed framework uses a Genetic Algorithm (GA) to systematically generate and improve layouts. A novel graph theory-based algorithm is introduced to process solutions and calculate fitness values. Additionally, the Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) is used to rank and sort the layouts in each iteration. The graph-based algorithm calculates variables such as cage accessibility and shortest paths to access points. Furthermore, a heuristic algorithm is developed to calculate layout scores based on the number of cages facing each other. This framework provides animal shelter management with a flexible decision-support system that allows for different strategies by assigning various weights to the TOPSIS criteria. Results from cats' and dogs' kennel areas show that the proposed framework can suggest optimal layouts that respect different priorities within acceptable runtimes.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# 自然言語通信による不完全情報によるゲームにおける人間-エージェント協調

Human-Agent Cooperation in Games under Incomplete Information through Natural Language Communication ( http://arxiv.org/abs/2405.14173v1 )

ライセンス: Link先を確認
Shenghui Chen, Daniel Fried, Ufuk Topcu, (参考訳) 情報非対称性の下で人間と交渉し協力できる自律エージェントを開発することは、自然言語の効果的なコミュニケーションなしでは困難である。 不完全な情報の下で共通の目的を達成するために、2人のプレイヤーが交互にトークンを制御できる共有制御ゲームを導入する。 本ゲームでは,人間を相手とする自律エージェントのポリシー合成問題を定式化する。 そこで本研究では,言語モジュールと計画モジュールからなる通信方式を提案する。 言語モジュールは、自然言語メッセージを有限のフラグの集合、すなわちプレーヤーの意図をキャプチャするために定義されたコンパクトな表現に翻訳する。 計画モジュールはこれらのフラグを利用して,非対称情報集合モンテカルロ木探索とフラグ交換アルゴリズムを用いてポリシーを計算する。 探索型迷路ボードゲームGnomes at Nightをベースとしたテストベッドにおいて,本手法の有効性を検証した。 人体実験の結果、コミュニケーションはプレイヤー間の情報ギャップを狭め、より少ないターンで人間とエージェントの協調効率を高めることが示されている。

Developing autonomous agents that can strategize and cooperate with humans under information asymmetry is challenging without effective communication in natural language. We introduce a shared-control game, where two players collectively control a token in alternating turns to achieve a common objective under incomplete information. We formulate a policy synthesis problem for an autonomous agent in this game with a human as the other player. To solve this problem, we propose a communication-based approach comprising a language module and a planning module. The language module translates natural language messages into and from a finite set of flags, a compact representation defined to capture player intents. The planning module leverages these flags to compute a policy using an asymmetric information-set Monte Carlo tree search with flag exchange algorithm we present. We evaluate the effectiveness of this approach in a testbed based on Gnomes at Night, a search-and-find maze board game. Results of human subject experiments show that communication narrows the information gap between players and enhances human-agent cooperation efficiency with fewer turns.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# マルチスケールVMamba:階層型ビジュアルステートスペースモデルにおける階層

Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model ( http://arxiv.org/abs/2405.14174v1 )

ライセンス: Link先を確認
Yuheng Shi, Minjing Dong, Chang Xu, (参考訳) 視覚変換器(ViT)の様々な視覚タスクにおける重要な成果にもかかわらず、それらは二次的な複雑さによって制約される。 近年、状態空間モデル (SSM) は、その大域的受容領域と入力長に対する線形複雑度から広く注目を集めており、自然言語処理やコンピュータビジョンを含む分野にまたがる有意義な可能性を示している。 視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用され,SSMの冗長性が著しく向上した。 効率性とパフォーマンスのトレードオフを改善するために、長距離依存性が重要な役割を果たすマルチスキャン戦略の成功の背景にある理由を分析します。 そこで本研究では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。 オリジナルマップとダウンサンプルマップの両方にマルチスケールの2Dスキャン技術を採用しており、長距離依存学習だけでなく、計算コストの削減も図っている。 さらに、チャネル混合の欠如に対処するために、畳み込みフィードフォワードネットワーク(ConvFFN)を統合する。 実験の結果、MSVMambaは、ImageNetで82.8%、Msk R-CNNフレームワークで46.9%、COCOで1倍のトレーニングスケジュールで42.2%、ADE20Kでシングルスケールテストで47.6%のmOoUで、MSVMamba-Tinyモデルが82.8%、ImageNetで82.8%、ImageNetで46.9%、インスタンスmAPが42.2%、ADE20Kで47.6%が利用可能であることがわかった。

Despite the significant achievements of Vision Transformers (ViTs) in various vision tasks, they are constrained by the quadratic complexity. Recently, State Space Models (SSMs) have garnered widespread attention due to their global receptive field and linear complexity with respect to the input length, demonstrating substantial potential across fields including natural language processing and computer vision. To improve the performance of SSMs in vision tasks, a multi-scan strategy is widely adopted, which leads to significant redundancy of SSMs. For a better trade-off between efficiency and performance, we analyze the underlying reasons behind the success of the multi-scan strategy, where long-range dependency plays an important role. Based on the analysis, we introduce Multi-Scale Vision Mamba (MSVMamba) to preserve the superiority of SSMs in vision tasks with limited parameters. It employs a multi-scale 2D scanning technique on both original and downsampled feature maps, which not only benefits long-range dependency learning but also reduces computational costs. Additionally, we integrate a Convolutional Feed-Forward Network (ConvFFN) to address the lack of channel mixing. Our experiments demonstrate that MSVMamba is highly competitive, with the MSVMamba-Tiny model achieving 82.8% top-1 accuracy on ImageNet, 46.9% box mAP, and 42.2% instance mAP with the Mask R-CNN framework, 1x training schedule on COCO, and 47.6% mIoU with single-scale testing on ADE20K.Code is available at \url{https://github.com/YuHengsss/MSVMamba}.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# データローカライゼーションによるスパース対向摂動に対する認証ロバスト性

Certified Robustness against Sparse Adversarial Perturbations via Data Localization ( http://arxiv.org/abs/2405.14176v1 )

ライセンス: Link先を確認
Ambar Pal, René Vidal, Jeremias Sulam, (参考訳) 逆ロバスト性に関する最近の研究は、自然データ分布が局所化されていることを示唆している。すなわち、入力空間の小さな体積領域に高い確率を配置し、この性質は$\ell_2$-bounded 摂動に対するロバスト性を保証するような分類器の設計に利用できる。 しかし、この観測がより一般的な指標に当てはまるかどうかはまだ不明である。 本研究では、この理論を$\ell_0$-bounded adversarial perturbationsに拡張し、攻撃者は画像のいくつかのピクセルを修正できるが、摂動の大きさが制限されないようにし、$\ell_0$-robust 分類器の存在に必要な条件を示す。 この体制における理論的認証のアプローチは、本質的には分類器の大規模な集合に対する投票を採用する。 このような手順は組み合わさって費用がかかるか、複雑な認証技術を必要とする。 対照的に、単純な分類器であるBox-NNは、自然に問題の幾何学を取り入れ、MNISTおよびFashion-MNISTデータセットのスパース攻撃に対する信頼性の高いロバスト性において、現在の最先端技術を改善する。

Recent work in adversarial robustness suggests that natural data distributions are localized, i.e., they place high probability in small volume regions of the input space, and that this property can be utilized for designing classifiers with improved robustness guarantees for $\ell_2$-bounded perturbations. Yet, it is still unclear if this observation holds true for more general metrics. In this work, we extend this theory to $\ell_0$-bounded adversarial perturbations, where the attacker can modify a few pixels of the image but is unrestricted in the magnitude of perturbation, and we show necessary and sufficient conditions for the existence of $\ell_0$-robust classifiers. Theoretical certification approaches in this regime essentially employ voting over a large ensemble of classifiers. Such procedures are combinatorial and expensive or require complicated certification techniques. In contrast, a simple classifier emerges from our theory, dubbed Box-NN, which naturally incorporates the geometry of the problem and improves upon the current state-of-the-art in certified robustness against sparse attacks for the MNIST and Fashion-MNIST datasets.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# プログラミング教育におけるAI指導支援者の望ましい特徴

Desirable Characteristics for AI Teaching Assistants in Programming Education ( http://arxiv.org/abs/2405.14178v1 )

ライセンス: Link先を確認
Paul Denny, Stephen MacNeil, Jaromir Savelka, Leo Porter, Andrew Luxton-Reilly, (参考訳) 多くの学生にタイムリーでパーソナライズされたフィードバックを提供することは、プログラミングコースにおける長年の課題である。 ヒューマン・インスツルメンテーション・アシスタント(TA)の研究が盛んに行われており、潜在的な欠点がいくつか浮かび上がっている。 これらには、サポートが必要な場合の信頼性の低い学生への不平等なアクセスや、TAが生徒が独自の問題解決スキルを開発するのを手伝うことなく、直接的なソリューションを提供する状況が含まれる。 強力な大規模言語モデル (LLM) の出現に伴い、プログラムコンテキスト用に構成されたデジタル教育アシスタントは、即時かつ公平なラウンド・ザ・クロックのサポートを提供するための魅力的でスケーラブルな方法として登場した。 デジタルTAは、ハイレベルな問題解決アドバイスから直接的なソリューション生成に至るまで、プログラミングタスクに様々な助けを提供することができるが、そのようなツールの有効性は、有意義な学習体験を促進する能力に依存している。 生徒がデジタルTAで実装されたガードレールに制約が多すぎる場合や、他の期待が満たされていない場合は、学習の助けにならない方法で支援を求める可能性がある。 したがって、学生がデジタル指導アシスタントに価値をもたらすと信じている特徴を特定することが不可欠である。 導入プログラミングコースにLLMを利用したデジタルアシスタントを配置し,学生からのフィードバック(n=813$)を収集した。 以上の結果から,学生は,特に評価期限前のようなピーク時に,即時かつ活発な支援を提供する能力に,そのようなツールを重んじることが示唆された。 彼らはまた、単に直接的なソリューションを示すのではなく、問題解決のステップを導くのに役立つ足場など、学習ジャーニーにおける自律性を維持する機能への強い好意を表明した。

Providing timely and personalized feedback to large numbers of students is a long-standing challenge in programming courses. Relying on human teaching assistants (TAs) has been extensively studied, revealing a number of potential shortcomings. These include inequitable access for students with low confidence when needing support, as well as situations where TAs provide direct solutions without helping students to develop their own problem-solving skills. With the advent of powerful large language models (LLMs), digital teaching assistants configured for programming contexts have emerged as an appealing and scalable way to provide instant, equitable, round-the-clock support. Although digital TAs can provide a variety of help for programming tasks, from high-level problem solving advice to direct solution generation, the effectiveness of such tools depends on their ability to promote meaningful learning experiences. If students find the guardrails implemented in digital TAs too constraining, or if other expectations are not met, they may seek assistance in ways that do not help them learn. Thus, it is essential to identify the features that students believe make digital teaching assistants valuable. We deployed an LLM-powered digital assistant in an introductory programming course and collected student feedback ($n=813$) on the characteristics of the tool they perceived to be most important. Our results highlight that students value such tools for their ability to provide instant, engaging support, particularly during peak times such as before assessment deadlines. They also expressed a strong preference for features that enable them to retain autonomy in their learning journey, such as scaffolding that helps to guide them through problem-solving steps rather than simply being shown direct solutions.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# UzMorphAnalyser: 屈折端を用いたウズベク語の形態解析モデル

UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings ( http://arxiv.org/abs/2405.14179v1 )

ライセンス: Link先を確認
Ulugbek Salaev, (参考訳) ウズベク語は凝集性であるため、根と接尾辞を組み合わせた言葉を形成する多くの形態学的特徴がある。 接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。 インフレクションの終末は言語内の様々な形態的特徴を表現するために使用される。 この特徴は、単語終末の可能性の多さを導入し、単語語彙を大幅に拡張し、統計モデルにおけるデータ空間性に関連する問題を悪化させる。 本稿では,形態・音韻的例外を考慮したウズベク語の形態解析のモデル化と形態情報抽出について述べる。 モデルの主なステップは、割り当てられた形態情報を持つ単語の完全なセットと、形態解析のための追加データセットの開発である。 提案手法は5.3Kワードからなる実験セットを用いて評価した。 言語専門家が実施した,手作業による語幹形成,補綴,形態的特徴補正の検証により,単語レベルの精度は91%以上となった。 提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。

As Uzbek language is agglutinative, has many morphological features which words formed by combining root and affixes. Affixes play an important role in the morphological analysis of words, by adding additional meanings and grammatical functions to words. Inflectional endings are utilized to express various morphological features within the language. This feature introduces numerous possibilities for word endings, thereby significantly expanding the word vocabulary and exacerbating issues related to data sparsity in statistical models. This paper present modeling of the morphological analysis of Uzbek words, including stemming, lemmatizing, and the extraction of morphological information while considering morpho-phonetic exceptions. Main steps of the model involve developing a complete set of word-ending with assigned morphological information, and additional datasets for morphological analysis. The proposed model was evaluated using a curated test set comprising 5.3K words. Through manual verification of stemming, lemmatizing, and morphological feature corrections carried out by linguistic specialists, it obtained a word-level accuracy of over 91%. The developed tool based on the proposed model is available as a web-based application and an open-source Python library.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# 多項式時間における制約付き強化学習のための決定論的政策

Deterministic Policies for Constrained Reinforcement Learning in Polynomial-Time ( http://arxiv.org/abs/2405.14183v1 )

ライセンス: Link先を確認
Jeremy McMahan, (参考訳) 本稿では,制約付き強化学習(CRL)問題に対する近似的決定性ポリシを効率的に計算するアルゴリズムを提案する。 提案手法は,(1)要求値の増大,(2)行動空間近似動的プログラミング,(3)時間空間の丸めという3つの重要なアイデアを組み合わさっている。 軽微な報奨の仮定の下で,本アルゴリズムは,様々なコスト基準に対する完全多項式時間近似スキーム(FPTAS)を構成する。 このクラスは、ポリシーのコストを時間と(状態)空間の両方で再帰的に計算することを要求する。 我々の研究は、意思決定における現実世界の課題に対処するための証明可能な効率的なアルゴリズムを提供するだけでなく、制約された決定論的ポリシーの効率的な計算のための統一理論も提供する。

We present a novel algorithm that efficiently computes near-optimal deterministic policies for constrained reinforcement learning (CRL) problems. Our approach combines three key ideas: (1) value-demand augmentation, (2) action-space approximate dynamic programming, and (3) time-space rounding. Under mild reward assumptions, our algorithm constitutes a fully polynomial-time approximation scheme (FPTAS) for a diverse class of cost criteria. This class requires that the cost of a policy can be computed recursively over both time and (state) space, which includes classical expectation, almost sure, and anytime constraints. Our work not only provides provably efficient algorithms to address real-world challenges in decision-making but also offers a unifying theory for the efficient computation of constrained deterministic policies.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# 計算グラフ上のデバイス配置学習のための構造認識フレームワーク

A structure-aware framework for learning device placements on computation graphs ( http://arxiv.org/abs/2405.14185v1 )

ライセンス: Link先を確認
Shukai Duan, Heng Ping, Nikos Kanakaris, Xiongye Xiao, Peiyu Zhang, Panagiotis Kyriakis, Nesreen K. Ahmed, Guixiang Ma, Mihai Capota, Shahin Nazarian, Theodore L. Willke, Paul Bogdan, (参考訳) 既存のデバイス配置のアプローチは、計算グラフのトポロジ的特徴を無視し、主にグラフ分割のヒューリスティックな方法に依存している。 同時に、彼らはグルーパー・プレースまたはエンコーダ・プレース・アーキテクチャに従い、コード操作間の相互作用構造を理解する必要がある。 エンコーダプレーサとグルーパープレーサのギャップを埋めるために,強化学習を用いたOpenVINOツールキットから抽出したより小さな計算グラフに頼って,デバイス配置作業のための新しいフレームワークを提案する。 このフレームワークは、グラフの粗大化、ノード表現学習、ポリシー最適化を含む5つのステップで構成されている。 エンドツーエンドのトレーニングを容易にし、計算グラフの有向性と非巡回性を考慮に入れます。 また,グラフ解析ネットワークと複雑なネットワーク解析にインスパイアされたモデル変種を提案し,グラフ表現学習とパーソナライズされたグラフ分割を協調して,不特定数のグループを用いて実現した。 フレームワーク全体をトレーニングするために、提案装置配置の実行時間を用いて強化学習手法を用いて報酬を定式化する。 Inception-V3, ResNet, BERTの3つのベンチマークモデルを用いて, 提案手法の柔軟性と有効性を示す。 提案フレームワークの堅牢性も,アブレーション研究を通じて強調されている。 提案された配置により、ベンチマークモデルの推論速度はCPU実行時に最大58.2\%、他の一般的なベースラインと比較して最大60.24\%向上した。

Existing approaches for device placement ignore the topological features of computation graphs and rely mostly on heuristic methods for graph partitioning. At the same time, they either follow a grouper-placer or an encoder-placer architecture, which requires understanding the interaction structure between code operations. To bridge the gap between encoder-placer and grouper-placer techniques, we propose a novel framework for the task of device placement, relying on smaller computation graphs extracted from the OpenVINO toolkit using reinforcement learning. The framework consists of five steps, including graph coarsening, node representation learning and policy optimization. It facilitates end-to-end training and takes into consideration the directed and acyclic nature of the computation graphs. We also propose a model variant, inspired by graph parsing networks and complex network analysis, enabling graph representation learning and personalized graph partitioning jointly, using an unspecified number of groups. To train the entire framework, we utilize reinforcement learning techniques by employing the execution time of the suggested device placements to formulate the reward. We demonstrate the flexibility and effectiveness of our approach through multiple experiments with three benchmark models, namely Inception-V3, ResNet, and BERT. The robustness of the proposed framework is also highlighted through an ablation study. The suggested placements improve the inference speed for the benchmark models by up to $58.2\%$ over CPU execution and by up to $60.24\%$ compared to other commonly used baselines.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# フェアネスハブ技術 : 配電シフトの定義と検出

Fairness Hub Technical Briefs: Definition and Detection of Distribution Shift ( http://arxiv.org/abs/2405.14186v1 )

ライセンス: Link先を確認
Nicolas Acevedo, Carmen Cortez, Chris Brooks, Rene Kizilcec, Renzhe Yu, (参考訳) 分散シフトは機械学習タスクにおいて一般的な状況であり、モデルのトレーニングに使用されるデータは、モデルが現実世界に適用されるデータとは異なる。 この問題は、標準的な予測タスクから時系列予測、より最近の大規模言語モデル(LLM)の応用に至るまで、複数の技術的な設定で発生します。 このミスマッチはパフォーマンスの低下につながる可能性があり、問題や非表現的なデータのサンプリング、環境やポリシーの変更、あるいはこれまで見つからなかったシナリオの出現など、さまざまな要因に関連している。 本稿では,教育環境における分布変化の定義と検出に焦点をあてる。 そこでは,一連の入力(予測器)である$X=(x_1,x_2,...,x_m)$を学習し,出力$Y=f(X)$を生成する。

Distribution shift is a common situation in machine learning tasks, where the data used for training a model is different from the data the model is applied to in the real world. This issue arises across multiple technical settings: from standard prediction tasks, to time-series forecasting, and to more recent applications of large language models (LLMs). This mismatch can lead to performance reductions, and can be related to a multiplicity of factors: sampling issues and non-representative data, changes in the environment or policies, or the emergence of previously unseen scenarios. This brief focuses on the definition and detection of distribution shifts in educational settings. We focus on standard prediction problems, where the task is to learn a model that takes in a series of input (predictors) $X=(x_1,x_2,...,x_m)$ and produces an output $Y=f(X)$.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# LLMに対するユニバーサルゴールハイジャックのための意味誘導型プロンプト機構

Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs ( http://arxiv.org/abs/2405.14189v1 )

ライセンス: Link先を確認
Yihao Huang, Chong Wang, Xiaojun Jia, Qing Guo, Felix Juefei-Xu, Jian Zhang, Geguang Pu, Yang Liu, (参考訳) LLM(Large Language Models)の人気が高まり、セキュリティタスクによる信頼性の評価が重要になった。 ゴールハイジャックという新たな課題に関して、これまでの取り組みは最適化アルゴリズムのみに集中しており、プロンプトの重要な役割を見落としている。 このギャップを埋めるために,意味誘導型プロンプト処理戦略を取り入れたPOUGHと呼ばれる汎用ゴールハイジャック手法を提案する。 具体的には、候補プールから代表プロンプトを選択するためのサンプリング戦略から始まり、次にそのプロンプトを優先順位付けするランキング戦略が続く。 逐次的にプロンプトを整理すると、そのプロンプトの普遍的な固定接尾辞を生成するために反復最適化アルゴリズムが用いられる。 4種類のLLMと10種類のターゲット応答を用いて実験を行い,本手法の有効性を検証した。

With the rising popularity of Large Language Models (LLMs), assessing their trustworthiness through security tasks has gained critical importance. Regarding the new task of universal goal hijacking, previous efforts have concentrated solely on optimization algorithms, overlooking the crucial role of the prompt. To fill this gap, we propose a universal goal hijacking method called POUGH that incorporates semantic-guided prompt processing strategies. Specifically, the method starts with a sampling strategy to select representative prompts from a candidate pool, followed by a ranking strategy that prioritizes the prompts. Once the prompts are organized sequentially, the method employs an iterative optimization algorithm to generate the universal fixed suffix for the prompts. Experiments conducted on four popular LLMs and ten types of target responses verified the effectiveness of our method.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# S-Eval:大規模言語モデルの安全性評価ベンチマークのための自動および適応型テスト生成

S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models ( http://arxiv.org/abs/2405.14191v1 )

ライセンス: Link先を確認
Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Hui Xue, Wenhai Wang, Kui Ren, Jingyi Wang, (参考訳) 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。 しかし、その安全性に関する懸念も高まり、モデル展開に先立って、LLMの総合的な安全性評価が緊急に必要となる。 本研究では,新しい包括的,多次元かつオープンな安全評価ベンチマークであるS-Evalを提案する。 S-Evalのコアには、LLMベースの自動テストプロンプト生成と選択フレームワークがあり、このフレームワークは、専門家によるLSM Mtのテストと、さまざまなテスト選択戦略を組み合わせて、安全性評価のための高品質なテストスイートを自動構築する。 このプロセスの自動化の鍵は、LLMの反応の危険度スコアを定量化し、リスクタグと説明を生成できる、新しい専門家のLLM Mcである。 さらに、生成プロセスは、4つの異なるレベルを持つ慎重に設計されたリスク分類によっても導かれる。 そこで本研究では,2万件のリスクプロンプト(中国語で1万件,英語で1万件)と,10件のLLMに対する敵対的攻撃から得られた20,000件のアタックプロンプトを含む,2万件の評価プロンプトから,LLMに対する新たな大規模安全評価ベンチマークを体系的に構築した。 さらに、LSMの急速な進化とそれに伴う安全上の脅威を考えると、S-Evalは柔軟に設定され、新しいリスク、攻撃、モデルを含むように適応できる。 S-Evalは20のLLMで広く評価されている。 その結果、S-Eval は既存のベンチマークと比較して LLM の安全性のリスクを反映し、報告できることがわかった。 また,パラメータ尺度,言語環境,復号化パラメータが評価に与える影響についても検討し,LLMの安全性を評価するための体系的な方法論を提供する。

Large Language Models have gained considerable attention for their revolutionary capabilities. However, there is also growing concern on their safety implications, making a comprehensive safety evaluation for LLMs urgently needed before model deployment. In this work, we propose S-Eval, a new comprehensive, multi-dimensional and open-ended safety evaluation benchmark. At the core of S-Eval is a novel LLM-based automatic test prompt generation and selection framework, which trains an expert testing LLM Mt combined with a range of test selection strategies to automatically construct a high-quality test suite for the safety evaluation. The key to the automation of this process is a novel expert safety-critique LLM Mc able to quantify the riskiness score of a LLM's response, and additionally produce risk tags and explanations. Besides, the generation process is also guided by a carefully designed risk taxonomy with four different levels, covering comprehensive and multi-dimensional safety risks of concern. Based on these, we systematically construct a new and large-scale safety evaluation benchmark for LLMs consisting of 220,000 evaluation prompts, including 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200, 000 corresponding attack prompts derived from 10 popular adversarial instruction attacks against LLMs. Moreover, considering the rapid evolution of LLMs and accompanied safety threats, S-Eval can be flexibly configured and adapted to include new risks, attacks and models. S-Eval is extensively evaluated on 20 popular and representative LLMs. The results confirm that S-Eval can better reflect and inform the safety risks of LLMs compared to existing benchmarks. We also explore the impacts of parameter scales, language environments, and decoding parameters on the evaluation, providing a systematic methodology for evaluating the safety of LLMs.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# IB-AdCSCNet:Information Bottleneckによる適応畳み込みスパース符号化ネットワーク

IB-AdCSCNet:Adaptive Convolutional Sparse Coding Network Driven by Information Bottleneck ( http://arxiv.org/abs/2405.14192v1 )

ライセンス: Link先を確認
He Zou, Meng'en Qin, Yu Song, Xiaohui Yang, (参考訳) ニューラルネットワークモデルの領域では、タスク関連情報を保持しつつ、伝播中に冗長なデータを効果的に破棄するという、永続的な課題が依然として残っている。 本稿では,情報ボトルネック理論に基づくディープラーニングモデルであるIB-AdCSCNetを紹介する。 IB-AdCSCNetは、FISTA(Fast Iterative Shrinkage-Thresholding Algorithm )フレームワーク内でのトレードオフハイパーパラメータ$\lambda$を動的に調整することで、情報ボトルネックのトレードオフ戦略をディープネットワークにシームレスに統合する。 IB-AdCSCNetは、情報ボトルネック原理によって誘導される圧縮励起損失関数を最適化することにより、グローバルレベルでの圧縮と嵌合の最適バランスを達成し、グローバルな最適な表現特徴を近似する。 下流タスクによって駆動されるこの情報ボトルネックトレードオフ戦略は、データの効果的な特徴を学ぶのに役立つだけでなく、モデルの一般化も改善する。 この研究の貢献は、一貫した性能を持つモデルを提示し、情報ボトルネックの概念に基づいて、深層学習とスパース表現理論を融合する新しい視点を提供することである。 CIFAR-10とCIFAR-100データセットの実験結果は、IB-AdCSCNetが深い残差畳み込みネットワークの性能にマッチするだけでなく、破損したデータを扱う際の性能も優れていることを示した。 IBトレードオフの推論を通じて、モデルの堅牢性は顕著に強化されている。

In the realm of neural network models, the perpetual challenge remains in retaining task-relevant information while effectively discarding redundant data during propagation. In this paper, we introduce IB-AdCSCNet, a deep learning model grounded in information bottleneck theory. IB-AdCSCNet seamlessly integrates the information bottleneck trade-off strategy into deep networks by dynamically adjusting the trade-off hyperparameter $\lambda$ through gradient descent, updating it within the FISTA(Fast Iterative Shrinkage-Thresholding Algorithm ) framework. By optimizing the compressive excitation loss function induced by the information bottleneck principle, IB-AdCSCNet achieves an optimal balance between compression and fitting at a global level, approximating the globally optimal representation feature. This information bottleneck trade-off strategy driven by downstream tasks not only helps to learn effective features of the data, but also improves the generalization of the model. This study's contribution lies in presenting a model with consistent performance and offering a fresh perspective on merging deep learning with sparse representation theory, grounded in the information bottleneck concept. Experimental results on CIFAR-10 and CIFAR-100 datasets demonstrate that IB-AdCSCNet not only matches the performance of deep residual convolutional networks but also outperforms them when handling corrupted data. Through the inference of the IB trade-off, the model's robustness is notably enhanced.
翻訳日:2024-05-24 18:55:13 公開日:2024-05-23
# ランダムウォークで欠落した位相情報に対するグラフレットの補正

Graphlets correct for the topological information missed by random walks ( http://arxiv.org/abs/2405.14194v1 )

ライセンス: Link先を確認
Sam F. L. Windels, Noel Malod-Dognin, Natasa Przulj, (参考訳) ランダムウォークは、それらを計算する計算効率のため、マイニングネットワークに広く使われている。 例えば、グラフ表現学習はd-次元埋め込み空間を学習するため、ランダムウォーク(同じネットワーク近傍にあるプロキシ)で共起するノードが埋め込み空間に近くなる。 特定の局所ネットワークトポロジ(構造)はランダムウォークにおけるノードの共起に影響を与えるため、制限された長さのランダムウォークは部分的トポロジ情報のみをキャプチャし、ダウンストリーム法の性能を低下させる。 我々は、グラフレット上の対称位置(大きなネットワークの小さい、連結で、同型ではない、誘導された部分グラフ)である与えられた一対のグラフレット軌道上で共起する2つのノードの隣接度を定量化する軌道アジャクシーを導入することにより、すべての位相的近傍情報を明示的に捕捉し、性能を向上させる。 重要なことは、kノードまでのランダムウォーキングが、最大kノードグラフレットの可能な全ての軌道隣接部のサブセットのみをキャプチャすることを証明することである。 さらに,高速なGRaphlet-orbit ADjacency Counter (GRADCO) を開発し,最大4ノードのグラフレットに対して全28の軌道隣接行列を網羅的に計算することで,ネットワークの軌道隣接に基づく解析を可能にする。 実ネットワークは通常小さな世界であるため、4ノードグラフレットは十分である。 約20,000ノードの大規模ネットワークでは、GRADCOcomputesthe28matricesinminutesである。 Onsixrealnetworks fromvarious domain, we compare the performance of node-label predictor obtained by using the network embeddeds based on our orbit adjacencies to those based on random walk。 ランダムウォークで見えないものを含む軌道隣接性は、ランダムウォークで見えないトポロジ的近傍情報を含めることの重要性を示す。

Random walks are widely used for mining networks due to the computational efficiency of computing them. For instance, graph representation learning learns a d-dimensional embedding space, so that the nodes that tend to co-occur on random walks (a proxy of being in the same network neighborhood) are close in the embedding space. Specific local network topology (i.e., structure) influences the co-occurrence of nodes on random walks, so random walks of limited length capture only partial topological information, hence diminishing the performance of downstream methods. We explicitly capture all topological neighborhood information and improve performance by introducing orbit adjacencies that quantify the adjacencies of two nodes as co-occurring on a given pair of graphlet orbits, which are symmetric positions on graphlets (small, connected, non-isomorphic, induced subgraphs of a large network). Importantly, we mathematically prove that random walks on up to k nodes capture only a subset of all the possible orbit adjacencies for up to k-node graphlets. Furthermore, we enable orbit adjacency-based analysis of networks by developing an efficient GRaphlet-orbit ADjacency COunter (GRADCO), which exhaustively computes all 28 orbit adjacency matrices for up to four-node graphlets. Note that four-node graphlets suffice, because real networks are usually small-world. In large networks on around 20,000 nodes, GRADCOcomputesthe28matricesinminutes. Onsixrealnetworksfromvarious domains, we compare the performance of node-label predictors obtained by using the network embeddings based on our orbit adjacencies to those based on random walks. We find that orbit adjacencies, which include those unseen by random walks, outperform random walk-based adjacencies, demonstrating the importance of the inclusion of the topological neighborhood information that is unseen by random walks.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 自己教師付き補助深度推定学習による物体追跡の強化

Enhanced Object Tracking by Self-Supervised Auxiliary Depth Estimation Learning ( http://arxiv.org/abs/2405.14195v1 )

ライセンス: Link先を確認
Zhenyu Wei, Yujie He, Zhanchuan Cai, (参考訳) RGB-Dトラッキングは、オブジェクト追跡の精度を大幅に向上させる。 しかし、実際の深度入力への依存性とマルチモーダル融合に関わる複雑さは、様々なシナリオで適用性を制限する。 RGB-Dトラッキングにおける深度情報の利用がきっかけとなり、MDETrackと呼ばれる新しい手法が提案されました。 MDETrackの統一特徴抽出器の出力は、それぞれサイドバイサイドトラッキングヘッドと補助深度推定ヘッドに供給される。 補助モジュールは推論で破棄されるので、推論速度は同じである。 我々は,複数のデータセット上で様々なトレーニング戦略を用いてモデルを評価し,実際の深度を伴わずとも追跡精度が向上したことを示した。 これらの結果から,物体追跡性能の向上における深度推定の可能性を強調した。

RGB-D tracking significantly improves the accuracy of object tracking. However, its dependency on real depth inputs and the complexity involved in multi-modal fusion limit its applicability across various scenarios. The utilization of depth information in RGB-D tracking inspired us to propose a new method, named MDETrack, which trains a tracking network with an additional capability to understand the depth of scenes, through supervised or self-supervised auxiliary Monocular Depth Estimation learning. The outputs of MDETrack's unified feature extractor are fed to the side-by-side tracking head and auxiliary depth estimation head, respectively. The auxiliary module will be discarded in inference, thus keeping the same inference speed. We evaluated our models with various training strategies on multiple datasets, and the results show an improved tracking accuracy even without real depth. Through these findings we highlight the potential of depth estimation in enhancing object tracking performance.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 不均一なエージェントの適応的指導:スパース・リワードシナリオにおけるバランス

Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios ( http://arxiv.org/abs/2405.14199v1 )

ライセンス: Link先を確認
Emma Clark, Kanghyun Ryu, Negar Mehr, (参考訳) 実証から学ぶ (LfD) は、『Student』エージェントが最も経験豊富な『Teacher』エージェントのデモンストレーションから学べるようにすることで、類似エージェントでシステムを訓練する効果的な方法である。 しかし、発散アクチュエータパワーや関節角度制約などのエージェント能力に相違がある場合、生徒の能力の限界から外れた実演を視覚的に複製することは、効率的な学習を制限することができる。 本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。 我々のフレームワークは「サプライズ」の概念に基づいており、スパース・リワード環境における探索のインセンティブ化に着想を得たものである。 サプライズ(サプライズ)は、教師が自分と学生の違いを検知し、適応できるようにするために再利用される。 実演に対する学生のサプライズを同時に最小化しながら、環境に対するサプライズを最大化することに集中することにより、教師は生徒の特定の能力や制約に効果的に適応することができる。 スパース・リワード環境における制御課題における学生の学習改善を実証し,本手法の有効性を検証した。

Learning from Demonstration (LfD) can be an efficient way to train systems with analogous agents by enabling ``Student'' agents to learn from the demonstrations of the most experienced ``Teacher'' agent, instead of training their policy in parallel. However, when there are discrepancies in agent capabilities, such as divergent actuator power or joint angle constraints, naively replicating demonstrations that are out of bounds for the Student's capability can limit efficient learning. We present a Teacher-Student learning framework specifically tailored to address the challenge of heterogeneity between the Teacher and Student agents. Our framework is based on the concept of ``surprise'', inspired by its application in exploration incentivization in sparse-reward environments. Surprise is repurposed to enable the Teacher to detect and adapt to differences between itself and the Student. By focusing on maximizing its surprise in response to the environment while concurrently minimizing the Student's surprise in response to the demonstrations, the Teacher agent can effectively tailor its demonstrations to the Student's specific capabilities and constraints. We validate our method by demonstrating improvements in the Student's learning in control tasks within sparse-reward environments.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 素晴らしいマルチモーダル物体追跡

Awesome Multi-modal Object Tracking ( http://arxiv.org/abs/2405.14200v1 )

ライセンス: Link先を確認
Chunhui Zhang, Li Liu, Hao Wen, Xi Zhou, Yanfeng Wang, (参考訳) MMOT(Multi-modal Object Tracking)は、様々なモダリティ(RGB)、深度、熱赤外、イベント、言語、オーディオなどのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。 自律運転やインテリジェントな監視といった多くのアプリケーションにとって、これは大きな意味を持つ。 近年、MMOTはますます注目を集めている。 しかし、既存のMMOTアルゴリズムは主に2つのモード(RGB+深度、RGB+熱赤外、RGB+言語)に焦点を当てている。 よりモダリティを活用するために、あらゆるモダリティに対して統一された視覚オブジェクト追跡モデルを学ぶための最近の試みがある。 さらに、視覚言語オーディオ (\eg WebUAV-3M) と視覚深度言語 (\eg UniMod1K) の2つ以上のモダリティを同時に提供することで、大規模なマルチモーダル追跡ベンチマークが確立されている。 本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。 具体的には,既存のMMOTタスクを,RGBL追跡,RGBE追跡,RGBD追跡,RGBT追跡,雑多性(RGB+X)の5つのカテゴリに分割する。 そして,各MMOTタスクを分析し,その技術パラダイム(自己教師型学習,素早い学習,知識蒸留,生成モデル,状態空間モデル)に基づいて,広く使用されているデータセットと主流追跡アルゴリズムに着目して要約する。 最後に、MMOTの更新されたペーパーリストをhttps://github.com/983632847/Awesome-Multimodal-Object-Tracking.comで継続的に維持する。

Multi-modal object tracking (MMOT) is an emerging field that combines data from various modalities, \eg vision (RGB), depth, thermal infrared, event, language and audio, to estimate the state of an arbitrary object in a video sequence. It is of great significance for many applications such as autonomous driving and intelligent surveillance. In recent years, MMOT has received more and more attention. However, existing MMOT algorithms mainly focus on two modalities (\eg RGB+depth, RGB+thermal infrared, and RGB+language). To leverage more modalities, some recent efforts have been made to learn a unified visual object tracking model for any modality. Additionally, some large-scale multi-modal tracking benchmarks have been established by simultaneously providing more than two modalities, such as vision-language-audio (\eg WebUAV-3M) and vision-depth-language (\eg UniMod1K). To track the latest progress in MMOT, we conduct a comprehensive investigation in this report. Specifically, we first divide existing MMOT tasks into five main categories, \ie RGBL tracking, RGBE tracking, RGBD tracking, RGBT tracking, and miscellaneous (RGB+X), where X can be any modality, such as language, depth, and event. Then, we analyze and summarize each MMOT task, focusing on widely used datasets and mainstream tracking algorithms based on their technical paradigms (\eg self-supervised learning, prompt learning, knowledge distillation, generative models, and state space models). Finally, we maintain a continuously updated paper list for MMOT at https://github.com/983632847/Awesome-Multimodal-Object-Tracking.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# FreeTuner: トレーニング不要の拡散を伴うあらゆるスタイルの課題

FreeTuner: Any Subject in Any Style with Training-free Diffusion ( http://arxiv.org/abs/2405.14201v1 )

ライセンス: Link先を確認
Youcan Xu, Zhen Wang, Jun Xiao, Wei Liu, Long Chen, (参考訳) 拡散モデルの進歩により、様々なパーソナライズされた画像生成法が提案されている。 しかしながら、既存の作業のほとんどは、主観的あるいはスタイル的パーソナライゼーションにのみ焦点をあてている。 一方、最先端の手法は、構成的パーソナライゼーションを実現する上でいくつかの課題に直面している。 これらの問題に対処するために、FreeTunerを導入する。FreeTunerは、フレキシブルでトレーニングのない、作曲のパーソナライズのためのメソッドで、任意のユーザが提供する対象を、ユーザが提供するスタイルで生成することができる(図1参照)。 提案手法では, 生成過程を2段階に分けて, 概念の絡みを効果的に緩和する。 FreeTunerは、主題概念表現のための拡散モデル内の中間的特徴を活用し、合成画像とスタイル概念を整合させるスタイルガイダンスを導入し、被験者の構造とスタイルの美的特徴の両方を確実に保持する。 大規模な実験は、さまざまなパーソナライズ設定でFreeTunerの生成能力を実証した。

With the advance of diffusion models, various personalized image generation methods have been proposed. However, almost all existing work only focuses on either subject-driven or style-driven personalization. Meanwhile, state-of-the-art methods face several challenges in realizing compositional personalization, i.e., composing different subject and style concepts, such as concept disentanglement, unified reconstruction paradigm, and insufficient training data. To address these issues, we introduce FreeTuner, a flexible and training-free method for compositional personalization that can generate any user-provided subject in any user-provided style (see Figure 1). Our approach employs a disentanglement strategy that separates the generation process into two stages to effectively mitigate concept entanglement. FreeTuner leverages the intermediate features within the diffusion model for subject concept representation and introduces style guidance to align the synthesized images with the style concept, ensuring the preservation of both the subject's structure and the style's aesthetic features. Extensive experiments have demonstrated the generation ability of FreeTuner across various personalization settings.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# GLaD: 有機太陽電池デバイスにおける電力変換効率向上のための分子グラフと言語記述子の統合化

GLaD: Synergizing Molecular Graphs and Language Descriptors for Enhanced Power Conversion Efficiency Prediction in Organic Photovoltaic Devices ( http://arxiv.org/abs/2405.14203v1 )

ライセンス: Link先を確認
Thao Nguyen, Tiara Torres-Flores, Changhyun Hwang, Carl Edwards, Ying Diao, Heng Ji, (参考訳) 本稿では,GLaDと呼ばれる有機太陽電池デバイスの電力変換効率(PCE)を予測する新しい手法を提案する。 高品質な実験データがないため、500対のOPVドナーとアクセプター分子からなるデータセットを、対応するPCE値とともに収集し、予測モデルのトレーニングデータとして利用する。 この低データ構造において、GLaDは、広範な科学的文献で事前訓練された大きな言語モデル(LLM)から得られた特性を活用して、分子の構造表現を豊かにし、分子のマルチモーダル表現を可能にする。 GLaDはPCEの正確な予測を実現し、効率を向上した新しいPV分子の合成を容易にする。 さらに、GLaDは多様な分子特性予測タスク(BBBP、BACE、ClinTox、SIDER)に適用されるため、OPV材料に限らず汎用性を示す。 特に、GLaDは、大規模事前学習から学んだ分子特性記述を組み込むことで、分子表現を豊かにするため、化学空間内の低データ状態におけるタスクに有用であることが証明されている。 この能力は、薬物や物質発見のような現実世界の科学的取り組みにおいて重要であり、包括的データへのアクセスは、化学空間の情報的決定と効率的な探索に不可欠である。

This paper presents a novel approach for predicting Power Conversion Efficiency (PCE) of Organic Photovoltaic (OPV) devices, called GLaD: synergizing molecular Graphs and Language Descriptors for enhanced PCE prediction. Due to the lack of high-quality experimental data, we collect a dataset consisting of 500 pairs of OPV donor and acceptor molecules along with their corresponding PCE values, which we utilize as the training data for our predictive model. In this low-data regime, GLaD leverages properties learned from large language models (LLMs) pretrained on extensive scientific literature to enrich molecular structural representations, allowing for a multimodal representation of molecules. GLaD achieves precise predictions of PCE, thereby facilitating the synthesis of new OPV molecules with improved efficiency. Furthermore, GLaD showcases versatility, as it applies to a range of molecular property prediction tasks (BBBP, BACE, ClinTox, and SIDER), not limited to those concerning OPV materials. Especially, GLaD proves valuable for tasks in low-data regimes within the chemical space, as it enriches molecular representations by incorporating molecular property descriptions learned from large-scale pretraining. This capability is significant in real-world scientific endeavors like drug and material discovery, where access to comprehensive data is crucial for informed decision-making and efficient exploration of the chemical space.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 世界知識モデルを用いたエージェントプランニング

Agent Planning with World Knowledge Model ( http://arxiv.org/abs/2405.14205v1 )

ライセンス: Link先を確認
Shuofei Qiao, Runnan Fang, Ningyu Zhang, Yuqi Zhu, Xiang Chen, Shumin Deng, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, (参考訳) 対話型計画タスクを実行するエージェントモデルとして,大規模言語モデル(LLM)を直接利用するための最近の取り組みは,賞賛に値する結果を示している。 しかし、これらの成果にもかかわらず、「現実」の物理世界に対する理解が乏しいため、グローバルプランニングにおける無脳の試行錯誤や、地域プランニングにおける幻覚的行動の発生に苦慮している。 本稿では,タスク前にグローバルな事前知識を提供し,タスク中に局所的なダイナミックな知識を維持する人間のメンタルワールド知識モデル(WKM)について,エージェント計画を容易にするためにパラメトリックワールド知識モデル(Parametric World Knowledge Model,WKM)を紹介する。 具体的には、エージェントモデルを用いて、専門家とサンプルの軌跡から知識を自己合成する。 そして、WKMを開発し、グローバルプランニングと動的状態知識をガイドし、ローカルプランニングを支援する。 最先端のオープンソースLLM3種, Mistral-7B, Gemma-7B, および Llama-3-8B を用いた実世界の3つの複雑なシミュレーションデータセットの実験結果から, 本手法は各種の強力なベースラインと比較して優れた性能が得られることを示した。 さらに、我々のWKMが視覚障害者の試行錯誤や幻覚的行動の問題を効果的に緩和し、エージェントの世界の理解を強く支援できることを示すために分析を行った。 その他の興味深い発見は以下のとおりである。 1) インスタンスレベルのタスク知識は、見当たらないタスクをより一般化することができる。 2)弱いWKMは強力なエージェントモデルプランニングを導くことができる。 3)統一的なWKM訓練はさらなる発展に有望な可能性を秘めている。 コードはhttps://github.com/zjunlp/WKM.comで入手できる。

Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the ''real'' physical world. Imitating humans' mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent's understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. Code will be available at https://github.com/zjunlp/WKM.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# LG-VQ: 言語によるコードブック学習

LG-VQ: Language-Guided Codebook Learning ( http://arxiv.org/abs/2405.14206v1 )

ライセンス: Link先を確認
Guotao Liang, Baoquan Zhang, Yaowei Wang, Xutao Li, Yunming Ye, Huaibin Wang, Chuyao Luo, Kola Ye, linfeng Luo, (参考訳) ベクトル量子化(VQ)は、高解像度で高忠実な画像合成において重要な技術であり、コードブックを学習して、離散コードで画像をエンコードし、自動回帰的に画像を生成することを目的としている。 既存の手法は優れた性能を示してきたが、ほとんどの手法は単一モードのコードブック (\emph{e g }, image) を学習することを好んでおり、結果として、コードブックがマルチモードの下流タスク (\emph{e g }, text-to-image, image casting) に適用された場合、モダルギャップの存在により、準最適性能をもたらす。 本稿では,LG-VQと呼ばれる新しい言語指導型コードブック学習フレームワークを提案する。 具体的には、まず事前学習したテキストセマンティクスを事前知識として導入し、次に2つの新しいアライメントモジュール(\emph{i.e.}、セマンティックアライメントモジュール、リレーショナルアライメントモジュール)を設計し、コードブックのテキストアライメントを達成するためのコードに変換する。 特にLG-VQ法はモデルに依存しないため,既存のVQモデルと容易に統合できる。 実験結果から,本手法は再建および多モード下流タスクにおいて優れた性能を発揮することが示された。

Vector quantization (VQ) is a key technique in high-resolution and high-fidelity image synthesis, which aims to learn a codebook to encode an image with a sequence of discrete codes and then generate an image in an auto-regression manner. Although existing methods have shown superior performance, most methods prefer to learn a single-modal codebook (\emph{e.g.}, image), resulting in suboptimal performance when the codebook is applied to multi-modal downstream tasks (\emph{e.g.}, text-to-image, image captioning) due to the existence of modal gaps. In this paper, we propose a novel language-guided codebook learning framework, called LG-VQ, which aims to learn a codebook that can be aligned with the text to improve the performance of multi-modal downstream tasks. Specifically, we first introduce pre-trained text semantics as prior knowledge, then design two novel alignment modules (\emph{i.e.}, Semantic Alignment Module, and Relationship Alignment Module) to transfer such prior knowledge into codes for achieving codebook text alignment. In particular, our LG-VQ method is model-agnostic, which can be easily integrated into existing VQ models. Experimental results show that our method achieves superior performance on reconstruction and various multi-modal downstream tasks.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# Eidos: 効率的で知覚不能な3Dポイントの雲

Eidos: Efficient, Imperceptible Adversarial 3D Point Clouds ( http://arxiv.org/abs/2405.14210v1 )

ライセンス: Link先を確認
Hanwei Zhang, Luo Cheng, Qisong He, Wei Huang, Renjue Li, Ronan Sicre, Xiaowei Huang, Holger Hermanns, Lijun Zhang, (参考訳) 3Dポイントクラウドの分類は、自律運転やロボット支援手術から低軌道からの地球観測まで、重要な現実世界の応用のための挑戦的な機械学習(ML)タスクである。 他のMLタスクと同様に、分類モデルは敵の攻撃を受けると脆弱である。 これらは、一見よく訓練されたモデルが入力を誤分類した結果、入力に対する知覚不可能な変化に根ざしている。 本稿では,3次元pOintクラウドSに対して,効率的な非知覚的アディバーサリアルアタックを提供するフレームワークであるEidosを提示することで,敵攻撃の理解を深める。 Eidosは、さまざまなインセプティビリティメトリクスをサポートする。 最適な敵の例を特定するために、反復的な2段階の手順を採用しており、実行時と受信時のトレードオフを可能にする。 一般的な3Dポイントクラウド分類モデルといくつかの確立された3Dアタック手法に対する実証的証拠を提示し,効率および非受容性に対するエイドスの優位性を示す。

Classification of 3D point clouds is a challenging machine learning (ML) task with important real-world applications in a spectrum from autonomous driving and robot-assisted surgery to earth observation from low orbit. As with other ML tasks, classification models are notoriously brittle in the presence of adversarial attacks. These are rooted in imperceptible changes to inputs with the effect that a seemingly well-trained model ends up misclassifying the input. This paper adds to the understanding of adversarial attacks by presenting Eidos, a framework providing Efficient Imperceptible aDversarial attacks on 3D pOint cloudS. Eidos supports a diverse set of imperceptibility metrics. It employs an iterative, two-step procedure to identify optimal adversarial examples, thereby enabling a runtime-imperceptibility trade-off. We provide empirical evidence relative to several popular 3D point cloud classification models and several established 3D attack methods, showing Eidos' superiority with respect to efficiency as well as imperceptibility.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# ChronosLex:法定分類タスクの時間的一般化のためのインクリメンタルトレーニング

ChronosLex: Time-aware Incremental Training for Temporal Generalization of Legal Classification Tasks ( http://arxiv.org/abs/2405.14211v1 )

ライセンス: Link先を確認
T. Y. S. S Santosh, Tuan-Quang Vuong, Matthias Grabmair, (参考訳) 本研究では,法的概念が時間とともに進化する,法的多ラベルテキスト分類タスクの動的性質がもたらす課題について検討する。 既存のモデルはしばしばトレーニングプロセスの時間次元を見落とし、トレーニングデータを1つの均質なブロックとして扱うため、これらのモデルの最適以下の性能を経時的に向上させる。 これを解決するためにChronosLexを導入する。ChronosLexは、時系列分割のモデルをトレーニングし、データの時間的順序を保存するためのインクリメンタルトレーニングパラダイムである。 しかし、この漸進的なアプローチは、最近のデータに過度に適合するという懸念を提起し、継続学習と時間不変法を用いた緩和戦略の評価を促す。 6つの法的多ラベルテキスト分類データセットに対する実験結果から,連続的な学習手法は過適合を防止し,時間的一般化性を高めるのに有効であり,時間的不変法は時間的シフトのこれらのダイナミクスを捉えるのに苦慮していることがわかった。

This study investigates the challenges posed by the dynamic nature of legal multi-label text classification tasks, where legal concepts evolve over time. Existing models often overlook the temporal dimension in their training process, leading to suboptimal performance of those models over time, as they treat training data as a single homogeneous block. To address this, we introduce ChronosLex, an incremental training paradigm that trains models on chronological splits, preserving the temporal order of the data. However, this incremental approach raises concerns about overfitting to recent data, prompting an assessment of mitigation strategies using continual learning and temporal invariant methods. Our experimental results over six legal multi-label text classification datasets reveal that continual learning methods prove effective in preventing overfitting thereby enhancing temporal generalizability, while temporal invariant methods struggle to capture these dynamics of temporal shifts.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 合成データを用いた大規模言語モデルにおけるドメイン特化知識のフェデレーション

Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data ( http://arxiv.org/abs/2405.14212v1 )

ライセンス: Link先を確認
Haoran Li, Xinyuan Zhao, Dadi Guo, Hanlin Gu, Ziqian Zeng, Yuxing Han, Yangqiu Song, Lixin Fan, Qiang Yang, (参考訳) 大規模言語モデル(LLM)は、並列性能と一般化能力を示すため、LLMは広く使われ、様々なアプリケーションに統合されている。 連合学習のシナリオで一般的に説明されるセンシティブなドメインでは、プライベートデータに外部のLLMを直接使用するのは、厳格なデータセキュリティとプライバシ規則によって厳格に禁止されている。 ローカルクライアントにとって、限られた計算資源とドメイン固有データによって特徴付けられるドメイン固有小言語モデル(SLM)を改善するためのLLMの利用は、かなりの研究関心を集めている。 LLMがドメイン固有のSLMを活用できることを観察することで、既存の手法は、LLMからSLMへ知識を伝達するためのより多くのデータを生成するために、公開データまたはLLMを活用することに主に集中する。 しかし、LLMが生成するデータとクライアントのドメイン固有のデータとの相違により、これらの手法はドメイン固有のタスクに大きな改善をもたらすことはできない。 本稿では,クライアントのデータプライバシを保護しながら,LLMからSLMへのドメイン固有の知識伝達を可能にするFDKTフレームワークを提案する。 中心となる洞察は、LLMを活用して、ディファレンシャルプライバシを使用してプライベートドメインデータから合成される、ドメイン固有の数ショットのデモに基づいてデータを拡張することである。 このような合成サンプルは、クライアントのプライベートデータと類似したデータ分布を共有し、サーバのLSMが特定の知識を生成してクライアントのSLMを改善する。 提案したFDKTフレームワークは,プライバシ予算が10未満のSLMのタスク性能を,プライベートデータによるローカルトレーニングと比較して連続的に,かつ大幅に向上することを示した。

As large language models (LLMs) demonstrate unparalleled performance and generalization ability, LLMs are widely used and integrated into various applications. When it comes to sensitive domains, as commonly described in federated learning scenarios, directly using external LLMs on private data is strictly prohibited by stringent data security and privacy regulations. For local clients, the utilization of LLMs to improve the domain-specific small language models (SLMs), characterized by limited computational resources and domain-specific data, has attracted considerable research attention. By observing that LLMs can empower domain-specific SLMs, existing methods predominantly concentrate on leveraging the public data or LLMs to generate more data to transfer knowledge from LLMs to SLMs. However, due to the discrepancies between LLMs' generated data and clients' domain-specific data, these methods cannot yield substantial improvements in the domain-specific tasks. In this paper, we introduce a Federated Domain-specific Knowledge Transfer (FDKT) framework, which enables domain-specific knowledge transfer from LLMs to SLMs while preserving clients' data privacy. The core insight is to leverage LLMs to augment data based on domain-specific few-shot demonstrations, which are synthesized from private domain data using differential privacy. Such synthetic samples share similar data distribution with clients' private data and allow the server LLM to generate particular knowledge to improve clients' SLMs. The extensive experimental results demonstrate that the proposed FDKT framework consistently and greatly improves SLMs' task performance by around 5\% with a privacy budget of less than 10, compared to local training on private data.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# テキストからPixelへ:MLLMにおける長期的理解の促進

From Text to Pixel: Advancing Long-Context Understanding in MLLMs ( http://arxiv.org/abs/2405.14213v1 )

ライセンス: Link先を確認
Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang, (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩は、複雑な視覚情報やテキスト情報を処理し理解する能力を大幅に進歩させた。 しかし、長い入力シーケンスを効率的に処理するモデルの能力に固有の制限があるため、複数の画像と広範なテキストコンテキストの統合は依然として課題である。 本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。 SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、固定トークン長の予算内で長文を効率的に扱えるようにすることで、長文のコンパクト符号化を最適化することを目的としている。 6つの長文マルチモーダルタスクに関する実証実験により、SEEKERはOCRベースの手法に比べて少ない画像トークンを利用して同じ量のテキスト情報を伝達でき、また、長文マルチモーダル入力の理解と長文出力の生成がより効率的であり、既存のプロプライエタリおよびオープンソースMLLMを大きなマージンで上回ることを示した。

The rapid progress in Multimodal Large Language Models (MLLMs) has significantly advanced their ability to process and understand complex visual and textual information. However, the integration of multiple images and extensive textual contexts remains a challenge due to the inherent limitation of the models' capacity to handle long input sequences efficiently. In this paper, we introduce SEEKER, a multimodal large language model designed to tackle this issue. SEEKER aims to optimize the compact encoding of long text by compressing the text sequence into the visual pixel space via images, enabling the model to handle long text within a fixed token-length budget efficiently. Our empirical experiments on six long-context multimodal tasks demonstrate that SEEKER can leverage fewer image tokens to convey the same amount of textual information compared with the OCR-based approach, and is more efficient in understanding long-form multimodal input and generating long-form textual output, outperforming all existing proprietary and open-source MLLMs by large margins.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 変化点のない非定常環境における深層強化学習のための行動認識アプローチ

A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points ( http://arxiv.org/abs/2405.14214v1 )

ライセンス: Link先を確認
Zihe Liu, Jie Lu, Guangquan Zhang, Junyu Xuan, (参考訳) 深い強化学習は、様々な領域で使われているが、通常、環境が遷移や状態分布のような静止状態にあるという仮定の下で用いられる。 この仮定が満たされていない場合、パフォーマンスが損なわれる。 このため、継続的な環境変化の追跡と予測不可能な条件への適応は、現実的なシナリオにおいてシステムが信頼性と柔軟性を維持し続けることを保証するため、非常に難しい。 本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識・適応(BADA)について紹介する。 我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。 具体的には、手動で閾値を設定することなく、ワッサーシュタイン距離を用いて行動の変動を分析することで環境変化を同定する。 モデルは変化の度合いに基づいた行動規則化を通じて新しい環境に適応する。 一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。 この研究は、この長年にわたる課題に対処する大きな可能性を示唆している。

Deep reinforcement learning is used in various domains, but usually under the assumption that the environment has stationary conditions like transitions and state distributions. When this assumption is not met, performance suffers. For this reason, tracking continuous environmental changes and adapting to unpredictable conditions is challenging yet crucial because it ensures that systems remain reliable and flexible in practical scenarios. Our research introduces Behavior-Aware Detection and Adaptation (BADA), an innovative framework that merges environmental change detection with behavior adaptation. The key inspiration behind our method is that policies exhibit different global behaviors in changing environments. Specifically, environmental changes are identified by analyzing variations between behaviors using Wasserstein distances without manually set thresholds. The model adapts to the new environment through behavior regularization based on the extent of changes. The results of a series of experiments demonstrate better performance relative to several current algorithms. This research also indicates significant potential for tackling this long-standing challenge.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 超伝導時間結晶における空間パターンと同期の創発

Emergence of spatial patterns and synchronization in superconducting time crystals ( http://arxiv.org/abs/2405.14216v1 )

ライセンス: Link先を確認
Bo Fan, Zi Cai, Antonio M. García-García, (参考訳) 我々は、周期的に駆動される結合定数を持つ0温度での時間依存ボゴリューボフ・ド・ジェンヌ形式を用いて、無秩序超伝導体における駆動周波数の周波数半を特徴とする時間結晶相を同定した。 空間的不均一性の指数的な増加と秩序パラメータ振幅の指数的な抑制の後、時間結晶は異なる大きさの島を発達させる。 これらの島はそれぞれ同じ周波数の時間結晶であり、同質の時間結晶に対して位相シフトが$\pi$である。 出現後、この島は徐々に小さくなり、相転移は継続するが、初期サイズに依存するように突然同期するまで続く。 我々は、結晶相が終了する金属相において、依然として深い臨界障害強度を見出した。 さらに強い障害に対しては、ローカライゼーション効果が重要でない領域において、順序パラメータは駆動周波数とともに発振する。

We identify a time crystal phase characterized by a frequency half of the driving frequency in disordered superconductors by employing the time dependent Bogoliubov-de Gennes formalism at zero temperature with a periodically driven coupling constant. After a period of exponential increase of spatial inhomogeneities and exponential suppression of the order parameter amplitude, the time crystal develops islands of different sizes. Each of these islands is a time crystal with the same frequency albeit with a phase shift $\pi$ with respect to the homogeneous time crystal. After its emergence, the island gradually becomes smaller, though the phase shift persists, until it is abruptly synchronized at a time that it depends on its initial size. We find a critical disorder strength, still deep in the metallic phase, at which the time crystal phase terminates. For even stronger disorder, the order parameter oscillates with the driving frequency in regions where localization effects are not important.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# シーケンス決定のための事前学習型変圧器の訓練と一般化の理解

Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making ( http://arxiv.org/abs/2405.14219v1 )

ライセンス: Link先を確認
Hanzhao Wang, Yu Pan, Fupeng Sun, Shang Liu, Kalyan Talluri, Guanting Chen, Xiaocheng Li, (参考訳) 本稿では,逐次的意思決定問題に対する教師付き事前学習型変圧器について考察する。 考察された問題のクラスは、遷移確率行列が存在しないという、強化学習の一般的な定式化のサブセットであり、問題のクラスは特別なケースとして帯域幅、動的価格、ニュースベンダーの問題をカバーする。 このような構造により、事前学習フェーズにおける最適な動作/決定が可能となり、事前訓練されたトランスフォーマーのトレーニングと一般化のための新たな洞察も得られる。 まず, 変圧器モデルのトレーニングを性能予測問題とみなすことができ, 既存の手法や理論は, 発生したアウト・オブ・ディストリビューション問題を無視したり, 解決できない点に注意する。 本稿では, 学習手順にトランスフォーマー生成動作列を含む自然な解を提案し, 数値的および理論的に良好な特性を享受する。 検討課題における最適動作の可用性は,事前学習したトランスフォーマーの特性をアルゴリズムとして解析し,探索に欠ける理由と,それが自動的に解決される方法を説明する。 数値的には、UPBやトンプソンサンプリングのような構造化アルゴリズムに対する事前学習変換器の利点を3つのケースに分類する。 (i)事前学習データに事前知識を活用すべきである。 二 構造化アルゴリズムが抱える誤特定問題に優雅に対処することができること。 (iii)$T\le50$のような短時間の地平線では、漸近的最適性のために設計された構造化アルゴリズムよりも、より欲求的であり、後悔に満ちている。

In this paper, we consider the supervised pretrained transformer for a class of sequential decision-making problems. The class of considered problems is a subset of the general formulation of reinforcement learning in that there is no transition probability matrix, and the class of problems covers bandits, dynamic pricing, and newsvendor problems as special cases. Such a structure enables the use of optimal actions/decisions in the pretraining phase, and the usage also provides new insights for the training and generalization of the pretrained transformer. We first note that the training of the transformer model can be viewed as a performative prediction problem, and the existing methods and theories largely ignore or cannot resolve the arisen out-of-distribution issue. We propose a natural solution that includes the transformer-generated action sequences in the training procedure, and it enjoys better properties both numerically and theoretically. The availability of the optimal actions in the considered tasks also allows us to analyze the properties of the pretrained transformer as an algorithm and explains why it may lack exploration and how this can be automatically resolved. Numerically, we categorize the advantages of the pretrained transformer over the structured algorithms such as UCB and Thompson sampling into three cases: (i) it better utilizes the prior knowledge in the pretraining data; (ii) it can elegantly handle the misspecification issue suffered by the structured algorithms; (iii) for short time horizon such as $T\le50$, it behaves more greedy and enjoys much better regret than the structured algorithms which are designed for asymptotic optimality.
翻訳日:2024-05-24 18:45:29 公開日:2024-05-23
# 生成モデルを用いた視覚信号符号化と処理に関する調査:技術,標準,最適化

Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization ( http://arxiv.org/abs/2405.14221v1 )

ライセンス: Link先を確認
Zhibo Chen, Heming Sun, Li Zhang, Fan Zhang, (参考訳) 本稿では,視覚信号の符号化と生成モデルによる処理の最新の展開について調査する。 具体的には、生成モデルの進歩とその視覚信号符号化・処理分野の研究への影響について述べる。 この調査は、VAEモデル、GANモデル、自己回帰(AR)モデル、正規化フロー、拡散モデルなど、確立された生成モデルの簡単な導入から始まる。 その後の節では、生成モデルに基づく視覚信号符号化の進歩と、現在進行中の国際標準化活動について考察する。 視覚信号処理の分野では、視覚信号復元研究における様々な生成モデルの適用と開発に焦点が当てられている。 また、生成モデルを用いた視覚信号品質評価と生成モデルの品質評価とともに、生成的視覚信号合成と編集の最新の展開を示す。 これらの研究の実践的実装は、高速最適化の研究と密接に関連している。 本稿では,視覚信号の符号化と生成モデルによる処理の高速化について述べる。 我々は,視覚信号の符号化と生成モデルによる処理の話題について,研究者や実践者たちに総合的な文献レビューを提供することで,この分野を推し進めたい。

This paper provides a survey of the latest developments in visual signal coding and processing with generative models. Specifically, our focus is on presenting the advancement of generative models and their influence on research in the domain of visual signal coding and processing. This survey study begins with a brief introduction of well-established generative models, including the Variational Autoencoder (VAE) models, Generative Adversarial Network (GAN) models, Autoregressive (AR) models, Normalizing Flows and Diffusion models. The subsequent section of the paper explores the advancements in visual signal coding based on generative models, as well as the ongoing international standardization activities. In the realm of visual signal processing, our focus lies on the application and development of various generative models in the research of visual signal restoration. We also present the latest developments in generative visual signal synthesis and editing, along with visual signal quality assessment using generative models and quality assessment for generative models. The practical implementation of these studies is closely linked to the investigation of fast optimization. This paper additionally presents the latest advancements in fast optimization on visual signal coding and processing with generative models. We hope to advance this field by providing researchers and practitioners a comprehensive literature review on the topic of visual signal coding and processing with generative models.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# RAQ-VAE:レート適応ベクトル量子変分オートエンコーダ

RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder ( http://arxiv.org/abs/2405.14222v1 )

ライセンス: Link先を確認
Jiwan Seo, Joonhyuk Kang, (参考訳) Vector Quantized Variational AutoEncoder (VQ-VAE) は、様々なモードで離散表現を学習する機械学習において確立された技術である。 しかし、そのスケーラビリティと適用性は、異なるデータやモデルスケールのコードブックを調整するためにモデルを再トレーニングする必要性によって制限される。 本稿では、この課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介し、既存のよく訓練されたVQ-VAEモデルにクラスタリングベースの手法を用いたモデルベースアプローチと、可変レートのコードブック生成にシーケンシャル・ツー・シーケンス(Seq2Seq)モデルを利用したデータ駆動アプローチを提案する。 実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。 この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。

Vector Quantized Variational AutoEncoder (VQ-VAE) is an established technique in machine learning for learning discrete representations across various modalities. However, its scalability and applicability are limited by the need to retrain the model to adjust the codebook for different data or model scales. We introduce the Rate-Adaptive VQ-VAE (RAQ-VAE) framework, which addresses this challenge with two novel codebook representation methods: a model-based approach using a clustering-based technique on an existing well-trained VQ-VAE model, and a data-driven approach utilizing a sequence-to-sequence (Seq2Seq) model for variable-rate codebook generation. Our experiments demonstrate that RAQ-VAE achieves effective reconstruction performance across multiple rates, often outperforming conventional fixed-rate VQ-VAE models. This work enhances the adaptability and performance of VQ-VAEs, with broad applications in data reconstruction, generation, and computer vision tasks.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# DiM:高分解能画像合成のための拡散マンバ

DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis ( http://arxiv.org/abs/2405.14224v1 )

ライセンス: Link先を確認
Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu, (参考訳) 拡散モデルは画像生成において大きな成功を収め、バックボーンはU-NetからVision Transformersへと進化した。 しかし、Transformersの計算コストはトークンの数に2倍であり、高解像度画像を扱う際の大きな課題となっている。 本研究では,状態空間モデル(SSM)に基づくシーケンスモデルであるMambaの効率と,高分解能画像合成のための拡散モデルの表現力を組み合わせた拡散マンバ(Diffusion Mamba, DiM)を提案する。 Mambaが2次元信号に一般化できないという課題に対処するため、多方向スキャン、各行と列の端にある学習可能なパディングトークン、軽量な局所的特徴拡張など、いくつかのアーキテクチャ設計を行った。 我々のDEMアーキテクチャは高解像度画像の推測時間効率を実現する。 さらに、高解像度画像生成のためのトレーニング効率をさらに向上するため、低解像度画像(256\times 256$)でDiMを事前訓練し、高解像度画像(512 \times 512$)で微調整する「弱強」のトレーニング戦略を検討する。 さらに、トレーニング不要のアップサンプリング戦略を検討し、さらに微調整することなく、高解像度の画像(例えば、1024ドル、1536ドル、1536ドル)を生成できるようにします。 実験は、我々のDiMの有効性と効率を実証する。

Diffusion models have achieved great success in image generation, with the backbone evolving from U-Net to Vision Transformers. However, the computational cost of Transformers is quadratic to the number of tokens, leading to significant challenges when dealing with high-resolution images. In this work, we propose Diffusion Mamba (DiM), which combines the efficiency of Mamba, a sequence model based on State Space Models (SSM), with the expressive power of diffusion models for efficient high-resolution image synthesis. To address the challenge that Mamba cannot generalize to 2D signals, we make several architecture designs including multi-directional scans, learnable padding tokens at the end of each row and column, and lightweight local feature enhancement. Our DiM architecture achieves inference-time efficiency for high-resolution images. In addition, to further improve training efficiency for high-resolution image generation with DiM, we investigate ``weak-to-strong'' training strategy that pretrains DiM on low-resolution images ($256\times 256$) and then finetune it on high-resolution images ($512 \times 512$). We further explore training-free upsampling strategies to enable the model to generate higher-resolution images (e.g., $1024\times 1024$ and $1536\times 1536$) without further fine-tuning. Experiments demonstrate the effectiveness and efficiency of our DiM.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# ReactXT: 反応コンテキスト化された分子テキスト事前学習による分子「反応船」の理解

ReactXT: Understanding Molecular "Reaction-ship" via Reaction-Contextualized Molecule-Text Pretraining ( http://arxiv.org/abs/2405.14225v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Yaorui Shi, An Zhang, Sihang Li, Enzhi Zhang, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua, (参考訳) 分子関連タスクをテキストインターフェースとテキスト知識で促進することを目的とした分子文モデリングが,新たな研究方向である。 単一分子の他に、反応テキストモデリングの研究は、新しい物質や薬物の合成を助けることを約束している。 主に、個々の分子とテキストのペアをモデル化するか、文脈でテキストなしで化学反応を学習することに焦点を当てている。 さらに、リアクションテキストモデリングの1つの重要なタスク -- 実験的なプロシージャ予測 -- は、オープンソースデータセットがないため、あまり調査されていない。 この課題は、化学実験を行う段階的な行動を予測することであり、化学合成の自動化に不可欠である。 上記の課題を解決するために、反応テキストモデリングのための新しい事前学習手法ReactXTと実験手順予測のための新しいデータセットOpenExpを提案する。 具体的には、ReactXTは3種類の入力コンテキストをインクリメンタルに事前トレーニングする。 3つの入力コンテキストはそれぞれ、反応または単一分子のテキストベースの理解を改善するための事前訓練タスクに対応する。 ReactXTは、実験的な手順予測と分子キャプションにおいて一貫した改善を示し、レトロシンセシスにおける競合的な結果を提供する。 私たちのコードはhttps://github.com/syr-cn/ReactXT.comで公開されています。

Molecule-text modeling, which aims to facilitate molecule-relevant tasks with a textual interface and textual knowledge, is an emerging research direction. Beyond single molecules, studying reaction-text modeling holds promise for helping the synthesis of new materials and drugs. However, previous works mostly neglect reaction-text modeling: they primarily focus on modeling individual molecule-text pairs or learning chemical reactions without texts in context. Additionally, one key task of reaction-text modeling -- experimental procedure prediction -- is less explored due to the absence of an open-source dataset. The task is to predict step-by-step actions of conducting chemical experiments and is crucial to automating chemical synthesis. To resolve the challenges above, we propose a new pretraining method, ReactXT, for reaction-text modeling, and a new dataset, OpenExp, for experimental procedure prediction. Specifically, ReactXT features three types of input contexts to incrementally pretrain LMs. Each of the three input contexts corresponds to a pretraining task to improve the text-based understanding of either reactions or single molecules. ReactXT demonstrates consistent improvements in experimental procedure prediction and molecule captioning and offers competitive results in retrosynthesis. Our code is available at https://github.com/syr-cn/ReactXT.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# 変分遅延政策最適化

Variational Delayed Policy Optimization ( http://arxiv.org/abs/2405.14226v1 )

ライセンス: Link先を確認
Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Chao Huang, (参考訳) 遅延観察環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。 しかし、時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。 性能を犠牲にすることなく学習効率を向上させるために,遅延RLを変分推論問題として再構成する変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを導入する。 この問題はさらに2段階反復最適化問題としてモデル化され、第1段階は遅延のない環境でのTD学習であり、第2段階はTD学習よりも効率的に対処できる行動クローニングである。 また, VDPOがSOTA法と一貫した性能を実現可能であることを実証的に示すとともに, MuJoCo ベンチマークにおける試料効率の大幅な向上(試料量の約 50 % 削減)を図った。

In environments with delayed observation, state augmentation by including actions within the delay window is adopted to retrieve Markovian property to enable reinforcement learning (RL). However, state-of-the-art (SOTA) RL techniques with Temporal-Difference (TD) learning frameworks often suffer from learning inefficiency, due to the significant expansion of the augmented state space with the delay. To improve learning efficiency without sacrificing performance, this work introduces a novel framework called Variational Delayed Policy Optimization (VDPO), which reformulates delayed RL as a variational inference problem. This problem is further modelled as a two-step iterative optimization problem, where the first step is TD learning in the delay-free environment with a small state space, and the second step is behaviour cloning which can be addressed much more efficiently than TD learning. We not only provide a theoretical analysis of VDPO in terms of sample complexity and performance, but also empirically demonstrate that VDPO can achieve consistent performance with SOTA methods, with a significant enhancement of sample efficiency (approximately 50\% less amount of samples) in the MuJoCo benchmark.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# テキスト誘導スーパービジョンによる医用画像を用いたがん検出の強化

Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports ( http://arxiv.org/abs/2405.14230v1 )

ライセンス: Link先を確認
Guangyu Guo, Jiawen Yao, Yingda Xia, Tony C. W. Mok, Zhilin Zheng, Junwei Han, Le Lu, Dingwen Zhang, Jian Zhou, Ling Zhang, (参考訳) 十分な専門家レベルの腫瘍アノテーションが欠如していることは、医用画像における教師あり学習に基づく癌検診の有効性を妨げている。 臨床報告(記述的テキストの詳細に富んでいる)は、「フリーランチ」の監督情報を提供し、スクリーニングタスクに対処するための弱いラベルのタイプとして腫瘍の位置を提供し、適切に活用すれば人間のラベル付け作業を救うことができる。 しかし、そのような弱いラベルのみを用いて癌を予測することは、通常、腫瘍は3D医療スキャン全体と比較して小さな解剖学的領域で提示されるため、非常に変化する。 弱性半教師あり学習(WSSL)は、限定されたボクセルレベルの腫瘍アノテーションを使用し、オフザシェルフ臨床報告しか持たないかなりの数の医療画像と組み合わせることで、専門家のアノテーションワークロードを最小化し、スクリーニングの有効性を最適化する。 本稿では,高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。 視覚言語モデル(VLM)のテキストエンコーダに診断および腫瘍位置テキストプロンプトを統合することにより、VLMの潜在空間において弱教師付き学習の最適化を効果的に行うことができ、トレーニングの安定性を向上させることができる。 提案手法は,大規模な事前訓練VLMによる臨床知識を活用して,一般化能力を高め,癌検出を改善するための疑似腫瘍マスクを作成できる。 1,651人のユニークな患者を含む大規模がんデータセットに対する大規模な定量的実験の結果、我々のアプローチは、がん検出精度を競合する完全教師付き手法(AUC値0.961対0.966)と比較しながら、ヒトのアノテーションの取り組みを少なくとも70%削減できることが確認された。

The absence of adequately sufficient expert-level tumor annotations hinders the effectiveness of supervised learning based opportunistic cancer screening on medical imaging. Clinical reports (that are rich in descriptive textual details) can offer a "free lunch'' supervision information and provide tumor location as a type of weak label to cope with screening tasks, thus saving human labeling workloads, if properly leveraged. However, predicting cancer only using such weak labels can be very changeling since tumors are usually presented in small anatomical regions compared to the whole 3D medical scans. Weakly semi-supervised learning (WSSL) utilizes a limited set of voxel-level tumor annotations and incorporates alongside a substantial number of medical images that have only off-the-shelf clinical reports, which may strike a good balance between minimizing expert annotation workload and optimizing screening efficacy. In this paper, we propose a novel text-guided learning method to achieve highly accurate cancer detection results. Through integrating diagnostic and tumor location text prompts into the text encoder of a vision-language model (VLM), optimization of weakly supervised learning can be effectively performed in the latent space of VLM, thereby enhancing the stability of training. Our approach can leverage clinical knowledge by large-scale pre-trained VLM to enhance generalization ability, and produce reliable pseudo tumor masks to improve cancer detection. Our extensive quantitative experimental results on a large-scale cancer dataset, including 1,651 unique patients, validate that our approach can reduce human annotation efforts by at least 70% while maintaining comparable cancer detection accuracy to competing fully supervised methods (AUC value 0.961 versus 0.966).
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# ロールプレイからドラマインタラクションへ:LLMソリューション

From Role-Play to Drama-Interaction: An LLM Solution ( http://arxiv.org/abs/2405.14231v1 )

ライセンス: Link先を確認
Weiqi Wu, Hongqiu Wu, Lai Jiang, Xingyuan Liu, Jiale Hong, Hai Zhao, Min Zhang, (参考訳) ドラマは人間の創造性にインスパイアされたストーリーテリングの一種で、事前に定義されたストーリーラインで進み、感情や思考を運ぶ。 本稿では,従来のドラマに前例のない没入感を与える「emph{LLM-based Interactive drama」を紹介する。 我々は、この新たな芸術ジャンルを、6つの重要な要素、キャラクター、思考、ディクショナリ、ディクショナリ、スペクタクル、相互作用によって定義し、パイプライン全体を研究して、バックボーンの「emph{drama LLM}」を鍛えることで、限られたドラマリソース、制御不能な物語展開、複雑な指示によって、演奏プロセスを推進します。 プレイヤーとの対話における物語の進行をより細かく制御する「emph{Narrative Chain」、任意のストーリーを与えられたドラマスクリプトを合成する「emph{Auto-Drama」、洗練された指示に従うための「emph{Sparse Instruction Tuning」を提案する。 手動で3つのスクリプト、 \emph{Detective Conan}、 \emph{Harry Potter}、 \emph{Romeo and Juliet}を作成し、ドラマLLMを総合的に評価するための5次元原理を設計する。

Drama is a form of storytelling inspired by human creativity, proceeding with a predefined storyline, carrying emotions and thoughts. This paper introduces \emph{LLM-based interactive drama}, which endows traditional drama with an unprecedented immersion, where a person is allowed to walk into it and interact with the characters and scenes. We define this new artistic genre by 6 essential elements-plot, character, thought, diction, spectacle and interaction-and study the entire pipeline to forge a backbone \emph{drama LLM} to drive the playing process, which is challenged by limited drama resources, uncontrollable narrative development, and complicated instruction following. We propose \emph{Narrative Chain} to offer finer control over the narrative progression during interaction with players; \emph{Auto-Drama} to synthesize drama scripts given arbitrary stories; \emph{Sparse Instruction Tuning} to allow the model to follow sophisticated instructions. We manually craft 3 scripts, \emph{Detective Conan}, \emph{Harry Potter}, \emph{Romeo and Juliet}, and design a 5-dimension principle to evaluate the drama LLM comprehensively.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# FloodDamageCast: マシンラーニングとデータ拡張による洪水被害の構築

FloodDamageCast: Building Flood Damage Nowcasting with Machine Learning and Data Augmentation ( http://arxiv.org/abs/2405.14232v1 )

ライセンス: Link先を確認
Chia-Fu Liu, Lipai Huang, Kai Yin, Sam Brody, Ali Mostafavi, (参考訳) 本研究は,災害時,災害時,災害時,災害時,災害時,復旧時に,避難指示やインフラ修復の優先順位について,緊急対応者に情報提供の権限を与えるため,建物やインフラの被害をほぼリアルタイムに見積もることである。 FloodDamageCastは、現在、不動産洪水の被害に対応する機械学習フレームワークである。 このフレームワークは、2017年のハリケーン・ハービーの間、テキサス州ハリス郡で500メートル×500メートルの解像度で住宅の洪水被害を予測するために、異種データを活用している。 データ不均衡に対処するため、FloodDamageCastでは、生成する敵ネットワークベースのデータ拡張と、効率的な機械学習モデルが組み込まれている。 その結果、モデルがベースラインモデルで見過ごされるような高損傷空間領域を識別する能力を示した。 洪水被害から解放された洞察は、緊急対応者がより効率的に修理ニーズを特定し、リソースを割り当て、地上での検査を効率化し、時間と労力を節約するのに役立つ。

Near-real time estimation of damage to buildings and infrastructure, referred to as damage nowcasting in this study, is crucial for empowering emergency responders to make informed decisions regarding evacuation orders and infrastructure repair priorities during disaster response and recovery. Here, we introduce FloodDamageCast, a machine learning framework tailored for property flood damage nowcasting. The framework leverages heterogeneous data to predict residential flood damage at a resolution of 500 meters by 500 meters within Harris County, Texas, during the 2017 Hurricane Harvey. To deal with data imbalance, FloodDamageCast incorporates a generative adversarial networks-based data augmentation coupled with an efficient machine learning model. The results demonstrate the model's ability to identify high-damage spatial areas that would be overlooked by baseline models. Insights gleaned from flood damage nowcasting can assist emergency responders to more efficiently identify repair needs, allocate resources, and streamline on-the-ground inspections, thereby saving both time and effort.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# 人間とコンピュータにおける言語処理

Language processing in humans and computers ( http://arxiv.org/abs/2405.14233v1 )

ライセンス: Link先を確認
Dusko Pavlovic, (参考訳) 機械学習の言語モデルは日々の生活を変えてきた。 彼らは私たちの文明を変える可能性を秘めている。 しかし幻覚を起こす。 彼らの現実はバーチャルだ。 このノートは、言語モデルの高レベルな概要を提供し、学習機械の低レベルなモデルの概要を示す。 幻覚を認識でき、人間がいる傾向にあるように、安全に夢を見ることができるようになった後、言語学習機械は、人間がする傾向にあるように、誤った信念と自己確認理論のより広範なシステムを生成する。

Machine-learned language models have transformed everyday life: they steer us when we study, drive, manage money. They have the potential to transform our civilization. But they hallucinate. Their realities are virtual. This note provides a high-level overview of language models and outlines a low-level model of learning machines. It turns out that, after they become capable of recognizing hallucinations and dreaming safely, as humans tend to be, the language-learning machines proceed to generate broader systems of false beliefs and self-confirming theories, as humans tend to do.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# CFT状態を用いたジッタ空間の探索

Probing de Sitter Space Using CFT States ( http://arxiv.org/abs/2405.14237v1 )

ライセンス: Link先を確認
Kazuki Doi, Naoki Ogawa, Kotaro Shinmyo, Yu-ki Suzuki, Tadashi Takayanagi, (参考訳) 本稿では、バルク局所状態と呼ばれる3次元ド・ジッター空間(dS)における局所励起に双対なCFT状態を構築する。 dS$_3/$CFT$_2$の共役演算は、AdS$_3/$CFT$_2$の共役演算と明らかに異なる。 これにより、CPT不変な方法で異なる一次状態から構築された2つの局所状態を組み合わせる必要がある。 この分析は、dS ユークリッド真空におけるグリーン関数が、AdS のウィック回転から簡単には得られない理由を説明する。 また、この特徴は双対ユークリッド CFT からの時間座標の出現を説明する。 バルク座標値の量子推定のための情報計量は、ド・ジッター空間計量を再現することを示す。

In this paper we construct CFT states dual to local excitations in the three-dimensional de Sitter space (dS), called the bulk local states. We find that the conjugation operation in dS$_3/$CFT$_2$ is notably different from that in AdS$_3/$CFT$_2$. This requires us to combine two bulk local states constructed out of different primary states in a CPT-invariant way. This analysis explains why Green's functions in the dS Euclidean vacuum cannot simply be obtained from the Wick rotation of those in AdS. We also argue that this characteristic feature explains the emergence of time coordinate from the dual Euclidean CFT. We show that the information metric for the quantum estimation of bulk coordinate values replicates the de Sitter space metric.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# Harmony: 汎用的な視覚表現学習のための自己監督と弱スーパービジョンの共同フレームワーク

Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations ( http://arxiv.org/abs/2405.14239v1 )

ライセンス: Link先を確認
Mohammed Baharoon, Jonathan Klein, Dominik L. Michels, (参考訳) CLIPのような視覚的なコントラスト学習フレームワークは、自然言語の監視から学習表現を可能にし、強力なゼロショット分類機能を提供する。 しかし、これらのパラダイムの監督信号の性質から、局所的な特徴を学習する能力が欠如し、セグメンテーションや検出といった密集した予測タスクの性能が低下する。 一方、自己指導型学習手法は、視覚言語訓練における高次特徴を補完し、粒度の表現を学習する能力を示した。 本研究では,視覚言語学習と識別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介し,視覚下流タスク間で一般化可能な視覚的特徴を学習する。 EMAモデルによって生成されたソフトなCLIPターゲットを用いて、ネガティブな例に頼らず、1対1の対応問題に対処することで、Webスクラッドデータに特化して動作するように設計されている。 本研究では,様々な視線下流タスクのハーモニーを総合的に評価し,ベースラインCLIPと従来指導されていた自己および弱監督手法であるMaskCLIPとSLIPを著しく上回る結果を得た。 具体的には,これらの手法と比較して,ImageNet-1kの微調整とゼロショット分類,ADE20Kのセマンティックセグメンテーション,MS-COCOのオブジェクト検出とインスタンスセグメンテーションにおいて,CC3MのViT-S/16の事前トレーニングにおいて優れた性能を示す。 また、HarmonyはiBOTやMAEなど、評価されたすべてのタスクにおいて、他の自己教師型学習方法よりも優れていることを示す。 https://github.com/MohammedSB/Harmonyでは、私たちのコードが公開されています。

Vision-language contrastive learning frameworks like CLIP enable learning representations from natural language supervision, and provide strong zero-shot classification capabilities. However, due to the nature of the supervisory signal in these paradigms, they lack the ability to learn localized features, leading to degraded performance on dense prediction tasks like segmentation and detection. On the other hand, self-supervised learning methods have shown the ability to learn granular representations, complementing the high-level features in vision-language training. In this work, we present Harmony, a framework that combines vision-language training with discriminative and generative self-supervision to learn visual features that can be generalized across vision downstream tasks. Our framework is specifically designed to work on web-scraped data by not relying on negative examples and addressing the one-to-one correspondence issue using soft CLIP targets generated by an EMA model. We comprehensively evaluate Harmony across various vision downstream tasks and find that it significantly outperforms the baseline CLIP and the previously leading joint self and weakly-supervised methods, MaskCLIP and SLIP. Specifically, when comparing against these methods, Harmony shows superior performance in fine-tuning and zero-shot classification on ImageNet-1k, semantic segmentation on ADE20K, and both object detection and instance segmentation on MS-COCO, when pre-training a ViT-S/16 on CC3M. We also show that Harmony outperforms other self-supervised learning methods like iBOT and MAE across all tasks evaluated. On https://github.com/MohammedSB/Harmony our code is publicly available.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# ニューロガス4D-PCI:点雲補間のための4次元ニューラル場とガウス変形場

NeuroGauss4D-PCI: 4D Neural Fields and Gaussian Deformation Fields for Point Cloud Interpolation ( http://arxiv.org/abs/2405.14241v1 )

ライセンス: Link先を確認
Chaokang Jiang, Dalong Du, Jiuming Liu, Siting Zhu, Zhenqiang Liu, Zhuang Ma, Zhujin Liang, Jie Zhou, (参考訳) ポイントクラウド補間(Point Cloud Interpolation)は、ポイントスペーサ性、複雑な時空間力学、スパース時間情報から完全な3Dポイントクラウドを導出することの難しさといった課題に直面している。 本稿では,様々な動的シーンにまたがる複雑な非剛性変形のモデル化に優れるNeuroGauss4D-PCIを提案する。 この方法は、構造化された時間点クラウド表現を提供する反復的なガウスクラウドソフトクラスタリングモジュールから始まる。 提案した時間的ラジアル基底関数ガウス残差はガウスパラメータの時間的補間を利用して、滑らかなパラメータ遷移を可能にし、ガウス分布の時間的残差を捕捉する。 さらに、4次元ガウス変形場はこれらのパラメータの進化を追跡し、連続的な時空間変形場を生成する。 4次元神経場は低次元時空間座標(x,y,z,t$)を高次元潜在空間に変換する。 最後に,ニューラルネットワークからの潜伏特徴とガウス変形場からの幾何特徴とを適応的かつ効率的に融合する。 NeuroGauss4D-PCIは、ポイントクラウドフレームの補間において既存の方法よりも優れており、オブジェクトレベル(DHB)と大規模自律運転データセット(NL-Drive)の両方でリードパフォーマンスを提供し、自動ラベル付けやポイントクラウドのデンシフィケーションタスクへのスケーラビリティを実現している。 ソースコードはhttps://github.com/jiangchaokang/NeuroGauss4D-PCIで公開されている。

Point Cloud Interpolation confronts challenges from point sparsity, complex spatiotemporal dynamics, and the difficulty of deriving complete 3D point clouds from sparse temporal information. This paper presents NeuroGauss4D-PCI, which excels at modeling complex non-rigid deformations across varied dynamic scenes. The method begins with an iterative Gaussian cloud soft clustering module, offering structured temporal point cloud representations. The proposed temporal radial basis function Gaussian residual utilizes Gaussian parameter interpolation over time, enabling smooth parameter transitions and capturing temporal residuals of Gaussian distributions. Additionally, a 4D Gaussian deformation field tracks the evolution of these parameters, creating continuous spatiotemporal deformation fields. A 4D neural field transforms low-dimensional spatiotemporal coordinates ($x,y,z,t$) into a high-dimensional latent space. Finally, we adaptively and efficiently fuse the latent features from neural fields and the geometric features from Gaussian deformation fields. NeuroGauss4D-PCI outperforms existing methods in point cloud frame interpolation, delivering leading performance on both object-level (DHB) and large-scale autonomous driving datasets (NL-Drive), with scalability to auto-labeling and point cloud densification tasks. The source code is released at https://github.com/jiangchaokang/NeuroGauss4D-PCI.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# M2ANET:血液中のプラスミジウム寄生虫の効率的な分類のための移動マラリア注意ネットワーク

M2ANET: Mobile Malaria Attention Network for efficient classification of plasmodium parasites in blood cells ( http://arxiv.org/abs/2405.14242v1 )

ライセンス: Link先を確認
Salam Ahmed Ali, Peshraw Salam Abdulqadir, Shan Ali Abdullah, Haruna Yunusa, (参考訳) マラリアはPlasmodium parasites(プラスモジウム・寄生虫)による致命的な感染症であり、特に熱帯地域や亜熱帯地域では公衆衛生上の大きな課題となっている。 血液細胞中のマラリア原虫のタイムリーかつ正確な検出は、疾患の効果的な治療と制御に不可欠である。 近年、深層学習技術は医療画像解析タスクにおいて顕著に成功し、診断精度を向上させるための有望な方法を提供しており、2つの異なるモデルの組み合わせの複雑さと、特にエッジデバイスにおける自己保持機構の顕著なメモリ要求によるハイブリッドモバイルモデルの研究が限られている。 本研究では,血液細胞画像中のプラスモジウム寄生虫の効率的な分類のためのハイブリッド移動モデルの設計の可能性を検討する。 そこで我々は,M2ANET (Mobile Malaria Attention Network)を提案する。 このモデルはMBConv3 (MobileNetV3 block) を統合して、血液細胞画像内の局所的特徴抽出を効率的にキャプチャし、グローバルコンテキストをキャプチャするネットワークの後半に修正されたグローバルMHSA(multi-head self-attention)機構を組み込む。 ベンチマーク実験により、M2ANETは、精度と効率の両面で、最先端の軽量・モバイルネットワークよりも優れていることを示した。 さらに,M2ANETがマラリアの診断・治療の進展にもたらす影響について考察し,資源制約のある医療環境への展開に適したことを明らかにする。 M2ANETの開発は、効率的かつ正確なマラリア検出の追求において、医療画像分析やグローバルヘルスケアイニシアチブに幅広い意味を持つ重要な進歩を示している。

Malaria is a life-threatening infectious disease caused by Plasmodium parasites, which poses a significant public health challenge worldwide, particularly in tropical and subtropical regions. Timely and accurate detection of malaria parasites in blood cells is crucial for effective treatment and control of the disease. In recent years, deep learning techniques have demonstrated remarkable success in medical image analysis tasks, offering promising avenues for improving diagnostic accuracy, with limited studies on hybrid mobile models due to the complexity of combining two distinct models and the significant memory demand of self-attention mechanism especially for edge devices. In this study, we explore the potential of designing a hybrid mobile model for efficient classification of plasmodium parasites in blood cell images. Therefore, we present M2ANET (Mobile Malaria Attention Network). The model integrates MBConv3 (MobileNetV3 blocks) for efficient capturing of local feature extractions within blood cell images and a modified global-MHSA (multi-head self-attention) mechanism in the latter stages of the network for capturing global context. Through extensive experimentation on benchmark, we demonstrate that M2ANET outperforms some state-of-the-art lightweight and mobile networks in terms of both accuracy and efficiency. Moreover, we discuss the potential implications of M2ANET in advancing malaria diagnosis and treatment, highlighting its suitability for deployment in resource-constrained healthcare settings. The development of M2ANET represents a significant advancement in the pursuit of efficient and accurate malaria detection, with broader implications for medical image analysis and global healthcare initiatives.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# 量子スパイラル相による電力-露光相互作用

Power-Law-Exponential Interaction Induced Quantum Spiral Phases ( http://arxiv.org/abs/2405.14243v1 )

ライセンス: Link先を確認
Guoqing Tian, Ying Wu, Xin-You Lü, (参考訳) 理論的には、1次元導波管QED系における量子エミッタ間のパワー-ラクト-排他的(ple)双極子-双極子相互作用を理論的に予測する。 この非伝統的な長距離相互作用は、パワー・ロー成長と指数的崩壊結合の組み合わせである。 スピンモデルにpleの相互作用を適用することで、豊富な多体相が明らかになる。 最も顕著なことに、ple相互作用は秩序と臨界スパイラル相を誘導することができる。 これらのスパイラル相は、ple相互作用のパワー・ロー因子によって生じる強いフラストレーションから生じるため、純粋な指数的およびパワー・ローの崩壊相互作用のような他の種類の長距離相互作用には欠落している。 我々の研究は高次元システムにも当てはまる。 多体物理学の領域を根本的に拡張し、強い相関性の物質の量子シミュレーションにおいて重要な応用を持つ。

We theoretically predict a kind of power-law-exponential (PLE) dipole-dipole interaction between quantum emitters in a 1D waveguide QED system. This unconventional long-range interaction is the combination of power-law growth and exponential decay couplings. Applying PLE interaction to a spin model, we uncover the rich many-body phases. Most remarkably, we find that PLE interaction can induce the ordered and critical spiral phases. These spiral phases emerge from the strong frustration generated by the power-law factor of PLE interaction, hence they are absent for other types of long-range interaction, e.g., pure exponential and power-law decay interactions. Our work is also applicable for the higher dimensional systems. It fundamentally broadens the realm of many-body physics and has the significant applications in quantum simulation of strong correlated matters.
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# 理由を教えてください:人間の嗜好とステップレベルの説明による嗜好に基づくRLのトレーニング

Tell my why: Training preferences-based RL with human preferences and step-level explanations ( http://arxiv.org/abs/2405.14244v1 )

ライセンス: Link先を確認
Jakob Karalus, (参考訳) HRL(Human-in-the-loop reinforcement learning)は、専門家でない人でも様々なインタフェースを通してエージェントを訓練することができる。 近年,より直接的なフィードバックが難しい領域でのトレーニングを許すため,ヒトが2つの軌道を優先しなければならないPBRLが人気を博している。 しかしながら、現在のPBRLメソッドには制限があり、フィードバックを与えるための表現力のあるインターフェースは提供されていない。 そこで本研究では,より表現力に富んだインタフェースを人間に提供し,軌道上での嗜好と事実的説明(あるいはなぜこの嗜好を持つのかの注釈)を提供する,新たな嗜好に基づく学習手法を提案する。 これらの説明により、人は軌道のどの部分が好みに最も関係しているかを説明できる。 我々は個々の軌道上の説明の表現を許容する。 シミュレーションにおいて,本手法をシミュレーションで評価した結果,学習速度の向上が期待できることがわかった。 コードとデータ:github.com/under-rewiev

Human-in-the-loop reinforcement learning (HRL) allows the training of agents through various interfaces, even for non-expert humans. Recently, preference-based methods (PBRL), where the human has to give his preference over two trajectories, increased in popularity since they allow training in domains where more direct feedback is hard to formulate. However, the current PBRL methods have limitations and do not provide humans with an expressive interface for giving feedback. With this work, we propose a new preference-based learning method that provides humans with a more expressive interface to provide their preference over trajectories and a factual explanation (or annotation of why they have this preference). These explanations allow the human to explain what parts of the trajectory are most relevant for the preference. We allow the expression of the explanations over individual trajectory steps. We evaluate our method in various simulations using a simulated human oracle (with realistic restrictions), and our results show that our extended feedback can improve the speed of learning. Code & data: github.com/under-rewiev
翻訳日:2024-05-24 18:34:03 公開日:2024-05-23
# 単純ハミルトン力学は強力な量子処理資源である

Simple Hamiltonian dynamics is a powerful quantum processing resource ( http://arxiv.org/abs/2405.14245v1 )

ライセンス: Link先を確認
Akitada Sakurai, Aoi Hayashi, William John Munro, Kae Nemoto, (参考訳) 50以上の物理量子ビットを持つ量子プロセッサによってホストされる4次元ヒルベルト空間は、多体物理学のシミュレーションから複雑な金融モデリングまで、計算タスクを実行するのに十分強力であると期待されている。 例や実演は少ないが、そのような大きなヒルベルト空間を計算資源としてどのように利用できるのかは定かではない。 本稿では、量子ニューラルネットワークモデルにおいて、そのような非自明な計算タスクを実行できる単純なIsingモデルを示す。 イジングスピンチェーンは10キュービット程度の小型で、精度良く実用的な画像分類タスクを解くことができる。 計算のメカニズムを評価するために,ハミルトニアンの対称性が計算能力にどのように影響するかを検討する。 量子システムの複雑性と積分可能性/対称性の相互作用が量子ニューラルネットワークとしての性能を規定していることを示す。

A quadrillion dimensional Hilbert space hosted by a quantum processor with over 50 physical qubits has been expected to be powerful enough to perform computational tasks ranging from simulations of many-body physics to complex financial modeling. Despite few examples and demonstrations, it is still not clear how we can utilize such a large Hilbert space as a computational resource; in particular, how a simple and small quantum system could solve non-trivial computational tasks. In this paper, we show a simple Ising model capable of performing such non-trivial computational tasks in a quantum neural network model. An Ising spin chain as small as ten qubits can solve a practical image classification task with high accuracy. To evaluate the mechanism of its computation, we examine how the symmetries of the Hamiltonian would affect its computational power. We show how the interplay between complexity and integrability/symmetries of the quantum system dictates the performance as quantum neural network.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# GCondenser: グラフ凝縮のベンチマーク

GCondenser: Benchmarking Graph Condensation ( http://arxiv.org/abs/2405.14246v1 )

ライセンス: Link先を確認
Yilun Liu, Ruihong Qiu, Zi Huang, (参考訳) グラフ表現学習には大規模なグラフが有用であるが、これらのグラフの豊富なデータは、トレーニングプロセスの効率を妨げている。 グラフ凝縮(GC)は、大きなグラフを効果的なモデルトレーニングをサポートする非常に小さなグラフに圧縮することでこの問題を軽減する。 近年, 凝縮グラフの有効性向上のための様々な手法が提案されているが, 様々なGC手法による包括的, 実践的評価は無視されている。 本稿では,大規模グラフ凝縮ベンチマークGCondenserを提案する。 GCondenserには標準化されたGCパラダイムが含まれており、凝縮、バリデーション、評価手順で構成され、新しいGCメソッドやデータセットの拡張を可能にする。 GCondenserでは,既存の手法の有効性を示す総合的なパフォーマンススタディが実施されている。 GCondenserは、https://github.com/superallen13/GCondenserで公開されている。

Large-scale graphs are valuable for graph representation learning, yet the abundant data in these graphs hinders the efficiency of the training process. Graph condensation (GC) alleviates this issue by compressing the large graph into a significantly smaller one that still supports effective model training. Although recent research has introduced various approaches to improve the effectiveness of the condensed graph, comprehensive and practical evaluations across different GC methods are neglected. This paper proposes the first large-scale graph condensation benchmark, GCondenser, to holistically evaluate and compare mainstream GC methods. GCondenser includes a standardised GC paradigm, consisting of condensation, validation, and evaluation procedures, as well as enabling extensions to new GC methods and datasets. With GCondenser, a comprehensive performance study is conducted, presenting the effectiveness of existing methods. GCondenser is open-sourced and available at https://github.com/superallen13/GCondenser.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# マルチアセットアロケーションにおけるテキストベース相関行列

Text-Based Correlation Matrix in Multi-Asset Allocation ( http://arxiv.org/abs/2405.14247v1 )

ライセンス: Link先を確認
Yasuhiro Nakayama, Tomochika Sawaki, Issei Furuya, Shunsuke Tamura, (参考訳) 本研究の目的は、財務テキスト分析を用いて、複数の資産間の相関構造を推定することである。 近年、世界経済のインフレ拡大と中央銀行による金融政策強化の背景として、資産間の相関構造、特に金利感度とインフレ感度が劇的に変化し、投資家のポートフォリオのパフォーマンスへの影響が増大している。 そのため,ポートフォリオ管理におけるロバストな相関構造の推定の重要性が高まっている。 一方、金融市場において観測された歴史的価格データのみを用いた相関係数には一定の時間ラグが伴い、また、金融時系列データの非定常性による予測誤差が生じること、また、位相変化が発生した場合の基本的観点からの解釈可能性に乏しいという側面がある。 本研究では,ニューステキストと中央銀行テキストの自然言語処理を行い,将来の相関係数変化の予測精度を検証する。 その結果,本手法は通常の時系列データからの予測と比較して有用であることが示唆された。

The purpose of this study is to estimate the correlation structure between multiple assets using financial text analysis. In recent years, as the background of elevating inflation in the global economy and monetary policy tightening by central banks, the correlation structure between assets, especially interest rate sensitivity and inflation sensitivity, has changed dramatically, increasing the impact on the performance of investors' portfolios. Therefore, the importance of estimating a robust correlation structure in portfolio management has increased. On the other hand, the correlation coefficient using only the historical price data observed in the financial market is accompanied by a certain degree of time lag, and also has the aspect that prediction errors can occur due to the nonstationarity of financial time series data, and that the interpretability from the viewpoint of fundamentals is a little poor when a phase change occurs. In this study, we performed natural language processing on news text and central bank text to verify the prediction accuracy of future correlation coefficient changes. As a result, it was suggested that this method is useful in comparison with the prediction from ordinary time series data.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# ガウス分布の拡散モデル:厳密解とワッサーシュタイン誤差

Diffusion models for Gaussian distributions: Exact solutions and Wasserstein errors ( http://arxiv.org/abs/2405.14250v1 )

ライセンス: Link先を確認
Emile Pierret, Bruno Galerne, (参考訳) 拡散モデルやスコアベースモデルでは画像生成の性能が向上した。 これらは前方および後方確率微分方程式(SDE)に依存する。 データ分布のサンプリングは、後方SDEまたはその関連するフローODEを数値的に解くことにより達成される。 これらのモデルの収束を研究するには、初期化誤差、トランケーション誤差、離散化、スコア近似の4つの異なる種類のエラーを制御する必要がある。 本稿では,データ分布がガウス的である場合の拡散モデルの挙動とその数値的実装について理論的に検討する。 スコア関数が線型作用素であるこの制限されたフレームワークでは、前向きおよび後向きのSDEと関連するフローODEの分析解を導出することができる。 これにより、様々なWassersteinエラーに対する正確な表現が提供され、任意のサンプリングスキームに対する各エラータイプの影響を比較することができ、インセプション機能に頼るのではなく、データ空間内で直接収束を監視することができます。 実験の結果,拡散モデルの文献から推奨される数値スキームもガウス分布の最良のサンプリングスキームであることがわかった。

Diffusion or score-based models recently showed high performance in image generation. They rely on a forward and a backward stochastic differential equations (SDE). The sampling of a data distribution is achieved by solving numerically the backward SDE or its associated flow ODE. Studying the convergence of these models necessitates to control four different types of error: the initialization error, the truncation error, the discretization and the score approximation. In this paper, we study theoretically the behavior of diffusion models and their numerical implementation when the data distribution is Gaussian. In this restricted framework where the score function is a linear operator, we can derive the analytical solutions of the forward and backward SDEs as well as the associated flow ODE. This provides exact expressions for various Wasserstein errors which enable us to compare the influence of each error type for any sampling scheme, thus allowing to monitor convergence directly in the data space instead of relying on Inception features. Our experiments show that the recommended numerical schemes from the diffusion models literature are also the best sampling schemes for Gaussian distributions.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# Time-FFM:時系列予測のためのLMを活用したフェデレーションモデルを目指して

Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting ( http://arxiv.org/abs/2405.14252v1 )

ライセンス: Link先を確認
Qingxiang Liu, Xu Liu, Chenghao Liu, Qingsong Wen, Yuxuan Liang, (参考訳) 自然言語処理やコンピュータビジョンとは異なり、時系列予測のためのファンデーションモデル(FM)の開発はデータ不足のためブロックされている。 近年、時系列解析のための言語モデル(LM)の可能性を解き放つことによるFMの構築に重点を置いているが、下流予測タスクの専用パラメータにはトレーニングが必要であるため、ドメイン間の共通知識の共有を妨げている。 さらに、データ所有者は、プライバシー上の懸念と著作権保護のために、ローカルデータへのアクセスを共有することをためらう可能性がある。 これらの課題に対処するために,予め訓練されたLMを利用して時系列予測を行うFederated Foundation Model for Time seriesを提案する。 具体的には、時系列をテキストトークンのモダリティに変換することから始める。 時系列推論のためのLMのブートストラップを行うために,ドメインカストマイズされたプロンプトを動的に決定するプロンプト適応モジュールを提案する。 ドメイン間のデータの均一性を考慮し、グローバルエンコーダとローカル予測ヘッドを学習することで、個人化された訓練戦略を設計する。 総合的な実験により、Time-FFMは最先端の予測よりも優れており、効果的に数発・ゼロショットの予測が可能であることが示唆された。

Unlike natural language processing and computer vision, the development of Foundation Models (FMs) for time series forecasting is blocked due to data scarcity. While recent efforts are focused on building such FMs by unlocking the potential of language models (LMs) for time series analysis, dedicated parameters for various downstream forecasting tasks need training, which hinders the common knowledge sharing across domains. Moreover, data owners may hesitate to share the access to local data due to privacy concerns and copyright protection, which makes it impossible to simply construct a FM on cross-domain training instances. To address these issues, we propose Time-FFM, a Federated Foundation Model for Time series forecasting by leveraging pretrained LMs. Specifically, we begin by transforming time series into the modality of text tokens. To bootstrap LMs for time series reasoning, we propose a prompt adaption module to determine domain-customized prompts dynamically instead of artificially. Given the data heterogeneity across domains, we design a personalized federated training strategy by learning global encoders and local prediction heads. Our comprehensive experiments indicate that Time-FFM outperforms state-of-the-arts and promises effective few-shot and zero-shot forecaster.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 等価メッセージパッシングのための高域不還元性カルテシアンテンソル

Higher-Rank Irreducible Cartesian Tensors for Equivariant Message Passing ( http://arxiv.org/abs/2405.14253v1 )

ライセンス: Link先を確認
Viktor Zaverkin, Francesco Alesiani, Takashi Maruyama, Federico Errica, Henrik Christiansen, Makoto Takamoto, Nicolas Weber, Mathias Niepert, (参考訳) 高速で正確な原子論シミュレーションを行う能力は、化学科学の進歩に不可欠である。 高品質なデータから学習することで、機械学習された原子間ポテンシャルは、計算コストのごく一部でアブイニシアト法や第一原理法と同等の精度を達成する。 機械学習された原子間ポテンシャルの成功は、原子系の群作用に等しく、回転や反射に等しくなるような誘導バイアスを統合することから生じる。 特に、同変メッセージパッシングアーキテクチャの出現により、この分野は顕著に進歩した。 これらのモデルのほとんどは、複雑な数値係数を必要とし、計算的に要求できる、球面テンソルを用いた原子系を表す。 この研究は、球面テンソルの代替として高階既約カルトテンソルを導入し、上記の制限に対処する。 我々は、既約カルトテンソル積をメッセージパスニューラルネットワークに統合し、その結果の層の等値性を証明する。 様々なベンチマークデータセットに対する経験的評価を通じて、我々は、最先端の球面モデルよりも、オンパーまたはより良い性能を一貫して観察する。

The ability to perform fast and accurate atomistic simulations is crucial for advancing the chemical sciences. By learning from high-quality data, machine-learned interatomic potentials achieve accuracy on par with ab initio and first-principles methods at a fraction of their computational cost. The success of machine-learned interatomic potentials arises from integrating inductive biases such as equivariance to group actions on an atomic system, e.g., equivariance to rotations and reflections. In particular, the field has notably advanced with the emergence of equivariant message-passing architectures. Most of these models represent an atomic system using spherical tensors, tensor products of which require complicated numerical coefficients and can be computationally demanding. This work introduces higher-rank irreducible Cartesian tensors as an alternative to spherical tensors, addressing the above limitations. We integrate irreducible Cartesian tensor products into message-passing neural networks and prove the equivariance of the resulting layers. Through empirical evaluations on various benchmark data sets, we consistently observe on-par or better performance than that of state-of-the-art spherical models.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# ZipCache: 完全トークン同定による高精度かつ効率的なKVキャッシュ量子化

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification ( http://arxiv.org/abs/2405.14256v1 )

ライセンス: Link先を確認
Yefei He, Luoming Zhang, Weijia Wu, Jing Liu, Hong Zhou, Bohan Zhuang, (参考訳) KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納するが、特に長いシーケンスでは、かなりのストレージスペースを必要とする。 適応的なKVキャッシュ圧縮はトークンの正当性を識別し、重要でないものを積極的に圧縮しながら重要な情報を保存する。 しかし, 従来の手法では, 有意なトークンの同定に不正確さが原因で, 高い圧縮比で顕著な性能劣化がみられた。 本稿では,LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。 まず、KVキャッシュを定量化する強力なベースラインを構築する。 提案したチャネル分離型トークンワイド量子化方式により, 量子化パラメータのメモリオーバーヘッドは, 微細なグループワイド量子化に比べて大幅に低減される。 圧縮率を高めるために,注意行列の下方三角形特性を考慮し,有意なトークンを識別する有効な指標として正規化注意スコアを提案する。 さらに,実測値とフルアテンションスコアを分離し,FlashAttentionのような高速アテンション実装との互換性を実現する効率的な近似法を開発した。 ZipCacheは,従来のKVキャッシュ圧縮方式と比較して,圧縮率,高速生成速度,性能損失の最小化を実現している。 例えば、GSM8kデータセット上でMistral-7Bモデルを評価する場合、ZipCacheはKVキャッシュを$4.98\times$で圧縮でき、精度は0.38\%である。 効率面では、ZipCacheはプリフィルフェイズレイテンシの37.3.%、デコードフェイズレイテンシの56.9.%、LLaMA3-8Bモデルの入力長が4096ドルである場合のGPUメモリ使用量の19.8.%も削減されている。

KV cache stores key and value states from previous tokens to avoid re-computation, yet it demands substantial storage space, especially for long sequences. Adaptive KV cache compression seeks to discern the saliency of tokens, preserving vital information while aggressively compressing those of less importance. However, previous methods of this approach exhibit significant performance degradation at high compression ratios due to inaccuracies in identifying salient tokens. In this paper, we present ZipCache, an accurate and efficient KV cache quantization method for LLMs. First, we construct a strong baseline for quantizing KV cache. Through the proposed channel-separable tokenwise quantization scheme, the memory overhead of quantization parameters are substantially reduced compared to fine-grained groupwise quantization. To enhance the compression ratio, we propose normalized attention score as an effective metric for identifying salient tokens by considering the lower triangle characteristics of the attention matrix. Moreover, we develop an efficient approximation method that decouples the saliency metric from full attention scores, enabling compatibility with fast attention implementations like FlashAttention. Extensive experiments demonstrate that ZipCache achieves superior compression ratios, fast generation speed and minimal performance losses compared with previous KV cache compression methods. For instance, when evaluating Mistral-7B model on GSM8k dataset, ZipCache is capable of compressing the KV cache by $4.98\times$, with only a $0.38\%$ drop in accuracy. In terms of efficiency, ZipCache also showcases a $37.3\%$ reduction in prefill-phase latency, a $56.9\%$ reduction in decoding-phase latency, and a $19.8\%$ reduction in GPU memory usage when evaluating LLaMA3-8B model with a input length of $4096$.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 局所リンク構成に対するグローバルMFD速度推定調整のための深層学習手法

Deep Learning Methods for Adjusting Global MFD Speed Estimations to Local Link Configurations ( http://arxiv.org/abs/2405.14257v1 )

ライセンス: Link先を確認
Zhixiong Jin, Dimitrios Tsitsokas, Nikolas Geroliminis, Ludovic Leclercq, (参考訳) 大規模交通最適化では, マクロ的基本図(MFD)に基づくモデルが, 広範囲な解析において, その効率性を認識している。 しかし、各道路リンクの個々の交通状況の変化を反映できず、詳細な交通最適化と分析のギャップが生じる。 本研究は,MFDに基づくネットワーク平均速度をネットワーク構成と統合し,リンクの個々の速度を正確に推定する局所補正係数(LCF)を提案する。 我々は、グラフ注意ネットワーク(GAT)とGRU(Gated Recurrent Units)を組み合わせた新しいディープラーニングフレームワークを用いて、ネットワークの空間的構成と時間的ダイナミクスの両方をキャプチャする。 戦略的なネットワーク分割手法と組み合わせて,集約モデルの計算的利点を保ちながら,リンクレベルのトラフィック速度推定の精度を向上させる。 実験では,異なる需要レベル,オリジン・デスティネーション分布,道路構成など,都市交通シナリオを通じて提案したLCFを評価した。 その結果,提案モデルの有効性と妥当性が示された。 さらに,MFDに基づく結果に対する平均誤差を約76%に削減し,ランダムに生成した経路の走行時間を計算することで,モデルの有効性を検証する。

In large-scale traffic optimization, models based on Macroscopic Fundamental Diagram (MFD) are recognized for their efficiency in broad analyses. However, they fail to reflect variations in the individual traffic status of each road link, leading to a gap in detailed traffic optimization and analysis. To address the limitation, this study introduces a Local Correction Factor (LCF) that a function integrates MFD-derived network mean speed with network configurations to accurately estimate the individual speed of the link. We use a novel deep learning framework combining Graph Attention Networks (GATs) with Gated Recurrent Units (GRUs) to capture both spatial configurations and temporal dynamics of the network. Coupled with a strategic network partitioning method, our model enhances the precision of link-level traffic speed estimations while preserving the computational benefits of aggregate models. In the experiment, we evaluate the proposed LCF through various urban traffic scenarios, including different demand levels, origin-destination distributions, and road configurations. The results show the robust adaptability and effectiveness of the proposed model. Furthermore, we validate the practicality of our model by calculating the travel time of each randomly generated path, with the average error relative to MFD-based results being reduced to approximately 76%.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# ステップ・バイ・ステップ:マルチモーダルテキスト認識のためのLLMを用いた生成核融合復号アルゴリズム

Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition ( http://arxiv.org/abs/2405.14259v1 )

ライセンス: Link先を確認
Chan-Jan Hsu, Yi-Chang Chen, Feng-Ting Liao, Pei-Chen Ho, Yu-Hsiang Wang, Po-Chun Hsu, Da-shan Shiu, (参考訳) 本稿では,大規模言語モデル(LLM)を自動音声認識(ASR)や光学文字認識(OCR)といったマルチモーダルテキスト認識システムに統合するために利用する,新しい浅層融合フレームワーク「GFD」を紹介する。 我々は,テキストトークン空間をバイトトークン空間にマッピングすることで,GFDが異なるモデルのミスマッチトークン空間をまたいで動作できるようにするために必要な公式を導出し,復号処理中にシームレスな融合を可能にする。 このフレームワークはプラグイン・アンド・プレイであり、様々な自動回帰モデルと互換性があり、機能アライメントのための再トレーニングを必要としないため、従来の融合技術の限界を克服している。 まず、異なるモデルサンプル空間の整合の複雑さを単純化することにより、GFDはLLMが認識モデルと直交するエラーを補正し、計算遅延を低減する。 第2に、LLMの文脈内学習能力はGFDによって完全に強化され、長文音声認識および命令対応音声認識における頑健性が向上する。 第三に、GFDは中国語で広く訓練されたLLMを用いて、中国語のテキスト認識において不十分なファジング認識モデルを可能にする。 評価の結果,GFD は ASR および OCR タスクの性能を著しく向上し,NTUML2021 ベンチマークでは ASR が最先端に到達した。 GFDは、ステップバイステップフュージョンを通じて既存のトレーニング済みモデルの活用に広く適用可能な統一されたソリューションを提供する。

We introduce ``Generative Fusion Decoding'' (GFD), a novel shallow fusion framework, utilized to integrate Large Language Models (LLMs) into multi-modal text recognition systems such as automatic speech recognition (ASR) and optical character recognition (OCR). We derive the formulas necessary to enable GFD to operate across mismatched token spaces of different models by mapping text token space to byte token space, enabling seamless fusion during the decoding process. The framework is plug-and-play, compatible with various auto-regressive models, and does not require re-training for feature alignment, thus overcoming limitations of previous fusion techniques. We highlight three main advantages of GFD: First, by simplifying the complexity of aligning different model sample spaces, GFD allows LLMs to correct errors in tandem with the recognition model, reducing computation latencies. Second, the in-context learning ability of LLMs is fully capitalized by GFD, increasing robustness in long-form speech recognition and instruction aware speech recognition. Third, GFD enables fusing recognition models deficient in Chinese text recognition with LLMs extensively trained on Chinese. Our evaluation demonstrates that GFD significantly improves performance in ASR and OCR tasks, with ASR reaching state-of-the-art in the NTUML2021 benchmark. GFD provides a significant step forward in model integration, offering a unified solution that could be widely applicable to leveraging existing pre-trained models through step by step fusion.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# グラフの混合によるグラフスカラー化

Graph Sparsification via Mixture of Graphs ( http://arxiv.org/abs/2405.14260v1 )

ライセンス: Link先を確認
Guibin Zhang, Xiangguo Sun, Yanwei Yue, Kun Wang, Tianlong Chen, Shirui Pan, (参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ学習タスクにおいて優れた性能を示してきたが、大規模グラフに適用した場合、重大な計算課題に直面している。 これらの課題を緩和する効果的なアプローチの1つは、計算オーバーヘッドを減らすために非必要エッジを除去するグラフスペーサー化である。 しかし、従来のグラフスペーシフィケーション手法は、単一のグローバルなスパーシフィケーション設定と均一なプルーニング基準に依存しており、各ノードの複雑なローカルコンテキストに対してカスタマイズされたスペーシフィケーションスキームを提供していないことが多い。 本稿では,Mixture-of-Experts (MoE) の概念を活用し,各ノードに対して動的に調整されたプルーニングソリューションを選択することを目的としたMixture-of-Graphs (MoG)を提案する。 特に、MoGには複数のスパシファイアの専門家が組み込まれており、それぞれに固有のスパシファイアレベルとプルーニング基準が特徴的であり、各ノードに対して適切な専門家を選択する。 その後、MoGはグラスマン多様体上の異なる専門家によって生成されるスパースグラフの混合を行い、最適スパースグラフを導出する。 MoGの特筆すべき特徴は、各ノードの特定の状況に依存するため、その完全に局所的な性質である。 5つのGNNバックボーンを備えた4つの大規模OGBデータセットと2つのスーパーピクセルデータセットの大規模な実験により、MoG(I)は高間隔レベル(8.67\%\sim 50.85\%$)のサブグラフを高密度グラフと同等以上のパフォーマンスで識別し、(II)GNN推論における1.47-2.62\times$ Speedup in GNN inference with negligible performance drop, (III) boosts `top-student' GNN performance$1.02\%\uparrow$ on RevGNN+\textsc{ogbn-oproteins} and $1.74\uparrow$ on DeeperGC+\textsc{ogbn-oproteins} and $1.74\uparrow$を達成した。

Graph Neural Networks (GNNs) have demonstrated superior performance across various graph learning tasks but face significant computational challenges when applied to large-scale graphs. One effective approach to mitigate these challenges is graph sparsification, which involves removing non-essential edges to reduce computational overhead. However, previous graph sparsification methods often rely on a single global sparsity setting and uniform pruning criteria, failing to provide customized sparsification schemes for each node's complex local context. In this paper, we introduce Mixture-of-Graphs (MoG), leveraging the concept of Mixture-of-Experts (MoE), to dynamically select tailored pruning solutions for each node. Specifically, MoG incorporates multiple sparsifier experts, each characterized by unique sparsity levels and pruning criteria, and selects the appropriate experts for each node. Subsequently, MoG performs a mixture of the sparse graphs produced by different experts on the Grassmann manifold to derive an optimal sparse graph. One notable property of MoG is its entirely local nature, as it depends on the specific circumstances of each individual node. Extensive experiments on four large-scale OGB datasets and two superpixel datasets, equipped with five GNN backbones, demonstrate that MoG (I) identifies subgraphs at higher sparsity levels ($8.67\%\sim 50.85\%$), with performance equal to or better than the dense graph, (II) achieves $1.47-2.62\times$ speedup in GNN inference with negligible performance drop, and (III) boosts ``top-student'' GNN performance ($1.02\%\uparrow$ on RevGNN+\textsc{ogbn-proteins} and $1.74\%\uparrow$ on DeeperGCN+\textsc{ogbg-ppa}).
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# アルゴリズム・リコースにおける評価機能の再評価--人間中心の視点からの実証的研究

Reassessing Evaluation Functions in Algorithmic Recourse: An Empirical Study from a Human-Centered Perspective ( http://arxiv.org/abs/2405.14264v1 )

ライセンス: Link先を確認
Tomu Tominaga, Naomi Yamashita, Takeshi Kurashima, (参考訳) 本研究では,AIシステムによる不適切な判断を個人が覆すのを支援する,対実的行動計画(recourses)の生成プロセスであるアルゴリズム・リコースの基礎的前提を批判的に検討する。 アルゴリズム的会話の根底にある前提は、個人が現在の状態と望ましい状態の間のギャップを最小限に抑えるリコースを受け入れ、行動することである。 しかし、この仮定は実証的に証明されていない。 この問題に対処するため,362人の参加者を対象にユーザスタディを実施し,現在と希望状態のギャップの指標である距離関数の最小化が,提案された言説を受理し,行動するよう促すかを検討した。 参加者のリコース受け入れは,リコース距離と相関しなかった。 さらに、参加者の言論行動への意欲は、最小の言論距離でピークに達したが、それ以外は一定であった。 これらの結果から,アルゴリズム・リコース研究の仮定に疑問を呈し,人間中心のリコース生成の道を開くための評価関数の再考の必要性が示唆された。

In this study, we critically examine the foundational premise of algorithmic recourse - a process of generating counterfactual action plans (i.e., recourses) assisting individuals to reverse adverse decisions made by AI systems. The assumption underlying algorithmic recourse is that individuals accept and act on recourses that minimize the gap between their current and desired states. This assumption, however, remains empirically unverified. To address this issue, we conducted a user study with 362 participants and assessed whether minimizing the distance function, a metric of the gap between the current and desired states, indeed prompts them to accept and act upon suggested recourses. Our findings reveal a nuanced landscape: participants' acceptance of recourses did not correlate with the recourse distance. Moreover, participants' willingness to act upon recourses peaked at the minimal recourse distance but was otherwise constant. These findings cast doubt on the prevailing assumption of algorithmic recourse research and signal the need to rethink the evaluation functions to pave the way for human-centered recourse generation.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 5*5マルチプレイヤーGOのための深層強化学習

Deep Reinforcement Learning for 5*5 Multiplayer Go ( http://arxiv.org/abs/2405.14265v1 )

ライセンス: Link先を確認
Brahim Driss, Jérôme Arjonilla, Hui Wang, Abdallah Saffidine, Tristan Cazenave, (参考訳) 近年,コンピュータ Go では,探索アルゴリズム (Monte Carlo Tree Search) とDeep Reinforcement Learning (DRL) により,多くの成果が得られた。 本稿では,検索とDRL(AlphaZero と Descent のアルゴリズム)を用いた最新のアルゴリズムを用いて,Go のゲームの拡張バージョンを2人以上のプレイヤーで自動的に学習する手法を提案する。 我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。

In recent years, much progress has been made in computer Go and most of the results have been obtained thanks to search algorithms (Monte Carlo Tree Search) and Deep Reinforcement Learning (DRL). In this paper, we propose to use and analyze the latest algorithms that use search and DRL (AlphaZero and Descent algorithms) to automatically learn to play an extended version of the game of Go with more than two players. We show that using search and DRL we were able to improve the level of play, even though there are more than two players.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 時間のギャップ: 建物における異種IoTポイントデータ処理の課題

A Gap in Time: The Challenge of Processing Heterogeneous IoT Point Data in Buildings ( http://arxiv.org/abs/2405.14267v1 )

ライセンス: Link先を確認
Xiachong Lin, Arian Prabowo, Imran Razzak, Hao Xue, Matthew Amos, Sam Behrens, Stephen White, Flora D. Salim, (参考訳) 持続可能なエネルギーソリューションの必要性が高まり、デジタル化された建物を電力網に統合し、建築性能とエネルギー効率を最適化するためにインターネット・オブ・Things技術を活用している。 しかし、エネルギー管理のためのディープラーニングフレームワークにIoTポイントデータを組み込むことは、主に固有のデータの不均一性のため、複雑な課題をもたらす。 本稿では,実世界のIoTデータストリーム構築における多面的不均一性を包括的に分析する。 オントロジー,エチオロジー,時間的不規則性,空間的多様性,IoT点データ分布に対するそれらの複合効果を包含し,多次元にわたる不均一性を慎重に識別する。 また,現状予測モデルを用いた実験を行い,タスク予測のためのディープラーニングモデルの性能評価を行った。 これらの次元に沿って多様性をチャート化することで、将来の研究において、この異質性を障害ではなくリソースとして活用する上での課題と経路を説明できる。 この探索は、ディープラーニングアルゴリズムの予測能力を前進させ、知的エネルギー効率の高い建物の進化を触媒する段階を定めている。

The growing need for sustainable energy solutions has driven the integration of digitalized buildings into the power grid, utilizing Internet-of-Things technology to optimize building performance and energy efficiency. However, incorporating IoT point data within deep-learning frameworks for energy management presents a complex challenge, predominantly due to the inherent data heterogeneity. This paper comprehensively analyzes the multifaceted heterogeneity present in real-world building IoT data streams. We meticulously dissect the heterogeneity across multiple dimensions, encompassing ontology, etiology, temporal irregularity, spatial diversity, and their combined effects on the IoT point data distribution. In addition, experiments using state-of-the-art forecasting models are conducted to evaluate their impacts on the performance of deep-learning models for forecasting tasks. By charting the diversity along these dimensions, we illustrate the challenges and delineate pathways for future research to leverage this heterogeneity as a resource rather than a roadblock. This exploration sets the stage for advancing the predictive abilities of deep-learning algorithms and catalyzing the evolution of intelligent energy-efficient buildings.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 多表現型遺伝的プログラミング:木に基づく表現と線形表現のケーススタディ

Multi-Representation Genetic Programming: A Case Study on Tree-based and Linear Representations ( http://arxiv.org/abs/2405.14268v1 )

ライセンス: Link先を確認
Zhixing Huang, Yi Mei, Fangfang Zhang, Mengjie Zhang, Wolfgang Banzhaf, (参考訳) 既存の遺伝的プログラミング(GP)法は通常、木に基づく表現や線形表現のような特定の表現に基づいて設計される。 これらの表現は、異なる領域における様々な長所と短所を示す。 しかし、GPの表現とフィットネスのランドスケープの間の複雑な関係のため、ある問題を解くのにどのGP表現が最も適しているかを直感的に決定することは困難である。 複数の表現を同時に展開するプログラム(またはモデル)は、複数のフィットネスランドスケープを探索することができる。 異なるGP個々表現間の潜在シナジーをフル活用することは、GPがより良い解を探すのに役立つかもしれない。 しかし、既存のGP文献は、複数の表現の進化の同時的有効利用を滅多に調査する。 このギャップを埋めるために,木ベースおよび線形表現に基づく多表現GPアルゴリズムを提案する。 さらに,木に基づく表現と線形表現の相互作用を利用するクロス表現演算子を開発した。 実験結果から,基本木に基づく表現と線形表現の学習知識をナビゲートすることで,記号回帰と動的ジョブショップスケジューリング問題の解法において,単に木に基づく表現や線形表現によるGPの有効性が向上することが示唆された。

Existing genetic programming (GP) methods are typically designed based on a certain representation, such as tree-based or linear representations. These representations show various pros and cons in different domains. However, due to the complicated relationships among representation and fitness landscapes of GP, it is hard to intuitively determine which GP representation is the most suitable for solving a certain problem. Evolving programs (or models) with multiple representations simultaneously can alternatively search on different fitness landscapes since representations are highly related to the search space that essentially defines the fitness landscape. Fully using the latent synergies among different GP individual representations might be helpful for GP to search for better solutions. However, existing GP literature rarely investigates the simultaneous effective use of evolving multiple representations. To fill this gap, this paper proposes a multi-representation GP algorithm based on tree-based and linear representations, which are two commonly used GP representations. In addition, we develop a new cross-representation crossover operator to harness the interplay between tree-based and linear representations. Empirical results show that navigating the learned knowledge between basic tree-based and linear representations successfully improves the effectiveness of GP with solely tree-based or linear representation in solving symbolic regression and dynamic job shop scheduling problems.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# 科学データ圧縮のためのスパース$L^1$-Autoencoders

Sparse $L^1$-Autoencoders for Scientific Data Compression ( http://arxiv.org/abs/2405.14270v1 )

ライセンス: Link先を確認
Matthias Chung, Rick Archibald, Paul Atzberger, Jack Michael Solomon, (参考訳) 科学データセットは、機械学習駆動圧縮手法に固有の課題を示しており、精度の厳密な要件と潜在的な無効化アーティファクトの緩和を含んでいる。 圧縮センシングと速度歪み理論から得られた結果に基づいて, 疎低次元表現を得るために, L^1$-regularizedの高次元ラテント空間を用いた自己エンコーダを開発することにより, 効率的なデータ圧縮手法を提案する。 本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。 短角散乱(SAS)データセットを用いて,2桁前後の圧縮比を最大化できることを示す。 提案手法は, 高性能分散コンピューティング環境における送信, ストレージ, 解析における現在のボトルネックに対処する上での有効性を示す。 これは、科学調査を支援するために世界中の共有実験施設で生成される大量のSASデータを処理する中心である。 本手法は, 対象とする科学データセットに対して, 特殊な圧縮手法を得るための一般的な方法を提供する。

Scientific datasets present unique challenges for machine learning-driven compression methods, including more stringent requirements on accuracy and mitigation of potential invalidating artifacts. Drawing on results from compressed sensing and rate-distortion theory, we introduce effective data compression methods by developing autoencoders using high dimensional latent spaces that are $L^1$-regularized to obtain sparse low dimensional representations. We show how these information-rich latent spaces can be used to mitigate blurring and other artifacts to obtain highly effective data compression methods for scientific data. We demonstrate our methods for short angle scattering (SAS) datasets showing they can achieve compression ratios around two orders of magnitude and in some cases better. Our compression methods show promise for use in addressing current bottlenecks in transmission, storage, and analysis in high-performance distributed computing environments. This is central to processing the large volume of SAS data being generated at shared experimental facilities around the world to support scientific investigations. Our approaches provide general ways for obtaining specialized compression methods for targeted scientific datasets.
翻訳日:2024-05-24 18:24:17 公開日:2024-05-23
# ビジュアルファンデーションモデルを用いた微細粒度-LiDARコントラスト蒸留

Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models ( http://arxiv.org/abs/2405.14271v1 )

ライセンス: Link先を確認
Yifan Zhang, Junhui Hou, (参考訳) 対照的に、画像とLiDARの知識伝達は、一般的に同期された画像と点雲による3D表現の学習に使われ、しばしば自己競合ジレンマに直面している。 この問題は、意味的ラベルを共有する未整合点や画素の特徴を意図せず解離させ、学習された表現の整合性を損なうことで生じる。 これを解決するために,画素レベルのセマンティクスの獲得に革命をもたらしたVisual Foundation Models (VFMs) を用いて,3次元表現学習を強化する。 具体的には,市販のVFMを用いて,弱教師付き画素対ポイントコントラスト蒸留のためのセマンティックラベルを生成する。 さらに、von Mises-Fisher分布を用いて特徴空間を構造化し、同じクラス内のセマンティックな埋め込みが様々な入力に対して一貫していることを保証する。 さらに,空間分布とカテゴリー周波数の不均衡に対処する点のサンプリング確率を適応させ,包括的かつバランスの取れた学習を促進する。 大規模な実験により, 従来の手法による課題を緩和し, 下流タスクにおける既存の画像-LiDARコントラスト蒸留法を一貫して超越していることが実証された。 ソースコードは \href{https://github.com/Eaphan/OLIVINE で公開されている。 }{\color{black}https://github.com/Eaphan/OLIVINE}

Contrastive image-to-LiDAR knowledge transfer, commonly used for learning 3D representations with synchronized images and point clouds, often faces a self-conflict dilemma. This issue arises as contrastive losses unintentionally dissociate features of unmatched points and pixels that share semantic labels, compromising the integrity of learned representations. To overcome this, we harness Visual Foundation Models (VFMs), which have revolutionized the acquisition of pixel-level semantics, to enhance 3D representation learning. Specifically, we utilize off-the-shelf VFMs to generate semantic labels for weakly-supervised pixel-to-point contrastive distillation. Additionally, we employ von Mises-Fisher distributions to structure the feature space, ensuring semantic embeddings within the same class remain consistent across varying inputs. Furthermore, we adapt sampling probabilities of points to address imbalances in spatial distribution and category frequency, promoting comprehensive and balanced learning. Extensive experiments demonstrate that our approach mitigates the challenges posed by traditional methods and consistently surpasses existing image-to-LiDAR contrastive distillation methods in downstream tasks. The source code is available at \href{https://github.com/Eaphan/OLIVINE.}{\color{black}https://github.com/Eaphan/OLIVINE}.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# MILPの逆最適化問題における最適解の予測損失を最小化する高速アルゴリズム

A fast algorithm to minimize prediction loss of the optimal solution in inverse optimization problem of MILP ( http://arxiv.org/abs/2405.14273v1 )

ライセンス: Link先を確認
Akira Kitaoka, (参考訳) 本稿では,MILPの最適解(PLS)の予測損失を,逆最適化問題の1つである所定のデータで最小化する問題に取り組む。 既存の手法では、この問題をほぼ解決できるが、PLSを最小化するための高次元の場合の実装は、重量の予測損失(PLW)を減らすのに非効率であるため、計算的に高価である。 我々はMILPのPSSを最小化するための高速アルゴリズムを提案する。 この特性を示すために、PSSの最小化は、凸であるSL(suboptimality loss)の最小化の問題に起因する。 PLSが消滅しない場合、SLを正の下限で推定損失(SPO損失)に適応させることで、PLWを評価することができる。 その結果,提案アルゴリズムはPLWを効果的に低減し,PLSの最小値が得られることを示した。 我々の数値実験は、我々のアルゴリズムが最小のPSSを達成できたことを実証した。 既存の手法と比較して,本アルゴリズムは次元効果が小さく,PSSを1/7未満のイテレーション数で最小化する。 特に高次元では,既存のアルゴリズムに比べてPSSを2桁以上改善した。

This paper tackles the problem of minimizing the prediction loss of the optimal solution (PLS) of the MILP with given data, which is one of the inverse optimization problems. While existing methods can approximately solve this problem, their implementation in the high-dimensional case to minimize the PLS is computationally expensive because they are inefficient in reducing the prediction loss of weights (PLW). We propose a fast algorithm for minimizing the PLS of MILP. To demonstrate this property, we attribute the problem of minimizing the PLS to that of minimizing the suboptimality loss (SL), which is convex. If the PLS does not vanish, we can adapt the SL to have the estimated loss (SPO loss) with a positive lower bound, which enables us to evaluate the PLW. Consequently, we prove that the proposed algorithm can effectively reduce the PLW and achieve the minimum value of PLS. Our numerical experiments demonstrated that our algorithm successfully achieved the minimum PLS. Compared to existing methods, our algorithm exhibited a smaller dimensionality effect and minimized the PLS in less than 1/7 the number of iterations. Especially in high dimensions, our algorithm significantly improved the PLS by more than two orders of magnitude compared to existing algorithms.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# D-MiSo:マルチガウスによる動的3Dシーンの編集

D-MiSo: Editing Dynamic 3D Scenes using Multi-Gaussians Soup ( http://arxiv.org/abs/2405.14276v1 )

ライセンス: Link先を確認
Joanna Waczyńska, Piotr Borycki, Joanna Kaleta, Sławomir Tadeja, Przemysław Spurek, (参考訳) 近年,ガウススプラッティング (GS) を用いて動的3次元シーンをモデリングするためのアプローチが数多く見受けられてきた。 このようなソリューションはGSを使ってシーンの構造を表現し、ニューラルネットワークを使ってダイナミクスをモデル化する。 このようなアプローチにより、動的なシーンの各要素の高速なレンダリングと抽出が可能になる。 しかし、そのようなオブジェクトを時間とともに変更することは難しい。 SC-GS (Sparse Controlled Gaussian Splatting) はデフォルメド・コントロール・ポイントによって強化された。 しかし、このアプローチでは、修正される必要のある要素の選択と、編集を通して調整されるべきセントロイドが必要である。 さらに,この課題は,このような編集の再現性に関して,さらなる困難を生じさせる。 そこで我々はD-MiSo(Dynamic Multi-Gaussian Soup)を提案する。 さらに,パラメータ化されたガウススプラットをリンクし,推定メッシュと三角スープを形成する手法を提案する。 これにより、シーンを構成する3Dオブジェクトに対して、別々に新しいトラジェクトリを構築することができる。 したがって、シーンの動的編集を時間や部分的ダイナミクスを維持しながら行うことができる。

Over the past years, we have observed an abundance of approaches for modeling dynamic 3D scenes using Gaussian Splatting (GS). Such solutions use GS to represent the scene's structure and the neural network to model dynamics. Such approaches allow fast rendering and extracting each element of such a dynamic scene. However, modifying such objects over time is challenging. SC-GS (Sparse Controlled Gaussian Splatting) enhanced with Deformed Control Points partially solves this issue. However, this approach necessitates selecting elements that need to be kept fixed, as well as centroids that should be adjusted throughout editing. Moreover, this task poses additional difficulties regarding the re-productivity of such editing. To address this, we propose Dynamic Multi-Gaussian Soup (D-MiSo), which allows us to model the mesh-inspired representation of dynamic GS. Additionally, we propose a strategy of linking parameterized Gaussian splats, forming a Triangle Soup with the estimated mesh. Consequently, we can separately construct new trajectories for the 3D objects composing the scene. Thus, we can make the scene's dynamic editable over time or while maintaining partial dynamics.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# 連続的事前学習と辞書学習分析による翻訳データによる学習言語モデルの改善

Improving Language Models Trained with Translated Data via Continual Pre-Training and Dictionary Learning Analysis ( http://arxiv.org/abs/2405.14277v1 )

ライセンス: Link先を確認
Sabri Boughorbel, MD Rizwan Parvez, Majd Hawasly, (参考訳) 低資源言語におけるLLMの訓練は、通常、英語からの機械翻訳(MT)によるデータ拡張を利用する。 しかし、翻訳には多くの課題が伴う: ハイエンドの機械翻訳ソリューションで大量のコンテンツを翻訳し、キュレーションするために大量の費用がかかる 翻訳されたコンテンツは文化的バイアスを克服し、翻訳が忠実で正確でない場合は、データの品質が低下し、訓練されたモデルに問題を引き起こす。 本研究では,学習言語モデルにおける翻訳と合成データの役割について検討する。 無料のNLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。 このデータを用いて1M-33Mパラメータのストーリー生成モデルを学習する。 結果のモデルでは、品質やタスク固有の問題をいくつか特定する。 これらの問題を是正するために、アラビア語で有能な LLM を用いて、合成された高品質なストーリーの小さなデータセットでモデルをさらに事前訓練する。 本稿では,GPT-4を判定として使用し,機械論的解釈可能性から辞書の学習分析を行い,提案手法が翻訳の落とし穴のいくつかを解決するための実用的な方法であることを示す。 本稿では,言語問題と文化バイアスのケーススタディを通じて改善について述べる。

Training LLMs in low resources languages usually utilizes data augmentation with machine translation (MT) from English language. However, translation brings a number of challenges: there are large costs attached to translating and curating huge amounts of content with high-end machine translation solutions, the translated content carries over cultural biases, and if the translation is not faithful and accurate, the quality of the data degrades causing issues in the trained model. In this work we investigate the role of translation and synthetic data in training language models. We translate TinyStories, a dataset of 2.2M short stories for 3-4 year old children, from English to Arabic using the free NLLB-3B MT model. We train a number of story generation models of sizes 1M-33M parameters using this data. We identify a number of quality and task-specific issues in the resulting models. To rectify these issues, we further pre-train the models with a small dataset of synthesized high-quality stories, representing 1\% of the original training data, using a capable LLM in Arabic. We show using GPT-4 as a judge and dictionary learning analysis from mechanistic interpretability that the suggested approach is a practical means to resolve some of the translation pitfalls. We illustrate the improvement through case studies of linguistic issues and cultural bias.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# SCMix: セマンティックセグメンテーションにおけるオープン化合物ドメイン適応のための確率的化合物混合

SCMix: Stochastic Compound Mixing for Open Compound Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2405.14278v1 )

ライセンス: Link先を確認
Kai Yao, Zhaorui Tan, Zixian Su, Xi Yang, Jie Sun, Kaizhu Huang, (参考訳) オープン複合ドメイン適応(OCDA)は、ラベル付きソースドメインから未ラベルの同種化合物ターゲットドメインの混合に知識を伝達し、未確認ドメインを一般化することを目的としている。 既存のOCDA法は、分割・分散戦略によって領域内ギャップを解決し、この問題を複数の個別・並列領域適応(DA)タスクに分割する。 このようなアプローチは、しばしば複数のサブネットワークやステージを含み、モデルの性能を制約する可能性がある。 本研究では、一般DA理論から、OCDAの設定に対する一般化を定めている。 これに基づいて、従来のOCDAアプローチはモデル一般化のための複合対象領域内固有の分散を実質的に過小評価する可能性があると論じる。 次に, 震源分布と混合ターゲット分布のばらつきを緩和する目的で, 拡張戦略である確率混合(SCMix)を提示する。 我々は,SCMixの優越性を裏付ける理論的解析を行い,従来の手法が我々の手法のサブグループであることを証明した。 その結果,本手法はOCDAセマンティックセグメンテーションタスクのリスクを低く抑え,理論を裏付けることがわかった。 トランスアーキテクチャを組み合わせることで、SCMixはSoTAの結果と比較して顕著なパフォーマンス向上を実現している。

Open compound domain adaptation (OCDA) aims to transfer knowledge from a labeled source domain to a mix of unlabeled homogeneous compound target domains while generalizing to open unseen domains. Existing OCDA methods solve the intra-domain gaps by a divide-and-conquer strategy, which divides the problem into several individual and parallel domain adaptation (DA) tasks. Such approaches often contain multiple sub-networks or stages, which may constrain the model's performance. In this work, starting from the general DA theory, we establish the generalization bound for the setting of OCDA. Built upon this, we argue that conventional OCDA approaches may substantially underestimate the inherent variance inside the compound target domains for model generalization. We subsequently present Stochastic Compound Mixing (SCMix), an augmentation strategy with the primary objective of mitigating the divergence between source and mixed target distributions. We provide theoretical analysis to substantiate the superiority of SCMix and prove that the previous methods are sub-groups of our methods. Extensive experiments show that our method attains a lower empirical risk on OCDA semantic segmentation tasks, thus supporting our theories. Combining the transformer architecture, SCMix achieves a notable performance boost compared to the SoTA results.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# 確率微分方程式を用いた拡散型量子誤差緩和

Diffusion-based Quantum Error Mitigation using Stochastic Differential Equation ( http://arxiv.org/abs/2405.14283v1 )

ライセンス: Link先を確認
Joo Yong Shim, Joongheon Kim, (参考訳) システム内の全エネルギーと情報が保存される閉系とは異なり、開系は外部環境と相互作用し、閉系では見られない複雑な挙動を引き起こす。 外部環境との相互作用によって生じるランダムなゆらぎは、量子系の状態に影響を与えるノイズを引き起こし、システムエラーを引き起こす。 オープン量子系における量子誤差を効果的に考慮するために,拡散モデルを用いた新しい手法を提案する。 このアプローチは、前向き確率微分方程式(FBSDE)として状態進化中のノイズ発生の定式化と、スコアベース生成モデル(SGM)を用いて量子状態の誤りをノイズ化する。

Unlike closed systems, where the total energy and information are conserved within the system, open systems interact with the external environment which often leads to complex behaviors not seen in closed systems. The random fluctuations that arise due to the interaction with the external environment cause noise affecting the states of the quantum system, resulting in system errors. To effectively concern quantum error in open quantum systems, this paper introduces a novel approach to mitigate errors using diffusion models. This approach can be realized by noise occurrence formulation during the state evolution as forward-backward stochastic differential equations (FBSDE) and adapting the score-based generative model (SGM) to denoise errors in quantum states.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# マルコフ雑音を用いた定ステップ確率近似のバイアス計算

Computing the Bias of Constant-step Stochastic Approximation with Markovian Noise ( http://arxiv.org/abs/2405.14285v1 )

ライセンス: Link先を確認
Sebastian Allmeier, Nicolas Gast, (参考訳) マルコフ雑音と定常ステップサイズ$\alpha$の確率近似アルゴリズムについて検討する。 アルゴリズムのバイアスを研究するために、無限小生成器の比較に基づく手法を開発する。これは、$\theta_n$ -- 反復の値 $n$ -- と $\theta^*$ -- に対応するODEのユニークな平衡である $\theta^*$ -- との期待差である。 いくつかの滑らかな条件下では、このバイアスは位数$O(\alpha)$である。 さらに、平均バイアスが$\alpha V + O(\alpha^2)$, $V$がリアプノフ方程式によって特徴づけられる定数であり、$\esp{\bar{\theta}_n} \approx \theta^*+V\alpha + O(\alpha^2)$, $\bar{\theta}_n=(1/n)\sum_{k=1}^n\theta_k$がPolyak-Ruppert平均であることを示す。 また、$\bar{\theta}_n$ は $\theta^*+\alpha V$ の周囲に高い確率で収束することを示す。 これをRichardson-Romberg外挿と組み合わせて、位数$O(\alpha^2)$のバイアスを持つ反復スキームを導出する方法を説明する。

We study stochastic approximation algorithms with Markovian noise and constant step-size $\alpha$. We develop a method based on infinitesimal generator comparisons to study the bias of the algorithm, which is the expected difference between $\theta_n$ -- the value at iteration $n$ -- and $\theta^*$ -- the unique equilibrium of the corresponding ODE. We show that, under some smoothness conditions, this bias is of order $O(\alpha)$. Furthermore, we show that the time-averaged bias is equal to $\alpha V + O(\alpha^2)$, where $V$ is a constant characterized by a Lyapunov equation, showing that $\esp{\bar{\theta}_n} \approx \theta^*+V\alpha + O(\alpha^2)$, where $\bar{\theta}_n=(1/n)\sum_{k=1}^n\theta_k$ is the Polyak-Ruppert average. We also show that $\bar{\theta}_n$ converges with high probability around $\theta^*+\alpha V$. We illustrate how to combine this with Richardson-Romberg extrapolation to derive an iterative scheme with a bias of order $O(\alpha^2)$.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# エッジ依存ノード分類のための共表現型ニューラルグラフ拡散

Co-Representation Neural Hypergraph Diffusion for Edge-Dependent Node Classification ( http://arxiv.org/abs/2405.14286v1 )

ライセンス: Link先を確認
Yijia Zheng, Marcel Worring, (参考訳) ハイパーグラフは現実世界のアプリケーションにおける複雑な高次関係を表現するために広く使われている。 ほとんどのハイパーグラフ学習研究はノードレベルのタスクやエッジレベルのタスクに焦点を当てている。 エッジ依存ノード分類(エッジ依存ノード分類、ENC)が提案されている。 ENCでは、ノードは異なるハイパーエッジに異なるラベルを持つことができ、単一のノードやハイパーエッジの代わりにノードとハイパーエッジのペアをモデル化する必要がある。 このタスクの既存のソリューションはメッセージパッシングに基づいており、マルチインプット単一出力関数として、エッジ内およびノード内相互作用をモデル化する。 これは、(1)非適応的な表現サイズ、(2)ノード/エッジ非依存メッセージ、(3)ノードまたはハイパーエッジ間の不十分な相互作用の3つの制限をもたらす。 これらの制約に対処するため,ハイパーグラフ拡散に基づく新しいソリューションであるCoNHDを開発した。 具体的には,まずノード-ハイパーエッジ共表現を用いてハイパーグラフ拡散を拡張する。 この拡張は、2つの同変拡散作用素を用いた多入力多出力関数として、エッジ内およびノード内相互作用の両方を明示的にモデル化する。 本稿では,手作り正規化関数を避けるために,共表現ハイパーグラフ拡散プロセスのためのニューラル実装を提案する。 大規模実験により提案したCoNHDモデルの有効性と有効性を示す。

Hypergraphs are widely employed to represent complex higher-order relationships in real-world applications. Most hypergraph learning research focuses on node- or edge-level tasks. A practically relevant but more challenging task, edge-dependent node classification (ENC), is only recently proposed. In ENC, a node can have different labels across different hyperedges, which requires the modeling of node-hyperedge pairs instead of single nodes or hyperedges. Existing solutions for this task are based on message passing and model within-edge and within-node interactions as multi-input single-output functions. This brings three limitations: (1) non-adaptive representation size, (2) node/edge agnostic messages, and (3) insufficient interactions among nodes or hyperedges. To tackle these limitations, we develop CoNHD, a new solution based on hypergraph diffusion. Specifically, we first extend hypergraph diffusion using node-hyperedge co-representations. This extension explicitly models both within-edge and within-node interactions as multi-input multi-output functions using two equivariant diffusion operators. To avoid handcrafted regularization functions, we propose a neural implementation for the co-representation hypergraph diffusion process. Extensive experiments demonstrate the effectiveness and efficiency of the proposed CoNHD model.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# 連関学習のための変分ベイズ

Variational Bayes for Federated Continual Learning ( http://arxiv.org/abs/2405.14291v1 )

ライセンス: Link先を確認
Dezhong Yao, Sanmu Li, Yutong Dai, Zhiqiang Xu, Shengshan Hu, Peilin Zhao, Lichao Sun, (参考訳) フェデレーション型連続学習(FCL)は、リアルタイムストリーミングデータを扱う可能性から注目を集めている。 ストレージ制限とプライバシに関する制約により、各学習サイクル内で現在データにのみアクセスするローカルモデルが制限される。 このため、この制限は「破滅的忘れ」と呼ばれる過去のデータに基づくモデルトレーニングのパフォーマンス低下を引き起こす。 しかし、既存のFCLアプローチでは、実際の世界では困難であるデータ分散の変化を特定し、知る必要がある。 これらの制限を解放するために、この論文はより広範な継続的フレームワークに注意を向ける。 本フレームワークでは,すべてのクライアントに分散ベイズニューラルネットワークを用いた多目的かつ効率的なフレームワークであるFederated Bayesian Neural Network (FedBNN)を紹介する。 本手法は, 局所的および歴史的データ分布からの知識を単一モデルに連続的に統合し, 履歴分布の性能を維持しつつ, 新たなデータ分布から順応的に学習する。 我々はFedBNNの性能を,フェデレーション学習や継続学習における一般的な手法に対して,様々な指標を用いて厳格に評価する。 多様なデータセットにわたる実験分析により、FedBNNが最先端の結果を達成し、忘れを緩和することを示した。

Federated continual learning (FCL) has received increasing attention due to its potential in handling real-world streaming data, characterized by evolving data distributions and varying client classes over time. The constraints of storage limitations and privacy concerns confine local models to exclusively access the present data within each learning cycle. Consequently, this restriction induces performance degradation in model training on previous data, termed "catastrophic forgetting". However, existing FCL approaches need to identify or know changes in data distribution, which is difficult in the real world. To release these limitations, this paper directs attention to a broader continuous framework. Within this framework, we introduce Federated Bayesian Neural Network (FedBNN), a versatile and efficacious framework employing a variational Bayesian neural network across all clients. Our method continually integrates knowledge from local and historical data distributions into a single model, adeptly learning from new data distributions while retaining performance on historical distributions. We rigorously evaluate FedBNN's performance against prevalent methods in federated learning and continual learning using various metrics. Experimental analyses across diverse datasets demonstrate that FedBNN achieves state-of-the-art results in mitigating forgetting.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# 構造光画像に基づく診療所における顔登録の新しい方法

A New Method in Facial Registration in Clinics Based on Structure Light Images ( http://arxiv.org/abs/2405.14292v1 )

ライセンス: Link先を確認
Pengfei Li, Ziyue Ma, Hong Wang, Juan Deng, Yan Wang, Zhenyu Xu, Feng Yan, Wenjun Tu, Hong Sha, (参考訳) 背景と目的: 神経外科では、情報と詳細を改善するための臨床画像と深度画像の融合が手術に有用である。 既存の方法では,顔深度画像の登録が頻繁に無効であることが判明した。 深度情報を用いた従来の画像手法を豊富にするために,深度画像と従来の臨床画像の登録方法を検討した。 方法: 顔認識に使用可能なC++ライブラリであるdlibライブラリを使用し, 構造光カメラとCT画像から顔のキーポイントを認識した。 2つのキーポイントクラウドはICP法で粗い登録のために登録された。 粗大な登録をICP法で完了した。 結果: RMSEの粗大化と微粒化は0.995913mm以下である。 従来の方法と比較すると、時間も少なくなります。 結論: 新しい方法は, 構造光画像とCT画像から低誤差で顔深度画像の登録に成功した。

Background and Objective: In neurosurgery, fusing clinical images and depth images that can improve the information and details is beneficial to surgery. We found that the registration of face depth images was invalid frequently using existing methods. To abundant traditional image methods with depth information, a method in registering with depth images and traditional clinical images was investigated. Methods: We used the dlib library, a C++ library that could be used in face recognition, and recognized the key points on faces from the structure light camera and CT image. The two key point clouds were registered for coarse registration by the ICP method. Fine registration was finished after coarse registration by the ICP method. Results: RMSE after coarse and fine registration is as low as 0.995913 mm. Compared with traditional methods, it also takes less time. Conclusions: The new method successfully registered the facial depth image from structure light images and CT with a low error, and that would be promising and efficient in clinical application of neurosurgery.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# チューニング不要なユニバーサルスーパービジョンセマンティックセマンティックセグメンテーション

Tuning-free Universally-Supervised Semantic Segmentation ( http://arxiv.org/abs/2405.14294v1 )

ライセンス: Link先を確認
Xiaobo Yang, Xiaojin Gong, (参考訳) 本研究は,CLIPによるSAMマスクの分類に基づく,チューニング不要なセマンティックセマンティックセマンティクスフレームワークを提案する。 当初は、CLIPのゼロショット分類機能を利用して擬似ラベルを生成したり、オープン語彙セグメンテーションを行う。 しかし、マスクとCLIPテキストの埋め込みのミスアライメントは、最適以下の結果をもたらす。 この問題に対処するため、マスクとテキストの埋め込みを緊密に調整する差別バイアス対応CLIPを提案し、オーバーヘッドのないパフォーマンス向上を実現した。 そこで我々は,DBA-CLIPが生成する高品質な埋め込みの内在的構造を明らかにするSAMマスクを分類するために,グローバルな一貫した分類器を構築し,ノイズのある擬似ラベルに対する堅牢性を示す。 大規模な実験により,本手法の有効性と有効性を検証するとともに,各種データセットや監視タイプに対して,最先端のSOTA(State-of-the-art)や競争性能を実現する。

This work presents a tuning-free semantic segmentation framework based on classifying SAM masks by CLIP, which is universally applicable to various types of supervision. Initially, we utilize CLIP's zero-shot classification ability to generate pseudo-labels or perform open-vocabulary segmentation. However, the misalignment between mask and CLIP text embeddings leads to suboptimal results. To address this issue, we propose discrimination-bias aligned CLIP to closely align mask and text embedding, offering an overhead-free performance gain. We then construct a global-local consistent classifier to classify SAM masks, which reveals the intrinsic structure of high-quality embeddings produced by DBA-CLIP and demonstrates robustness against noisy pseudo-labels. Extensive experiments validate the efficiency and effectiveness of our method, and we achieve state-of-the-art (SOTA) or competitive performance across various datasets and supervision types.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# きめ細かい多ページ文書理解のための焦点

Focus Anywhere for Fine-grained Multi-page Document Understanding ( http://arxiv.org/abs/2405.14295v1 )

ライセンス: Link先を確認
Chenglong Liu, Haoran Wei, Jinyue Chen, Lingyu Kong, Zheng Ge, Zining Zhu, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang, (参考訳) 現代のLVLMは、ユーザへの関心領域のOCR/翻訳/カプセル化、ページ全体のコンテキストを必要とするタスク、さらには複数のページなど、詳細なドキュメント理解に苦慮している。 そこで本稿では,LVLMを単ページ/複数ページの文書にフォーカスする上で有効なパイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。 我々は,LVLMが文書レベルの領域に注意を向けることにより,文書理解を促進する新しいタスクを導入する。 我々は、複数の視覚語彙を用いて、インターリーブド文書ページ(例えば、写真を含むページ)の視覚的ハイブリッド知識を抽出する。 一方,複数の視覚語彙と文書内図形理解の完全な反応を達成するために,クロスボキャブラリ視覚データを触媒として描画する。 さらに、複数の視覚語彙の重みを変更することなく、上記の触媒化された微粒化理解機能をマルチページ文書に効率的に調整することができ、フォーマットフリーとページフリーの両方の方法でモデルを集中させることができる。 さらに,9つの微粒なサブタスク(例えば,地域レベルのOCR/サマリ,カラー誘導型OCR)を含むベンチマークを構築し,コミュニティにおける文書分析を促進する。 実験により,本モデルの有効性が検証された。

Modern LVLMs still struggle to achieve fine-grained document understanding, such as OCR/translation/caption for regions of interest to the user, tasks that require the context of the entire page, or even multiple pages. Accordingly, this paper proposes Fox, an effective pipeline, hybrid data, and tuning strategy, that catalyzes LVLMs to focus anywhere on single/multi-page documents. We introduce a novel task to boost the document understanding by making LVLMs focus attention on the document-level region, such as redefining full-page OCR as foreground focus. We employ multiple vision vocabularies to extract visual hybrid knowledge for interleaved document pages (e.g., a page containing a photo). Meanwhile, we render cross-vocabulary vision data as the catalyzer to achieve a full reaction of multiple visual vocabularies and in-document figure understanding. Further, without modifying the weights of multiple vision vocabularies, the above catalyzed fine-grained understanding capabilities can be efficiently tuned to multi-page documents, enabling the model to focus anywhere in both format-free and page-free manners. Besides, we build a benchmark including 9 fine-grained sub-tasks (e.g., region-level OCR/summary, color-guided OCR) to promote document analysis in the community. The experimental results verify the superiority of our model.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# エキスパートの動的混合:効率的な変圧器モデルのためのオートチューニングアプローチ

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models ( http://arxiv.org/abs/2405.14297v1 )

ライセンス: Link先を確認
Yongxin Guo, Zhenglin Cheng, Xiaoying Tang, Tao Lin, (参考訳) SMOE(Sparse Mixture of Experts)は、トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために広く用いられている。 しかし、SMoEの性能は、専門家の数やアクティベートする専門家の数(トップkと呼ばれる)など、ハイパーパラメータの選択に大きく依存しているため、様々なハイパーパラメータ構成を探索することで、広範囲なモデルトレーニングによる計算オーバーヘッドが大きくなった。 本稿では,DynMoE(Dynamic Mixture of Experts)技術を紹介する。 DynMoEは(1)各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティング手法を取り入れている。 2)適応的なプロセスは,訓練中に専門家の数を自動調整する。 視覚・言語・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を両立させる手法の有効性を示すとともに,より少ないパラメータの活性化による効率の維持を図っている。 私たちのコードはhttps://github.com/LINs-lab/DynMoE.comで利用可能です。

The Sparse Mixture of Experts (SMoE) has been widely employed to enhance the efficiency of training and inference for Transformer-based foundational models, yielding promising results. However, the performance of SMoE heavily depends on the choice of hyper-parameters, such as the number of experts and the number of experts to be activated (referred to as top-k), resulting in significant computational overhead due to the extensive model training by searching over various hyper-parameter configurations. As a remedy, we introduce the Dynamic Mixture of Experts (DynMoE) technique. DynMoE incorporates (1) a novel gating method that enables each token to automatically determine the number of experts to activate. (2) An adaptive process automatically adjusts the number of experts during training. Extensive numerical results across Vision, Language, and Vision-Language tasks demonstrate the effectiveness of our approach to achieve competitive performance compared to GMoE for vision and language tasks, and MoE-LLaVA for vision-language tasks, while maintaining efficiency by activating fewer parameters. Our code is available at https://github.com/LINs-lab/DynMoE.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# 半教師あり学習に基づく心臓磁気共鳴画像の自動診断

Automatic diagnosis of cardiac magnetic resonance images based on semi-supervised learning ( http://arxiv.org/abs/2405.14300v1 )

ライセンス: Link先を確認
Hejun Huang, Zuguo Chen, Yi Huang, Guangqiang Luo, Chaoyang Chen, Youzhi Song, (参考訳) 心臓MRI(Heartiac magnetic resonance imaging)は、心臓機能を評価するための重要なツールである。 心機能の正確な評価には, 心臓構造の精密セグメンテーションが不可欠である。 本稿では,心臓画像の自動分割と補助診断のための半教師付きモデルを提案する。 心臓MRI画像を利用して、注釈付き画像データのごく一部しか必要とせず、心臓画像の完全自動化された高精度セグメンテーション、特徴の抽出、臨床指標の算出、疾患の予測を行う。 提供されたセグメンテーション結果、臨床指標および予測結果は、診断における医師の助けとなり、補助診断ツールとして機能する。 実験結果から,この半教師付き心臓画像の自動分割法と補助診断法により,精度の高いセグメンテーションと予測精度が得られ,実用的なガイダンスと応用価値が得られた。

Cardiac magnetic resonance imaging (MRI) is a pivotal tool for assessing cardiac function. Precise segmentation of cardiac structures is imperative for accurate cardiac functional evaluation. This paper introduces a semi-supervised model for automatic segmentation of cardiac images and auxiliary diagnosis. By harnessing cardiac MRI images and necessitating only a small portion of annotated image data, the model achieves fully automated, high-precision segmentation of cardiac images, extraction of features, calculation of clinical indices, and prediction of diseases. The provided segmentation results, clinical indices, and prediction outcomes can aid physicians in diagnosis, thereby serving as auxiliary diagnostic tools. Experimental results showcase that this semi-supervised model for automatic segmentation of cardiac images and auxiliary diagnosis attains high accuracy in segmentation and correctness in prediction, demonstrating substantial practical guidance and application value.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# デジタル病理学でコンテキストは重要か?

Does context matter in digital pathology? ( http://arxiv.org/abs/2405.14301v1 )

ライセンス: Link先を確認
Paulina Tomaszewska, Mateusz Sperkowski, Przemysław Biecek, (参考訳) 医療のための人工知能の開発は非常に重要である。 モデルは、時に人間の専門家よりも優れたパフォーマンスを達成することができるが、素早い特徴に基づいて推論することができる。 ドメインの専門知識に従って、モデルがデータ内の有効なパターンをキャッチできることが期待されるため、これは専門家には受け入れられません。 本研究は,視力の深層学習(DL)モデルが病理病理学者の慣行に従っているかどうかを解析し,病変の一部を診断する場合,周囲の組織もコンテキストとして考慮する。 その結果,DLモデルの性能は文脈情報の量を制限すると著しく低下することがわかった。 さらに,いくつかの画像のようにモデルが不安定に振る舞う場合があり,コンテキストの大きさによって何回も予測を変更できることを示す。 部分的な文脈情報は誤解を招く可能性がある。

The development of Artificial Intelligence for healthcare is of great importance. Models can sometimes achieve even superior performance to human experts, however, they can reason based on spurious features. This is not acceptable to the experts as it is expected that the models catch the valid patterns in the data following domain expertise. In the work, we analyse whether Deep Learning (DL) models for vision follow the histopathologists' practice so that when diagnosing a part of a lesion, they take into account also the surrounding tissues which serve as context. It turns out that the performance of DL models significantly decreases when the amount of contextual information is limited, therefore contextual information is valuable at prediction time. Moreover, we show that the models sometimes behave in an unstable way as for some images, they change the predictions many times depending on the size of the context. It may suggest that partial contextual information can be misleading.
翻訳日:2024-05-24 18:14:32 公開日:2024-05-23
# Graphcode: グラフニューラルネットワークを用いたマルチパラメータ永続ホモロジーからの学習

Graphcode: Learning from multiparameter persistent homology using graph neural networks ( http://arxiv.org/abs/2405.14302v1 )

ライセンス: Link先を確認
Michael Kerber, Florian Russold, (参考訳) 本稿では,永続ホモロジーの確立した理論に基づくデータセットのトポロジ特性のマルチスケール要約であるグラフコードを紹介する。 グラフコードは、2つの実数値スケールパラメータに沿ってフィルタリングされるデータセットを処理する。 このような多パラメータトポロジ的要約は通常、複雑な理論的基礎に基づいており、計算が難しい。 さらに、グラフコードは単に埋め込みグラフであり、グラフニューラルネットワークを使用して機械学習パイプラインに簡単に統合できる。 このようなパイプラインを記述し、グラフコードが様々なデータセットの最先端アプローチよりも優れた分類精度を達成できることを実証する。

We introduce graphcodes, a novel multi-scale summary of the topological properties of a dataset that is based on the well-established theory of persistent homology. Graphcodes handle datasets that are filtered along two real-valued scale parameters. Such multi-parameter topological summaries are usually based on complicated theoretical foundations and difficult to compute; in contrast, graphcodes yield an informative and interpretable summary and can be computed as efficient as one-parameter summaries. Moreover, a graphcode is simply an embedded graph and can therefore be readily integrated in machine learning pipelines using graph neural networks. We describe such a pipeline and demonstrate that graphcodes achieve better classification accuracy than state-of-the-art approaches on various datasets.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# グラフニューラルネットワークの類似性を考慮した共形予測

Similarity-Navigated Conformal Prediction for Graph Neural Networks ( http://arxiv.org/abs/2405.14303v1 )

ライセンス: Link先を確認
Jianqing Song, Jianguo Huang, Wenyu Jiang, Baoming Zhang, Shuangjie Li, Chongjun Wang, (参考訳) グラフニューラルネットワークは、半教師付きノード分類タスクにおいて顕著な精度を達成した。 しかし、これらの結果は信頼性のある不確実性評価を欠いている。 コンフォーマル予測法は、ノード分類タスクの理論的保証を提供し、コンフォーマル予測セットが所望の確率 (eg , 95%) を持つ基底トラスラベルを含むことを保証する。 本稿では,各ノードに対して,同じラベルを持つノードの非整合性スコアを集約することにより,共形予測セットの効率が向上することを示す。 本研究の目的は,特徴類似性と構造近傍に基づく非整合性スコアを集約するSNAPS(Simisity-Navigated Adaptive Prediction Sets)というアルゴリズムを提案することである。 SNAPSの背景にある重要な考え方は、高い特徴の類似性や直接接続を持つノードは、同じラベルを持つ傾向があるということだ。 適応的な類似ノード情報を組み込むことで、SNAPSはコンパクトな予測セットを生成し、シングルトンヒット比(サイズ1の正しい予測セット)を増大させることができる。 さらに,理論上,SNAPSの有限サンプルカバレッジを保証する。 大規模な実験は、SNAPSの優位性を実証し、有効範囲を維持しつつ予測セットの効率とシングルトンヒット比を改善した。

Graph Neural Networks have achieved remarkable accuracy in semi-supervised node classification tasks. However, these results lack reliable uncertainty estimates. Conformal prediction methods provide a theoretical guarantee for node classification tasks, ensuring that the conformal prediction set contains the ground-truth label with a desired probability (e.g., 95%). In this paper, we empirically show that for each node, aggregating the non-conformity scores of nodes with the same label can improve the efficiency of conformal prediction sets. This observation motivates us to propose a novel algorithm named Similarity-Navigated Adaptive Prediction Sets (SNAPS), which aggregates the non-conformity scores based on feature similarity and structural neighborhood. The key idea behind SNAPS is that nodes with high feature similarity or direct connections tend to have the same label. By incorporating adaptive similar nodes information, SNAPS can generate compact prediction sets and increase the singleton hit ratio (correct prediction sets of size one). Moreover, we theoretically provide a finite-sample coverage guarantee of SNAPS. Extensive experiments demonstrate the superiority of SNAPS, improving the efficiency of prediction sets and singleton hit ratio while maintaining valid coverage.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 露光拡散:連続LDRデノイングによるHDR画像生成

Exposure Diffusion: HDR Image Generation by Consistent LDR denoising ( http://arxiv.org/abs/2405.14304v1 )

ライセンス: Link先を確認
Mojtaba Bemana, Thomas Leimkühler, Karol Myszkowski, Hans-Peter Seidel, Tobias Ritschel, (参考訳) 複数のブラックボックス, トレーニング済み低ダイナミックレンジ(LDR)画像拡散モデルを用いて, 高ダイナミックレンジ(HDR)画像の生成を実証する。 一般的な拡散モデルはHDRではなく、第1に、それらを再トレーニングするのに十分な大きなHDRイメージデータセットが存在しておらず、第2に、たとえそうであったとしても、そのようなモデルを再トレーニングすることは、ほとんどの計算予算では不可能である。 代わりに、伝統的に「ブラケット」と呼ばれるLDR画像の集合を融合させて単一のHDR画像を生成するHDR画像キャプチャー文献からインスピレーションを得る。 有効なHDR結果を生成する複数のLDRブラケットを生成するために,複数の復調処理を運用する。 この目的のために、拡散過程に露光整合項を導入し、ブラケットを結合させ、それらが共有する露光範囲にわたって一致するようにする。 現状無条件・条件のHDR版と復元型(LDR2HDR)生成モデルについて述べる。

We demonstrate generating high-dynamic range (HDR) images using the concerted action of multiple black-box, pre-trained low-dynamic range (LDR) image diffusion models. Common diffusion models are not HDR as, first, there is no sufficiently large HDR image dataset available to re-train them, and second, even if it was, re-training such models is impossible for most compute budgets. Instead, we seek inspiration from the HDR image capture literature that traditionally fuses sets of LDR images, called "brackets", to produce a single HDR image. We operate multiple denoising processes to generate multiple LDR brackets that together form a valid HDR result. To this end, we introduce an exposure consistency term into the diffusion process to couple the brackets such that they agree across the exposure range they share. We demonstrate HDR versions of state-of-the-art unconditional and conditional as well as restoration-type (LDR2HDR) generative modeling.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# AdaGMLP: AdaBoosting GNN-to-MLP Knowledge Distillation

AdaGMLP: AdaBoosting GNN-to-MLP Knowledge Distillation ( http://arxiv.org/abs/2405.14307v1 )

ライセンス: Link先を確認
Weigang Lu, Ziyu Guan, Wei Zhao, Yaming Yang, (参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの機械学習に革命をもたらしたが、その重い計算要求は、実用的な産業アプリケーションにおいてレイテンシに敏感なエッジデバイスに課題をもたらす。 これに対し、GNN-to-MLP Knowledge Distillationと呼ばれる新しい手法が出現した。 彼らは、GNNが学習した知識をより効率的なMLP学生に転送することを目的としており、GNNと比較して競争性能を維持しながら、より高速でリソース効率の高い推論を提供する。 しかし、これらの手法は、訓練データと不完全なテストデータが不足している状況において重大な課題に直面し、現実のアプリケーションに適用性を制限する。 これらの課題に対処するため、我々はAdaBoosting GNN-to-MLP Knowledge Distillation frameworkであるAdaGMLPを提案する。 ラベル付きノードの異なるサブセットで訓練された多様なMLP学生のアンサンブルを活用し、不十分なトレーニングデータの問題に対処する。 さらに、不足または不完全な機能を持つテストデータの堅牢な予測のためのNodeアライメントテクニックも組み込まれている。 AdaGMLPが既存のG2M法より優れており、幅広い遅延に敏感な実世界のアプリケーションに適していることを示す。 私たちはGitHubリポジトリにコードを提出しました(https://github.com/WeigangLu/AdaGMLP-KDD24)。

Graph Neural Networks (GNNs) have revolutionized graph-based machine learning, but their heavy computational demands pose challenges for latency-sensitive edge devices in practical industrial applications. In response, a new wave of methods, collectively known as GNN-to-MLP Knowledge Distillation, has emerged. They aim to transfer GNN-learned knowledge to a more efficient MLP student, which offers faster, resource-efficient inference while maintaining competitive performance compared to GNNs. However, these methods face significant challenges in situations with insufficient training data and incomplete test data, limiting their applicability in real-world applications. To address these challenges, we propose AdaGMLP, an AdaBoosting GNN-to-MLP Knowledge Distillation framework. It leverages an ensemble of diverse MLP students trained on different subsets of labeled nodes, addressing the issue of insufficient training data. Additionally, it incorporates a Node Alignment technique for robust predictions on test data with missing or incomplete features. Our experiments on seven benchmark datasets with different settings demonstrate that AdaGMLP outperforms existing G2M methods, making it suitable for a wide range of latency-sensitive real-world applications. We have submitted our code to the GitHub repository (https://github.com/WeigangLu/AdaGMLP-KDD24).
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 弱場ホモダイン検出を用いた量子通信

Employing weak-field homodyne detection for quantum communications ( http://arxiv.org/abs/2405.14310v1 )

ライセンス: Link先を確認
Michele N. Notarnicola, Stefano Olivares, (参考訳) 我々は、コヒーレントな状態符号化を持つ損失ボソニックチャネル上での量子通信における弱場ホモダイン(WF)測定の役割について検討する。 この種の受信機は、有限分解能と低強度局所発振器を備えた光子数分解(PNR)検出器を用いる。 メリットの図形として、ガウス入力変調の相互情報を考える。 我々は, 局所振動子強度を最適に最適化するために, 平均信号エネルギーの情報を利用して得られる光子飢餓状態におけるシャノン容量の増大を証明した。 その後、符号化パルスのエネルギーのガンマ分布を考慮することにより、非ガウス変調の性能について検討し、中間エネルギー系におけるガウス変調ケースに関する情報量の増加を実現し、PNR分解能の低い値に対してよりアクセントを付ける。

We investigate the role of weak-field homodyne (WF) measurement for quantum communications over a lossy bosonic channel with coherent state encoding. This kind of receiver employs photon-number resolving (PNR) detectors with finite resolution and low-intensity local oscillator. As a figure of merit, we consider the mutual information for a Gaussian input modulation. We prove an enhancement over Shannon capacity in the photon starved regime, obtained by exploiting information on the mean signal energy to suitably optimize the local oscillator intensity. Thereafter, we investigate the performance of non-Gaussian modulation, by considering a Gamma distribution of the energy of the encoded pulses, and achieve an increase in the information rate with respect to the Gaussian modulation case in the intermediate energy regime, being more accentuated for low values of the PNR resolution.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 表現密度の低減によるグロスフリー手話翻訳の改善

Improving Gloss-free Sign Language Translation by Reducing Representation Density ( http://arxiv.org/abs/2405.14312v1 )

ライセンス: Link先を確認
Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong, (参考訳) グロスフリー手話翻訳(SLT)は、高価なグロスアノテーションを必要としない高性能なSLTシステムを開発することを目的としているが、現時点ではグロスベースのアプローチに大きく遅れている。 本稿では、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。 特に、表現密度問題は、意味的に区別された手話の視覚的表現が特徴空間に密に束ねられている傾向があることを示しており、光沢のない手法は異なる手話の区別に苦労し、鋭いパフォーマンス低下に悩まされる。 表現密度問題に対処するために,手軽だが効果的な比較学習戦略であるSignCLを導入する。 実験により,提案したSignCLは表現密度を大幅に低減し,様々な翻訳フレームワークにおける性能向上を図っている。 具体的には,手話変換器のBLEUスコアとCSL-DailyデータセットのGFSLT-VLPをそれぞれ39%,モデルパラメータの増大なく46%向上させる。 大規模な事前学習された視覚と言語モデルに基づく最先端の手法であるSign2GPTと比較して、SignCLはパラメータの35%しか持たないパフォーマンスを実現している。 実装とチェックポイントはhttps://github.com/JinhuiYE/SignCLで入手できる。

Gloss-free sign language translation (SLT) aims to develop well-performing SLT systems with no requirement for the costly gloss annotations, but currently still lags behind gloss-based approaches significantly. In this paper, we identify a representation density problem that could be a bottleneck in restricting the performance of gloss-free SLT. Specifically, the representation density problem describes that the visual representations of semantically distinct sign gestures tend to be closely packed together in feature space, which makes gloss-free methods struggle with distinguishing different sign gestures and suffer from a sharp performance drop. To address the representation density problem, we introduce a simple but effective contrastive learning strategy, namely SignCL, which encourages gloss-free models to learn more discriminative feature representation in a self-supervised manner. Our experiments demonstrate that the proposed SignCL can significantly reduce the representation density and improve performance across various translation frameworks. Specifically, SignCL achieves a significant improvement in BLEU score for the Sign Language Transformer and GFSLT-VLP on the CSL-Daily dataset by 39% and 46%, respectively, without any increase of model parameters. Compared to Sign2GPT, a state-of-the-art method based on large-scale pre-trained vision and language models, SignCL achieves better performance with only 35% of its parameters. Implementation and Checkpoints are available at https://github.com/JinhuiYE/SignCL.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# Smooth Pseudo-Labeling

Smooth Pseudo-Labeling ( http://arxiv.org/abs/2405.14313v1 )

ライセンス: Link先を確認
Nikolaos Karaliolios, Hervé Le Borgne, Florian Chabot, (参考訳) Semi-Supervised Learning (SSL)は、アノテートされたデータと同じレベルのパフォーマンスを達成するために、アノテートされたデータの最小量とともに、大量の非アノテートされたデータを活用することを目指している。 SSLにおける実りある方法として Pseudo-Labeling (PL) があるが、これは関連する損失関数がその導関数に不連続性を持つという重大な欠点に悩まされており、ラベルが極めて少ない場合に性能が不安定になる。 本研究では,Smooth Pseudo-Labeling (SP L)損失関数の導入により,この欠点に対処する。 損失関数に乗法因子を加えることで、しきい値による微分の不連続性を滑らかにする。 実験では,FixMatchの改良を検証し,モジュールやハイパーパラメータ,計算オーバーヘッドを伴わずに,ラベルの少ない状態における性能を著しく向上させることを示した。 豊富なラベルのより安定した状態においては、パフォーマンスは同じレベルにとどまっている。 ハイパーパラメータやトレーニングパラメータの変動に対するロバスト性も大幅に改善された。 さらに、ラベル付き画像がデータセット全体からランダムに選択され、データセットの頻度に比例する各クラスの表現を含まない新しいベンチマークを導入する。 FixMatchのスムーズなバージョンは、オリジナルの非スムーズな実装よりもパフォーマンスがよいように見えます。 しかし、さらに重要なのは、ラベル付き画像を追加すると、両方の実装が必ずしもパフォーマンスが向上しないことだ。これは、アクティブラーニングアルゴリズムがより信頼性が高く説明しやすいように対処すべきSSLアルゴリズムの設計において重要な問題である。

Semi-Supervised Learning (SSL) seeks to leverage large amounts of non-annotated data along with the smallest amount possible of annotated data in order to achieve the same level of performance as if all data were annotated. A fruitful method in SSL is Pseudo-Labeling (PL), which, however, suffers from the important drawback that the associated loss function has discontinuities in its derivatives, which cause instabilities in performance when labels are very scarce. In the present work, we address this drawback with the introduction of a Smooth Pseudo-Labeling (SP L) loss function. It consists in adding a multiplicative factor in the loss function that smooths out the discontinuities in the derivative due to thresholding. In our experiments, we test our improvements on FixMatch and show that it significantly improves the performance in the regime of scarce labels, without addition of any modules, hyperparameters, or computational overhead. In the more stable regime of abundant labels, performance remains at the same level. Robustness with respect to variation of hyperparameters and training parameters is also significantly improved. Moreover, we introduce a new benchmark, where labeled images are selected randomly from the whole dataset, without imposing representation of each class proportional to its frequency in the dataset. We see that the smooth version of FixMatch does appear to perform better than the original, non-smooth implementation. However, more importantly, we notice that both implementations do not necessarily see their performance improve when labeled images are added, an important issue in the design of SSL algorithms that should be addressed so that Active Learning algorithms become more reliable and explainable.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# マルチエージェント協調のための効率的なLLM接地に向けて

Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration ( http://arxiv.org/abs/2405.14314v1 )

ライセンス: Link先を確認
Yang Zhang, Shixin Yang, Chenjia Bai, Fei Wu, Xiu Li, Xuelong Li, Zhen Wang, (参考訳) 物理世界の複雑さのため,大規模言語モデル(LLM)の具体的タスクに対する推論能力の確立は困難である。 特に,マルチエージェント協調のためのLLM計画では,提案した計画を再調整し,効果的な調整を行うためのフィードバックとして,エージェントやクレジットの割り当てのコミュニケーションが必要である。 しかし、物理検証や自己回帰に過度に依存する既存の手法は、LLMの過剰で非効率なクエリに悩まされている。 本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な計画の自己調整のための強化アドバンテージフィードバック(ReAd)を導入している。 具体的には, LLM計画データから逐次優位関数を学習し, LLMプランナをオプティマイザとして扱い, 優位関数を最大化する動作を生成する。 行動が最終作業の達成に寄与するかどうかを判断するために、LLMに監督を付与する。 強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Overcooked-AIと難解なRoCoBenchの実験により、ReAdは成功率のベースラインを超越し、LLMのエージェントとクエリラウンドの相互作用を著しく減少させ、LLMを接地する高効率性を実証した。 さらなる結果は \url{https://read-llm.github.io/} で与えられる。

Grounding the reasoning ability of large language models (LLMs) for embodied tasks is challenging due to the complexity of the physical world. Especially, LLM planning for multi-agent collaboration requires communication of agents or credit assignment as the feedback to re-adjust the proposed plans and achieve effective coordination. However, existing methods that overly rely on physical verification or self-reflection suffer from excessive and inefficient querying of LLMs. In this paper, we propose a novel framework for multi-agent collaboration that introduces Reinforced Advantage feedback (ReAd) for efficient self-refinement of plans. Specifically, we perform critic regression to learn a sequential advantage function from LLM-planned data, and then treat the LLM planner as an optimizer to generate actions that maximize the advantage function. It endows the LLM with the foresight to discern whether the action contributes to accomplishing the final task. We provide theoretical analysis by extending advantage-weighted regression in reinforcement learning to multi-agent systems. Experiments on Overcooked-AI and a difficult variant of RoCoBench show that ReAd surpasses baselines in success rate, and also significantly decreases the interaction steps of agents and query rounds of LLMs, demonstrating its high efficiency for grounding LLMs. More results are given at \url{https://read-llm.github.io/}.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 継続的学習のための適応的リテンションと補正

Adaptive Rentention & Correction for Continual Learning ( http://arxiv.org/abs/2405.14318v1 )

ライセンス: Link先を確認
Haoran Chen, Micah Goldblum, Zuxuan Wu, Yu-Gang Jiang, (参考訳) 連続学習(きゅうがく、英: Continual learning、英: Lifelong learning)または漸進学習(英: incremental learning)とは、モデルが経時的にやってくるデータのストリームから学習する過程を指す。 連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。 伝統的に、この問題を緩和するために、メソッドはトレーニング中に過去のタスクからのデータを統合することに依存してきた。 しかし、最近の連続学習からメモリフリー環境への移行により、これらのアプローチは実現不可能となった。 本研究では,テストフェーズに着目したソリューションを提案する。 まず、テスト中の過去のタスクのサンプルを正確に識別するシンプルなout-of-Task Detection法OTDを提案する。 OTDを応用して,(1)過去のタスクデータ上で分類器層を動的にチューニングする適応的保持機構,(2)モデルが過去のタスクからクラスに分類した場合の予測を修正する適応的補正機構を提案する。 我々は,適応的保持と補正 (ARC) のアプローチを命名した。 ARCはメモリフリー環境向けに設計されているが、メモリベースの設定でも有効である。 大規模な実験により,提案手法はトレーニング手順の変更を必要とせず,既存のいかなる継続学習手法にも接続可能であることが示された。 具体的には、最先端のアプローチと統合すると、ARCは、それぞれCIFAR-100とImagenet-Rデータセットで平均2.7%と2.6%のパフォーマンス向上を達成する。

Continual learning, also known as lifelong learning or incremental learning, refers to the process by which a model learns from a stream of incoming data over time. A common problem in continual learning is the classification layer's bias towards the most recent task. Traditionally, methods have relied on incorporating data from past tasks during training to mitigate this issue. However, the recent shift in continual learning to memory-free environments has rendered these approaches infeasible. In this study, we propose a solution focused on the testing phase. We first introduce a simple Out-of-Task Detection method, OTD, designed to accurately identify samples from past tasks during testing. Leveraging OTD, we then propose: (1) an Adaptive Retention mechanism for dynamically tuning the classifier layer on past task data; (2) an Adaptive Correction mechanism for revising predictions when the model classifies data from previous tasks into classes from the current task. We name our approach Adaptive Retention & Correction (ARC). While designed for memory-free environments, ARC also proves effective in memory-based settings. Extensive experiments show that our proposed method can be plugged in to virtually any existing continual learning approach without requiring any modifications to its training procedure. Specifically, when integrated with state-of-the-art approaches, ARC achieves an average performance increase of 2.7% and 2.6% on the CIFAR-100 and Imagenet-R datasets, respectively.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# SmartCS:コーディング不要の市民科学アプリケーションのためのMLベースのコンピュータビジョンモバイルアプリの開発

SmartCS: Enabling the Creation of ML-Powered Computer Vision Mobile Apps for Citizen Science Applications without Coding ( http://arxiv.org/abs/2405.14323v1 )

ライセンス: Link先を確認
Fahim Hasan Khan, Akila de Silva, Gregory Dusek, James Davis, Alex Pang, (参考訳) 市民科学が様々な分野の研究の進展に寄与することは否定できない。 現在、市民科学アプリの開発を促進するソフトウェアツールがある。 しかし、これらのツールで開発されたアプリは、有用なデータを正しく収集するために、個々の人間のスキルに依存している。 機械学習(ML)支援アプリは、データ収集タスクについて市民科学者にフィールドガイダンスを提供する。 しかし、これらのアプリはサーバーサイドのMLサポートに依存しているので、信頼できるインターネット接続が必要である。 さらに、MLサポートを備えた市民科学アプリの開発には、時間とお金のかなりの投資が必要となる。 一部のプロジェクトでは、この障壁は市民科学を効果的に利用することを妨げる可能性がある。 我々は市民科学を民主化するためのプラットフォームを、研究者と参加者の両方のより広い聴衆に利用できるようにする。 SmartCSプラットフォームは、コーディングスキルを必要とせずに、MLをサポートする市民科学アプリを作成することができる。 SmartCSを使って開発されたアプリは、クライアントサイドのMLをサポートしており、インターネット接続がない場合でも、現場で使用することができる。 クライアントサイドのMLは、ユーザが被験者をよりよく認識できるように支援することで、高品質なデータ収集を可能にします。 本稿では,SmartCSを用いた市民科学アプリをいくつか紹介し,そのいくつかを高校生が考案した。

It is undeniable that citizen science contributes to the advancement of various fields of study. There are now software tools that facilitate the development of citizen science apps. However, apps developed with these tools rely on individual human skills to correctly collect useful data. Machine learning (ML)-aided apps provide on-field guidance to citizen scientists on data collection tasks. However, these apps rely on server-side ML support, and therefore need a reliable internet connection. Furthermore, the development of citizen science apps with ML support requires a significant investment of time and money. For some projects, this barrier may preclude the use of citizen science effectively. We present a platform that democratizes citizen science by making it accessible to a much broader audience of both researchers and participants. The SmartCS platform allows one to create citizen science apps with ML support quickly and without coding skills. Apps developed using SmartCS have client-side ML support, making them usable in the field, even when there is no internet connection. The client-side ML helps educate users to better recognize the subjects, thereby enabling high-quality data collection. We present several citizen science apps created using SmartCS, some of which were conceived and created by high school students.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# ディノマリー:マルチクラスの教師なし異常検出の哲学

Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2405.14325v1 )

ライセンス: Link先を確認
Jia Guo, Shuai Lu, Weihang Zhang, Huiqi Li, (参考訳) 近年の研究では、教師なし異常検出(UAD)の実践的な設定が強調され、従来の1クラス1モデル設定の代替として機能するマルチクラス画像の統一モデルが構築されている。 この課題に対処する様々な進歩にもかかわらず、マルチクラス設定による検出性能は、最先端のクラス分離モデルよりもはるかに遅れている。 私たちの研究は、この大きなパフォーマンスギャップを埋めることを目的としています。 本稿では, 複雑な設計やモジュールの追加, 特殊なトリックに頼ることなく, 純粋なトランスフォーマーアーキテクチャを活用する, 最小限の再構成に基づく異常検出フレームワークであるDinomalyを紹介する。 この強力なフレームワークは注意とMLPのみで構成されており,(1)普遍的かつ識別的な特徴を抽出する基礎変換器,(2)既存のドロップアウトがすべてのノイズ注入トリックを行うノイズボトルネック,(3)自然に集中できないリニアアテンション,(4)レイヤ・ツー・レイヤ・レイヤ・レイヤ・ポイント・バイ・ポイント・リコンストラクションを強制しないルース・リコンストラクションという,マルチクラスの異常検出に不可欠な4つの単純なコンポーネントが発見された。 MVTec-AD、VisA、最近リリースされたReal-IADなど、一般的な3つの異常検出ベンチマークで大規模な実験が行われた。 提案したDianolyは,3つのデータセットに対して,99.6%,98.7%,89.3%の印象的なイメージAUROCを実現している。

Recent studies highlighted a practical setting of unsupervised anomaly detection (UAD) that builds a unified model for multi-class images, serving as an alternative to the conventional one-class-one-model setup. Despite various advancements addressing this challenging task, the detection performance under the multi-class setting still lags far behind state-of-the-art class-separated models. Our research aims to bridge this substantial performance gap. In this paper, we introduce a minimalistic reconstruction-based anomaly detection framework, namely Dinomaly, which leverages pure Transformer architectures without relying on complex designs, additional modules, or specialized tricks. Given this powerful framework consisted of only Attentions and MLPs, we found four simple components that are essential to multi-class anomaly detection: (1) Foundation Transformers that extracts universal and discriminative features, (2) Noisy Bottleneck where pre-existing Dropouts do all the noise injection tricks, (3) Linear Attention that naturally cannot focus, and (4) Loose Reconstruction that does not force layer-to-layer and point-by-point reconstruction. Extensive experiments are conducted across three popular anomaly detection benchmarks including MVTec-AD, VisA, and the recently released Real-IAD. Our proposed Dinomaly achieves impressive image AUROC of 99.6%, 98.7%, and 89.3% on the three datasets respectively, which is not only superior to state-of-the-art multi-class UAD methods, but also surpasses the most advanced class-separated UAD records.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 自己回帰画像拡散:画像系列の生成とMRIへの応用

Autoregressive Image Diffusion: Generating Image Sequence and Application in MRI ( http://arxiv.org/abs/2405.14327v1 )

ライセンス: Link先を確認
Guanxiong Luo, Shoujin Huang, Martin Uecker, (参考訳) MRIは非侵襲的画像モダリティとして広く用いられている。 しかし、永続的な課題は、画像品質と画像の速度のバランスである。 このトレードオフは主にk空間の測定によって制約され、空間フーリエ領域(k空間)の特定の軌道を横切る。 これらの測定はしばしば、取得時間を短縮するためにアンサンプされ、画像のアーティファクトと品質が損なわれる。 生成モデルは画像分布を学習し、アンサンプされたk空間データから高品質な画像の再構成に使用できる。 本稿では,画像系列に対する自己回帰画像拡散(AID)モデルを提案する。 このアルゴリズムは、アンダーサンプリングされたk空間と既存の情報の両方を組み込む。 高速MRIデータセットを用いて訓練したモデルを総合的に評価する。 その結果,AIDモデルは逐次コヒーレントな画像列を確実に生成できることがわかった。 3Dおよび動的MRIでは、AIDは標準的な拡散モデルより優れ、画像間の依存が学習されるため幻覚を減少させることができる。

Magnetic resonance imaging (MRI) is a widely used non-invasive imaging modality. However, a persistent challenge lies in balancing image quality with imaging speed. This trade-off is primarily constrained by k-space measurements, which traverse specific trajectories in the spatial Fourier domain (k-space). These measurements are often undersampled to shorten acquisition times, resulting in image artifacts and compromised quality. Generative models learn image distributions and can be used to reconstruct high-quality images from undersampled k-space data. In this work, we present the autoregressive image diffusion (AID) model for image sequences and use it to sample the posterior for accelerated MRI reconstruction. The algorithm incorporates both undersampled k-space and pre-existing information. Models trained with fastMRI dataset are evaluated comprehensively. The results show that the AID model can robustly generate sequentially coherent image sequences. In 3D and dynamic MRI, the AID can outperform the standard diffusion model and reduce hallucinations, due to the learned inter-image dependencies.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# LucidPPN:ユーザ中心のコンピュータビジョンのためのあいまいなプロトタイプ部品ネットワーク

LucidPPN: Unambiguous Prototypical Parts Network for User-centric Interpretable Computer Vision ( http://arxiv.org/abs/2405.14331v1 )

ライセンス: Link先を確認
Mateusz Pach, Dawid Rymarczyk, Koryna Lewandowska, Jacek Tabor, Bartosz Zieliński, (参考訳) 原始的部分ネットワークは、深層学習の力とケースベースの推論の説明可能性を組み合わせて、正確で解釈可能な決定を行う。 彼らはこうした推論に従って、トレーニング画像のパッチで各原型部分を表現している。 しかし、単一画像パッチは色、形状、テクスチャなどの複数の視覚的特徴を含んでおり、どの特徴がモデルにとって重要であるかを特定するのが困難である。 この曖昧さを軽減するために、カラープロトタイプと他の視覚的特徴を分離する新しいプロトタイプ部品ネットワークであるLucidPPN(Lucid Prototypeal Parts Network)を導入する。 提案手法では,非カラー視覚特徴,グレースケール画像処理,カラー情報のみに焦点をあてた2つの推論枝を用いる。 この分離により、モデルの判断が色、形状、テクスチャに基づいているかどうかを明確にすることができます。 さらに、LucidPPNは分類対象のセマンティックな部分に対応する原型を同定し、2種の鳥が主に腹の色で異なる場合、データクラス間の比較をより直感的にする。 実験により, 2つの分岐が相補的であり, 相補的にベースライン法に匹敵する結果が得られることを示した。 さらに重要なことは、LucidPPNは不明瞭なプロトタイプ部品を生成せず、ユーザーの理解を高めることである。

Prototypical parts networks combine the power of deep learning with the explainability of case-based reasoning to make accurate, interpretable decisions. They follow the this looks like that reasoning, representing each prototypical part with patches from training images. However, a single image patch comprises multiple visual features, such as color, shape, and texture, making it difficult for users to identify which feature is important to the model. To reduce this ambiguity, we introduce the Lucid Prototypical Parts Network (LucidPPN), a novel prototypical parts network that separates color prototypes from other visual features. Our method employs two reasoning branches: one for non-color visual features, processing grayscale images, and another focusing solely on color information. This separation allows us to clarify whether the model's decisions are based on color, shape, or texture. Additionally, LucidPPN identifies prototypical parts corresponding to semantic parts of classified objects, making comparisons between data classes more intuitive, e.g., when two bird species might differ primarily in belly color. Our experiments demonstrate that the two branches are complementary and together achieve results comparable to baseline methods. More importantly, LucidPPN generates less ambiguous prototypical parts, enhancing user understanding.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# DeepSeek-Prover: 大規模合成データによるLLMの定理証明の促進

DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data ( http://arxiv.org/abs/2405.14333v1 )

ライセンス: Link先を確認
Huajian Xin, Daya Guo, Zhihong Shao, Zhizhou Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang, (参考訳) Leanのような証明アシスタントは、数学的証明の検証に革命をもたらし、高い精度と信頼性を確保している。 大きな言語モデル(LLM)は数学的推論において有望であるが、形式的定理証明の進歩は訓練データの欠如によって妨げられている。 この問題に対処するため,高校・学部レベルの数学競争問題から得られたリーン4証明データを広範囲に生成する手法を提案する。 このアプローチでは、自然言語問題を形式的なステートメントに翻訳し、低品質なステートメントをフィルタリングし、合成データを生成するための証明を生成する。 この合成データセットを用いてDeepSeekMath 7Bモデルを微調整した結果,64サンプルを46.3%,Lean 4 miniF2F試験を52%累積して,ベースライン GPT-4 を23.0%,64サンプルを21.0%,木探索強化学習法を41.0%とした。 さらに、我々のモデルはLean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しました。 これらの結果は,LLMの定理証明能力を高めるために,大規模合成データを活用する可能性を示している。 この将来性のある分野のさらなる研究を促進するために、合成データセットとモデルの両方が利用可能になる。

Proof assistants like Lean have revolutionized mathematical proof verification, ensuring high accuracy and reliability. Although large language models (LLMs) show promise in mathematical reasoning, their advancement in formal theorem proving is hindered by a lack of training data. To address this issue, we introduce an approach to generate extensive Lean 4 proof data derived from high-school and undergraduate-level mathematical competition problems. This approach involves translating natural language problems into formal statements, filtering out low-quality statements, and generating proofs to create synthetic data. After fine-tuning the DeepSeekMath 7B model on this synthetic dataset, which comprises 8 million formal statements with proofs, our model achieved whole-proof generation accuracies of 46.3% with 64 samples and 52% cumulatively on the Lean 4 miniF2F test, surpassing the baseline GPT-4 at 23.0% with 64 samples and a tree search reinforcement learning method at 41.0%. Additionally, our model successfully proved 5 out of 148 problems in the Lean 4 Formalized International Mathematical Olympiad (FIMO) benchmark, while GPT-4 failed to prove any. These results demonstrate the potential of leveraging large-scale synthetic data to enhance theorem-proving capabilities in LLMs. Both the synthetic dataset and the model will be made available to facilitate further research in this promising field.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 解釈可能なファンダス病局在のための階層的サルトパッチ同定

Hierarchical Salient Patch Identification for Interpretable Fundus Disease Localization ( http://arxiv.org/abs/2405.14334v1 )

ライセンス: Link先を確認
Yitao Peng, Lianghua He, Die Hu, (参考訳) 医用画像解析にディープラーニング技術が広く応用されていることにより、モデル決定を効果的に説明し、診断精度を向上させる方法は、解決すべき緊急の問題となっている。 属性法は、医師がモデルの診断基盤をよりよく理解するための重要なツールとなり、医療画像中の疾患を説明およびローカライズするために使用される。 しかし, 従来手法では, 複雑で多様な構造を持つ眼底疾患に対して, 不正確な局所化問題と不完全な局所化問題に悩まされていた。 以上の問題を解決するために、画像レベルラベルとニューラルネットワーク分類器のみを用いて、解釈可能な疾患の局所化を実現するための、弱教師付き解釈可能な根底疾患局所化法(HSPI)を提案する。 まず、画像を複数のパッチに分割し、整合性損失を最適化し、画像中のどのパッチが病気の特定に最も重要であるかを特定する。 第2に, ニューラルネットワーク分類器による疾患領域の包括的位置決定において, SPIに異なる領域の重要性を解析させる階層的識別戦略を提案する。 そして,マスクベクトルが決定領域を正確に特定できるように,条件付きピーク焦点を導入した。 最後に,複数サイズ交叉に基づくパッチ選択を提案し,不正確な領域や追加で特定された非リリース領域をフィルタリングする。 医用画像データセット上で病気の局所化実験を行い、従来の解釈可能な属性法と比較して、複数の評価指標で最高のパフォーマンスを達成した。 それぞれの方法の有効性を検証するために,追加のアブレーション試験を行った。

With the widespread application of deep learning technology in medical image analysis, how to effectively explain model decisions and improve diagnosis accuracy has become an urgent problem that needs to be solved. Attribution methods have become a key tool to help doctors better understand the diagnostic basis of models, and they are used to explain and localize diseases in medical images. However, previous methods suffer from inaccurate and incomplete localization problems for fundus diseases with complex and diverse structures. In order to solve the above problems, we propose a weakly supervised interpretable fundus disease localization method hierarchical salient patch identification (HSPI), which can achieve interpretable disease localization using only image-level labels and neural network classifiers. First, we proposed salient patch identification (SPI), which divides the image into several patches and optimizes consistency loss to identify which patch in the input image is most important for decision-making to locate the disease. Secondly, we propose a hierarchical identification strategy to force SPI to analyze the importance of different areas to neural network classifiers decision-making to comprehensively locate disease areas. Then, we introduced conditional peak focusing to ensure that the mask vector can accurately locate the decision area. Finally, we also propose patch selection based on multi-size intersection to filter out incorrectly or additionally identified non-disease regions. We conduct disease localization experiments on medical image datasets and achieve the best performance on multiple evaluation metrics compared with previous interpretable attribution methods. We performed additional ablation studies to verify the effectiveness of each method.
翻訳日:2024-05-24 18:04:42 公開日:2024-05-23
# 悲観的オフポリティ評価・選択・学習のための対数的平滑化

Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning ( http://arxiv.org/abs/2405.14335v1 )

ライセンス: Link先を確認
Otmane Sakhi, Imad Aouali, Pierre Alquier, Nicolas Chopin, (参考訳) この研究は、行動ポリシーの下で収集された過去の相互作用を活用して、新しい、より優れたパフォーマンスのポリシーを評価、選択、学習することを目的として、文脈的盗賊問題のオフライン定式化を調査する。 重要な応用によって動機づけられた私たちは、点推定器を超えて動きます。 代わりに、我々は、政策の最悪のパフォーマンスを評価する上限を構築し、改善された政策を確実に選択し、学習できる悲観主義の原則を採用する。 より正確には,重要度重み付けリスク推定器の幅広いクラスに対して,新しい完全経験的濃度境界を導入する。 これらの境界は、既存の推定値の多くをカバーし、新しい推定値の開発の道を開くのに十分である。 特に、このクラスの中で最も厳密な境界を追求することは、対数的に大きな重みを滑らかにする新しい推定器(LS)を動機付けている。 LSのバウンダリは、競合他社のすべてよりも明らかに厳格であり、当然、ポリシーの選択と学習戦略の改善につながります。 政策評価、選択、学習実験は、LSの汎用性と好適な性能を強調している。

This work investigates the offline formulation of the contextual bandit problem, where the goal is to leverage past interactions collected under a behavior policy to evaluate, select, and learn new, potentially better-performing, policies. Motivated by critical applications, we move beyond point estimators. Instead, we adopt the principle of pessimism where we construct upper bounds that assess a policy's worst-case performance, enabling us to confidently select and learn improved policies. Precisely, we introduce novel, fully empirical concentration bounds for a broad class of importance weighting risk estimators. These bounds are general enough to cover most existing estimators and pave the way for the development of new ones. In particular, our pursuit of the tightest bound within this class motivates a novel estimator (LS), that logarithmically smooths large importance weights. The bound for LS is provably tighter than all its competitors, and naturally results in improved policy selection and learning strategies. Extensive policy evaluation, selection, and learning experiments highlight the versatility and favorable performance of LS.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# Coherence-mixedness トレードオフ

Coherence-mixedness trade-offs ( http://arxiv.org/abs/2405.14337v1 )

ライセンス: Link先を確認
Qing-Hua Zhang, Shao-Ming Fei, (参考訳) 量子コヒーレンス(quantum coherence)は、量子力学の基礎的な特徴であり、新しい量子資源理論に不可欠なものである。 しかしながら、量子コヒーレンス(quantum coherence)は、一般的な量子処理における環境ノイズによって厳しく制限され、量子システムの情報の喪失によって示される。 このような処理は、コヒーレンスと混合性の間のトレードオフによって説明できる。 L_2$ノルムコヒーレンス、条件付きフォン・ノイマンエントロピー、ウィグナー・ヤナーゼスキュー情報に基づいて、従来の基底依存関係を一般化する量子状態の混合によって課される達成可能な量子コヒーレンスに対する基底非依存の制約を導出し、デコヒーレンスを経る任意の量子系に存在する潜伏コヒーレンスリソースに関する基本的な洞察を与え、環境ノイズによって課される抽出可能なコヒーレンスに固有の制限を定量化する。

Quantum coherence constitutes a foundational characteristic of quantum mechanics and is integral to emerging quantum resource theories. However, quantum coherence is severely restricted by environmental noise in general quantum processing, indicated by the loss of information of a quantum system. Such processing can be described by the trade-offs between the coherence and the mixedness. Based on the $l_2$ norm coherence, conditional von Neumann entropy and Wigner-Yanase skew information, we derive basis-independent constraints on the attainable quantum coherence imposed by the mixedness of a quantum state, which generalize the prior basis-dependent relations, provide fundamental insights into the latent coherence resources present within arbitrary quantum systems that undergo decoherence and quantify the inherent limits on extractable coherence imposed by environmental noise.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# MAMBA4D:空間-時空間空間モデルを用いた効率的な長周期クラウド映像理解

MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models ( http://arxiv.org/abs/2405.14338v1 )

ライセンス: Link先を確認
Jiuming Liu, Jinru Han, Lihao Liu, Angelica I. Aviles-Rivero, Chaokang Jiang, Zhe Liu, Hesheng Wang, (参考訳) ポイント・クラウド・ビデオは現実世界の空間的地形や時間的ダイナミクスを効果的に捉えており、知的エージェントが我々の生活する3D世界が動的に変化するのを理解するのに欠かせない。 静的な3Dポイントのクラウド処理は大幅な進歩を見せているが、フレーム間の不規則で秩序のない分布と時間的不整合のため、有効な4Dポイントのクラウドビデオバックボーンを設計することは依然として困難である。 さらに、最近の最先端の4Dバックボーンはトランスフォーマーベースのアーキテクチャに大きく依存している。 これらの課題に対処するために、最近進歩したステートスペースモデル(SSM)に基づく、新しい4Dポイントクラウドビデオ理解バックボーンを提案する。 具体的には,新たに開発したフレーム内空間マンバブロックとフレーム間時間マンバブロックを用いて,空間と時間を生の4次元配列で切り離し,時空間相関を確立する。 フレーム内空間マンバモジュールは、特定の時間探索ストライド内で局所的に類似または関連する幾何学構造を符号化するように設計されており、短期的ダイナミクスを効果的に捉えることができる。 その後、これらの局所的に相関したトークンは、フレーム間テンポラル・マンバモジュールに配信される。 人間の行動認識と4次元セマンティックセグメンテーションタスクの実験結果から,提案手法の優位性を実証した。 特に,MSR-Action3Dデータセット上の変換器ベースの手法と比較して,提案手法では,87.5%のGPUメモリ削減,5.36倍のスピードアップ,さらに高い精度(+10.4%)を実現している。

Point cloud videos effectively capture real-world spatial geometries and temporal dynamics, which are essential for enabling intelligent agents to understand the dynamically changing 3D world we live in. Although static 3D point cloud processing has witnessed significant advancements, designing an effective 4D point cloud video backbone remains challenging, mainly due to the irregular and unordered distribution of points and temporal inconsistencies across frames. Moreover, recent state-of-the-art 4D backbones predominantly rely on transformer-based architectures, which commonly suffer from large computational costs due to their quadratic complexity, particularly when processing long video sequences. To address these challenges, we propose a novel 4D point cloud video understanding backbone based on the recently advanced State Space Models (SSMs). Specifically, our backbone begins by disentangling space and time in raw 4D sequences, and then establishing spatio-temporal correlations using our newly developed Intra-frame Spatial Mamba and Inter-frame Temporal Mamba blocks. The Intra-frame Spatial Mamba module is designed to encode locally similar or related geometric structures within a certain temporal searching stride, which can effectively capture short-term dynamics. Subsequently, these locally correlated tokens are delivered to the Inter-frame Temporal Mamba module, which globally integrates point features across the entire video with linear complexity, further establishing long-range motion dependencies. Experimental results on human action recognition and 4D semantic segmentation tasks demonstrate the superiority of our proposed method. Especially, for long video sequences, our proposed Mamba-based method has an 87.5% GPU memory reduction, 5.36 times speed-up, and much higher accuracy (up to +10.4%) compared with transformer-based counterparts on MSR-Action3D dataset.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# Green Multi-Objective Scheduling -- リアルタイムエネルギーコストとエミッションによるフレキシブル生産のためのメメティックNSGA-III

Green Multi-Objective Scheduling -- A memetic NSGA-III for flexible production with real-time energy cost and emissions ( http://arxiv.org/abs/2405.14339v1 )

ライセンス: Link先を確認
Sascha C Burmeister, (参考訳) 再生可能エネルギーの使用は脱炭戦略を強化する。 揮発性再生可能エネルギーを統合するために、エネルギーシステムはグリッドの拡大、貯蔵能力、フレキシブルな消費を必要とする。 この研究は、生産をリアルタイムエネルギー市場へ調整する産業に焦点を当て、グリッドに柔軟な消費を提供する。 フレキシブル生産は、生産時間を最小化するだけでなく、エネルギーコストや排出を最小化し、事業の持続可能性を高めるという従来の目標も考慮している。 しかし、既存の研究は単一目標に重点を置いており、メースパン、エネルギーコスト、エミッションの組み合わせを無視したり、動的エネルギー市場の代わりに定期的または定期的な関税を課している。 省エネ,省エネ,エミッションを最小化し,実際のエネルギー市場データを統合し,製造元が現在の電力網の状況に適応できるように,新しいメメティックNSGA-IIIを提案する。 文献および実エネルギー市場データからベンチマークインスタンスを用いて評価し、目標間のトレードオフを探求し、エネルギーコストの潜在的な削減と推定されたパレート前線での排出を示す。

The use of renewable energies strengthens decarbonization strategies. To integrate volatile renewable sources, energy systems require grid expansion, storage capabilities, or flexible consumption. This study focuses on industries adjusting production to real-time energy markets, offering flexible consumption to the grid. Flexible production considers not only traditional goals like minimizing production time but also minimizing energy costs and emissions, thereby enhancing the sustainability of businesses. However, existing research focuses on single goals, neglects the combination of makespan, energy costs and emissions, or assumes constant or periodic tariffs instead of a dynamic energy market. We present a novel memetic NSGA-III to minimize makespan, energy cost, and emissions, integrating real energy market data, and allowing manufacturers to adapt consumption to current grid conditions. Evaluating it with benchmark instances from literature and real energy market data, we explore the trade-offs between objectives, showcasing potential savings in energy costs and emissions on estimated Pareto fronts.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# RoGS:2次元ガウススプレイティングに基づく大規模道路表面再構成

RoGS: Large Scale Road Surface Reconstruction based on 2D Gaussian Splatting ( http://arxiv.org/abs/2405.14342v1 )

ライセンス: Link先を確認
Zhiheng Feng, Wenhua Wu, Hesheng Wang, (参考訳) 道路路面の再構築は、道路路面の認識や自動標識作業に使用できる自動運転において重要な役割を担っている。 近年,メッシュを用いた道路表面再構成アルゴリズムは,有望な再建結果を示している。 しかしながら、これらのメッシュベースの手法は、遅いスピードとレンダリング品質の低下に悩まされている。 対照的に、3D Gaussian Splatting (3DGS)はレンダリング速度と品質が優れている。 3DGSはシーンを表現するために明示的なガウス球を用いるが、シーンの幾何学的情報を直接表現する能力は欠如している。 この制限に対処するために,2次元ガウススプラッティング (2DGS) に基づく大規模道路表面再構築手法RoGSを提案する。 道路の幾何学的形状は2Dガウス波で明確に表現され、各波路は色、意味、幾何学的情報を格納する。 ガウスの球と比べれば、ガウスの波は道路の物理的現実とより密接に一致している。 ガウス球面の点雲に依存する従来の初期化法とは違い,ガウス球面の軌道に基づく初期化を導入する。 ガウス波の明示的な表現と優れた初期化により,本手法は再構築品質を向上しつつ,大幅な加速を実現している。 我々は,様々な挑戦的な現実のシーンにおける道路表面の再構築において,優れた成果を上げた。

Road surface reconstruction plays a crucial role in autonomous driving, which can be used for road lane perception and autolabeling tasks. Recently, mesh-based road surface reconstruction algorithms show promising reconstruction results. However, these mesh-based methods suffer from slow speed and poor rendering quality. In contrast, the 3D Gaussian Splatting (3DGS) shows superior rendering speed and quality. Although 3DGS employs explicit Gaussian spheres to represent the scene, it lacks the ability to directly represent the geometric information of the scene. To address this limitation, we propose a novel large-scale road surface reconstruction approach based on 2D Gaussian Splatting (2DGS), named RoGS. The geometric shape of the road is explicitly represented using 2D Gaussian surfels, where each surfel stores color, semantics, and geometric information. Compared to Gaussian spheres, the Gaussian surfels aligns more closely with the physical reality of the road. Distinct from previous initialization methods that rely on point clouds for Gaussian spheres, we introduce a trajectory-based initialization for Gaussian surfels. Thanks to the explicit representation of the Gaussian surfels and a good initialization, our method achieves a significant acceleration while improving reconstruction quality. We achieve excellent results in reconstruction of roads surfaces in a variety of challenging real-world scenes.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 画像分解のための高能率視覚状態空間モデル

Efficient Visual State Space Model for Image Deblurring ( http://arxiv.org/abs/2405.14343v1 )

ライセンス: Link先を確認
Lingshun Kong, Jiangxin Dong, Ming-Hsuan Yang, Jinshan Pan, (参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。 ViTは、長い範囲の依存関係と入力依存特性をキャプチャする能力のため、CNNと比較して画像復元において優れた結果をもたらすのが一般的である。 しかし、Transformerベースのモデルの計算複雑性は画像解像度の2倍に増大し、高解像度画像復元タスクにおける現実的な魅力が制限される。 本稿では,視覚データに対する状態空間モデル(SSM)の利点を生かした,画像のデブロアリングに有効な視覚状態空間モデル(EVSSM)を提案する。 計算コストを大幅に向上させる特徴抽出にいくつかの固定方向走査を用いる既存の手法とは対照的に,各SSMモジュールの前に様々な幾何学的変換を適用し,有用な非局所情報をキャプチャし,高い効率を維持する,効率的なビジュアルスキャンブロックを開発する。 大規模な実験結果から,提案したESSMは,ベンチマークデータセットや実撮影画像の最先端画像デブロアリング手法に対して良好に動作することが示された。

Convolutional neural networks (CNNs) and Vision Transformers (ViTs) have achieved excellent performance in image restoration. ViTs typically yield superior results in image restoration compared to CNNs due to their ability to capture long-range dependencies and input-dependent characteristics. However, the computational complexity of Transformer-based models grows quadratically with the image resolution, limiting their practical appeal in high-resolution image restoration tasks. In this paper, we propose a simple yet effective visual state space model (EVSSM) for image deblurring, leveraging the benefits of state space models (SSMs) to visual data. In contrast to existing methods that employ several fixed-direction scanning for feature extraction, which significantly increases the computational cost, we develop an efficient visual scan block that applies various geometric transformations before each SSM-based module, capturing useful non-local information and maintaining high efficiency. Extensive experimental results show that the proposed EVSSM performs favorably against state-of-the-art image deblurring methods on benchmark datasets and real-captured images.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 科学的方法を伝える専門家の啓発-紛争研究を事例として

Expert exploranation for communicating scientific methods -- A case study in conflict research ( http://arxiv.org/abs/2405.14345v1 )

ライセンス: Link先を確認
Benedikt Mayer, Karsten Donnay, Kai Lawonn, Bernhard Preim, Monique Meuschke, (参考訳) 科学コミュニケーションは、重要な研究の洞察を一般大衆に公開することを目的としている。 説明的・探索的可視化技術が組み合わされば、その手法を爆発と呼ぶこともある。 この文脈では、オーディエンスは通常、ドメインの専門知識を必要としない。 しかし,爆発は研究者同士のコミュニケーションだけでなく,研究者同士のコミュニケーションも支援できることが示唆された。 本研究では,時空間衝突イベントデータに対する因果推論を行う既存の手法を伝達することを目的として,専門家の爆発処理を行う方法,すなわち専門家の爆発処理について検討した。 提案手法の適用シナリオに基づいて,対話型ビジュアルストーリーの3つのバージョンを開発した。 我々は、対応する設計プロセスを抽象化し、説明方法に精通していない専門家と、それに精通している専門家の両方で、ストーリーを評価した。 評価からの肯定的かつ広範囲なフィードバックは、専門家の爆発は、科学的なアウトリーチ、方法論的理解、そして分野に新しい研究者へのアクセシビリティの向上に役立つため、視覚的なストーリーテリングにとって有望な方向であることを示している。

Science communication aims at making key research insights accessible to the broad public. If explanatory and exploratory visualization techniques are combined to do so, the approach is also referred to as exploranation. In this context, the audience is usually not required to have domain expertise. However, we show that exploranation can not only support the communication between researchers and a broad audience, but also between researchers directly. With the goal of communicating an existing method for conducting causal inference on spatio-temporal conflict event data, we investigated how to perform exploranation for experts, i.e., expert exploranation. Based on application scenarios of the inference method, we developed three versions of an interactive visual story to explain the method to conflict researchers. We abstracted the corresponding design process and evaluated the stories both with experts who were unfamiliar with the explained method and experts who were already familiar with it. The positive and extensive feedback from the evaluation shows that expert exploranation is a promising direction for visual storytelling, as it can help to improve scientific outreach, methodological understanding, and accessibility for researchers new to a field.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 不完全な情報ゲームにおける個人分布と個人分布の混合

Mixture of Public and Private Distributions in Imperfect Information Games ( http://arxiv.org/abs/2405.14346v1 )

ライセンス: Link先を確認
Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave, (参考訳) 不完全な情報ゲーム(例えばブリッジ、スケート、ポーカー)では、欠落した情報を推測すると同時に、個人情報の開示を避けることが基本的な考慮事項である。 個人情報保護の問題を無視することは、非常に悪用可能なパフォーマンスにつながる可能性がある。 しかし、それに対する過度な注意は、私たちのプライベート情報と整合性のないためらいにつながります。 本研究では,パフォーマンスを向上させるためには,プレイヤーの個人情報を使用するかを選択する必要があることを示す。 我々は、希望する私的・公的な情報量に応じて、新たな信条分布を提案することで、作業を拡張します。 実験により,パフォーマンスの向上を実証的に示すとともに,パフォーマンスの向上を目的として,ゲーム内の位置に応じて新たな分布を使用する必要がある。 実験は、複数のベンチマークと、複数の決定型アルゴリズム(PIMCとIS-MCTS)で実施されている。

In imperfect information games (e.g. Bridge, Skat, Poker), one of the fundamental considerations is to infer the missing information while at the same time avoiding the disclosure of private information. Disregarding the issue of protecting private information can lead to a highly exploitable performance. Yet, excessive attention to it leads to hesitations that are no longer consistent with our private information. In our work, we show that to improve performance, one must choose whether to use a player's private information. We extend our work by proposing a new belief distribution depending on the amount of private and public information desired. We empirically demonstrate an increase in performance and, with the aim of further improving performance, the new distribution should be used according to the position in the game. Our experiments have been done on multiple benchmarks and in multiple determinization-based algorithms (PIMC and IS-MCTS).
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# ベクトルネットワークのための二重動的ISACプリコーディング:制約付き深部強化学習(CDRL)アプローチ

Doubly-Dynamic ISAC Precoding for Vehicular Networks: A Constrained Deep Reinforcement Learning (CDRL) Approach ( http://arxiv.org/abs/2405.14347v1 )

ライセンス: Link先を確認
Zonghui Yang, Shijian Gao, Xiang Cheng, (参考訳) 車両ネットワークの実現にはISAC技術が不可欠である。 しかし、このシナリオにおける通信チャネルは時間的特性を示し、潜在的なターゲットは急速に移動し、二重力学現象を生じさせる。 この性質は、リアルタイムプリコーダ設計に挑戦する。 最適化ベースのソリューションは広く研究されているが、それらは複雑であり、完全な事前情報に大きく依存している。 この課題に対処するため,ISACプリコーダ設計の動的更新を容易にするために制約付き強化学習(CDRL)を提案する。 さらに、プリミティブなデュアルディープ決定論的ポリシー勾配(PD-DDPG)とWolpertingerアーキテクチャは、複雑な制約とユーザの変数数の下でアルゴリズムを効率的に訓練するように調整されている。 提案手法は, 観測に基づく力学に適応するだけでなく, 環境情報を活用し, 性能の向上と複雑性の低減を図る。 既存の候補よりも優れていることが実験によって検証されている。

Integrated sensing and communication (ISAC) technology is essential for enabling the vehicular networks. However, the communication channel in this scenario exhibits time-varying characteristics, and the potential targets may move rapidly, creating a doubly-dynamic phenomenon. This nature poses a challenge for real-time precoder design. While optimization-based solutions are widely researched, they are complex and heavily rely on perfect prior information, which is impractical in double dynamics. To address this challenge, we propose using constrained deep reinforcement learning (CDRL) to facilitate dynamic updates to the ISAC precoder design. Additionally, the primal dual-deep deterministic policy gradient (PD-DDPG) and Wolpertinger architecture are tailored to efficiently train the algorithm under complex constraints and variable numbers of users. The proposed scheme not only adapts to the dynamics based on observations but also leverages environmental information to enhance performance and reduce complexity. Its superiority over existing candidates has been validated through experiments.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 構造認識相互作用指標によるグラフニューラルネットワークの解説

Explaining Graph Neural Networks via Structure-aware Interaction Index ( http://arxiv.org/abs/2405.14352v1 )

ライセンス: Link先を確認
Ngoc Bui, Hieu Trung Nguyen, Viet Anh Nguyen, Rex Ying, (参考訳) Shapleyの価値は、その強力な理論的基盤のおかげで、ブラックボックス機械学習モデルを解釈するための顕著なツールである。 しかしながら、グラフニューラルネットワークのような構造化された入力を持つモデルでは、既存のShapleyベースの説明可能性アプローチは、入力インスタンスを摂動する際にノード単位の重要さのみに焦点を当てるか、グラフ構造を無視している。 本稿では,グラフ構造を内部化してノード値とノード間の相互作用値に寄与させるMyerson-Taylor相互作用指標を提案する。 Shapley ベースの方法とは異なり、Myerson-Taylor インデックスは、結合前の接続基準を満たすコンポーネントに連立を分解する。 グラフ構造とノード間の高次相互作用を考慮に入れた5つの自然な公理系を満たすのは、マイソン・テイラー指数であることを示す。 これらの特性を活用することで、モデル予測に影響を及ぼす最も重要なモチーフを正と負の両方で識別するために、MAGE(Myerson-Taylor Structure-Aware Graph Explainer)という2階のMyerson-Taylorインデックスを用いた新しい説明器を提案する。 各種グラフデータセットおよびモデルに対する広範囲な実験により,本手法は最先端の手法よりも優れたサブグラフ説明を一貫して提供することを示した。

The Shapley value is a prominent tool for interpreting black-box machine learning models thanks to its strong theoretical foundation. However, for models with structured inputs, such as graph neural networks, existing Shapley-based explainability approaches either focus solely on node-wise importance or neglect the graph structure when perturbing the input instance. This paper introduces the Myerson-Taylor interaction index that internalizes the graph structure into attributing the node values and the interaction values among nodes. Unlike the Shapley-based methods, the Myerson-Taylor index decomposes coalitions into components satisfying a pre-chosen connectivity criterion. We prove that the Myerson-Taylor index is the unique one that satisfies a system of five natural axioms accounting for graph structure and high-order interaction among nodes. Leveraging these properties, we propose Myerson-Taylor Structure-Aware Graph Explainer (MAGE), a novel explainer that uses the second-order Myerson-Taylor index to identify the most important motifs influencing the model prediction, both positively and negatively. Extensive experiments on various graph datasets and models demonstrate that our method consistently provides superior subgraph explanations compared to state-of-the-art methods.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 変分量子固有解法のための改良された情報共有によるベイズ最適化

Bayesian optimisation with improved information sharing for the variational quantum eigensolver ( http://arxiv.org/abs/2405.14353v1 )

ライセンス: Link先を確認
Milena Röhrs, Alexey Bochkarev, Arcesio C. Medina, (参考訳) 本研究では,変分量子固有解法 (VQE) のための情報共有 (BOIS) を用いたベイズ最適化の詳細な実験的検討を行った。 この方法は水素と水分子のポテンシャルエネルギー面(PES)の計算に応用される。 実量子ハードウェア(IBMQ System One)を用いて,水素分子のノイズの影響下でのノイズフリーシミュレーションを行い,アルゴリズムの性能について検討した。 ノイズフリーシミュレーションに基づいて、既存の情報共有方式を比較し、コンバージェンスまでに必要な量子コンピューティングリソースの量を大幅に削減するために、アルゴリズムの並列性を交換する新しい手法を提案した。 特に,H2の共有方式と比較して1.5倍,H2Oの共有方式に比べて少なくとも5倍の改善が認められた。 ベイズ最適化の他のアルゴリズム的側面、すなわち、取得重量減少率とカーネルは、同じ桁の量子計算(QC)要求に影響を与えることが示されている。

This work presents a detailed empirical analysis of Bayesian optimisation with information sharing (BOIS) for the variational quantum eigensolver (VQE). The method is applied to computing the potential energy surfaces (PES) of the hydrogen and water molecules. We performed noise-free simulations and investigated the algorithms' performance under the influence of noise for the hydrogen molecule, using both emulated and real quantum hardware (IBMQ System One). Based on the noise free simulations we compared different existing information sharing schemes and proposed a new one, which trades parallelisability of the algorithm for a significant reduction in the amount of quantum computing resources required until convergence. In particular, our numerical experiments show an improvement by a factor of 1.5 as compared to the previously reported sharing schemes in H2, and at least by a factor of 5 as compared to no sharing in H2O. Other algorithmic aspects of the Bayesian optimisation, namely, the acquisition weight decrease rate and kernel, are shown to have an influence on the quantum computation (QC) demand of the same order of magnitude.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# データからの時間論理仕様の検索強化マイニング

Retrieval-Augmented Mining of Temporal Logic Specifications from Data ( http://arxiv.org/abs/2405.14355v1 )

ライセンス: Link先を確認
Gaia Saveri, Luca Bortolussi, (参考訳) サイバー物理システム(CPS)の日常生活への統合は、安全性と信頼性を確保するための重要な必要性を高める。 この方向の重要なステップは、要求マイニング、すなわち、システムに関する知識を発見するために、観測された振る舞いから公式に指定されたシステム特性を推測することである。 Signal Temporal Logic (STL) は、要求を指定するための簡潔だが表現力のある言語を提供する。 本研究は、データ駆動方式で観測された動作からSTL要求を学習するタスクに対処し、二項分類、すなわち、正常な動作と異常な動作を区別できるシステムの特性の推論に焦点をあて、CPSが望ましい仕様に適合していることのモニターとして、分類器と使用することができる。 本稿では,ベイズ最適化(BO)と情報検索(IR)技術を組み合わせて,STL文法に制約を加えることなく,STL式の構造とパラメータを同時に学習するフレームワークを提案する。 具体的には,BOループ内の要求のマイニングを容易にするために,数百万の式からなる意味保存連続表現を含む高密度ベクトルデータベースを利用するフレームワークを提案する。 提案手法の有効性をいくつかの信号分類に適用し,システム実行から解釈可能な洞察を抽出し,CPSにおける要件マイニングの最先端化を図った。

The integration of cyber-physical systems (CPS) into everyday life raises the critical necessity of ensuring their safety and reliability. An important step in this direction is requirement mining, i.e. inferring formally specified system properties from observed behaviors, in order to discover knowledge about the system. Signal Temporal Logic (STL) offers a concise yet expressive language for specifying requirements, particularly suited for CPS, where behaviors are typically represented as time series data. This work addresses the task of learning STL requirements from observed behaviors in a data-driven manner, focusing on binary classification, i.e. on inferring properties of the system which are able to discriminate between regular and anomalous behaviour, and that can be used both as classifiers and as monitors of the compliance of the CPS to desirable specifications. We present a novel framework that combines Bayesian Optimization (BO) and Information Retrieval (IR) techniques to simultaneously learn both the structure and the parameters of STL formulae, without restrictions on the STL grammar. Specifically, we propose a framework that leverages a dense vector database containing semantic-preserving continuous representations of millions of formulae, queried for facilitating the mining of requirements inside a BO loop. We demonstrate the effectiveness of our approach in several signal classification applications, showing its ability to extract interpretable insights from system executions and advance the state-of-the-art in requirement mining for CPS.
翻訳日:2024-05-24 17:54:56 公開日:2024-05-23
# 中央パターン発生器を用いた逐次モデリングのためのスパイクニューラルネットワークの高速化

Advancing Spiking Neural Networks for Sequential Modeling with Central Pattern Generators ( http://arxiv.org/abs/2405.14362v1 )

ライセンス: Link先を確認
Changze Lv, Dongqi Han, Yansen Wang, Xiaoqing Zheng, Xuanjing Huang, Dongsheng Li, (参考訳) スパイキングニューラルネットワーク(SNN)は、エネルギー効率が良く生物学的に妥当な人工ニューラルネットワークを開発するための有望なアプローチである。 しかし,SNNをテキスト分類や時系列予測といった逐次的タスクに適用することは,効果的なスパイク形式位置符号化(PE)戦略を作成するという課題によって妨げられている。 そこで本研究では,リズミカル入力を必要としないリズミカルパターン出力を生成するヒト脳の中枢パターンジェネレータ(CPG)からインスピレーションを得て,CPG-PEと呼ばれる新しいSNNのためのPE技術を提案する。 一般的に用いられている正弦波PEは、数学的に特定のCPGの膜電位ダイナミクスに対する特定の解であることを示す。 さらに、時系列予測、自然言語処理、画像分類など、さまざまな分野にわたる広範な実験により、CPG-PEのSNNが従来のSNNよりも優れていることが示された。 さらに、SNNが位置情報をエンコードするメカニズムを解明し、ヒト脳におけるCPGの機能を調べるための分析実験を行った。 この調査は、ニューラルネットワークの基本原理に関する貴重な洞察を与えるかもしれない。

Spiking neural networks (SNNs) represent a promising approach to developing artificial neural networks that are both energy-efficient and biologically plausible. However, applying SNNs to sequential tasks, such as text classification and time-series forecasting, has been hindered by the challenge of creating an effective and hardware-friendly spike-form positional encoding (PE) strategy. Drawing inspiration from the central pattern generators (CPGs) in the human brain, which produce rhythmic patterned outputs without requiring rhythmic inputs, we propose a novel PE technique for SNNs, termed CPG-PE. We demonstrate that the commonly used sinusoidal PE is mathematically a specific solution to the membrane potential dynamics of a particular CPG. Moreover, extensive experiments across various domains, including time-series forecasting, natural language processing, and image classification, show that SNNs with CPG-PE outperform their conventional counterparts. Additionally, we perform analysis experiments to elucidate the mechanism through which SNNs encode positional information and to explore the function of CPGs in the human brain. This investigation may offer valuable insights into the fundamental principles of neural computation.
翻訳日:2024-05-24 17:54:55 公開日:2024-05-23
# JiuZhang3.0: 小型データ合成モデルのトレーニングによる数学的推論の効率化

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models ( http://arxiv.org/abs/2405.14365v1 )

ライセンス: Link先を確認
Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao, Jing Sha, Zhichao Sheng, Shijin Wang, Ji-Rong Wen, (参考訳) 数学的推論は、現実世界のアプリケーションにおいて、大きな言語モデル~(LLM)の重要な能力である。 この能力を高めるために、既存の研究は、事前学習のための大規模な数学関連のテキストを収集するか、より強力なLSM(\eg GPT-4)を使って大量の数学問題を合成する。 どちらのタイプの作業も一般的に、トレーニングや合成のコストが大きくなります。 オープンソーステキストをベースとしたコスト削減のために,数学問題合成のために小さなLLMを訓練し,十分な高品質な事前学習データを効率的に生成する効率的な方法を提案する。 これを実現するために、GPT-4を用いてデータセットを作成し、そのデータ合成能力を小さなLLMに蒸留する。 具体的には、人間の教育段階に基づく一連のプロンプトを作成し、GPT-4を誘導し、多様な数学知識と難易度を含む問題を合成する。 さらに、最も価値のある数学関連のテキストを選択するために、勾配に基づく影響推定手法を採用する。 両者は、小さなLLMを訓練するための知識蒸留データセットを作成するために、GPT-4に供給される。 我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。 実験結果から、JuZhang3.0は、自然言語推論とツール操作設定の両方の下で、いくつかの数学的推論データセット上で最先端のパフォーマンスを達成することが示された。 私たちのコードとデータは、 \url{https://github.com/RUCAIBox/JiuZhang3.0} で公開されます。

Mathematical reasoning is an important capability of large language models~(LLMs) for real-world applications. To enhance this capability, existing work either collects large-scale math-related texts for pre-training, or relies on stronger LLMs (\eg GPT-4) to synthesize massive math problems. Both types of work generally lead to large costs in training or synthesis. To reduce the cost, based on open-source available texts, we propose an efficient way that trains a small LLM for math problem synthesis, to efficiently generate sufficient high-quality pre-training data. To achieve it, we create a dataset using GPT-4 to distill its data synthesis capability into the small LLM. Concretely, we craft a set of prompts based on human education stages to guide GPT-4, to synthesize problems covering diverse math knowledge and difficulty levels. Besides, we adopt the gradient-based influence estimation method to select the most valuable math-related texts. The both are fed into GPT-4 for creating the knowledge distillation dataset to train the small LLM. We leverage it to synthesize 6 million math problems for pre-training our JiuZhang3.0 model, which only needs to invoke GPT-4 API 9.3k times and pre-train on 4.6B data. Experimental results have shown that JiuZhang3.0 achieves state-of-the-art performance on several mathematical reasoning datasets, under both natural language reasoning and tool manipulation settings. Our code and data will be publicly released in \url{https://github.com/RUCAIBox/JiuZhang3.0}.
翻訳日:2024-05-24 17:54:55 公開日:2024-05-23
# MiniCache: 大規模言語モデルの深さ次元におけるKVキャッシュ圧縮

MiniCache: KV Cache Compression in Depth Dimension for Large Language Models ( http://arxiv.org/abs/2405.14366v1 )

ライセンス: Link先を確認
Akide Liu, Jing Liu, Zizheng Pan, Yefei He, Gholamreza Haffari, Bohan Zhuang, (参考訳) 計算的に要求される大規模言語モデル(LLM)を効率的にデプロイするための重要なアプローチは、キーバリュー(KV)キャッシングである。 KVキャッシュは、以前に生成されたトークンのキー値状態を格納し、繰り返し計算の必要性を大幅に低減し、自動回帰生成のレイテンシを低下させる。 しかし、KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションにとって課題となる。 本稿では,新しい深度の観点からKVキャッシュを圧縮し,LCM推論におけるメモリフットプリントを大幅に削減する,MiniCacheというシンプルな手法を提案する。 提案手法は,KVキャッシュ状態がLLMの中深部における隣接層間に高い類似性を示すことを示すことに基づく。 マージを容易にするため,状態ベクトルの方向を補間し,長さを一定に保ったまま状態ベクトルの方向を補間し,状態成分を大きさと方向成分に分解する手法を提案する。 さらに、高度に異なる状態ペアをアンマージするトークン保持戦略を導入し、最小限のストレージオーバーヘッドで情報を保存する。 私たちのMiniCacheはトレーニングフリーで一般的なもので、量子化やスパシティといった既存のKVキャッシュ圧縮戦略を補完します。 複数のベンチマークでLLaMA-2, LLaMA-3, Phi-3, Mistral, Mixtralなどのモデルを用いてMiniCacheの総合評価を行い, 優れた圧縮比と高いスループットを実現した。 ShareGPTデータセットでは、4ビットのMiniCacheを持つLLaMA-2-7Bが最大5.02倍の圧縮比を実現し、推論スループットを約5倍向上し、FP16のフルキャッシュベースラインと比較してメモリフットプリントを41%削減する。

A critical approach for efficiently deploying computationally demanding large language models (LLMs) is Key-Value (KV) caching. The KV cache stores key-value states of previously generated tokens, significantly reducing the need for repetitive computations and thereby lowering latency in autoregressive generation. However, the size of the KV cache grows linearly with sequence length, posing challenges for applications requiring long context input and extensive sequence generation. In this paper, we present a simple yet effective approach, called MiniCache, to compress the KV cache across layers from a novel depth perspective, significantly reducing the memory footprint for LLM inference. Our approach is based on the observation that KV cache states exhibit high similarity between the adjacent layers in the middle-to-deep portion of LLMs. To facilitate merging, we propose disentangling the states into the magnitude and direction components, interpolating the directions of the state vectors while preserving their lengths unchanged. Furthermore, we introduce a token retention strategy to keep highly distinct state pairs unmerged, thus preserving the information with minimal additional storage overhead. Our MiniCache is training-free and general, complementing existing KV cache compression strategies, such as quantization and sparsity. We conduct a comprehensive evaluation of MiniCache utilizing various models including LLaMA-2, LLaMA-3, Phi-3, Mistral, and Mixtral across multiple benchmarks, demonstrating its exceptional performance in achieving superior compression ratios and high throughput. On the ShareGPT dataset, LLaMA-2-7B with 4-bit MiniCache achieves a remarkable compression ratio of up to 5.02x, enhances inference throughput by approximately 5x, and reduces the memory footprint by 41% compared to the FP16 full cache baseline, all while maintaining near-lossless performance.
翻訳日:2024-05-24 17:54:55 公開日:2024-05-23
# クイディット系におけるWigner Negativityからのベル非局在性

Bell Nonlocality from Wigner Negativity in Qudit Systems ( http://arxiv.org/abs/2405.14367v1 )

ライセンス: Link先を確認
Uta Isabella Meyer, Ivan Šupić, Damian Markham, Frédéric Grosshans, (参考訳) 非局所性は古典的なモデルと量子を区別する重要な概念であり、量子ビットのシステムで広く研究されている。 高次元系の場合、ベルが安定化状態に違反するような2階系の特定の結果やクリフォード作用素は一般化しない。 一方、連続変数系と同様に、ウィグナー負性性(英語版)(Wigner negativity)はシュート系における非局所性に対して必要である。 本稿では,安定化状態のウィグナー負性(Wigner negativity)に関する相関関係を求めるベル不等式(Bell inequality)を,二部式の場合においてCHSH不等式(CHSH inequality)の抽象化であるqubit $\pi/8$ gate(英語版)の一般化の随伴作用により提案する。 古典的境界は計算が簡単であり、指定された安定化状態はウィグナー負性度と1ノルムと最大ノルムの間の不等式に基づいて全てのキュウディ状態の不等式を極大に違反する。 ベル作用素は、一重項分数の測度として機能するだけでなく、ウィグナー負性率の体積を定量化する。 さらに、ベル状態は、手元にあるキュディよりも高次元のシステムに本質的に依存しているため、決定論的ベル違反に加えて、一定数の測定値に違反する。

Nonlocality is an essential concept that distinguishes quantum from classical models and has been extensively studied in systems of qubits. For higher-dimensional systems, certain results for their two-level counterpart, like Bell violations with stabilizer states and Clifford operators, do not generalize. On the other hand, similar to continuous variable systems, Wigner negativity is necessary for nonlocality in qudit systems. We propose a family of Bell inequalities that inquire correlations related to the Wigner negativity of stabilizer states under the adjoint action of a generalization of the qubit $\pi/8$ gate, which, in the bipartite case, is an abstraction of the CHSH inequality. The classical bound is simple to compute, and a specified stabilizer state maximally violates the inequality among all qudit states based on the Wigner negativity and an inequality between the 1-norm and the maximum norm. The Bell operator not only serves as a measure for the singlet fraction but also quantifies the volume of Wigner negativity. Furthermore, we give deterministic Bell violations, as well as violations with a constant number of measurements, for the Bell state relying on operators innate to higher-dimensional systems than the qudit at hand.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# RoPINN: 領域最適化物理情報ニューラルネットワーク

RoPINN: Region Optimized Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.14369v1 )

ライセンス: Link先を確認
Haixu Wu, Huakun Luo, Yuezhou Ma, Jianmin Wang, Mingsheng Long, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ターゲット方程式を満たすために深層モデルの出力と勾配を強制することによって偏微分方程式(PDE)を解くために広く応用されている。 数値計算の限界により、PINNは伝統的に有限選択点に最適化される。 しかしながら、PDEは通常連続領域上で定義されるため、散在点上のモデルのみを最適化することは、領域全体の正確な解を得るには不十分である。 そこで本研究では,領域最適化としての新たな訓練パラダイムを提案し,理論的に検討する。 具体的には、特にPDEの隠れ高次制約に対する一般化誤差を理論的に低減できる、孤立点から連続した近傍領域へのPINNの最適化プロセスの拡張を提案する。 実用的なトレーニングアルゴリズムであるRerea Optimized PINN (RoPINN) は,モンテカルロサンプリング法により実装された新しいパラダイムからシームレスに導出される。 サンプリングプロセスを信頼領域に調整することにより、RoPINNはサンプリング効率と一般化誤差を微調整する。 実験的に、RoPINNは、追加のバックプロパゲーションや勾配計算なしで、幅広いPDE上での多様なPINNの性能を一貫して向上させる。

Physics-informed neural networks (PINNs) have been widely applied to solve partial differential equations (PDEs) by enforcing outputs and gradients of deep models to satisfy target equations. Due to the limitation of numerical computation, PINNs are conventionally optimized on finite selected points. However, since PDEs are usually defined on continuous domains, solely optimizing models on scattered points may be insufficient to obtain an accurate solution for the whole domain. To mitigate this inherent deficiency of the default scatter-point optimization, this paper proposes and theoretically studies a new training paradigm as region optimization. Concretely, we propose to extend the optimization process of PINNs from isolated points to their continuous neighborhood regions, which can theoretically decrease the generalization error, especially for hidden high-order constraints of PDEs. A practical training algorithm, Region Optimized PINN (RoPINN), is seamlessly derived from this new paradigm, which is implemented by a straightforward but effective Monte Carlo sampling method. By calibrating the sampling process into trust regions, RoPINN finely balances sampling efficiency and generalization error. Experimentally, RoPINN consistently boosts the performance of diverse PINNs on a wide range of PDEs without extra backpropagation or gradient calculation.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 非定常逆数と制約によるマルコフ決定過程の学習

Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints ( http://arxiv.org/abs/2405.14372v1 )

ライセンス: Link先を確認
Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 制約付きマルコフ決定プロセス(CMDP)において、不合理性は、任意のアルゴリズムが平均的に制約を満たす最良の視野政策と競合する際に、サブリニアの後悔とサブリニアの制約違反の両方を達成するのを防ぐ。 本稿では,非定常性の増加に伴い性能が滑らかに低下するアルゴリズムを提供することにより,非定常的な報酬や制約を伴うCMDPにおいて,この負の結果が緩和可能であることを示す。 具体的には、Banditフィードバック下での後悔とポジティブな制約違反を$\tilde{\mathcal{O}} (\sqrt{T} + C)$で達成するアルゴリズムを提案する。 これは、最悪の場合は$\Theta(T)$で、逆CMDPの不可能性の結果と一貫性がある。 まず,$C$が分かっている場合に,所望の保証付きアルゴリズムを設計する。 すると、$C$が未知の場合、そのようなアルゴリズムを一般的なメタプロデューサに埋め込むことで、同じ結果を得る方法を示す。 非定常的制約のあるオンライン学習環境に適用できるため、これは独立した関心事である。

In constrained Markov decision processes (CMDPs) with adversarial rewards and constraints, a well-known impossibility result prevents any algorithm from attaining both sublinear regret and sublinear constraint violation, when competing against a best-in-hindsight policy that satisfies constraints on average. In this paper, we show that this negative result can be eased in CMDPs with non-stationary rewards and constraints, by providing algorithms whose performances smoothly degrade as non-stationarity increases. Specifically, we propose algorithms attaining $\tilde{\mathcal{O}} (\sqrt{T} + C)$ regret and positive constraint violation under bandit feedback, where $C$ is a corruption value measuring the environment non-stationarity. This can be $\Theta(T)$ in the worst case, coherently with the impossibility result for adversarial CMDPs. First, we design an algorithm with the desired guarantees when $C$ is known. Then, in the case $C$ is unknown, we show how to obtain the same results by embedding such an algorithm in a general meta-procedure. This is of independent interest, as it can be applied to any non-stationary constrained online learning setting.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 状態制約付きオフライン強化学習

State-Constrained Offline Reinforcement Learning ( http://arxiv.org/abs/2405.14374v1 )

ライセンス: Link先を確認
Charles A. Hepburn, Yue Jin, Giovanni Montana, (参考訳) 従来のオフライン強化学習法は主にバッチ制約された環境で運用される。 これにより、アルゴリズムはデータセットに存在する特定の状態-作用分布に限定され、分散シフトの影響は低減されるが、アルゴリズムは大幅に制限される。 本稿では, オフライン強化学習という新しいフレームワークを導入することにより, この制限を緩和する。 データセットの状態分布にのみ焦点をあてることで、我々のフレームワークは学習可能性を大幅に強化し、以前の制限を低減します。 提案した設定は学習の地平線を広げるだけでなく、オフラインの強化学習に固有の望ましい特性であるデータセットから異なる軌跡を効果的に組み合わせる能力を向上させる。 我々の研究は、この領域におけるその後の進歩の道を開く固い理論的な発見に支えられている。 さらに、D4RLベンチマークデータセットでパフォーマンス駆動のディープラーニングアルゴリズムであるStaCQを紹介します。 StaCQは、州が制限したオフライン強化学習において、今後の探索のための強力なベースラインを確立する。

Traditional offline reinforcement learning methods predominantly operate in a batch-constrained setting. This confines the algorithms to a specific state-action distribution present in the dataset, reducing the effects of distributional shift but restricting the algorithm greatly. In this paper, we alleviate this limitation by introducing a novel framework named \emph{state-constrained} offline reinforcement learning. By exclusively focusing on the dataset's state distribution, our framework significantly enhances learning potential and reduces previous limitations. The proposed setting not only broadens the learning horizon but also improves the ability to combine different trajectories from the dataset effectively, a desirable property inherent in offline reinforcement learning. Our research is underpinned by solid theoretical findings that pave the way for subsequent advancements in this domain. Additionally, we introduce StaCQ, a deep learning algorithm that is both performance-driven on the D4RL benchmark datasets and closely aligned with our theoretical propositions. StaCQ establishes a strong baseline for forthcoming explorations in state-constrained offline reinforcement learning.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# CoMERA:ランク適応型テンソル最適化による計算とメモリ効率のトレーニング

CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization ( http://arxiv.org/abs/2405.14377v1 )

ライセンス: Link先を確認
Zi Yang, Samridhi Choudhary, Xinfeng Xie, Cao Gao, Siegfried Kunzmann, Zheng Zhang, (参考訳) ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間が必要です。 高いトレーニングコストは、大企業にとって手頃な価格になる一方、環境への影響に対する懸念も高まっている。 本稿では,ランク適応テンソル最適化による計算とメモリ効率の訓練手法であるCoMERAを提案する。 CoMERAは、多目的最適化定式化によるエンドツーエンドのテンソル圧縮訓練を実現し、高い圧縮比とトレーニングプロセスの精度を両立させる訓練を改善する。 最適化された数値計算(例えば、最適化されたテンソル化埋め込みとテンソルベクトルの収縮)とGPUの実装により、GPU上のテンソル化トレーニングにおける実行時のオーバーヘッドの一部を排除した。 これにより、通常のトレーニングと比較すると、トレーニング1時間あたりのスピードアップが2~3ドル初となる。 CoMERAは、メモリとコンピューティングの効率の両面で、最近のGaLoreを上回っている。 具体的には、CoMERAは1回のバッチトレーニングでテストされた6エンコーダートランスフォーマーでGaLoreよりも高速で2ドル99セント、メモリ効率は9ドル99セントだ。 さらなるHPC最適化により、CoMERAは大規模言語モデルのトレーニングコストを大幅に削減することができる。

Training large AI models such as deep learning recommendation systems and foundation language (or multi-modal) models costs massive GPUs and computing time. The high training cost has become only affordable to big tech companies, meanwhile also causing increasing concerns about the environmental impact. This paper presents CoMERA, a Computing- and Memory-Efficient training method via Rank-Adaptive tensor optimization. CoMERA achieves end-to-end rank-adaptive tensor-compressed training via a multi-objective optimization formulation, and improves the training to provide both a high compression ratio and excellent accuracy in the training process. Our optimized numerical computation (e.g., optimized tensorized embedding and tensor-vector contractions) and GPU implementation eliminate part of the run-time overhead in the tensorized training on GPU. This leads to, for the first time, $2-3\times$ speedup per training epoch compared with standard training. CoMERA also outperforms the recent GaLore in terms of both memory and computing efficiency. Specifically, CoMERA is $2\times$ faster per training epoch and $9\times$ more memory-efficient than GaLore on a tested six-encoder transformer with single-batch training. With further HPC optimization, CoMERA may significantly reduce the training cost of large language models.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 大規模言語モデルは空間推論タスクのための新しい知識を創出できるか?

Can Large Language Models Create New Knowledge for Spatial Reasoning Tasks? ( http://arxiv.org/abs/2405.14379v1 )

ライセンス: Link先を確認
Thomas Greatrix, Roger Whitaker, Liam Turner, Walter Colombo, (参考訳) LLM(Large Language Models)が新たな情報を生み出す可能性は、研究とイノベーションの潜在的なステップ変化をもたらす。 このことは、LLMが以前トレーニング中に何を見たかを決定するのが困難であり、"新しさ"を裏付けることが困難である、と断言するのは難しい。 本稿では, LLM が空間次元の問題に対して洗練された推論を行うことができることを観察する。 完璧ではないものの、このことは最先端のLLMが達成できるというかなりのレベルの理解を示し、LLMが重要な創発性をもたらすことができるという命題を支持している。 特に、クロード3は、この点においてよく機能している。

The potential for Large Language Models (LLMs) to generate new information offers a potential step change for research and innovation. This is challenging to assert as it can be difficult to determine what an LLM has previously seen during training, making "newness" difficult to substantiate. In this paper we observe that LLMs are able to perform sophisticated reasoning on problems with a spatial dimension, that they are unlikely to have previously directly encountered. While not perfect, this points to a significant level of understanding that state-of-the-art LLMs can now achieve, supporting the proposition that LLMs are able to yield significant emergent properties. In particular, Claude 3 is found to perform well in this regard.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 非対称暗号解読のための最先端量子アルゴリズムの高レベル比較

A high-level comparison of state-of-the-art quantum algorithms for breaking asymmetric cryptography ( http://arxiv.org/abs/2405.14381v1 )

ライセンス: Link先を確認
Martin Ekerå, Joel Gärtner, (参考訳) 本稿では,Regevの量子アルゴリズムとEker{\aa}-G\"artner's拡張を高コストで比較する。 これは、暗号的に関連する問題インスタンスをターゲットとし、また、Regevのアルゴリズムに適用されるRagavanとVaikuntanathanの空間節約最適化と、既存のアルゴリズムに適用されるウィンドウ化のような最適化を考慮に入れたときである。 我々の結論は、空間節約最適化のないRegevのアルゴリズムは、非計算量子メモリが安価であれば、ラン当たりの優位性を得るが、全体的な優位性は得られないということである。 スペースセーブ最適化によるRegevのアルゴリズムは、計算メモリを多く使用する一方で、既存の最先端アルゴリズムと比較して、実行時および全体的な処理量も大きいため、優位性は得られない。 そのため、暗号関連問題インスタンスの利点を達成するためには、さらなる最適化が必要である。

We provide a high-level cost comparison between Regev's quantum algorithm with Eker{\aa}-G\"artner's extensions on the one hand, and existing state-of-the-art quantum algorithms for factoring and computing discrete logarithms on the other. This when targeting cryptographically relevant problem instances, and when accounting for the space-saving optimizations of Ragavan and Vaikuntanathan that apply to Regev's algorithm, and optimizations such as windowing that apply to the existing algorithms. Our conclusion is that Regev's algorithm without the space-saving optimizations may achieve a per-run advantage, but not an overall advantage, if non-computational quantum memory is cheap. Regev's algorithm with the space-saving optimizations does not achieve an advantage, since it uses more computational memory, whilst also performing more work, per run and overall, compared to the existing state-of-the-art algorithms. As such, further optimizations are required for it to achieve an advantage for cryptographically relevant problem instances.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# セミオープンな質問応答による大規模言語モデルの知識境界の認識

Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering ( http://arxiv.org/abs/2405.14383v1 )

ライセンス: Link先を確認
Zhihua Wen, Zhiliang Tian, Zexin Jian, Zhen Huang, Pei Ke, Yifu Gao, Minlie Huang, Dongsheng Li, (参考訳) 大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。 LLMの知識境界(KB)は、その事実的理解を制限し、幻覚し始めるかもしれない。 LLMのKBの知覚を調べることは、幻覚とLLMの信頼性の発生を検出するのに不可欠である。 最近の研究では、LLMのKBを具体的な回答(クローズエンドな質問)で知覚し、潜在的な多くの答えに対応する半オープンエンドな質問(SoeQ)に限定的に注意を払っている。 一部の研究者は、その疑問が答えられるかどうかを判断することでそれを達成している。 しかし、このパラダイムは、通常は部分的に答えられるSoeQには適さない。 知識探索には曖昧な答えが不可欠だが、LLMのKBを超えることもある。 本稿では,よりあいまいな回答を見出すことにより,LLMのKBをSoeQで知覚する。 まず,SoeQ の構築と対象 LLM からの回答を得るために LLM ベースのアプローチを適用する。 残念ながら、主流のブラックボックスLSMの出力確率は、低確率曖昧な答えのサンプルにはアクセスできない。 そこで我々は,オープンソースの補助モデルを用いて,目標LLMに対するあいまいな回答を探索する。 既存の回答に対して最も近いセマンティック表現を計算してそれらの確率を推定し、高い確率の回答の生成確率を低減し、より効率的な生成を実現する。 最後に、RAGに基づく評価とLLM自己評価の結果を比較し、目的のLLMのKBを超える4種類の曖昧な回答を分類する。 提案手法に従って,GPT-4のKBを知覚するデータセットを構築した。 GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。 さらに, 我々の補助モデルであるLLaMA-2-13Bは, より曖昧な解を見つけるのに有効である。

Large Language Models (LLMs) are widely used for knowledge-seeking yet suffer from hallucinations. The knowledge boundary (KB) of an LLM limits its factual understanding, beyond which it may begin to hallucinate. Investigating the perception of LLMs' KB is crucial for detecting hallucinations and LLMs' reliable generation. Current studies perceive LLMs' KB on questions with a concrete answer (close-ended questions) while paying limited attention to semi-open-ended questions (SoeQ) that correspond to many potential answers. Some researchers achieve it by judging whether the question is answerable or not. However, this paradigm is unsuitable for SoeQ, which are usually partially answerable, containing both answerable and ambiguous (unanswerable) answers. Ambiguous answers are essential for knowledge-seeking, but they may go beyond the KB of LLMs. In this paper, we perceive the LLMs' KB with SoeQ by discovering more ambiguous answers. First, we apply an LLM-based approach to construct SoeQ and obtain answers from a target LLM. Unfortunately, the output probabilities of mainstream black-box LLMs are inaccessible to sample for low-probability ambiguous answers. Therefore, we apply an open-sourced auxiliary model to explore ambiguous answers for the target LLM. We calculate the nearest semantic representation for existing answers to estimate their probabilities, with which we reduce the generation probability of high-probability answers to achieve a more effective generation. Finally, we compare the results from the RAG-based evaluation and LLM self-evaluation to categorize four types of ambiguous answers that are beyond the KB of the target LLM. Following our method, we construct a dataset to perceive the KB for GPT-4. We find that GPT-4 performs poorly on SoeQ and is often unaware of its KB. Besides, our auxiliary model, LLaMA-2-13B, is effective in discovering more ambiguous answers.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 条件付き拡散モデルによる信頼軌道予測と不確かさの定量化

Reliable Trajectory Prediction and Uncertainty Quantification with Conditioned Diffusion Models ( http://arxiv.org/abs/2405.14384v1 )

ライセンス: Link先を確認
Marion Neumeier, Sebastian Dorn, Michael Botsch, Wolfgang Utschick, (参考訳) 本研究は, 拡散モデルを用いた高速道路軌道予測のための新しいネットワークアーキテクチャである, 条件付き車両運動拡散(cVMD)モデルを紹介する。 提案モデルは,非ホロノミックな運動制約と物理的制約を生成予測モジュールに統合することにより,予測軌道の乾燥性を保証する。 cVMDのアーキテクチャの中心は、安全クリティカルなアプリケーションにおいて重要な機能である不確実な定量化を実行する能力である。 定量化された不確実性を予測プロセスに統合することにより、cVMDの軌道予測性能を大幅に改善する。 モデルの性能は,公開されている高Dデータセットを用いて評価した。 実験により,提案アーキテクチャは最先端モデルと比較して,競合軌道予測精度が向上し,ドライビング可能な軌道と不確かさの定量化が保証された。

This work introduces the conditioned Vehicle Motion Diffusion (cVMD) model, a novel network architecture for highway trajectory prediction using diffusion models. The proposed model ensures the drivability of the predicted trajectory by integrating non-holonomic motion constraints and physical constraints into the generative prediction module. Central to the architecture of cVMD is its capacity to perform uncertainty quantification, a feature that is crucial in safety-critical applications. By integrating the quantified uncertainty into the prediction process, the cVMD's trajectory prediction performance is improved considerably. The model's performance was evaluated using the publicly available highD dataset. Experiments show that the proposed architecture achieves competitive trajectory prediction accuracy compared to state-of-the-art models, while providing guaranteed drivable trajectories and uncertainty quantification.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 文章中のフランス語の感情識別:その表現様式をテキスト複雑度分析へのステップとして考える

Emotion Identification for French in Written Texts: Considering their Modes of Expression as a Step Towards Text Complexity Analysis ( http://arxiv.org/abs/2405.14385v1 )

ライセンス: Link先を確認
Aline Étienne, Delphine Battistelli, Gwénolé Lecorvé, (参考訳) 本論文の目的は, (A) 文章中の文が感情を表現するか否か, (B) 表現されるモード, (C) 基本か複雑か, (D) 感情カテゴリーを予測することである。 私たちの主要な貢献の1つは、データセットとモデルを通じて、感情が異なるモードで表現できるという事実を統合することです。 もう一つの独創性は、スコープがテキスト上にあり、会話的な(しばしばマルチモーダルな)データに焦点を絞った通常の作業とは対照的である。 この文脈では、表現のモードは、テキストにおける複雑性の自動分析の要因として見なされる。 フレンチテキストの実験は、人間のアノテータの合意に比較して許容可能な結果を示し、テキスト内学習を伴う大規模言語モデル(微調整なし)と比較すると、より優れた結果を示す。

The objective of this paper is to predict (A) whether a sentence in a written text expresses an emotion, (B) the mode(s) in which it is expressed, (C) whether it is basic or complex, and (D) its emotional category. One of our major contributions, through a dataset and a model, is to integrate the fact that an emotion can be expressed in different modes: from a direct mode, essentially lexicalized, to a more indirect mode, where emotions will only be suggested, a mode that NLP approaches generally don't take into account. Another originality is that the scope is on written texts, as opposed usual work focusing on conversational (often multi-modal) data. In this context, modes of expression are seen as a factor towards the automatic analysis of complexity in texts. Experiments on French texts show acceptable results compared to the human annotators' agreement, and outperforming results compared to using a large language model with in-context learning (i.e. no fine-tuning).
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# カプセルネットワークプロジェクタは等価で不変な学習者

Capsule Network Projectors are Equivariant and Invariant Learners ( http://arxiv.org/abs/2405.14386v1 )

ライセンス: Link先を確認
Miles Everett, Aiden Durrant, Mingjun Zhong, Georgios Leontidis, (参考訳) 不変表現の学習は、自己教師あり学習における長年のアプローチである。 しかし、近年では表現における同変特性の保存が進んでいるが、高度に規定されたアーキテクチャではそうである。 本研究では,キャプセルネットワーク(Capsule Networks,CapsNets)を用いた,不変な自己教師型アーキテクチャを提案する。 等変自己教師型アーキテクチャにおけるCapsNetsの使用は、より効率が高く、ネットワークパラメータも少ない等変タスクにおけるダウンストリーム性能を向上させることを実証する。 CapsNetのアーキテクチャ変更に対応するために,エントロピー最小化に基づく新たな目的関数を導入する。 このアプローチはCapsule Invariant Equivariant Network(Capsule Invariant Equivariant Network)と呼ばれ、3DIEBenchデータセット上のすべての不変および同変下流タスクにまたがる最先端のパフォーマンスを実現し、教師付きベースラインよりも優れています。 この結果から,CapsNetの大規模マルチタスクデータセットに対する複雑な汎用表現を,従来のCapsNetベンチマークと比較して学習できることが示唆された。 コードはhttps://github.com/AberdeenML/CapsIEで入手できる。

Learning invariant representations has been the longstanding approach to self-supervised learning. However, recently progress has been made in preserving equivariant properties in representations, yet do so with highly prescribed architectures. In this work, we propose an invariant-equivariant self-supervised architecture that employs Capsule Networks (CapsNets) which have been shown to capture equivariance with respect to novel viewpoints. We demonstrate that the use of CapsNets in equivariant self-supervised architectures achieves improved downstream performance on equivariant tasks with higher efficiency and fewer network parameters. To accommodate the architectural changes of CapsNets, we introduce a new objective function based on entropy minimisation. This approach, which we name CapsIE (Capsule Invariant Equivariant Network), achieves state-of-the-art performance across all invariant and equivariant downstream tasks on the 3DIEBench dataset, while outperforming supervised baselines. Our results demonstrate the ability of CapsNets to learn complex and generalised representations for large-scale, multi-task datasets compared to previous CapsNet benchmarks. Code is available at https://github.com/AberdeenML/CapsIE.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 大規模言語モデルのプログラミングスキルの評価

Evaluation of the Programming Skills of Large Language Models ( http://arxiv.org/abs/2405.14388v1 )

ライセンス: Link先を確認
Luc Bryan Heitz, Joun Chamas, Christopher Scherb, (参考訳) 大規模言語モデル(LLM)の出現は、タスクが完了する効率とスピードに革命をもたらした。 これらのチャットボットがますます複雑なタスクに取り組むにつれ、アウトプットの品質を評価するという課題が最重要になっている。 本稿では,OpenAI の ChatGPT と Google の Gemini AI の2つの主要な LLM の出力品質を,双方のフリーバージョンで生成されたプログラミングコードの品質と比較することにより,批判的に検証する。 実世界のサンプルのレンズとシステマティックなデータセットを組み合わせることで,これらのLLMが生成するコード品質について検討する。 コード生成の卓越した熟練性を考えると、チャットボットの機能のこの側面は特に解析の魅力的な領域を示している。 さらに、プログラミングコードの複雑さは、その検証が恐ろしいタスクになるレベルにエスカレーションされ、我々の研究の重要性が強調される。 本研究は,高品質なプログラミングコードを生成する上で,LCMの有効性と信頼性を軽視することを目的としている。

The advent of Large Language Models (LLM) has revolutionized the efficiency and speed with which tasks are completed, marking a significant leap in productivity through technological innovation. As these chatbots tackle increasingly complex tasks, the challenge of assessing the quality of their outputs has become paramount. This paper critically examines the output quality of two leading LLMs, OpenAI's ChatGPT and Google's Gemini AI, by comparing the quality of programming code generated in both their free versions. Through the lens of a real-world example coupled with a systematic dataset, we investigate the code quality produced by these LLMs. Given their notable proficiency in code generation, this aspect of chatbot capability presents a particularly compelling area for analysis. Furthermore, the complexity of programming code often escalates to levels where its verification becomes a formidable task, underscoring the importance of our study. This research aims to shed light on the efficacy and reliability of LLMs in generating high-quality programming code, an endeavor that has significant implications for the field of software development and beyond.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# stl2vec:時間論理の意味的・解釈的ベクトル表現

stl2vec: Semantic and Interpretable Vector Representation of Temporal Logic ( http://arxiv.org/abs/2405.14389v1 )

ライセンス: Link先を確認
Gaia Saveri, Laura Nenzi, Luca Bortolussi, Jan Křetínský, (参考訳) 記号的知識とデータ駆動学習アルゴリズムを統合することは、人工知能における長年の課題である。 このタスクの重要性は認識されているが、記号表現の離散性と機械学習計算の連続性により、顕著なギャップが存在する。 これら2つの世界の橋梁の1つは、論理公式のセマンティックグラウンドドベクター表現(機能埋め込み)を定義することであり、それによって論理式のセマンティック空間において連続的な学習と最適化を行うことができる。 Signal Temporal Logic (STL) で表現された知識のためのこの目標に取り組み、いくつかの望ましい性質を持つ公式の連続的な埋め込みを計算する方法を考案する。 (i) は有限次元である (二)式の意味を忠実に反映する。 (iii)学習を一切必要とせず、基本原則から定義する。 (iv)は解釈可能である。 もうひとつの重要な貢献は、2つのタスクにおけるアプローチの有効性の実証である: 学習モデルチェック: 確率的プロセスで満たされる要求の確率を予測し、その埋め込みをニューロシンボリックなフレームワークに統合し、与えられた論理的仕様に従うためにディープラーニング生成モデルの出力を制限する。

Integrating symbolic knowledge and data-driven learning algorithms is a longstanding challenge in Artificial Intelligence. Despite the recognized importance of this task, a notable gap exists due to the discreteness of symbolic representations and the continuous nature of machine-learning computations. One of the desired bridges between these two worlds would be to define semantically grounded vector representation (feature embedding) of logic formulae, thus enabling to perform continuous learning and optimization in the semantic space of formulae. We tackle this goal for knowledge expressed in Signal Temporal Logic (STL) and devise a method to compute continuous embeddings of formulae with several desirable properties: the embedding (i) is finite-dimensional, (ii) faithfully reflects the semantics of the formulae, (iii) does not require any learning but instead is defined from basic principles, (iv) is interpretable. Another significant contribution lies in demonstrating the efficacy of the approach in two tasks: learning model checking, where we predict the probability of requirements being satisfied in stochastic processes; and integrating the embeddings into a neuro-symbolic framework, to constrain the output of a deep-learning generative model to comply to a given logical specification.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# 説明可能なわずかな知識の追跡

Explainable Few-shot Knowledge Tracing ( http://arxiv.org/abs/2405.14391v1 )

ライセンス: Link先を確認
Haoxuan Li, Jifan Yu, Yuanxin Ouyang, Zhuang Liu, Wenge Rong, Juanzi Li, Zhang Xiong, (参考訳) 知識追跡(KT)は,学生の演習記録による知識習得のマイニングと,将来のテスト課題におけるパフォーマンスの予測を目的とした,教育評価における重要な課題である。 研究者たちは、ディープラーニング技術の急速な開発で大きな成功を収めたが、現在の知識追跡タスクは、現実世界の教育シナリオのひび割れに陥る。 教員が限られた実践から学生の知識状態を評価し、説明的フィードバックを与える設定とは大きく異なる。 このギャップを埋めるために、新しいタスクの定式化を探る。 大規模言語モデル(LLM)の強力な推論と生成能力を活用することで,学生の学習記録から学生の知識を追跡できる認知誘導フレームワークを提案する。 3つの広く使われているデータセットによる実験結果から、LLMは競合する深層知識追跡手法に匹敵する、あるいは優れた性能を発揮することが示された。 また、今後の方向性についても論じ、今後の話題の改善を求める。

Knowledge tracing (KT), aiming to mine students' mastery of knowledge by their exercise records and predict their performance on future test questions, is a critical task in educational assessment. While researchers achieved tremendous success with the rapid development of deep learning techniques, current knowledge tracing tasks fall into the cracks from real-world teaching scenarios. Relying heavily on extensive student data and solely predicting numerical performances differs from the settings where teachers assess students' knowledge state from limited practices and provide explanatory feedback. To fill this gap, we explore a new task formulation: Explainable Few-shot Knowledge Tracing. By leveraging the powerful reasoning and generation abilities of large language models (LLMs), we then propose a cognition-guided framework that can track the student knowledge from a few student records while providing natural language explanations. Experimental results from three widely used datasets show that LLMs can perform comparable or superior to competitive deep knowledge tracing methods. We also discuss potential directions and call for future improvements in relevant topics.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# Markovian Flow Matching:連続正規化フローによるMCMCの高速化

Markovian Flow Matching: Accelerating MCMC with Continuous Normalizing Flows ( http://arxiv.org/abs/2405.14392v1 )

ライセンス: Link先を確認
Alberto Cabezas, Louis Sharrock, Christopher Nemeth, (参考訳) 連続正規化フロー(CNF)は、ニューラルネットワークを用いて前記経路を生成するベクトル場をモデル化することにより、基準と目標密度の間の確率経路を学習する。 近年、Lipman et al (2022) は、CNFsを生成的モデリングで訓練するためのシンプルで安価な手法であるフローマッチング (FM) を導入した。 本稿では,この手法をマルコフサンプリング法をFMの目的評価に応用し,学習した確率経路を用いてモンテカルロサンプリングを改善することにより,確率推定の手法を再検討する。 本稿では、マルコフ連鎖からのサンプルを用いてFMの目的を定義する確率パスを修正するシーケンシャル手法を提案する。 この手法を適応的なテンパリング機構により拡張し、ターゲット内の複数のモードの発見を可能にする。 軽微な仮定の下で、FM目標の局所的最適値への収束を確立し、収束率の改善について議論し、合成および実世界の実例に関する方法を説明する。

Continuous normalizing flows (CNFs) learn the probability path between a reference and a target density by modeling the vector field generating said path using neural networks. Recently, Lipman et al. (2022) introduced a simple and inexpensive method for training CNFs in generative modeling, termed flow matching (FM). In this paper, we re-purpose this method for probabilistic inference by incorporating Markovian sampling methods in evaluating the FM objective and using the learned probability path to improve Monte Carlo sampling. We propose a sequential method, which uses samples from a Markov chain to fix the probability path defining the FM objective. We augment this scheme with an adaptive tempering mechanism that allows the discovery of multiple modes in the target. Under mild assumptions, we establish convergence to a local optimum of the FM objective, discuss improvements in the convergence rate, and illustrate our methods on synthetic and real-world examples.
翻訳日:2024-05-24 15:54:01 公開日:2024-05-23
# IT従事者にとってのマインドフルネスプラクティスのメリットの定量化

Qualifying and Quantifying the Benefits of Mindfulness Practices for IT Workers ( http://arxiv.org/abs/2405.14393v1 )

ライセンス: Link先を確認
Cristina Martinez Montes, Fredrik Sjögren, Adam Klevfors, Birgit Penzenstadler, (参考訳) ITワーカーの幸福と生産性は、個人の成功と彼らが奉仕する組織の全体的な繁栄の両方に不可欠です。 本研究は、ストレスを緩和し、IT従事者の精神的健康を改善するためのマインドフルネスを提案する。 8週間のプログラムで、ITワーカーはマインドフルネスを学び、呼吸の習慣を身につける。 本研究は,テーマ分析と日常の幸福感評価を通じて,参加者の反射を分析することによって,これらの実践がもたらす影響について検討する。 分析の結果、精神的幸福感が増加し、生産性が認められた。 また、参加者の認識の変化が示され、自己認識が増大した。 調査では、作業成果への影響を確認するため、業界でのプログラム継続を推奨している。

The well-being and productivity of IT workers are crucial for both individual success and the overall prosperity of the organisations they serve. This study proposes mindfulness to alleviate stress and improve mental well-being for IT workers. During an 8-week program, IT workers learn about mindfulness, coupled with breathing practices. This study investigates the potential effects of these practices by analysing participants' reflections through thematic analysis and daily well-being ratings. The analysis showcased an increase in mental well-being and perceived productivity. It also indicated a change in the participants' perception, which showed increased self-awareness. The study recommends continuing the program in the industry to see its impact on work outputs.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# インストラクションによる損失を考慮したインストラクションチューニング

Instruction Tuning With Loss Over Instructions ( http://arxiv.org/abs/2405.14394v1 )

ライセンス: Link先を確認
Zhengyan Shi, Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani, (参考訳) インストラクションチューニングは、言語モデル(LM)の出力を望ましいスタイルに変換する上で重要な役割を果たす。 本研究では,命令とプロンプトに損失関数を適用してLMを訓練する,シンプルで効果的な手法であるインストラクション・モデリング(IM)を提案する。 NLPタスク(例えば、MMLU、TruthfulQA、HumanEval)とオープン・エンド・ジェネレーション・ベンチマーク(例えば、MT-Bench、AlpacaEval)の両方において、IMがLM性能を効果的に向上できることを示す。 注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。 本研究では,IMの有効性に影響を与える2つの要因を同定する。(1)トレーニングデータにおける命令長と出力長の比率,(2)トレーニング例の数。 短時間の出力と組み合わせた長い命令を持つデータセットや、少量のトレーニング例を指導訓練に用いたSAH(Superficial Alignment hypothesis)において、IMは特に有益である。 さらなる分析は、改善はチューニングデータセットへの過剰適合の低減に起因するという我々の仮説を裏付けるものである。 我々の研究は、特に低リソースシナリオにおいて、LMのチューニングを指導するための実践的なガイダンスを提供する。

Instruction tuning plays a crucial role in shaping the outputs of language models (LMs) to desired styles. In this work, we propose a simple yet effective method, Instruction Modelling (IM), which trains LMs by applying a loss function to the instruction and prompt part rather than solely to the output part. Through experiments across 21 diverse benchmarks, we show that, in many scenarios, IM can effectively improve the LM performance on both NLP tasks (e.g., MMLU, TruthfulQA, and HumanEval) and open-ended generation benchmarks (e.g., MT-Bench and AlpacaEval). Remarkably, in the most advantageous case, IM boosts model performance on AlpacaEval 1.0 by over 100%. We identify two key factors influencing the effectiveness of IM: (1) The ratio between instruction length and output length in the training data; and (2) The number of training examples. We observe that IM is especially beneficial when trained on datasets with lengthy instructions paired with brief outputs, or under the Superficial Alignment Hypothesis (SAH) where a small amount of training examples are used for instruction tuning. Further analysis substantiates our hypothesis that the improvement can be attributed to reduced overfitting to instruction tuning datasets. Our work provides practical guidance for instruction tuning LMs, especially in low-resource scenarios.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 故障検出型量子状態トモグラフィ

Corrupted sensing quantum state tomography ( http://arxiv.org/abs/2405.14396v1 )

ライセンス: Link先を確認
Mengru Ma, Jiangwei Shang, (参考訳) 量子状態の信頼性と様々な量子系の潜在的なノイズは、量子技術の進歩に不可欠である。 本研究では, 簡易なパウリ測度のみを用いて, 量子状態と構造ノイズの同時再構成を可能にする, 劣化検出型量子状態トモグラフィの概念を提案する。 追加の事前情報がなければ、フレームワークの信頼性と堅牢性について調査する。 低ランク状態トモグラフィのためのガウスとポアソンのスパースノイズを仮定することにより,アルゴリズムのパワーを実証する。 特に,本手法は,不完全な測定値の集合を用いて高精細な回復を実現することができ,大規模量子システムの性能向上にも適している。 ノイズの多い量子システムにおいて、量子トモグラフィーのコストと計算労力を大幅に削減するために、これらの技術が実用的なツールとなることが考えられている。

The reliable characterization of quantum states as well as any potential noise in various quantum systems is crucial for advancing quantum technologies. In this work we propose the concept of corrupted sensing quantum state tomography which enables the simultaneous reconstruction of quantum states and structured noise with the aid of simple Pauli measurements only. Without additional prior information, we investigate the reliability and robustness of the framework. The power of our algorithm is demonstrated by assuming Gaussian and Poisson sparse noise for low-rank state tomography. In particular, our approach is able to achieve a high quality of the recovery with incomplete sets of measurements and is also suitable for performance improvement of large quantum systems. It is envisaged that the techniques can become a practical tool to greatly reduce the cost and computational effort for quantum tomography in noisy quantum systems.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# SpGesture: Jaccard Attentive Spiking Neural Networkを用いたソースフリードメイン適応sEMGに基づくジェスチャー認識

SpGesture: Source-Free Domain-adaptive sEMG-based Gesture Recognition with Jaccard Attentive Spiking Neural Network ( http://arxiv.org/abs/2405.14398v1 )

ライセンス: Link先を確認
Weiyu Guo, Ying Sun, Yijie Xu, Ziyue Qiao, Yongkui Yang, Hui Xiong, (参考訳) 表面筋電図(sEMG)に基づくジェスチャー認識は、ウェアラブルデバイスに対して自然な、直感的な相互作用のモダリティを提供する。 sEMGに基づくジェスチャー認識モデルの大幅な進歩にもかかわらず、既存の手法は高い計算遅延とエネルギー消費の増大に悩まされることが多い。 さらに、sEMG信号の固有の不安定さは、現実世界の設定における分散シフトに対する感度と相まって、モデルの堅牢性を損なう。 これらの課題に対処するために,(1)ロバスト性: 膜電位をメモリリストとして活用することにより,ソースフリードメイン適応を初めてSNNに導入する。 これによりSpGestureは、分散シフトによる精度劣化を軽減することができる。 2) 高い精度: スパイキング・ジャカード・アテンションにより, SpGesture は sEMG の特徴を表現できる SNN の能力を高め, システム精度の顕著な上昇につながった。 SpGestureのパフォーマンスを検証するために、異なる前腕姿勢を持つ新しいsEMGジェスチャデータセットを収集し、SpGestureはベースラインの中で最高の精度(89.26\%$)を達成した。 さらに、実際のCPUへのデプロイでは、システム遅延が100ms以下で、特にリアルタイムの要件内で発生していた。 この素晴らしいパフォーマンスは、現実世界のシナリオにおけるsEMGの適用性を高めるSpGestureの可能性を示している。 コードはhttps://anonymous.4open.science/r/SpGesture.comで公開されている。

Surface electromyography (sEMG) based gesture recognition offers a natural and intuitive interaction modality for wearable devices. Despite significant advancements in sEMG-based gesture-recognition models, existing methods often suffer from high computational latency and increased energy consumption. Additionally, the inherent instability of sEMG signals, combined with their sensitivity to distribution shifts in real-world settings, compromises model robustness. To tackle these challenges, we propose a novel SpGesture framework based on Spiking Neural Networks, which possesses several unique merits compared with existing methods: (1) Robustness: By utilizing membrane potential as a memory list, we pioneer the introduction of Source-Free Domain Adaptation into SNN for the first time. This enables SpGesture to mitigate the accuracy degradation caused by distribution shifts. (2) High Accuracy: With a novel Spiking Jaccard Attention, SpGesture enhances the SNNs' ability to represent sEMG features, leading to a notable rise in system accuracy. To validate SpGesture's performance, we collected a new sEMG gesture dataset which has different forearm postures, where SpGesture achieved the highest accuracy among the baselines ($89.26\%$). Moreover, the actual deployment on the CPU demonstrated a system latency below 100ms, well within real-time requirements. This impressive performance showcases SpGesture's potential to enhance the applicability of sEMG in real-world scenarios. The code is available at https://anonymous.4open.science/r/SpGesture.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 効率的なコルモゴロフ・アルノルドネットワークによる神経認知診断のためのエンドウィング解釈可能性

Endowing Interpretability for Neural Cognitive Diagnosis by Efficient Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.14399v1 )

ライセンス: Link先を確認
Shangshang Yang, Linrui Qin, Xiaoshan Yu, (参考訳) 知的教育の領域では、認知診断は、学習者の知識概念の習熟度に起因した後続の推薦課題において重要な役割を担っている。 ニューラルネットワークに基づくニューラル認知診断モデル(CDM)は従来のモデルよりもはるかに優れた性能を示したが、ニューラル認知診断は、単調性仮定でさえも多層認識(MLP)が採用されているため、モデル解釈性が悪いとして批判されている。 そこで本研究では,Kan2CD(Kan2CD)と呼ばれる,2つの方法での解釈性向上を目的とした,効率的なコルモゴロフ・アーノルドネットワーク(Kan2CD)によるニューラル認知診断モデルの解釈可能性の向上を提案する。 第二に、学生の埋め込み、運動埋め込み、概念埋め込みは、複数のカンによって直接処理され、その出力はさらに結合され、統一されたカンで学習され、最終的な予測が得られる。 そこで本研究では,カンの学習を緩やかに行うために,元のカンの実装を改良し,トレーニングを加速する。 4つの実世界のデータセットの実験では、提案されたKA2NCDは従来のCDMよりも優れたパフォーマンスを示しており、提案されたKA2NCDは既存のニューラルCDMよりも若干パフォーマンスが向上している。 より重要なのは、KA2NCDが既存のニューラルCDMよりも優れている従来のCDMと同等に解釈可能であることである。 さらに、提案されたKA2NCDのトレーニングコストは既存のモデルと競合する。

In the realm of intelligent education, cognitive diagnosis plays a crucial role in subsequent recommendation tasks attributed to the revealed students' proficiency in knowledge concepts. Although neural network-based neural cognitive diagnosis models (CDMs) have exhibited significantly better performance than traditional models, neural cognitive diagnosis is criticized for the poor model interpretability due to the multi-layer perception (MLP) employed, even with the monotonicity assumption. Therefore, this paper proposes to empower the interpretability of neural cognitive diagnosis models through efficient kolmogorov-arnold networks (KANs), named KAN2CD, where KANs are designed to enhance interpretability in two manners. Specifically, in the first manner, KANs are directly used to replace the used MLPs in existing neural CDMs; while in the second manner, the student embedding, exercise embedding, and concept embedding are directly processed by several KANs, and then their outputs are further combined and learned in a unified KAN to get final predictions. To overcome the problem of training KANs slowly, we modify the implementation of original KANs to accelerate the training. Experiments on four real-world datasets show that the proposed KA2NCD exhibits better performance than traditional CDMs, and the proposed KA2NCD still has a bit of performance leading even over the existing neural CDMs. More importantly, the learned structures of KANs enable the proposed KA2NCD to hold as good interpretability as traditional CDMs, which is superior to existing neural CDMs. Besides, the training cost of the proposed KA2NCD is competitive to existing models.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 深部ニューラルネットワークの訓練のための厳密なガウスニュートン最適化

Exact Gauss-Newton Optimization for Training Deep Neural Networks ( http://arxiv.org/abs/2405.14402v1 )

ライセンス: Link先を確認
Mikalai Korbit, Adeyemi D. Adeoye, Alberto Bemporad, Mario Zanon, (参考訳) 一般化されたガウスニュートン(GN)ヘシアン近似と低ランク線形代数を組み合わせた確率的二階最適化アルゴリズムEGNを提案する。 ダンカン・ガットマン行列の同一性を利用して、ミニバッチの大きさの行列を分解してパラメータ更新を得る。 これは、ニューラルネットワークパラメータベクトルの次元がバッチサイズよりも数桁大きい大規模な機械学習問題に特に有利である。 さらに,線形探索や適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。 さらに、穏やかな仮定の下では、我々のアルゴリズムが線形速度で$\epsilon$-stationary pointに収束することを証明している。 最後に, 数値実験により, EGNは多種多様な教師付き・強化学習タスクにおいて, SGD, Adam, SGNオプティマイザの一般化性能を常に上回っているか, あるいはほぼ一致していることを示した。

We present EGN, a stochastic second-order optimization algorithm that combines the generalized Gauss-Newton (GN) Hessian approximation with low-rank linear algebra to compute the descent direction. Leveraging the Duncan-Guttman matrix identity, the parameter update is obtained by factorizing a matrix which has the size of the mini-batch. This is particularly advantageous for large-scale machine learning problems where the dimension of the neural network parameter vector is several orders of magnitude larger than the batch size. Additionally, we show how improvements such as line search, adaptive regularization, and momentum can be seamlessly added to EGN to further accelerate the algorithm. Moreover, under mild assumptions, we prove that our algorithm converges to an $\epsilon$-stationary point at a linear rate. Finally, our numerical experiments demonstrate that EGN consistently exceeds, or at most matches the generalization performance of well-tuned SGD, Adam, and SGN optimizers across various supervised and reinforcement learning tasks.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 画像分割のための量子ビット効率変動量子アルゴリズム

Qubit-efficient Variational Quantum Algorithms for Image Segmentation ( http://arxiv.org/abs/2405.14405v1 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel, (参考訳) 量子コンピューティングは、古典的なアルゴリズムの範囲を超えて、様々な計算タスクを変換することが期待されている。 本研究では,教師なし画像分割のための変分量子アルゴリズム (VQA) の適用について検討する。 具体的には、このタスクをグラフカット最適化問題として定式化し、パラメトリックゲート符号化(PGE)とアンシラバス符号化(ABE)と呼ばれる2つの確立された量子ビット効率のVQAを用いて最適セグメンテーションマスクを求める。 さらに,AABEと同じ回路アーキテクチャを利用するが,問題依存のコスト関数を採用する新しい手法である適応コスト符号化(ACE)を提案する。 合成画像上でPGE, ABE, ACEをベンチマークし, 品質とトレーニング性に着目した。 ACEは、パラメータ化量子回路のトレーニングにおいて、PGEやABEと比較して一貫して高速な収束を示す。 さらに、量子近似最適化アルゴリズム(QAOA)に対するこれらの手法のスケーラビリティに関する理論的解析を行い、特に画素数に対数的に依存する量子ビット数において、量子資源の大幅な削減を示す。 結果はACEの強みを検証し、その固有の限界と課題を同時に強調した。 これは量子化されたコンピュータビジョンのさらなる研究の道を開く。

Quantum computing is expected to transform a range of computational tasks beyond the reach of classical algorithms. In this work, we examine the application of variational quantum algorithms (VQAs) for unsupervised image segmentation to partition images into separate semantic regions. Specifically, we formulate the task as a graph cut optimization problem and employ two established qubit-efficient VQAs, which we refer to as Parametric Gate Encoding (PGE) and Ancilla Basis Encoding (ABE), to find the optimal segmentation mask. In addition, we propose Adaptive Cost Encoding (ACE), a new approach that leverages the same circuit architecture as ABE but adopts a problem-dependent cost function. We benchmark PGE, ABE and ACE on synthetically generated images, focusing on quality and trainability. ACE shows consistently faster convergence in training the parameterized quantum circuits in comparison to PGE and ABE. Furthermore, we provide a theoretical analysis of the scalability of these approaches against the Quantum Approximate Optimization Algorithm (QAOA), showing a significant cutback in the quantum resources, especially in the number of qubits that logarithmically depends on the number of pixels. The results validate the strengths of ACE, while concurrently highlighting its inherent limitations and challenges. This paves way for further research in quantum-enhanced computer vision.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# グラディエント・トランスフォーメーション:動的グラフニューラルネットワークの効率的かつモデルに依存しない学習を目指して

Gradient Transformation: Towards Efficient and Model-Agnostic Unlearning for Dynamic Graph Neural Networks ( http://arxiv.org/abs/2405.14407v1 )

ライセンス: Link先を確認
He Zhang, Bang Wu, Xiangwen Yang, Xingliang Yuan, Chengqi Zhang, Shirui Pan, (参考訳) グラフアンラーニングは、ユーザのプライバシ保護と、望ましくないデータによるネガティブな影響軽減に不可欠なツールとして登場した。 一方、動的グラフニューラルネットワーク(DGNN)の出現は、様々な現実世界のアプリケーション(例えば、交通予測)における空間的時間的変動をカプセル化した動的グラフから学習する優れた能力のために、大きな進歩を見せている。 DGNNの普及に伴い、動的グラフアンラーニングの実装を検討することが不可欠となる。 しかし、現在のグラフアンラーニング手法は、静的グラフで動作するGNN向けに設計されており、前処理方式や非現実的なリソース要求といった制限がある。 さらに、これらの手法のDGNNへの適応は、動的グラフの特異性のため、非自明な課題を提示する。 そこで本研究では,DGNNアンラーニングを実装するための効率的,効率的,モデルに依存しない,後処理手法を提案する。 具体的には、まず非学習要求を定義し、連続時間動的グラフの文脈で動的グラフアンラーニングを定式化する。 未学習データ,残データ,および対象DGNNモデルのロール分析を行った後,未学習要求を所望のパラメータ更新にマッピングするグラディエント変換法と損失関数を提案する。 6つの実世界のデータセットと最先端のDGNNバックボーンの評価は、その有効性(例えば、パフォーマンスの低下も明らか)と効率性(例えば、少なくとも7.23$\times$ Speed-up)のアウトパフォーマンスと、将来の未学習リクエスト(少なくとも32.59$\times$ Speed-up)を扱う潜在的アドバンテージ(例えば、少なくとも32.59$\times$ Speed-up)を示している。

Graph unlearning has emerged as an essential tool for safeguarding user privacy and mitigating the negative impacts of undesirable data. Meanwhile, the advent of dynamic graph neural networks (DGNNs) marks a significant advancement due to their superior capability in learning from dynamic graphs, which encapsulate spatial-temporal variations in diverse real-world applications (e.g., traffic forecasting). With the increasing prevalence of DGNNs, it becomes imperative to investigate the implementation of dynamic graph unlearning. However, current graph unlearning methodologies are designed for GNNs operating on static graphs and exhibit limitations including their serving in a pre-processing manner and impractical resource demands. Furthermore, the adaptation of these methods to DGNNs presents non-trivial challenges, owing to the distinctive nature of dynamic graphs. To this end, we propose an effective, efficient, model-agnostic, and post-processing method to implement DGNN unlearning. Specifically, we first define the unlearning requests and formulate dynamic graph unlearning in the context of continuous-time dynamic graphs. After conducting a role analysis on the unlearning data, the remaining data, and the target DGNN model, we propose a method called Gradient Transformation and a loss function to map the unlearning request to the desired parameter update. Evaluations on six real-world datasets and state-of-the-art DGNN backbones demonstrate its effectiveness (e.g., limited performance drop even obvious improvement) and efficiency (e.g., at most 7.23$\times$ speed-up) outperformance, and potential advantages in handling future unlearning requests (e.g., at most 32.59$\times$ speed-up).
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 基準符号を用いないオフライン自動署名検証による署名の共通オーサシップの検討

Investigating the Common Authorship of Signatures by Off-Line Automatic Signature Verification Without the Use of Reference Signatures ( http://arxiv.org/abs/2405.14409v1 )

ライセンス: Link先を確認
Moises Diaz, Miguel A. Ferrer, Soodamani Ramalingam, Richard Guest, (参考訳) 自動署名検証では、質問された標本は通常基準署名と比較される。 ライターに依存しないスキームでは、個々のシグナーモデルを構築するために複数の参照シグネチャが必要であるが、ライターに依存しないシステムでは、システムのモデルを開発するために複数のシグネチャからの参照シグネチャのセットが必要である。 本稿では,参照シグネチャが存在しない場合に,自動シグネチャ検証の問題に対処する。 私たちが探求するシナリオは、同じ著者や複数の署名者によって署名される可能性のある、署名のセットで構成されています。 そこで本研究では,オフラインシグネチャの集合の共通オーサシップを自動的に推定する3つの手法について論じる。 第1の方法はスコア類似度行列を開発し、重複したシグネチャの助けを借り、第2の方法は各シグネチャのペアに特徴距離行列を使用し、第2の方法は各シグネチャの複雑さに基づいた事前分類を導入する。 公開可能なシグネチャは実験で使用され、奨励的な結果が得られた。 提案手法により得られた成果のベースラインとして, 法医学的, 非法医学的ボランティアが行う視覚的チューリングテストを行った。

In automatic signature verification, questioned specimens are usually compared with reference signatures. In writer-dependent schemes, a number of reference signatures are required to build up the individual signer model while a writer-independent system requires a set of reference signatures from several signers to develop the model of the system. This paper addresses the problem of automatic signature verification when no reference signatures are available. The scenario we explore consists of a set of signatures, which could be signed by the same author or by multiple signers. As such, we discuss three methods which estimate automatically the common authorship of a set of off-line signatures. The first method develops a score similarity matrix, worked out with the assistance of duplicated signatures; the second uses a feature-distance matrix for each pair of signatures; and the last method introduces pre-classification based on the complexity of each signature. Publicly available signatures were used in the experiments, which gave encouraging results. As a baseline for the performance obtained by our approaches, we carried out a visual Turing Test where forensic and non-forensic human volunteers, carrying out the same task, performed less well than the automatic schemes.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 時間依存ハミルトニアンとテームによる作用素の幾何学

Time-dependent Hamiltonians and Geometry of Operators Generated by Them ( http://arxiv.org/abs/2405.14410v1 )

ライセンス: Link先を確認
Kunal Pal, Kuntal Pal, (参考訳) 量子力学系のハミルトニアンに付随する複雑性幾何学、特にハミルトニアンが明示的に時間依存である場合に得られる。 ニールセンの回路複雑性の幾何学的定式化を用いて、これらの時間依存ハミルトニアンに関する二変量コストをそれらのノルムを適切に正規化して計算し、よく知られた時間依存量子力学系のコストの解析式を得る。 具体的には、時間に依存する単位質量高調波発振器と、質量と周波数の両方が時間の関数である高調波発振器によって生じる時間進化を通じて演算子を得るための総コストとの間に等価性が存在することを示す。 これらの結果は、シャノンエントロピーのような他の情報理論量とコストの時間的変動を比較するような、スムーズなクエンチプロトコルなど、いくつかの例で説明されている。

We obtain the complexity geometry associated with the Hamiltonian of a quantum mechanical system, specifically in cases where the Hamiltonian is explicitly time-dependent. Using Nielsen's geometric formulation of circuit complexity, we calculate the bi-invariant cost associated with these time-dependent Hamiltonians by suitably regularising their norms and obtain analytical expressions of the costs for several well-known time-dependent quantum mechanical systems. Specifically, we show that an equivalence exists between the total costs of obtaining an operator through time evolution generated by a unit mass harmonic oscillator whose frequency depends on time, and a harmonic oscillator whose both mass and frequency are functions of time. These results are illustrated with several examples, including a specific smooth quench protocol where the comparison of time variation of the cost with other information theoretic quantities, such as the Shannon entropy, is discussed.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 動的ディジタル双対における説明可能な決定のための大規模言語モデル

Large Language Models for Explainable Decisions in Dynamic Digital Twins ( http://arxiv.org/abs/2405.14411v1 )

ライセンス: Link先を確認
Nan Zhang, Christian Vergara-Marcillo, Georgios Diamantopoulos, Jingran Shen, Nikos Tziritas, Rami Bahsoon, Georgios Theodoropoulos, (参考訳) 動的データ駆動型Digital Twins(DDT)は、インフォームドな意思決定を可能にし、基盤となるシステムのための最適化プラットフォームを提供する。 動的データ駆動アプリケーションシステム(DDDAS)の原則を活用することで、DDTはフィードバックループやモデル更新、自律的なシステムを含む意思決定のための計算モダリティを定式化することができる。 しかし、自律的な意思決定を理解するには、しばしば技術とドメイン固有の知識が必要である。 本稿では、大規模言語モデル(LLM)を用いてDDTの説明可能性プラットフォームを提供し、ドメイン固有の知識ベースを活用して、システムの意思決定に関する自然言語説明を生成する。 スマート農業の事例研究が紹介されている。

Dynamic data-driven Digital Twins (DDTs) can enable informed decision-making and provide an optimisation platform for the underlying system. By leveraging principles of Dynamic Data-Driven Applications Systems (DDDAS), DDTs can formulate computational modalities for feedback loops, model updates and decision-making, including autonomous ones. However, understanding autonomous decision-making often requires technical and domain-specific knowledge. This paper explores using large language models (LLMs) to provide an explainability platform for DDTs, generating natural language explanations of the system's decision-making by leveraging domain-specific knowledge bases. A case study from smart agriculture is presented.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 再帰的に定理を証明する

Proving Theorems Recursively ( http://arxiv.org/abs/2405.14414v1 )

ライセンス: Link先を確認
Haiming Wang, Huajian Xin, Zhengying Liu, Wenda Li, Yinya Huang, Jianqiao Lu, Zhicheng Yang, Jing Tang, Jian Yin, Zhenguo Li, Xiaodan Liang, (参考訳) 自動定理証明の最近の進歩は、言語モデルを利用して、ステップバイステップの証明生成によって拡張された検索空間を探索している。 しかし、このようなアプローチは通常、近視的ヒューリスティック(例えば、ログ確率や値関数のスコア)に基づいており、これは潜在的に最適かサブゴールを逸脱させ、より長い証明を見つけるのを妨げている。 この課題に対処するため、イザベル定理証明器において定理を再帰的かつレベル・バイ・レベルな方法で証明するPOETRY (PrOvE Theorems RecursivelY) を提案する。 従来のステップバイステップ法とは異なり、POETRYは各レベルで証明の検証可能なスケッチを検索し、現在のレベルの定理や予想の解決に焦点を当てている。 スケッチ内の中間予想の詳細な証明は、仮に「残念」と呼ばれるプレースホルダー戦術に置き換えられ、それらの証明をその後のレベルに延期する。 このアプローチにより、定理は第一レベルで全体定理を概説し、さらに深いレベルで中間予想を解くことで漸進的に取り組まれる。 実験は miniF2F と PISA のデータセット上で行われ、PETRY による最先端手法に対する性能向上が観察された。 miniF2F上のPOETRYは平均5.1%の成功率向上を達成する。 また,POETRYが検出した最大証明長は10~26。

Recent advances in automated theorem proving leverages language models to explore expanded search spaces by step-by-step proof generation. However, such approaches are usually based on short-sighted heuristics (e.g., log probability or value function scores) that potentially lead to suboptimal or even distracting subgoals, preventing us from finding longer proofs. To address this challenge, we propose POETRY (PrOvE Theorems RecursivelY), which proves theorems in a recursive, level-by-level manner in the Isabelle theorem prover. Unlike previous step-by-step methods, POETRY searches for a verifiable sketch of the proof at each level and focuses on solving the current level's theorem or conjecture. Detailed proofs of intermediate conjectures within the sketch are temporarily replaced by a placeholder tactic called sorry, deferring their proofs to subsequent levels. This approach allows the theorem to be tackled incrementally by outlining the overall theorem at the first level and then solving the intermediate conjectures at deeper levels. Experiments are conducted on the miniF2F and PISA datasets and significant performance gains are observed in our POETRY approach over state-of-the-art methods. POETRY on miniF2F achieves an average proving success rate improvement of 5.1%. Moreover, we observe a substantial increase in the maximum proof length found by POETRY, from 10 to 26.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 1次元単純高調波発振器(1d-SHO)による水素原子の摂動

The hydrogen atom perturbed by a 1-dimensional Simple Harmonic Oscillator (1d-SHO) potential ( http://arxiv.org/abs/2405.14417v1 )

ライセンス: Link先を確認
C. Santamarina Ríos, J. J. Saborido Silva, (参考訳) 定数1次元弱二次ポテンシャル$\lambda z^2$で摂動された水素原子は、全角運動量作用素の固有状態(結合基底)を用いて一階摂動理論で解かれる。 この結果の物理的応用は、例えば、微細構造効果よりも弱い二次ゼーマン効果の研究や、即時一般化されたファンデルワールス相互作用によって引き起こされる摂動の研究で見られる。

The hydrogen atom perturbed by a constant 1-dimensional weak quadratic potential $\lambda z^2$ is solved at first-order perturbation theory using the eigenstates of the total angular momentum operator - the coupled basis. Physical applications of this result could be found, for example, in the study of a quadratic Zeeman effect weaker than fine-structure effects, or in a perturbation caused by instantaneous generalised van der Waals interactions.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# リソース制約付きカメラトラップのためのモーションベース映像圧縮

Motion-based video compression for resource-constrained camera traps ( http://arxiv.org/abs/2405.14419v1 )

ライセンス: Link先を確認
Malika Nisal Ratnayake, Lex Gallon, Adel N. Toosi, Alan Dorin, (参考訳) フィールドキャプチャービデオは、動物の移動、意思決定、環境相互作用の時空間的側面の詳細な研究を可能にする。 しかし、大量生産されたハードウェア、ストレージ、処理、送信オーバヘッドによるデータキャプチャーの可利用性にもかかわらず、フィールド展開されたカメラトラップから高解像度のビデオを取得するためには、大きなハードルとなる。 したがって、効率的な圧縮アルゴリズムは、電力、ストレージ、帯域幅へのアクセスが制限されたカメラトラップによる監視に不可欠である。 本稿では,カメラトラップデバイス上で動作するための動画圧縮アルゴリズムを提案する。 本研究では,このアルゴリズムを昆虫・寄生虫運動追跡のケーススタディを用いて実装・テストした。 このアルゴリズムは、受粉監視に関連する動きを描写した画像領域のみを特定し、保存し、関連する行動分析に必要な情報を保持しながら、さまざまなテストデータセットに対して、データサイズを平均84%削減する。 本稿では,コンピュータビジョン対応低消費電力カメラトラップ装置の遠隔動物行動監視への応用について概説する。

Field-captured video allows for detailed studies of spatiotemporal aspects of animal locomotion, decision-making, and environmental interactions. However, despite the affordability of data capture with mass-produced hardware, storage, processing, and transmission overheads pose a significant hurdle to acquiring high-resolution video from field-deployed camera traps. Therefore, efficient compression algorithms are crucial for monitoring with camera traps that have limited access to power, storage, and bandwidth. In this article, we introduce a new motion analysis-based video compression algorithm designed to run on camera trap devices. We implemented and tested this algorithm using a case study of insect-pollinator motion tracking. The algorithm identifies and stores only image regions depicting motion relevant to pollination monitoring, reducing the overall data size by an average of 84% across a diverse set of test datasets while retaining the information necessary for relevant behavioural analysis. The methods outlined in this paper facilitate the broader application of computer vision-enabled, low-powered camera trap devices for remote, in-situ video-based animal motion monitoring.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# ML駆動科学における過剰最適化と出版バイアスの解消

Unraveling overoptimism and publication bias in ML-driven science ( http://arxiv.org/abs/2405.14422v1 )

ライセンス: Link先を確認
Pouria Saidi, Gautam Dasarathy, Visar Berisha, (参考訳) 機械学習(ML)は多くの分野にまたがって使われており、多くの領域で印象的な結果が報告されている。 しかし、近年の研究では、MLモデルの公開性能は過度に最適化され、真の正確さを反映しないことが多いことが示唆されている。 妥当性の懸念は、サンプルサイズと報告された精度の逆関係が、複数のドメインにわたるMLモデルで発見されたことによる。 これは、MLにおける学習曲線の理論とは対照的であり、サンプルサイズの増加とともに精度が向上または維持されることを期待する。 本稿では,データ漏洩とパブリッシュバイアスに着目し,MLベースの科学における過大評価精度レポートに寄与する要因について検討する。 本研究は,パラメトリック学習曲線と上記のバイアスを組み合わせた,観測精度の新たな確率モデルを提案する。 次に、このモデルに基づいて、観測データ中のこれらのバイアスを補正する推定器を構築する。 理論的および実証的な結果は、このフレームワークが観測された過度な最適化結果をもたらす基礎となる学習曲線を推定できることを示し、その結果、公表された結果の集合からより現実的なパフォーマンス評価を提供する。 本モデルは, 神経画像に基づく, 音声による様々な病態の分類を含む, デジタル健康文学における様々なメタ分析に応用する。 以上の結果から,各領域におけるMLに基づく予測の限界を推定する。

Machine Learning (ML) is increasingly used across many disciplines with impressive reported results across many domain areas. However, recent studies suggest that the published performance of ML models are often overoptimistic and not reflective of true accuracy were these models to be deployed. Validity concerns are underscored by findings of a concerning inverse relationship between sample size and reported accuracy in published ML models across several domains. This is in contrast with the theory of learning curves in ML, where we expect accuracy to improve or stay the same with increasing sample size. This paper investigates the factors contributing to overoptimistic accuracy reports in ML-based science, focusing on data leakage and publication bias. Our study introduces a novel stochastic model for observed accuracy, integrating parametric learning curves and the above biases. We then construct an estimator based on this model that corrects for these biases in observed data. Theoretical and empirical results demonstrate that this framework can estimate the underlying learning curve that gives rise to the observed overoptimistic results, thereby providing more realistic performance assessments of ML performance from a collection of published results. We apply the model to various meta-analyses in the digital health literature, including neuroimaging-based and speech-based classifications of several neurological conditions. Our results indicate prevalent overoptimism across these fields and we estimate the inherent limits of ML-based prediction in each domain.
翻訳日:2024-05-24 15:44:17 公開日:2024-05-23
# 予測も説明できる: より優れたニューラル潜水剤を選択するための数発の予測

When predict can also explain: few-shot prediction to select better neural latents ( http://arxiv.org/abs/2405.14425v1 )

ライセンス: Link先を確認
Kabir Dabholkar, Omri Barak, (参考訳) 潜在変数モデルは、観測された神経活動から基礎となるダイナミクスを推測する強力なツールとして機能する。 しかし、地上の真実データがないため、予測ベンチマークはしばしばプロキシとして使用される。 本研究では,広く使われている「コ・スムーシング」予測フレームワークの限界を明らかにするとともに,より正確な潜伏ダイナミクスを促進するために,改良された数ショット予測手法を提案する。 ヒドゥンマルコフモデルを用いた生徒-教師のセットアップを用いて、高次共生モデル空間は、その潜在表現の中に任意の外部ダイナミクスを持つモデルを包含できることを示した。 これを解決するために、我々は2次計量(co-smoothingの数ショットバージョン)を導入します。 これは、より少ないトライアルを使用して、遅延変数からデータ内のホールドアウトチャネルへの回帰を実行することを含む。 以上の結果から, 準最適コムースティングモデルでは, 数発のコムースティングにおいて, それらのダイナミックスを欠いた「最小」モデルと比較して, 外部ダイナミクスのモデルでは性能が低いことが示唆された。 また、この現象の起源に関する分析的な知見も提供する。 さらに,LFADSとSTNDTの2つの最先端手法を用いて,実際のニューラルネットワークに関する知見を検証した。 基底的真理がなければ、外部ダイナミクスを定量化するためのプロキシ測度を提案する。 すべてのモデルペアの潜伏変数を高共平滑化でクロスデコードすることにより、最小限の外部ダイナミクスを持つモデルを同定する。 数発の共平滑化性能とこの新しい測定値との相関関係を見いだす。 要約すると、我々は、より正確に基底的真理を反映した潜伏変数を得るように設計された新しい予測指標を提案し、潜伏力学の推論に顕著な改善をもたらす。

Latent variable models serve as powerful tools to infer underlying dynamics from observed neural activity. However, due to the absence of ground truth data, prediction benchmarks are often employed as proxies. In this study, we reveal the limitations of the widely-used 'co-smoothing' prediction framework and propose an improved few-shot prediction approach that encourages more accurate latent dynamics. Utilizing a student-teacher setup with Hidden Markov Models, we demonstrate that the high co-smoothing model space can encompass models with arbitrary extraneous dynamics within their latent representations. To address this, we introduce a secondary metric -- a few-shot version of co-smoothing. This involves performing regression from the latent variables to held-out channels in the data using fewer trials. Our results indicate that among models with near-optimal co-smoothing, those with extraneous dynamics underperform in the few-shot co-smoothing compared to 'minimal' models devoid of such dynamics. We also provide analytical insights into the origin of this phenomenon. We further validate our findings on real neural data using two state-of-the-art methods: LFADS and STNDT. In the absence of ground truth, we suggest a proxy measure to quantify extraneous dynamics. By cross-decoding the latent variables of all model pairs with high co-smoothing, we identify models with minimal extraneous dynamics. We find a correlation between few-shot co-smoothing performance and this new measure. In summary, we present a novel prediction metric designed to yield latent variables that more accurately reflect the ground truth, offering a significant improvement for latent dynamics inference.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# GLU系LLMにおける活性化スパイクによる量子化誤差の緩和

Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs ( http://arxiv.org/abs/2405.14428v1 )

ライセンス: Link先を確認
Jaewoo Yang, Hayun Kim, Younghoon Kim, (参考訳) 現代の大規模言語モデル(LLM)は、アーキテクチャの改善を通じて最先端のパフォーマンスを確立しているが、推論にはかなりの計算コストを必要とする。 推論コストを削減するために、後トレーニング量子化(PTQ)は、INT8のようなより低い精度でウェイトとアクティベーションを定量化する一般的なアプローチとなっている。 本稿では,LLaMA ファミリーなどの現代の LLM のフィードフォワードネットワーク (FFN) において広く利用されている GLU 変種における活性化量子化の課題を明らかにする。 問題は、GLU変種における過大な活性化によって生じる重大局所量子化誤差が、量子化LDMの性能を著しく低下させることである。 これらのアクティベーションをアクティベーションスパイクと表現する。 我々のさらなる観測は、活性化スパイクの体系的なパターンを提供する。 1) 特定の層, 特に初期層および後期層のFFNにおいて, 活性化スパイクが発生する。 2)アクティベーションスパイクは、シーケンス間で共有されるのではなく、いくつかのトークンに割り当てられる。 本研究では,量子化時のアクティベーションスパイクを分離するために,量子化フリーモジュール(QFeM)と量子化フリープリフィックス(QFeP)の2つの経験的手法を提案する。 LLaMA-2/3, Mistral, Mixtral, SOLAR, Gemma を含む最新の LLM の活性化量子化手法の有効性を検証した。 特に,本手法は,アクティベーションスパイクの制御に失敗した現在の緩和技術(例えば,SmoothQuant)を強化する。 コードはhttps://github.com/onnoo/activation-spikes.comで入手できる。

Modern large language models (LLMs) have established state-of-the-art performance through architectural improvements, but still require significant computational cost for inference. In an effort to reduce the inference cost, post-training quantization (PTQ) has become a popular approach, quantizing weights and activations to lower precision, such as INT8. In this paper, we reveal the challenges of activation quantization in GLU variants, which are widely used in feed-forward network (FFN) of modern LLMs, such as LLaMA family. The problem is that severe local quantization errors, caused by excessive magnitudes of activation in GLU variants, significantly degrade the performance of the quantized LLM. We denote these activations as activation spikes. Our further observations provide a systematic pattern of activation spikes: 1) The activation spikes occur in the FFN of specific layers, particularly in the early and late layers, 2) The activation spikes are dedicated to a couple of tokens, rather than being shared across a sequence. Based on our observations, we propose two empirical methods, Quantization-free Module (QFeM) and Quantization-free Prefix (QFeP), to isolate the activation spikes during quantization. Our extensive experiments validate the effectiveness of the proposed methods for the activation quantization, especially with coarse-grained scheme, of latest LLMs with GLU variants, including LLaMA-2/3, Mistral, Mixtral, SOLAR, and Gemma. In particular, our methods enhance the current alleviation techniques (e.g., SmoothQuant) that fail to control the activation spikes. Code is available at https://github.com/onnoo/activation-spikes.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# パイプフュージョン:拡散変圧器モデル推定のための変位パッチパイプライン並列性

PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models ( http://arxiv.org/abs/2405.14430v1 )

ライセンス: Link先を確認
Jiannan Wang, Jiarui Fang, Aoyu Li, PengCheng Yang, (参考訳) 本稿では,拡散トランスフォーマ(DiT)モデルを用いた高精細画像の生成において,高精細・高精細・高精細の課題に対処するために,マルチGPU並列処理を利用した新しいアプローチであるPipeFusionを紹介する。 PipeFusionはイメージをパッチに分割し、ネットワーク層を複数のデバイスに分散する。 通信と計算のオーケストレーションには、パイプラインを並列的に使用する。 隣接する拡散ステップからの入力間の高い類似性を活用することで、PipeFusionは、1ステップの古い特徴マップを再利用して現在のステップのコンテキストを提供することにより、パイプラインの待ち時間を排除します。 実験により,既存の DiT 並列手法がOOM を満たす場合の高解像度画像を生成することができることを示した。 パイプフュージョンは必要な通信帯域を大幅に削減し、よりコストのかかるNVLinkインフラではなく、PCIeを介して接続されたGPU上でDiT推論を可能にする。 私たちのコードはhttps://github.com/PipeFusion/PipeFusion.comで公開されています。

This paper introduces PipeFusion, a novel approach that harnesses multi-GPU parallelism to address the high computational and latency challenges of generating high-resolution images with diffusion transformers (DiT) models. PipeFusion splits images into patches and distributes the network layers across multiple devices. It employs a pipeline parallel manner to orchestrate communication and computations. By leveraging the high similarity between the input from adjacent diffusion steps, PipeFusion eliminates the waiting time in the pipeline by reusing the one-step stale feature maps to provide context for the current step. Our experiments demonstrate that it can generate higher image resolution where existing DiT parallel approaches meet OOM. PipeFusion significantly reduces the required communication bandwidth, enabling DiT inference to be hosted on GPUs connected via PCIe rather than the more costly NVLink infrastructure, which substantially lowers the overall operational expenses for serving DiT models. Our code is publicly available at https://github.com/PipeFusion/PipeFusion.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# RaFe: RAGのクエリ書き換えを改善するランク付けフィードバック

RaFe: Ranking Feedback Improves Query Rewriting for RAG ( http://arxiv.org/abs/2405.14431v1 )

ライセンス: Link先を確認
Shengyu Mao, Yong Jiang, Boli Chen, Xiao Li, Peng Wang, Xinyu Wang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang, (参考訳) LLM(Large Language Models)とRAG(Retrieval Augmentation Generation)の技術が進化するにつれて、クエリ書き換えはオープンドメインQAのような下流タスクのためのRAGシステムに広く組み込まれている。 多くの研究は、クエリ書き換えを改善するために、高価なLCMではなく、強化学習による小さなモデルの利用を試みた。 しかし、現在のメソッドではアノテーション(ラベル付きドキュメントやダウンストリームの回答など)やフィードバックのための事前設計された報酬が必要で、一般化が欠如しており、クエリの書き直しに適した信号が利用できない。 本稿では,アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワーク,我が社の提案する。 公開されているリランカを活用することで、私たちのフィードバックは書き直しの目的とよく一致します。 実験の結果,ベースラインよりも優れた性能が得られることがわかった。

As Large Language Models (LLMs) and Retrieval Augmentation Generation (RAG) techniques have evolved, query rewriting has been widely incorporated into the RAG system for downstream tasks like open-domain QA. Many works have attempted to utilize small models with reinforcement learning rather than costly LLMs to improve query rewriting. However, current methods require annotations (e.g., labeled relevant documents or downstream answers) or predesigned rewards for feedback, which lack generalization, and fail to utilize signals tailored for query rewriting. In this paper, we propose ours, a framework for training query rewriting models free of annotations. By leveraging a publicly available reranker, ours~provides feedback aligned well with the rewriting objectives. Experimental results demonstrate that ours~can obtain better performance than baselines.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# 分散学習における勾配によるロバスト性向上

Boosting Robustness by Clipping Gradients in Distributed Learning ( http://arxiv.org/abs/2405.14432v1 )

ライセンス: Link先を確認
Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Ahmed Jellouli, Geovani Rizk, John Stephan, (参考訳) ロバストな分散学習は、失業労働者の存在にもかかわらず、優れた学習性能を達成するために構成される。 その学習誤差は、標準的な不均一性モデルである$(G, B)$-gradient dissimilarityの下の境界と一致する。 モデル初期化を任意に行うと、SOTA Robust-DGDの学習保証をさらに改善することはできない。 しかし,モデル初期化時の作業者の勾配が有界であると仮定した場合,下限を回避し,学習性能を向上させることが可能であることを示す。 本研究では、適応ロバストクリッピング(ARC)と呼ばれる新しいスキームを用いて、労働者の勾配の事前集約クリッピングを提案する。 Robust-DGDにおけるARCの導入は、上記のモデル初期化に関する仮定の下で、学習を確実に改善する。 改善の要因は、耐え難い作業者の割合が故障点に近づいた場合に顕著である。 ARCは、元のアグリゲーションスキームのロバスト性を同時に保ちながら、検索空間を制限し、この改善を誘導する。 我々は、ベンチマーク画像分類タスクの徹底的な実験を通して、この理論的発見を検証する。

Robust distributed learning consists in achieving good learning performance despite the presence of misbehaving workers. State-of-the-art (SOTA) robust distributed gradient descent (Robust-DGD) methods, relying on robust aggregation, have been proven to be optimal: Their learning error matches the lower bound established under the standard heterogeneity model of $(G, B)$-gradient dissimilarity. The learning guarantee of SOTA Robust-DGD cannot be further improved when model initialization is done arbitrarily. However, we show that it is possible to circumvent the lower bound, and improve the learning performance, when the workers' gradients at model initialization are assumed to be bounded. We prove this by proposing pre-aggregation clipping of workers' gradients, using a novel scheme called adaptive robust clipping (ARC). Incorporating ARC in Robust-DGD provably improves the learning, under the aforementioned assumption on model initialization. The factor of improvement is prominent when the tolerable fraction of misbehaving workers approaches the breakdown point. ARC induces this improvement by constricting the search space, while preserving the robustness property of the original aggregation scheme at the same time. We validate this theoretical finding through exhaustive experiments on benchmark image classification tasks.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# LARS-VSA: 抽象ルールによる学習のためのベクトル記号型アーキテクチャ

LARS-VSA: A Vector Symbolic Architecture For Learning with Abstract Rules ( http://arxiv.org/abs/2405.14436v1 )

ライセンス: Link先を確認
Mohamed Mejri, Chandramouli Amarnath, Abhijit Chatterjee, (参考訳) 人間の認知は記号的推論において優れ、限られたサンプルから抽象的な規則を導出する。 これはシンボリックとコネクショナリストのアプローチを用いて説明され、両方のパラダイムを組み合わせたニューロシンボリックアーキテクチャの開発を刺激している。 並行して、最近の研究では、オブジェクトレベルの特徴を抽象ルールから分離し、限られた量のデータから学習できる「関係ボトルネック」の使用が提案されている。 強いが、構成性の呪いに弱いため、類似した特徴を持つオブジェクト表現が互いに干渉する傾向がある。 本稿では、そのような干渉に対して本質的に堅牢な超次元計算を活用して構成的アーキテクチャを構築する。 我々は「関係ボトルネック」戦略を高次元空間に適応させ、シンボルと関係表現の間の明示的なベクトル結合操作を取り入れた。 さらに,この関係表現を利用した新しい高次元アテンション機構を設計する。 我々のシステムは超次元空間における演算のオーバーヘッドが低いことの恩恵を受けており、高い精度や等しい精度を維持しつつ、様々なテストデータセットで評価した場合の最先端よりもはるかに効率的である。

Human cognition excels at symbolic reasoning, deducing abstract rules from limited samples. This has been explained using symbolic and connectionist approaches, inspiring the development of a neuro-symbolic architecture that combines both paradigms. In parallel, recent studies have proposed the use of a "relational bottleneck" that separates object-level features from abstract rules, allowing learning from limited amounts of data . While powerful, it is vulnerable to the curse of compositionality meaning that object representations with similar features tend to interfere with each other. In this paper, we leverage hyperdimensional computing, which is inherently robust to such interference to build a compositional architecture. We adapt the "relational bottleneck" strategy to a high-dimensional space, incorporating explicit vector binding operations between symbols and relational representations. Additionally, we design a novel high-dimensional attention mechanism that leverages this relational representation. Our system benefits from the low overhead of operations in hyperdimensional space, making it significantly more efficient than the state of the art when evaluated on a variety of test datasets, while maintaining higher or equal accuracy.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# デノイングオートエンコーダとコントラスト学習を組み合わせた微調整変圧器モデル

Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models ( http://arxiv.org/abs/2405.14437v1 )

ライセンス: Link先を確認
Alejo Lopez-Avila, Víctor Suárez-Paniagua, (参考訳) 近年,翻訳学習タスクに大規模な事前学習トランスフォーマーモデルを用いることで,自然言語処理(NLP)コミュニティにおけるフラッグシップの1つとなり,プロンプトベースやアダプタ,非教師なしアプローチとの組合せなど,さまざまな視点が生まれている。 本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。 まず,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ分布に適応させる。 第2に、コントラシブラーニング(CL)法によるクラスタリングにより、出力の表現空間を対応するクラスに調整する。 さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。 第3に、事前に定義されたカテゴリを分離するために微調整を適用する。 これらの異なるフェーズは、最終タスクを学ぶためにモデルに関連があり、補完的な知識を提供する。 これらの主張を実証するために、いくつかのデータセットに対して広範な実験結果を提供する。 さらに,この手法を他の手法と比較したアブレーション研究も含んでいる。

Recently, using large pretrained Transformer models for transfer learning tasks has evolved to the point where they have become one of the flagship trends in the Natural Language Processing (NLP) community, giving rise to various outlooks such as prompt-based, adapters or combinations with unsupervised approaches, among many others. This work proposes a 3 Phase technique to adjust a base model for a classification task. First, we adapt the model's signal to the data distribution by performing further training with a Denoising Autoencoder (DAE). Second, we adjust the representation space of the output to the corresponding classes by clustering through a Contrastive Learning (CL) method. In addition, we introduce a new data augmentation approach for Supervised Contrastive Learning to correct the unbalanced datasets. Third, we apply fine-tuning to delimit the predefined categories. These different phases provide relevant and complementary knowledge to the model to learn the final task. We supply extensive experimental results on several datasets to demonstrate these claims. Moreover, we include an ablation study and compare the proposed method against other ways of combining these techniques.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# LoRA-Ensemble: 自己注意ネットワークのための効率的な不確実性モデリング

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks ( http://arxiv.org/abs/2405.14438v1 )

ライセンス: Link先を確認
Michelle Halbheer, Dominik J. Mühlematter, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu, (参考訳) 現実世界の意思決定における多くの重要なタスクは、不確実性推定を校正した機械学習アルゴリズムに依存している。 しかし、近代的な手法は、しばしば過信で不合理な予測をもたらす。 様々なアプローチは、疫学的な不確実性として知られるモデル自体に関する不確実性を定量化するために、別々のモデルのアンサンブルを訓練することを含む。 明示的な実装では、アンサンブルアプローチは高い計算コストと高いメモリ要求を有する。 この課題は、トランスフォーマーのような最先端のニューラルネットワークにおいて明らかであり、単一のネットワークでさえすでに計算とメモリの面で要求されている。 その結果、暗黙のアンサンブルと呼ばれる別のアンサンブルメンバーを実際にインスタンス化することなく、アンサンブルモデルをエミュレートする努力がなされる。 本稿では,Low-Rank Adaptation (LoRA)に基づく自己アテンションネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。 LLMファインチューニングのために開発されたLoRAを,暗黙のアンサンブルアプローチに拡張する。 全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。 提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。

Numerous crucial tasks in real-world decision-making rely on machine learning algorithms with calibrated uncertainty estimates. However, modern methods often yield overconfident and uncalibrated predictions. Various approaches involve training an ensemble of separate models to quantify the uncertainty related to the model itself, known as epistemic uncertainty. In an explicit implementation, the ensemble approach has high computational cost and high memory requirements. This particular challenge is evident in state-of-the-art neural networks such as transformers, where even a single network is already demanding in terms of compute and memory. Consequently, efforts are made to emulate the ensemble model without actually instantiating separate ensemble members, referred to as implicit ensembling. We introduce LoRA-Ensemble, a parameter-efficient deep ensemble method for self-attention networks, which is based on Low-Rank Adaptation (LoRA). Initially developed for efficient LLM fine-tuning, we extend LoRA to an implicit ensembling approach. By employing a single pre-trained self-attention network with weights shared across all members, we train member-specific low-rank matrices for the attention projections. Our method exhibits superior calibration compared to explicit ensembles and achieves similar or better accuracy across various prediction tasks and datasets.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# Coherence-enhanced single-qubit thermometry out of equilibrium

Coherence-enhanced single-qubit thermometry out of equilibrium ( http://arxiv.org/abs/2405.14439v1 )

ライセンス: Link先を確認
Gonçalo Frazao, Marco Pezzutto, Yasser Omar, Emmanuel Zambrini Cruzeiro, Stefano Gherardini, (参考訳) 非平衡力学系における温度測定の気象限界を解析した。 量子温度計として用いられる有限次元量子系をマルコフ熱化力学を誘導する熱浴に接触させる。 量子温度計は、おそらくハミルトニアン基底の量子コヒーレンスを含む一般的な量子状態で初期化される。 量子フィッシャー情報によって量子化された温度計の感度は、初期状態における量子コヒーレンスによって向上していることを示す。 我々は、量子フィッシャー情報の最大化が熱化ダイナミクスの過渡期において有限時間に起こるキュービット温度計の特定の場合において、これを解析的に示す。 このような有限時間感度増強は漸近的に達成される感度よりも優れている。

The metrological limits of thermometry operated in nonequilibrium dynamical regimes are analyzed. We consider a finite-dimensional quantum system, employed as a quantum thermometer, in contact with a thermal bath inducing Markovian thermalization dynamics. The quantum thermometer is initialized in a generic quantum state, possibly including quantum coherence w.r.t. the Hamiltonian basis. We prove that the sensitivity of the thermometer, quantified by the quantum Fisher information, is enhanced by the quantum coherence in its initial state. We analytically show this in the specific case of qubit thermometers for which the maximization of the quantum Fisher information occurs at a finite time during the transient of the thermalization dynamics. Such a finite-time sensitivity enhancement can be better than the sensitivity that is achieved asymptotically.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# ベイズ適応校正と最適設計

Bayesian Adaptive Calibration and Optimal Design ( http://arxiv.org/abs/2405.14440v1 )

ライセンス: Link先を確認
Rafael Oliveira, Dino Sejdinovic, David Howard, Edwin Bonilla, (参考訳) 自然現象のコンピュータモデルを校正するプロセスは、多くのドメイン知識をシミュレーションに組み込んで、実際の観測に対して校正することができる物理科学の応用に不可欠である。 しかし、現在の機械学習のアプローチは、主に観測データで利用可能な一定の一連の設計に対してシミュレーションを再実行することに依存しており、設計空間全体にわたる情報的相関を無視し、大量のシミュレーションを必要とする可能性がある。 代わりに,ベイズ適応型実験設計の観点からキャリブレーションプロセスを検討し,バッチシーケンスプロセス内で最大情報化シミュレーションを実行するためのデータ効率アルゴリズムを提案する。 各ラウンドにおいて、予測情報ゲインの変動下限を最大化することにより、後部分布のパラメータと最適設計を共同で推定する。 シミュレータはガウス過程のサンプルとしてモデル化され、シミュレーションと観測データを未知の校正パラメータで相関させることができる。 合成問題と実データ問題にまたがる関連手法と比較して,本手法の利点を示す。

The process of calibrating computer models of natural phenomena is essential for applications in the physical sciences, where plenty of domain knowledge can be embedded into simulations and then calibrated against real observations. Current machine learning approaches, however, mostly rely on rerunning simulations over a fixed set of designs available in the observed data, potentially neglecting informative correlations across the design space and requiring a large amount of simulations. Instead, we consider the calibration process from the perspective of Bayesian adaptive experimental design and propose a data-efficient algorithm to run maximally informative simulations within a batch-sequential process. At each round, the algorithm jointly estimates the parameters of the posterior distribution and optimal designs by maximising a variational lower bound of the expected information gain. The simulator is modelled as a sample from a Gaussian process, which allows us to correlate simulations and observed data with the unknown calibration parameters. We show the benefits of our method when compared to related approaches across synthetic and real-data problems.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# DuEDL:スクリブル・スーパービジョン・メディカルイメージ・セグメンテーションのためのデュアルブランチ・エビデンシャル・ディープラーニング

DuEDL: Dual-Branch Evidential Deep Learning for Scribble-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2405.14444v1 )

ライセンス: Link先を確認
Yitong Yang, Xinli Xu, Haigen Hu, Haixia Long, Qianwei Zhou, Qiu Guan, (参考訳) 近年,スクリブルアノテーションによる医用画像のセグメンテーションが進展しているにもかかわらず,ほとんどのモデルではセグメンテーションの結果はロバストではなく,オープン環境では十分に一般化可能である。 Evidential Deep Learning-ing (EDL) は、予測の不確実性をモデル化し、医用画像のセグメンテーションの信頼性を向上させるための有望な解決策として最近提案されている。 しかし, EDL をスクリブル管理型医療インエイジセグメンテーションに直接適用することは, 精度と信頼性のトレードオフに直面している。 そこで我々はDuEDL(Dual-Branch Evi-dential Deep Learning)と呼ばれる新しいフレームワークを提案する。 まず、セグメンテーションネットワークのデコーダを2つの異なるブランチに変更し、2つのブランチの証拠を融合させて高品質な擬似ラベルを生成する。 フレームワークは、スクリブル監視学習に適応するために、モデルのジョイントトレーニングに部分的エビデンス損失と2枝一貫した損失を適用します。 提案法はACDCとMSCMRsegの2つの心的データセットを用いて検討した。 その結果,提案手法は精度を犠牲にすることなくモデルの信頼性と一般化能力を大幅に向上させることを示した。 コードはhttps://github.com/Gardnery/DuEDL.comで公開されている。

Despite the recent progress in medical image segmentation with scribble-based annotations, the segmentation results of most models are still not ro-bust and generalizable enough in open environments. Evidential deep learn-ing (EDL) has recently been proposed as a promising solution to model predictive uncertainty and improve the reliability of medical image segmen-tation. However directly applying EDL to scribble-supervised medical im-age segmentation faces a tradeoff between accuracy and reliability. To ad-dress the challenge, we propose a novel framework called Dual-Branch Evi-dential Deep Learning (DuEDL). Firstly, the decoder of the segmentation network is changed to two different branches, and the evidence of the two branches is fused to generate high-quality pseudo-labels. Then the frame-work applies partial evidence loss and two-branch consistent loss for joint training of the model to adapt to the scribble supervision learning. The pro-posed method was tested on two cardiac datasets: ACDC and MSCMRseg. The results show that our method significantly enhances the reliability and generalization ability of the model without sacrificing accuracy, outper-forming state-of-the-art baselines. The code is available at https://github.com/Gardnery/DuEDL.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# 体系的レビューにおける大規模言語モデルを用いたデータ抽出の探索 : 迅速な実現可能性の検討

Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study ( http://arxiv.org/abs/2405.14445v1 )

ライセンス: Link先を確認
Lena Schmidt, Kaitlyn Hair, Sergio Graziozi, Fiona Campbell, Claudia Kapp, Alireza Khanteymoori, Dawn Craig, Mark Engelbert, James Thomas, (参考訳) 本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。 LLMへの関心が最近高まっているにもかかわらず、LLMベースの自動化ツールの設計方法や、そのパフォーマンスを堅牢に評価する方法についてはまだ理解されていない。 2023年のエビデンス合成ハッカソンで、我々は2つの実現可能性研究を行った。 まず、ヒト臨床、動物、社会科学領域の研究から研究特性を自動的に抽出する。 本研究は,各カテゴリの即時開発に2回,評価に10回行った。 第2に、ELM-NLPデータセットにラベル付けされた参加者、介入、制御、成果(PICO)を予測するためにLLMを使用しました。 結果,動物では82%,動物では82%,社会科学では72%であった。 因果推論法と研究設計は、最も誤りの多いデータ抽出項目である。 PICO調査では,参加者と介入/コントロールは高い精度 (>80%) を示し,その結果はより困難であった。 BLEUやROUGEなどのスコアリング手法は限定的な値を示した。 LLMの予測の変動と応答品質の変化を観察した。 本稿では,システムレビュー自動化のためのデータ抽出の文脈におけるLCMの今後の評価のためのテンプレートを提案する。 以上の結果から,第2,第3のレビュアーなど LLM の利用には価値がある可能性が示唆された。 しかし、GPT-4のようなモデルをツールに統合する場合は注意が必要である。 LLMによって処理されるデータの種類ごとに、実用環境での安定性と信頼性に関するさらなる研究が保証される。

This paper describes a rapid feasibility study of using GPT-4, a large language model (LLM), to (semi)automate data extraction in systematic reviews. Despite the recent surge of interest in LLMs there is still a lack of understanding of how to design LLM-based automation tools and how to robustly evaluate their performance. During the 2023 Evidence Synthesis Hackathon we conducted two feasibility studies. Firstly, to automatically extract study characteristics from human clinical, animal, and social science domain studies. We used two studies from each category for prompt-development; and ten for evaluation. Secondly, we used the LLM to predict Participants, Interventions, Controls and Outcomes (PICOs) labelled within 100 abstracts in the EBM-NLP dataset. Overall, results indicated an accuracy of around 80%, with some variability between domains (82% for human clinical, 80% for animal, and 72% for studies of human social sciences). Causal inference methods and study design were the data extraction items with the most errors. In the PICO study, participants and intervention/control showed high accuracy (>80%), outcomes were more challenging. Evaluation was done manually; scoring methods such as BLEU and ROUGE showed limited value. We observed variability in the LLMs predictions and changes in response quality. This paper presents a template for future evaluations of LLMs in the context of data extraction for systematic review automation. Our results show that there might be value in using LLMs, for example as second or third reviewers. However, caution is advised when integrating models such as GPT-4 into tools. Further research on stability and reliability in practical settings is warranted for each type of data that is processed by the LLM.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# 言語モデルの国際的フェデレーショントレーニング

Worldwide Federated Training of Language Models ( http://arxiv.org/abs/2405.14446v1 )

ライセンス: Link先を確認
Alex Iacob, Lorenzo Sani, Bill Marino, Preslav Aleksandrov, Nicholas Donald Lane, (参考訳) 言語モデルのトレーニングが大量の計算と、潜在的に低品質、著作権付き、または機密性の高いデータから取り除かれた膨大なデータセットに依存していることは、実用的、法的、倫理的に問題となっている。 フェデレーテッド・ラーニングは、未解決のデータを自発的に協力組織から集めることによって、妥当な代替手段を提供する。 しかし、グローバルにスケールする場合、フェデレートされた学習は、言語データの固有の局所性を考慮しながら、異質な法律、セキュリティ、プライバシの体制をまたいで協調する必要がある。 我々は,各連盟が,その産業,運営権,競争環境などの要因を考慮に入れた自主性を有する,連合の連合に基づく世界規模の言語モデルトレーニング(Worldwide Federated Language Model Training~)システムを提案する。 WorldLMは、部分的なモデルローカライゼーションを通じて統計的不均一性の存在下で、サブフェデレーションがその構成要素からキー層を注意深く集約することで、そのような自律性を実現する。 さらに、残層埋め込みを介して、フェデレーション間で情報を適応的に共有することができる。 自然に異質なデータセット上での言語モデリングの評価は、WorldLMが標準フェデレーションを最大1.91\times$で上回り、完全なローカルモデルのパーソナライズされたパフォーマンスにアプローチし、これらの利点をプライバシー保護技術の下で維持していることを示している。

The reliance of language model training on massive amounts of computation and vast datasets scraped from potentially low-quality, copyrighted, or sensitive data has come into question practically, legally, and ethically. Federated learning provides a plausible alternative by enabling previously untapped data to be voluntarily gathered from collaborating organizations. However, when scaled globally, federated learning requires collaboration across heterogeneous legal, security, and privacy regimes while accounting for the inherent locality of language data; this further exacerbates the established challenge of federated statistical heterogeneity. We propose a Worldwide Federated Language Model Training~(WorldLM) system based on federations of federations, where each federation has the autonomy to account for factors such as its industry, operating jurisdiction, or competitive environment. WorldLM enables such autonomy in the presence of statistical heterogeneity via partial model localization by allowing sub-federations to attentively aggregate key layers from their constituents. Furthermore, it can adaptively share information across federations via residual layer embeddings. Evaluations of language modeling on naturally heterogeneous datasets show that WorldLM outperforms standard federations by up to $1.91\times$, approaches the personalized performance of fully local models, and maintains these advantages under privacy-enhancing techniques.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# Adversarial Schrödinger Bridge Matching

Adversarial Schrödinger Bridge Matching ( http://arxiv.org/abs/2405.14449v1 )

ライセンス: Link先を確認
Nikita Gushchin, Daniil Selikhanovych, Sergei Kholkin, Evgeny Burnaev, Alexander Korotin, (参考訳) Schr\"odinger Bridge (SB) 問題は、最適な輸送モデルと拡散モデルを組み合わせるための強力なフレームワークを提供する。 SB問題を解くための有望な最近のアプローチは、マルコフ的確率過程の相互射影と相互射影を交互に交互に行う反復マルコフ的フィッティング(IMF)手順である。 しかし、IMFの手続きによって構築されたモデルは、確率微分方程式の数値解法の多くのステップを使用するため、長い推論時間を持つ。 この制限に対処するため、確率過程の学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。 その大きな利点は、実際には、既に確立された逆生成モデリング技術であるDenoising Diffusion GAN (DD-GAN)を用いて自然に実装できることである。 D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。

The Schr\"odinger Bridge (SB) problem offers a powerful framework for combining optimal transport and diffusion models. A promising recent approach to solve the SB problem is the Iterative Markovian Fitting (IMF) procedure, which alternates between Markovian and reciprocal projections of continuous-time stochastic processes. However, the model built by the IMF procedure has a long inference time due to using many steps of numerical solvers for stochastic differential equations. To address this limitation, we propose a novel Discrete-time IMF (D-IMF) procedure in which learning of stochastic processes is replaced by learning just a few transition probabilities in discrete time. Its great advantage is that in practice it can be naturally implemented using the Denoising Diffusion GAN (DD-GAN), an already well-established adversarial generative modeling technique. We show that our D-IMF procedure can provide the same quality of unpaired domain translation as the IMF, using only several generation steps instead of hundreds.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# JointRF: Dynamic Neural Radiance Field Representation and Compressionのためのエンドツーエンド共同最適化

JointRF: End-to-End Joint Optimization for Dynamic Neural Radiance Field Representation and Compression ( http://arxiv.org/abs/2405.14452v1 )

ライセンス: Link先を確認
Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、フォトリアリスティックな静的なシーンに優れており、ボリュームビデオの促進に多くの取り組みを刺激している。 しかし、ボリュームビデオの表現に要する重要なデータのために、動的および長時間のレイディアンスフィールドのレンダリングは依然として困難である。 本論文では, 動的NeRF表現と圧縮を両立させる新しいエンドツーエンドのジョイント最適化手法であるJointRFを提案し, 従来手法と比較して, 品質と圧縮効率を著しく向上させる。 特に、JointRFは、動的NeRFを表すために、コンパクトな残留特徴格子と係数特徴格子を用いる。 この表現は、時間的冗長性を同時に減少させながら、品質を損なうことなく大きな動きを処理する。 また、空間的時間的冗長性をさらに低減するために、逐次的特徴圧縮サブネットワークを導入する。 最後に、表現と圧縮のサブネットは、JointRF内でエンドツーエンドにトレーニングされている。 大規模な実験により、JointRFは様々なデータセットにわたって優れた圧縮性能を達成できることが示された。

Neural Radiance Field (NeRF) excels in photo-realistically static scenes, inspiring numerous efforts to facilitate volumetric videos. However, rendering dynamic and long-sequence radiance fields remains challenging due to the significant data required to represent volumetric videos. In this paper, we propose a novel end-to-end joint optimization scheme of dynamic NeRF representation and compression, called JointRF, thus achieving significantly improved quality and compression efficiency against the previous methods. Specifically, JointRF employs a compact residual feature grid and a coefficient feature grid to represent the dynamic NeRF. This representation handles large motions without compromising quality while concurrently diminishing temporal redundancy. We also introduce a sequential feature compression subnetwork to further reduce spatial-temporal redundancy. Finally, the representation and compression subnetworks are end-to-end trained combined within the JointRF. Extensive experiments demonstrate that JointRF can achieve superior compression performance across various datasets.
翻訳日:2024-05-24 15:34:33 公開日:2024-05-23
# 光コヒーレンストモグラフィー画像における分解能非依存性自己アテンション機構によるドメイン特異的増強による脈絡膜セグメンテーションの改善

Domain-specific augmentations with resolution agnostic self-attention mechanism improves choroid segmentation in optical coherence tomography images ( http://arxiv.org/abs/2405.14453v1 )

ライセンス: Link先を確認
Jamie Burke, Justin Engelmann, Charlene Hamid, Diana Moukaddem, Dan Pugh, Neeraj Dhaun, Amos Storkey, Niall Strang, Stuart King, Tom MacGillivray, Miguel O. Bernabeu, Ian J. C. MacCormick, (参考訳) 脈絡膜は眼の重要な血管層であり、網膜光受容体に酸素を供給する。 非侵襲的拡張深度画像光コヒーレンス断層撮影(EDI-OCT)は、最近、脈絡膜へのアクセスと可視化を改善し、眼科およびより広い全身健康における新しい血管バイオマーカーの発見にエキサイティングなフロンティアとなった。 しかし、コロイドを測定するための現在の方法は、オープンソースではない複数の独立した半自動および深層学習ベースのアルゴリズムを使う必要があることが多い。 これまでChoroidalyzerは、385の目から5,600 OCTのBスキャンで訓練されたオープンソースの完全自動ディープラーニングメソッドで、EDI-OCT画像のコロイドを完全に分割して定量化するために開発され、これらの問題に対処した。 同じデータセットを用いて,コロイドセグメンテーション(REACH)のためのロバスト,分解能,高効率アテンションに基づくネットワークを提案する。 REACHNetは、一般化を促進するためにドメイン固有のデータ拡張によるマルチレゾリューショントレーニングを活用し、Choroidalyzerの以前のネットワーク(標準のラップトップCPUでは4画像/s vs.75画像/s)よりも高速な解像度非依存の自己アテンションを持つ軽量アーキテクチャを使用するが、その改良されたハイパーパラメータ構成とモデルトレーニングパイプラインのために、コロイド領域、血管、葉っぱ(領域 0.9769 vs. 0.9749、船 0.8612 vs. 0.8192、船 0.8243 vs. 0.3783)のセグメンテーションのパフォーマンスが向上している。 REACHNetはChoroidalyzerと共にオリジナルのモデルのドロップイン代替として使用することができ、公開時に利用可能になる予定である。

The choroid is a key vascular layer of the eye, supplying oxygen to the retinal photoreceptors. Non-invasive enhanced depth imaging optical coherence tomography (EDI-OCT) has recently improved access and visualisation of the choroid, making it an exciting frontier for discovering novel vascular biomarkers in ophthalmology and wider systemic health. However, current methods to measure the choroid often require use of multiple, independent semi-automatic and deep learning-based algorithms which are not made open-source. Previously, Choroidalyzer -- an open-source, fully automatic deep learning method trained on 5,600 OCT B-scans from 385 eyes -- was developed to fully segment and quantify the choroid in EDI-OCT images, thus addressing these issues. Using the same dataset, we propose a Robust, Resolution-agnostic and Efficient Attention-based network for CHoroid segmentation (REACH). REACHNet leverages multi-resolution training with domain-specific data augmentation to promote generalisation, and uses a lightweight architecture with resolution-agnostic self-attention which is not only faster than Choroidalyzer's previous network (4 images/s vs. 2.75 images/s on a standard laptop CPU), but has greater performance for segmenting the choroid region, vessels and fovea (Dice coefficient for region 0.9769 vs. 0.9749, vessels 0.8612 vs. 0.8192 and fovea 0.8243 vs. 0.3783) due to its improved hyperparameter configuration and model training pipeline. REACHNet can be used with Choroidalyzer as a drop-in replacement for the original model and will be made available upon publication.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# TIGER:テキストで指示された3Dガウス検索とコヒーレント編集

TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing ( http://arxiv.org/abs/2405.14455v1 )

ライセンス: Link先を確認
Teng Xu, Jiamin Chen, Peng Chen, Youjia Zhang, Junqing Yu, Wei Yang, (参考訳) シーン内のオブジェクトの編集は、コンピュータビジョンとグラフィックスにおける幅広いアプリケーションで必要とされる重要な機能である。 3Dガウス撮影(3DGS)がシーン表現のフロンティアとして出現するにつれ、3Dガウスシーンの効果的な修正がますます重要になっている。 このプロセスでは、ターゲットオブジェクトを正確に検索し、次に命令に基づいて修正を実行する。 一部では利用可能だが、既存のテクニックは主に検索のためにガウシアンにスパースセマンティクスを組み込んでおり、編集に反復的なデータセット更新パラダイムに依存しており、過度なスムース化や一貫性の問題を招いている。 そこで本研究では,テキストによる3次元ガウス検索と編集のための体系的アプローチであるTIGERを提案する。 3Dガウシアンのためのトップダウン言語基盤アプローチとは対照的に、我々はボトムアップ言語集約戦略を採用し、オープン語彙検索をサポートする高密度言語を組み込んだ3Dガウシアンを生成する。 本稿では2次元画像編集拡散モデルと多視点拡散モデルとを集約したコヒーレントスコア蒸留(CSD)を提案する。 様々な実験において、我々のTIGERは以前の作業よりも一貫性があり、リアルな編集ができることを示した。

Editing objects within a scene is a critical functionality required across a broad spectrum of applications in computer vision and graphics. As 3D Gaussian Splatting (3DGS) emerges as a frontier in scene representation, the effective modification of 3D Gaussian scenes has become increasingly vital. This process entails accurately retrieve the target objects and subsequently performing modifications based on instructions. Though available in pieces, existing techniques mainly embed sparse semantics into Gaussians for retrieval, and rely on an iterative dataset update paradigm for editing, leading to over-smoothing or inconsistency issues. To this end, this paper proposes a systematic approach, namely TIGER, for coherent text-instructed 3D Gaussian retrieval and editing. In contrast to the top-down language grounding approach for 3D Gaussians, we adopt a bottom-up language aggregation strategy to generate a denser language embedded 3D Gaussians that supports open-vocabulary retrieval. To overcome the over-smoothing and inconsistency issues in editing, we propose a Coherent Score Distillation (CSD) that aggregates a 2D image editing diffusion model and a multi-view diffusion model for score distillation, producing multi-view consistent editing with much finer details. In various experiments, we demonstrate that our TIGER is able to accomplish more consistent and realistic edits than prior work.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# 隠れ状態脅威モデルにおけるDP-SGDの高次プライバシー監査

Tighter Privacy Auditing of DP-SGD in the Hidden State Threat Model ( http://arxiv.org/abs/2405.14457v1 )

ライセンス: Link先を確認
Tudor Cebere, Aurélien Bellet, Nicolas Papernot, (参考訳) マシンラーニングモデルは、DP-SGDなどの微分プライベートオプティマイザを通じて、正式なプライバシ保証をトレーニングすることができる。 本研究では,最終モデルのみにアクセスする場合,すなわち中間モデル更新がリリースされない場合のプライバシ保証について検討する。 既存の文献では、この隠れ状態脅威モデルは、経験的プライバシ監査によって提供される下限と、プライバシ会計によって提供される理論上限との間に大きなギャップを示す。 このギャップに対処するため、中間モデルにアクセスすることなく最終モデルのプライバシー損失を最大化するために、勾配シーケンスを利用する敵によるこの脅威モデルの評価を提案する。 我々は、この手法が隠れ状態モデルの監査に先行する試みよりいかに優れているかを実験的に示す。 最適化の各ステップで製作された勾配が挿入されると、最終的なモデルのみのリリースはプライバシーを増幅せず、新たなネガティブな結果をもたらすことが示唆される。 一方,すべてのステップにおいて工芸的な勾配が挿入されない場合,一般の凸法ではプライバシー増幅現象が出現する(凸法よりも弱い)という強い証拠が示され,既存のプライバシー上限が改善される可能性が示唆された。

Machine learning models can be trained with formal privacy guarantees via differentially private optimizers such as DP-SGD. In this work, we study such privacy guarantees when the adversary only accesses the final model, i.e., intermediate model updates are not released. In the existing literature, this hidden state threat model exhibits a significant gap between the lower bound provided by empirical privacy auditing and the theoretical upper bound provided by privacy accounting. To challenge this gap, we propose to audit this threat model with adversaries that craft a gradient sequence to maximize the privacy loss of the final model without accessing intermediate models. We demonstrate experimentally how this approach consistently outperforms prior attempts at auditing the hidden state model. When the crafted gradient is inserted at every optimization step, our results imply that releasing only the final model does not amplify privacy, providing a novel negative result. On the other hand, when the crafted gradient is not inserted at every step, we show strong evidence that a privacy amplification phenomenon emerges in the general non-convex setting (albeit weaker than in convex regimes), suggesting that existing privacy upper bounds can be improved.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# YOLOv10: リアルタイムのエンドツーエンドオブジェクト検出

YOLOv10: Real-Time End-to-End Object Detection ( http://arxiv.org/abs/2405.14458v1 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, Guiguang Ding, (参考訳) 過去数年間、計算コストと検出性能の効果的なバランスのため、リアルタイムオブジェクト検出の分野では、YOLOが主流のパラダイムとして現れてきた。 研究者は、YOLOのためのアーキテクチャ設計、最適化の目標、データ拡張戦略などについて調査し、顕著な進歩を遂げた。 しかし、後処理のハマーに対する非最大抑圧(NMS)への依存は、YOLOのエンドツーエンドデプロイメントに影響を与え、推論遅延に悪影響を及ぼす。 さらに、YOLOの様々なコンポーネントの設計には包括的かつ徹底的な検査が欠如しており、計算の冗長性が顕著になり、モデルの能力が制限される。 性能改善の可能性を秘め、最適化の効率を低下させる。 本研究では, 後処理とモデルアーキテクチャの両方から, YOLOの性能・効率境界をさらに進めることを目的としている。 この目的のために、まず、競合性能と低推論遅延を同時にもたらす、NMSのないYOLOのトレーニングに一貫した双対代入を提示する。 さらに, YOLOの総合的効率-精度モデル設計戦略についても紹介する。 計算オーバーヘッドを大幅に低減し,能力の向上を図るため,効率と精度の両面からYOLOの様々なコンポーネントを包括的に最適化する。 我々の取り組みの結果は、YOLOv10と呼ばれるリアルタイムのエンドツーエンドオブジェクト検出のためのYOLOシリーズの新世代である。 大規模な実験により、YOLOv10は様々なモデルスケールで最先端のパフォーマンスと効率を達成することが示された。 例えば、我々のYOLOv10-Sは、同様のAP on COCOの下でRT-DETR-R18よりも1.8$\times$速いが、パラメータやFLOPは2.8$\times$小さい。 YOLOv9-Cと比較すると、YOLOv10-Bは46倍のレイテンシと25倍のパラメータを持つ。

Over the past years, YOLOs have emerged as the predominant paradigm in the field of real-time object detection owing to their effective balance between computational cost and detection performance. Researchers have explored the architectural designs, optimization objectives, data augmentation strategies, and others for YOLOs, achieving notable progress. However, the reliance on the non-maximum suppression (NMS) for post-processing hampers the end-to-end deployment of YOLOs and adversely impacts the inference latency. Besides, the design of various components in YOLOs lacks the comprehensive and thorough inspection, resulting in noticeable computational redundancy and limiting the model's capability. It renders the suboptimal efficiency, along with considerable potential for performance improvements. In this work, we aim to further advance the performance-efficiency boundary of YOLOs from both the post-processing and model architecture. To this end, we first present the consistent dual assignments for NMS-free training of YOLOs, which brings competitive performance and low inference latency simultaneously. Moreover, we introduce the holistic efficiency-accuracy driven model design strategy for YOLOs. We comprehensively optimize various components of YOLOs from both efficiency and accuracy perspectives, which greatly reduces the computational overhead and enhances the capability. The outcome of our effort is a new generation of YOLO series for real-time end-to-end object detection, dubbed YOLOv10. Extensive experiments show that YOLOv10 achieves state-of-the-art performance and efficiency across various model scales. For example, our YOLOv10-S is 1.8$\times$ faster than RT-DETR-R18 under the similar AP on COCO, meanwhile enjoying 2.8$\times$ smaller number of parameters and FLOPs. Compared with YOLOv9-C, YOLOv10-B has 46\% less latency and 25\% fewer parameters for the same performance.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# 半離散最適輸送:確率的勾配勾配と適応的エントロピー正規化による最小値推定

Semi-Discrete Optimal Transport: Nearly Minimax Estimation With Stochastic Gradient Descent and Adaptive Entropic Regularization ( http://arxiv.org/abs/2405.14459v1 )

ライセンス: Link先を確認
Ferdinand Genans-Boiteux, Antoine Godichon-Baggioni, François-Xavier Vialard, Olivier Wintenberger, (参考訳) OT(Optimal Transport)ベースの距離は、確率測度を比較し、OTマップを使用してそれらを操作するための機械学習の強力なツールである。 この分野では、関心の集合は半離散 OT であり、ソース測度 $\mu$ は連続であり、ターゲット $\nu$ は離散である。 最近の研究は、OT写像のミニマックスレートが$\mathcal{O}(t^{-1/2})$であることを示した。 オープンな問題は、離散測度 $\nu$ の完全な情報が知られているとき(一サンプルの設定)、より良い収束率が達成できるかどうかである。 この研究では、我々はこの質問に対して肯定的に答える。 i) ラゲールセル推定と密度支持推定の類似性を用いて, OTマップに対する$\mathcal{O}(t^{-1})$ローバウンドレートを証明し, (II)適応的なエントロピー正規化と平均加速度を持つ確率勾配 Descent (SGD) アルゴリズムを提案する。 非正則パラメトリック問題の特徴である所望の速さをほぼ達成するために、サンプル数に応じて減少するエントロピー正規化スキームを設計する。 アルゴリズムのもうひとつの重要なステップは、正規化OT問題の局所的な強凸性を活用するプロジェクションステップを使用することである。 我々の収束解析は、OT半双対の特異性によって補完されるオンライン凸最適化と確率勾配手法を統合している。 さらに,バニラSGDほど計算的かつメモリ効率が良く,数値実験において,我々の理論の異常な高速化を実現している。

Optimal Transport (OT) based distances are powerful tools for machine learning to compare probability measures and manipulate them using OT maps. In this field, a setting of interest is semi-discrete OT, where the source measure $\mu$ is continuous, while the target $\nu$ is discrete. Recent works have shown that the minimax rate for the OT map is $\mathcal{O}(t^{-1/2})$ when using $t$ i.i.d. subsamples from each measure (two-sample setting). An open question is whether a better convergence rate can be achieved when the full information of the discrete measure $\nu$ is known (one-sample setting). In this work, we answer positively to this question by (i) proving an $\mathcal{O}(t^{-1})$ lower bound rate for the OT map, using the similarity between Laguerre cells estimation and density support estimation, and (ii) proposing a Stochastic Gradient Descent (SGD) algorithm with adaptive entropic regularization and averaging acceleration. To nearly achieve the desired fast rate, characteristic of non-regular parametric problems, we design an entropic regularization scheme decreasing with the number of samples. Another key step in our algorithm consists of using a projection step that permits to leverage the local strong convexity of the regularized OT problem. Our convergence analysis integrates online convex optimization and stochastic gradient techniques, complemented by the specificities of the OT semi-dual. Moreover, while being as computationally and memory efficient as vanilla SGD, our algorithm achieves the unusual fast rates of our theory in numerical experiments.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# 単一及び二重光障壁による超低温原子量子トンネル

Ultra-cold atoms quantum tunneling through single and double optical barriers ( http://arxiv.org/abs/2405.14466v1 )

ライセンス: Link先を確認
Roy Eid, Alfred Hammond, Lucas Lavoine, Thomas Bourdel, (参考訳) ボース・アインシュタイン凝縮トンネルに関する教科書実験を行った。 特に、原子のデブロリー波長がバリア幅よりも大きい量子散乱系において、単一光学障壁の原子トンネルを実証する。 このようなビームスプリッターは原子間干渉法に利用することができ、原子ファブリ-P{\'e} の空洞を形成する2つの障壁の場合について検討する。 技術的には、相互作用のない39Kボース-アインシュタイン凝縮体を使用することにより原子の速度が減少する。 潜在的な障壁は光学的に生成され、その幅はデジタルマイクロミラーデバイスによって調整できる。 さらに,我々の散乱実験により,バリア光学系の光収差のその場評価が可能となった。

We realize textbook experiments on Bose-Einstein condensate tunnelling through thin repulsive potential barriers. In particular, we demonstrate atom tunnelling though a single optical barrier in the quantum scattering regime where the De Broglie wavelength of the atoms is larger than the barrier width. Such a beam splitter can be used for atom interferometry and we study the case of two barriers creating an atomic Fabry-P{\'e}rot cavity. Technically, the velocity of the atoms is reduced thanks to the use of a 39K Bose-Einstein condensate with no interactions. The potential barriers are created optically and their width is tunable thanks to the use of a digital micro-mirror device. In addition, our scattering experiments enable in-situ characterization of the optical aberrations of the barrier optical system.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# Segformer++: 高分解能セマンティックセマンティックセマンティックセマンティクスのための効率的なトークンマージ戦略

Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation ( http://arxiv.org/abs/2405.14467v1 )

ライセンス: Link先を確認
Daniel Kienzle, Marco Kantonis, Robin Schön, Rainer Lienhart, (参考訳) 高解像度画像のセマンティックセグメンテーションにトランスフォーマーアーキテクチャを用いることは、トークン数における注意の2次計算の複雑さによって妨げられる。 この課題の解決策は、トークンマージによってトークンの数を減らし、画像分類タスクの推論速度、トレーニング効率、メモリ使用率を著しく向上させたことである。 本稿では,Segformerアーキテクチャのフレームワーク内でさまざまなトークンマージ戦略を検討し,複数のセマンティックセグメンテーションと人間のポーズ推定データセットの実験を行う。 特に,モデル再トレーニングなしでは,例えば,mIoU性能を維持しながら,Cityscapesデータセット上で61%の推論高速化を実現している。 そこで本研究では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。

Utilizing transformer architectures for semantic segmentation of high-resolution images is hindered by the attention's quadratic computational complexity in the number of tokens. A solution to this challenge involves decreasing the number of tokens through token merging, which has exhibited remarkable enhancements in inference speed, training efficiency, and memory utilization for image classification tasks. In this paper, we explore various token merging strategies within the framework of the Segformer architecture and perform experiments on multiple semantic segmentation and human pose estimation datasets. Notably, without model re-training, we, for example, achieve an inference acceleration of 61% on the Cityscapes dataset while maintaining the mIoU performance. Consequently, this paper facilitates the deployment of transformer-based architectures on resource-constrained devices and in real-time applications.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# ニューラル崩壊と低ランクバイアス:ディープ・ニューラル崩壊は本当に最適か?

Neural Collapse versus Low-rank Bias: Is Deep Neural Collapse Really Optimal? ( http://arxiv.org/abs/2405.14468v1 )

ライセンス: Link先を確認
Peter Súkeník, Marco Mondelli, Christoph Lampert, (参考訳) ディープ・ニューラル・ネットワーク(DNN)は、その最終層であるニューラル・崩壊(NC)に驚くべき構造を示す。 しかし、既存の理論的結果は、線形モデル、2つの層または二項分類という特別なケースに制限されている。 対照的に、多クラス分類における任意の深さの非線形モデルに焦点をあて、驚くべき定性的シフトを明らかにする。 2つのレイヤや2つのクラスを超えるとすぐに、DNCは、崩壊の分析の標準的な理論フレームワークであるDuFM(Deep UnConstrained Feature Model)に対して最適であるのをやめます。 主な原因は多層正規化スキームの低ランクバイアスであり、このバイアスは神経崩壊よりもさらに低いランクの最適解をもたらす。 我々は, DUFMと実データの両方の実験により, 勾配降下による溶液中の低ランク構造の出現を示す理論的な知見を支持した。

Deep neural networks (DNNs) exhibit a surprising structure in their final layer known as neural collapse (NC), and a growing body of works has currently investigated the propagation of neural collapse to earlier layers of DNNs -- a phenomenon called deep neural collapse (DNC). However, existing theoretical results are restricted to special cases: linear models, only two layers or binary classification. In contrast, we focus on non-linear models of arbitrary depth in multi-class classification and reveal a surprising qualitative shift. As soon as we go beyond two layers or two classes, DNC stops being optimal for the deep unconstrained features model (DUFM) -- the standard theoretical framework for the analysis of collapse. The main culprit is a low-rank bias of multi-layer regularization schemes: this bias leads to optimal solutions of even lower rank than the neural collapse. We support our theoretical findings with experiments on both DUFM and real data, which show the emergence of the low-rank structure in the solution found by gradient descent.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# ハミルトンアルゴリズムの一般化

Generalization of Hamiltonian algorithms ( http://arxiv.org/abs/2405.14469v1 )

ライセンス: Link先を確認
Andreas Maurer, (参考訳) 本稿では,確率的学習アルゴリズムのクラスに対する一般化結果を示す。 この方法はアルゴリズムが任意のa-プリオリ測度に対して絶対連続分布を生成し、ラドン・ニコディム微分が亜ガウス濃度を持つときに適用される。 Gibbsアルゴリズムと安定した決定論的アルゴリズムのランダム化、およびデータ依存の先行値を持つPAC-Bayesian境界に対する応用である。

The paper proves generalization results for a class of stochastic learning algorithms. The method applies whenever the algorithm generates an absolutely continuous distribution relative to some a-priori measure and the Radon Nikodym derivative has subgaussian concentration. Applications are bounds for the Gibbs algorithm and randomizations of stable deterministic algorithms as well as PAC-Bayesian bounds with data-dependent priors.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# どの情報が重要か : 部分的情報分解による人文多文書要約の分離

Which Information Matters? Dissecting Human-written Multi-document Summaries with Partial Information Decomposition ( http://arxiv.org/abs/2405.14470v1 )

ライセンス: Link先を確認
Laura Mascarell, Yan L'Homme, Majed El Helou, (参考訳) 高品質な要約の性質を理解することは,多文書要約の性能向上に不可欠である。 本稿では,すべての資料から得られる相互情報を結合,冗長性,シナジー,ユニークな情報に分解する部分的情報分解を用いて人文要約を特徴付ける手法を提案する。 異なるMDSデータセットに対する実証分析では、ソース数と要約への貢献との間に直接依存があることが示されている。

Understanding the nature of high-quality summaries is crucial to further improve the performance of multi-document summarization. We propose an approach to characterize human-written summaries using partial information decomposition, which decomposes the mutual information provided by all source documents into union, redundancy, synergy, and unique information. Our empirical analysis on different MDS datasets shows that there is a direct dependency between the number of sources and their contribution to the summary.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# ポアソン変分オートエンコーダ

Poisson Variational Autoencoder ( http://arxiv.org/abs/2405.14473v1 )

ライセンス: Link先を確認
Hadi Vafaii, Dekel Galor, Jacob L. Yates, (参考訳) 変異オートエンコーダ(VAE)は、ベイジアン推論を用いて感覚入力を解釈し、腹側(Higgins et al , 2021)と背側(Vafaii et al , 2023)の経路を横断する霊長類の視覚で起こるミラーリング過程を行う。 彼らの成功にもかかわらず、伝統的なVAEは、生物学的ニューロンの離散的な性質から著しく逸脱する連続潜伏変数に依存している。 そこで我々は,予測符号化の原理と,インプットを離散スパイク数にエンコードするVAEを組み合わせた新しいアーキテクチャであるPoisson VAE(P-VAE)を開発した。 Poissonで分散された潜伏変数と予測符号化を組み合わせることで、モデル損失関数のメタボリックコスト項を導入し、スパース符号化との関係を実証的に検証する。 さらに、学習した表現の幾何学を解析し、P-VAEを代替のVAEモデルと対比する。 P-VAEは比較的高い次元で入力を符号化し、より優れた(5倍)サンプル効率で下流分類タスクにおけるカテゴリの線形分離を容易にする。 我々の研究は、脳のような感覚処理を研究するための解釈可能な計算フレームワークを提供し、推論プロセスとしての知覚をより深く理解するための道を開く。

Variational autoencoders (VAE) employ Bayesian inference to interpret sensory inputs, mirroring processes that occur in primate vision across both ventral (Higgins et al., 2021) and dorsal (Vafaii et al., 2023) pathways. Despite their success, traditional VAEs rely on continuous latent variables, which deviates sharply from the discrete nature of biological neurons. Here, we developed the Poisson VAE (P-VAE), a novel architecture that combines principles of predictive coding with a VAE that encodes inputs into discrete spike counts. Combining Poisson-distributed latent variables with predictive coding introduces a metabolic cost term in the model loss function, suggesting a relationship with sparse coding which we verify empirically. Additionally, we analyze the geometry of learned representations, contrasting the P-VAE to alternative VAE models. We find that the P-VAEencodes its inputs in relatively higher dimensions, facilitating linear separability of categories in a downstream classification task with a much better (5x) sample efficiency. Our work provides an interpretable computational framework to study brain-like sensory processing and paves the way for a deeper understanding of perception as an inferential process.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# 画像生成のためのスパイクニューラルネットワークにおける時間セルインスパイアされたテンポラルコードブック

Time Cell Inspired Temporal Codebook in Spiking Neural Networks for Enhanced Image Generation ( http://arxiv.org/abs/2405.14474v1 )

ライセンス: Link先を確認
Linghao Feng, Dongcheng Zhao, Sicheng Shen, Yiting Dong, Guobin Shen, Yi Zeng, (参考訳) 本稿では,海馬の時間細胞にインスパイアされた時間コードブックを用いた変動量子化オートエンコーダ(VQ-VAE)を構築するために,スパイキングニューラルネットワーク(SNN)を利用した新しいアプローチを提案する。 この設計は、時間的依存を捕捉し、利用し、SNNの生成能力を著しく向上させる。 神経科学的研究により、時間的に構造化された経験の中で連続的に発火する海馬の「時間細胞」が特定された。 我々の時間的コードブックは、入力刺激が通過するにつれて、類似性に基づく時間セルの活性化を誘発することにより、この挙動をエミュレートする。 我々は、MNIST、FashionMNIST、CIFAR10、CelebAなどの標準ベンチマークデータセットを広範囲に実験し、LSUNベッドルームをダウンサンプリングし、モデルの性能を検証した。 さらに,ニューロモルフィックデータセットNMNISTとDVS-CIFAR10に対する時間的コードブックの有効性を評価し,CelebA-HQ,LSUN Bedroom,LSUN Churchなどの高解像度データセットを用いてモデルの有効性を実証した。 実験結果から,本手法は複数のデータセットにまたがる既存のSNN生成モデルより一貫して優れており,最先端の性能を実現していることが示された。 特に,本手法は高分解能・時間整合性データの生成に優れ,SNNに基づく生成モデルにおける時間情報の重要性を浮き彫りにする。

This paper presents a novel approach leveraging Spiking Neural Networks (SNNs) to construct a Variational Quantized Autoencoder (VQ-VAE) with a temporal codebook inspired by hippocampal time cells. This design captures and utilizes temporal dependencies, significantly enhancing the generative capabilities of SNNs. Neuroscientific research has identified hippocampal "time cells" that fire sequentially during temporally structured experiences. Our temporal codebook emulates this behavior by triggering the activation of time cell populations based on similarity measures as input stimuli pass through it. We conducted extensive experiments on standard benchmark datasets, including MNIST, FashionMNIST, CIFAR10, CelebA, and downsampled LSUN Bedroom, to validate our model's performance. Furthermore, we evaluated the effectiveness of the temporal codebook on neuromorphic datasets NMNIST and DVS-CIFAR10, and demonstrated the model's capability with high-resolution datasets such as CelebA-HQ, LSUN Bedroom, and LSUN Church. The experimental results indicate that our method consistently outperforms existing SNN-based generative models across multiple datasets, achieving state-of-the-art performance. Notably, our approach excels in generating high-resolution and temporally consistent data, underscoring the crucial role of temporal information in SNN-based generative modeling.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# MagicDrive3D:ストリートシーンにおける任意のビューレンダリングのためのコントロール可能な3D生成

MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes ( http://arxiv.org/abs/2405.14475v1 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Zhihao Li, Lanqing Hong, Zhenguo Li, Qiang Xu, (参考訳) 画像やビデオの制御可能な生成モデルは非常に成功したが、3Dシーンの高品質なモデル、特に自動運転のような非有界なシナリオでは、高いデータ取得コストのために未開発のままである。 本稿では,BEVマップ,3Dオブジェクト,テキスト記述を含む多条件制御をサポートする,制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。 生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。 この革新的なアプローチは、容易に制御可能な生成と静的なシーン取得を可能にし、高品質なシーン再構築を実現する。 生成したコンテンツの小さな誤りに対処するため,一眼深度初期化と外観モデルを用いた変形可能なガウススプラッティングを提案し,視点間の露光差を管理する。 nuScenesデータセットで検証されたMagicDrive3Dは、あらゆるビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する、多様な高品質な3Dドライブシーンを生成する。 本研究の結果は, 自律運転シミュレーション等の変貌可能性を示すとともに, 優れた性能を示すものである。

While controllable generative models for images and videos have achieved remarkable success, high-quality models for 3D scenes, particularly in unbounded scenarios like autonomous driving, remain underdeveloped due to high data acquisition costs. In this paper, we introduce MagicDrive3D, a novel pipeline for controllable 3D street scene generation that supports multi-condition control, including BEV maps, 3D objects, and text descriptions. Unlike previous methods that reconstruct before training the generative models, MagicDrive3D first trains a video generation model and then reconstructs from the generated data. This innovative approach enables easily controllable generation and static scene acquisition, resulting in high-quality scene reconstruction. To address the minor errors in generated content, we propose deformable Gaussian splatting with monocular depth initialization and appearance modeling to manage exposure discrepancies across viewpoints. Validated on the nuScenes dataset, MagicDrive3D generates diverse, high-quality 3D driving scenes that support any-view rendering and enhance downstream tasks like BEV segmentation. Our results demonstrate the framework's superior performance, showcasing its transformative potential for autonomous driving simulation and beyond.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# LiteVAE:潜在拡散モデルのための軽量かつ効率的な変分オートエンコーダ

LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models ( http://arxiv.org/abs/2405.14477v1 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber, (参考訳) 遅延拡散モデル(LDMs)の進歩は高解像度画像生成に革命をもたらしたが、これらのシステムの中心となるオートエンコーダの設計空間はいまだ探索されていない。 本稿では,2次元離散ウェーブレット変換を利用して,出力品質を犠牲にすることなく,標準変分オートエンコーダ(VAE)のスケーラビリティと計算効率を向上させるLCM用オートエンコーダのファミリーであるLiteVAEを紹介する。 また、LiteVAEのトレーニング手法とデコーダアーキテクチャについても検討し、トレーニングのダイナミクスと再構築品質を改善するためのいくつかの拡張を提案する。 我々のベースとなるLiteVAEモデルは、現在のLCDにおける確立されたVAEの品質と、6倍のエンコーダパラメータの削減により、高速なトレーニングとGPUメモリ要求の低減を実現しています。

Advances in latent diffusion models (LDMs) have revolutionized high-resolution image generation, but the design space of the autoencoder that is central to these systems remains underexplored. In this paper, we introduce LiteVAE, a family of autoencoders for LDMs that leverage the 2D discrete wavelet transform to enhance scalability and computational efficiency over standard variational autoencoders (VAEs) with no sacrifice in output quality. We also investigate the training methodologies and the decoder architecture of LiteVAE and propose several enhancements that improve the training dynamics and reconstruction quality. Our base LiteVAE model matches the quality of the established VAEs in current LDMs with a six-fold reduction in encoder parameters, leading to faster training and lower GPU memory requirements, while our larger model outperforms VAEs of comparable complexity across all evaluated metrics (rFID, LPIPS, PSNR, and SSIM).
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# SLIFER: マルウェア検出パイプラインの性能とロバスト性の調査

SLIFER: Investigating Performance and Robustness of Malware Detection Pipelines ( http://arxiv.org/abs/2405.14478v1 )

ライセンス: Link先を確認
Andrea Ponte, Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli, (参考訳) 何十年にもわたっての研究の結果、Windowsのマルウェア検出は数多くの技術を通してアプローチされている。 しかしながら、検出率と低い誤報の観点から最適なパフォーマンスを追求するアカデミックと、現実のシナリオの要件との間には、継続的なミスマッチがある。 特にアカデミックは、単一のモデルまたはアンサンブル内で静的解析と動的解析を組み合わせることに集中し、いくつかの落とし穴に陥る。 一 必要な計算負担を考慮せずに、動的解析を行うこと。 二 分析不可能なサンプルを廃棄すること、及び 三 敵攻撃に対する頑健さを、マルウェア検知器がより非機械的学習部品で補完されていることを考慮せずに分析すること。 そこで本稿では,静的解析と動的解析の両方を逐次的に活用し,ひとつのモジュールがアラームを起動するとすぐに計算を中断し,必要な時にのみ動的解析を必要とする,新しいWindowsマルウェア検出パイプラインであるSLIFERを提案する。 現状とは対照的に、分析に対するサンプル抵抗の扱い方について検討し、それらがパフォーマンスにどの程度影響するかを示し、誤報を劇的に増やさないよう正当であるとフラグを立てた方がよいと結論付けた。 最後に、コンテンツインジェクション攻撃を利用したSLIFERの堅牢性評価を行い、対戦戦略を最適化しながら生成したバイトアーティファクトによる動的解析よりも、YARAルールにより攻撃がブロックされることを示す。

As a result of decades of research, Windows malware detection is approached through a plethora of techniques. However, there is an ongoing mismatch between academia -- which pursues an optimal performances in terms of detection rate and low false alarms -- and the requirements of real-world scenarios. In particular, academia focuses on combining static and dynamic analysis within a single or ensemble of models, falling into several pitfalls like (i) firing dynamic analysis without considering the computational burden it requires; (ii) discarding impossible-to-analyse samples; and (iii) analysing robustness against adversarial attacks without considering that malware detectors are complemented with more non-machine-learning components. Thus, in this paper we propose SLIFER, a novel Windows malware detection pipeline sequentially leveraging both static and dynamic analysis, interrupting computations as soon as one module triggers an alarm, requiring dynamic analysis only when needed. Contrary to the state of the art, we investigate how to deal with samples resistance to analysis, showing how much they impact performances, concluding that it is better to flag them as legitimate to not drastically increase false alarms. Lastly, we perform a robustness evaluation of SLIFER leveraging content-injections attacks, and we show that, counter-intuitively, attacks are blocked more by YARA rules than dynamic analysis due to byte artifacts created while optimizing the adversarial strategy.
翻訳日:2024-05-24 15:24:46 公開日:2024-05-23
# フラクタルスキャンによるスケーラブルなビジュアル状態空間モデル

Scalable Visual State Space Model with Fractal Scanning ( http://arxiv.org/abs/2405.14480v1 )

ライセンス: Link先を確認
Lv Tang, HaoKe Xiao, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, Bo Li, (参考訳) 基盤モデルは自然言語処理(NLP)とコンピュータビジョン(CV)において大幅に進歩し、トランスフォーマーアーキテクチャは標準的なバックボーンとなった。 しかし、Transformerの二次複雑性は、より長いシーケンスと高解像度の画像を扱う上での課題を引き起こす。 この課題に対処するため、Mambaのようなステートスペースモデル(SSM)は効率的な代替品として登場し、最初はNLPタスクでトランスフォーマーのパフォーマンスにマッチし、後に様々なCVタスクでビジョントランスフォーマー(ViT)を上回った。 SSMの性能を向上させるために、画像パッチの効果的なシリアライズが重要である。 線形走査曲線に依存する既存の手法は、しばしば複雑な空間的関係を捉え、繰り返しパターンを生成するのに失敗し、バイアスをもたらす。 これらの制約に対処するために、パッチシリアライゼーションにフラクタル走査曲線を用いることを提案する。 フラクタル曲線は、高い空間近接を維持し、異なる画像解像度に適応し、冗長性を避け、複雑なパターンを正確にモデル化するSSMの能力を高める。 画像分類,検出,セグメンテーションのタスクにおいて,本手法の有効性を検証し,優れた性能でその有効性を検証した。

Foundational models have significantly advanced in natural language processing (NLP) and computer vision (CV), with the Transformer architecture becoming a standard backbone. However, the Transformer's quadratic complexity poses challenges for handling longer sequences and higher resolution images. To address this challenge, State Space Models (SSMs) like Mamba have emerged as efficient alternatives, initially matching Transformer performance in NLP tasks and later surpassing Vision Transformers (ViTs) in various CV tasks. To improve the performance of SSMs, one crucial aspect is effective serialization of image patches. Existing methods, relying on linear scanning curves, often fail to capture complex spatial relationships and produce repetitive patterns, leading to biases. To address these limitations, we propose using fractal scanning curves for patch serialization. Fractal curves maintain high spatial proximity and adapt to different image resolutions, avoiding redundancy and enhancing SSMs' ability to model complex patterns accurately. We validate our method in image classification, detection, and segmentation tasks, and the superior performance validates its effectiveness.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# RefChecker: 大規模言語モデルのための参照ベースきめ細かい幻覚チェッカーとベンチマーク

RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models ( http://arxiv.org/abs/2405.14486v1 )

ライセンス: Link先を確認
Xiangkun Hu, Dongyu Ru, Lin Qiu, Qipeng Guo, Tianhang Zhang, Yang Xu, Yun Luo, Pengfei Liu, Yue Zhang, Zheng Zhang, (参考訳) 大きな言語モデル(LLM)は印象的な能力を示すだけでなく、幻覚の傾向も示している。 本稿では,LLM応答におけるクレームを表現するためにクレームトリップレットを導入するフレームワークであるRefCheckerについて述べる。 RefCheckerでは、抽出器がレスポンスからクレームトリップを生成し、チェッカーが参照に対して評価する。 Zero、Noisy、Curcurate Contextの3つのタスク設定を列挙して、現実世界のさまざまなユースケースを反映します。 様々なNLPタスクにまたがるベンチマークと,7つのLPMによる2.1k応答からの1kクレームトリップのアノテートを行った。 RefCheckerはプロプライエタリモデルとオープンソースモデルの両方を抽出子とチェッカーとしてサポートしている。 実験により、クレームトリップレットは、応答、文、サブ文レベルのクレームなどの他の粒度よりも優れた幻覚検出を可能にすることが示された。 RefCheckerは、我々のベンチマークで6.8から26.1ポイントの先行手法よりも優れており、RefCheckerのチェック結果は人間の判断と強く一致している。 この研究はhttps://github.com/amazon-science/RefCheckerで公開されている。

Large Language Models (LLMs) have shown impressive capabilities but also a concerning tendency to hallucinate. This paper presents RefChecker, a framework that introduces claim-triplets to represent claims in LLM responses, aiming to detect fine-grained hallucinations. In RefChecker, an extractor generates claim-triplets from a response, which are then evaluated by a checker against a reference. We delineate three task settings: Zero, Noisy and Accurate Context, to reflect various real-world use cases. We curated a benchmark spanning various NLP tasks and annotated 11k claim-triplets from 2.1k responses by seven LLMs. RefChecker supports both proprietary and open-source models as the extractor and checker. Experiments demonstrate that claim-triplets enable superior hallucination detection, compared to other granularities such as response, sentence and sub-sentence level claims. RefChecker outperforms prior methods by 6.8 to 26.1 points on our benchmark and the checking results of RefChecker are strongly aligned with human judgments. This work is open sourced at https://github.com/amazon-science/RefChecker
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# MoGU: 使用性を維持しながらオープンソースLLMの安全性を高めるフレームワーク

MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability ( http://arxiv.org/abs/2405.14488v1 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Danyang Zhao, Ming Ma, Yuhan Chen, Liangyu Huo, Qing Yang, Dongliang Xu, Bing Qin, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。 使用量が増えるにつれて、安全に関する懸念が高まり、特に悪意のある指示に直面した場合の無害な対応を維持している。 LLMの安全性を高めるため、多くの防衛戦略が開発されている。 しかし,本研究は,既存の防衛戦略がLLMの拒絶指向の姿勢を主眼として採用し,良心的指示に対する対応性を低下させることを示唆している。 この問題を解決するために,LLMの安全性を向上し,ユーザビリティを保ちつつMoGUフレームワークを導入する。 我々のMoGUフレームワークは、基本LLMを、使用可能なLLMと安全なLLMの2つの変種に変換する。 悪意のある命令に遭遇すると、ルータは安全なLLMにより高い重量を割り当て、応答が無害であることを保証します。 逆に、良質な命令に対して、ルータは使用可能なLLMを優先順位付けし、有用で有用な応答を容易にする。 様々なオープンソース LLM 上で,MoGU フレームワークの優位性を検証するために,複数の防衛戦略を比較した。 さらに,本分析はMoGUの有効性に関する重要な知見を提供し,設計したルーティング機構が重みを割り当てることで,各変数の寄与を効果的にバランスできることを示す。 私たちの研究はより安全なLlama2、Vicuna、Falcon、Dolphin、Baichuan2をリリースしました。

Large Language Models (LLMs) are increasingly deployed in various applications. As their usage grows, concerns regarding their safety are rising, especially in maintaining harmless responses when faced with malicious instructions. Many defense strategies have been developed to enhance the safety of LLMs. However, our research finds that existing defense strategies lead LLMs to predominantly adopt a rejection-oriented stance, thereby diminishing the usability of their responses to benign instructions. To solve this problem, we introduce the MoGU framework, designed to enhance LLMs' safety while preserving their usability. Our MoGU framework transforms the base LLM into two variants: the usable LLM and the safe LLM, and further employs dynamic routing to balance their contribution. When encountering malicious instructions, the router will assign a higher weight to the safe LLM to ensure that responses are harmless. Conversely, for benign instructions, the router prioritizes the usable LLM, facilitating usable and helpful responses. On various open-sourced LLMs, we compare multiple defense strategies to verify the superiority of our MoGU framework. Besides, our analysis provides key insights into the effectiveness of MoGU and verifies that our designed routing mechanism can effectively balance the contribution of each variant by assigning weights. Our work released the safer Llama2, Vicuna, Falcon, Dolphin, and Baichuan2.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# シフトデルタ係数を用いたエンド・ツー・エンドのユーザ定義キーワードスポッティング

End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients ( http://arxiv.org/abs/2405.14489v1 )

ライセンス: Link先を確認
Kesavaraj V, Anuprabha M, Anil Kumar Vuppala, (参考訳) スマートデバイスとのインタラクションをパーソナライズするには,ユーザ定義キーワードの識別が不可欠だ。 ユーザ定義キーワードスポッティング(UDKWS)の従来のアプローチは、音声キーワードを検出するために、メル周波数ケプストラム係数(MFCC)のような短期スペクトル特性に依存していた。 しかし、これらの特徴は、音声信号の時間的ダイナミクスを捉える能力に制限があるため、音声とテキストのペアの発音を正確に識別する上で困難となる可能性がある。 この課題に対処するため,長期時間情報を組み込むことで発音変化(音素間の遷移)の把握を支援するシフトデルタ係数(SDC)を提案する。 SDC機能のパフォーマンスは、クロスアテンションベースのエンドツーエンドシステムを使用して、4つの異なるデータセットのさまざまなベースライン機能と比較される。 さらに、UDKWSタスクに適した時間的コンテキストを見つけるために、SDCの様々な構成を探索する。 実験結果によると、SDC機能はMFCCのベースライン機能より優れており、曲線下(AUC)では8.32%、挑戦的なLibriphrase-hardデータセットでは8.69%の改善が見られた。 さらに,提案手法は最先端のUDKWS技術と比較して優れた性能を示した。

Identifying user-defined keywords is crucial for personalizing interactions with smart devices. Previous approaches of user-defined keyword spotting (UDKWS) have relied on short-term spectral features such as mel frequency cepstral coefficients (MFCC) to detect the spoken keyword. However, these features may face challenges in accurately identifying closely related pronunciation of audio-text pairs, due to their limited capability in capturing the temporal dynamics of the speech signal. To address this challenge, we propose to use shifted delta coefficients (SDC) which help in capturing pronunciation variability (transition between connecting phonemes) by incorporating long-term temporal information. The performance of the SDC feature is compared with various baseline features across four different datasets using a cross-attention based end-to-end system. Additionally, various configurations of SDC are explored to find the suitable temporal context for the UDKWS task. The experimental results reveal that the SDC feature outperforms the MFCC baseline feature, exhibiting an improvement of 8.32% in area under the curve (AUC) and 8.69% in terms of equal error rate (EER) on the challenging Libriphrase-hard dataset. Moreover, the proposed approach demonstrated superior performance when compared to state-of-the-art UDKWS techniques.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 大規模言語モデルのセキュリティと理解に及ぼす非標準Unicode文字の影響

Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models ( http://arxiv.org/abs/2405.14490v1 )

ライセンス: Link先を確認
Johan S Daniel, Anand Pal, (参考訳) 大規模言語モデルの進歩は、自然言語処理を大幅に改善した。 しかし、ジェイルブレイク(LDMが意図した使用と反対の指示に従う原因となるプロンプト注入)、幻覚(誤った情報や誤解を招く情報を生成する)、理解上の誤りなどの課題が依然として多い。 本報告では,3つの主要な指標であるジェイルブレイク,幻覚,理解エラーの38クエリからなる標準化されたテストを実施し,15種類の異なるモデルの性能の比較分析を行った。 モデルは、ジェイルブレイク、幻覚、理解エラーの総発生に基づいて評価される。 我々の研究は、これらのモデルの固有の脆弱性を明らかにし、これらのモデルの人間レベルの言語理解の概念に挑戦する。 我々は,GPT-4,Gemini 1.5 Pro,LlaMA-3-70B,Claude 3 Opusなど,LLMに対する非標準Unicode文字の影響とその保護機構を実証的に分析した。 Unicodeの数字記号を標準ラテンブロックの外側に組み込むことで,RLHF(Reinforcement Learning Human Feedback)によるガードレールの有効性の低下が観察された。 その結果、これらのモデルではコンテンツポリシー違反に対する脆弱性が増加し、即座に漏洩する。 我々の研究は、これらのモデルの能力を高めるために、LLMトレーニングデータに非標準Unicodeテキストを組み込むことの必要性も示唆している。

The advancement of large language models has significantly improved natural language processing. However, challenges such as jailbreaks (prompt injections that cause an LLM to follow instructions contrary to its intended use), hallucinations (generating incorrect or misleading information), and comprehension errors remain prevalent. In this report, we present a comparative analysis of the performance of fifteen distinct models, with each model undergoing a standardized test comprising 38 queries across three key metrics: jailbreaks, hallucinations, and comprehension errors. The models are assessed based on the total occurrences of jailbreaks, hallucinations, and comprehension errors. Our work exposes these models' inherent vulnerabilities and challenges the notion of human-level language comprehension of these models. We have empirically analysed the impact of non-standard Unicode characters on LLMs and their safeguarding mechanisms on the best-performing LLMs, including GPT-4, Gemini 1.5 Pro, LlaMA-3-70B, and Claude 3 Opus. By incorporating alphanumeric symbols from Unicode outside the standard Latin block and variants of characters in other languages, we observed a reduction in the efficacy of guardrails implemented through Reinforcement Learning Human Feedback (RLHF). Consequently, these models exhibit heightened vulnerability to content policy breaches and prompt leakage. Our study also suggests a need to incorporate non-standard Unicode text in LLM training data to enhance the capabilities of these models.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 大規模空間データに対するフルスケールガウス過程近似の反復法

Iterative Methods for Full-Scale Gaussian Process Approximations for Large Spatial Data ( http://arxiv.org/abs/2405.14492v1 )

ライセンス: Link先を確認
Tim Gyger, Reinhard Furrer, Fabio Sigrist, (参考訳) ガウス過程はフレキシブル確率回帰モデルであり、統計学や機械学習で広く使われている。 しかし、大きなデータセットに対するスケーラビリティに欠点がある。 これを軽減するために、予測過程法と共分散テーパリングを組み合わせたフルスケール近似(FSAs)を検討し、グローバル構造とローカル構造の両方を近似する。 本稿では, FSAを用いた確率, 勾配, 予測分布の計算コストの削減に, 反復法をどのように利用できるかを示す。 本研究では, 共役勾配法の収束速度を向上し, FSAパラメータや元の共分散行列の固有値構造に対する感度を緩和することを示すとともに, 最先端のピボット式Coleskyプレコンディショナーよりも優れていることを示す。 さらに,確率的推定と反復法による予測分散を計算するための,新しい,正確かつ高速な手法を提案する。 シミュレーションおよび実世界のデータ実験において,提案手法はColeskyに基づく計算と同じ精度で計算時間を大幅に短縮することがわかった。 最後に,予測過程およびFSAモデルにおける点の導出に対する異なるアプローチの比較を行った。 すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。

Gaussian processes are flexible probabilistic regression models which are widely used in statistics and machine learning. However, a drawback is their limited scalability to large data sets. To alleviate this, we consider full-scale approximations (FSAs) that combine predictive process methods and covariance tapering, thus approximating both global and local structures. We show how iterative methods can be used to reduce the computational costs for calculating likelihoods, gradients, and predictive distributions with FSAs. We introduce a novel preconditioner and show that it accelerates the conjugate gradient method's convergence speed and mitigates its sensitivity with respect to the FSA parameters and the eigenvalue structure of the original covariance matrix, and we demonstrate empirically that it outperforms a state-of-the-art pivoted Cholesky preconditioner. Further, we present a novel, accurate, and fast way to calculate predictive variances relying on stochastic estimations and iterative methods. In both simulated and real-world data experiments, we find that our proposed methodology achieves the same accuracy as Cholesky-based computations with a substantial reduction in computational time. Finally, we also compare different approaches for determining inducing points in predictive process and FSA models. All methods are implemented in a free C++ software library with high-level Python and R packages.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 局所探索によるハイブリッドグローバル因果発見

Hybrid Global Causal Discovery with Local Search ( http://arxiv.org/abs/2405.14496v1 )

ライセンス: Link先を確認
Sujai Hiremath, Jacqueline R. M. A. Maasch, Mengxiao Gao, Promit Ghosal, Kyra Gan, (参考訳) 未知因果モデルに対応する一意な有向非巡回グラフの学習は難しい課題である。 関数因果モデルに基づく手法は、ユニークなグラフを識別することができるが、次元性の呪いに苦しむか、強いパラメトリック仮定を課すかのいずれかである。 これらの課題に対処するため、我々は、局所的な因果構造を利用した観測データにおけるグローバル因果発見のための新しいハイブリッドアプローチを提案する。 まず,線形構造方程式モデルにおける祖先関係を利用したトポロジカルソートアルゴリズムを提案する。 この手法が任意の雑音を伴う非線形設定に一般化されることを実証する。 次に,局所条件付き集合を探索し,現在の手法よりも高精度な非パラメトリック制約に基づくアルゴリズムを提案する。 我々は, 合成データに対する実証検証を行い, 正確性および最悪の多項式時間複雑度を理論的に保証する。

Learning the unique directed acyclic graph corresponding to an unknown causal model is a challenging task. Methods based on functional causal models can identify a unique graph, but either suffer from the curse of dimensionality or impose strong parametric assumptions. To address these challenges, we propose a novel hybrid approach for global causal discovery in observational data that leverages local causal substructures. We first present a topological sorting algorithm that leverages ancestral relationships in linear structural equation models to establish a compact top-down hierarchical ordering, encoding more causal information than linear orderings produced by existing methods. We demonstrate that this approach generalizes to nonlinear settings with arbitrary noise. We then introduce a nonparametric constraint-based algorithm that prunes spurious edges by searching for local conditioning sets, achieving greater accuracy than current methods. We provide theoretical guarantees for correctness and worst-case polynomial time complexities, with empirical validation on synthetic data.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 単一領域一般化オブジェクト検出の改良:多様化とアライメントに着目して

Improving Single Domain-Generalized Object Detection: A Focus on Diversification and Alignment ( http://arxiv.org/abs/2405.14497v1 )

ライセンス: Link先を確認
Muhammad Sohail Danish, Muhammad Haris Khan, Muhammad Akhtar Munir, M. Saquib Sarfraz, Mohsen Ali, (参考訳) 本研究では、オブジェクト検出のためのドメイン一般化の問題に取り組み、特に1つのソースドメインしか利用できないシナリオに焦点を当てる。 本稿では、ソース領域の多様化と、クラス予測の信頼性と局所化に基づく検出の整合化という、2つの重要なステップを含む効果的なアプローチを提案する。 まず、一連の拡張を慎重に選択することで、基底検出器は単一領域の一般化のための既存の手法よりも良いマージンで優れていることを示す。 これは、物体検出器の性能向上における領域の多様化の重要性を強調している。 第2に、分類と局所化の両方の出力を考慮して、複数のビューから検出を整列する手法を提案する。 このアライメント手順は、安全クリティカルなアプリケーションにおける正確な意思決定に欠かせない、より一般化された、よく校正されたオブジェクト検出器モデルをもたらす。 我々のアプローチは検出器非依存であり、単段検出器と二段検出器の両方にシームレスに適用できる。 提案手法の有効性を検証するため,ドメインシフト問題に対する広範な実験と改善を行った。 その結果,既存手法と比較して,アプローチの優位性が一貫して示された。 私たちのコードとモデルは、https://github.com/msohaildanish/DivAlign.comで利用可能です。

In this work, we tackle the problem of domain generalization for object detection, specifically focusing on the scenario where only a single source domain is available. We propose an effective approach that involves two key steps: diversifying the source domain and aligning detections based on class prediction confidence and localization. Firstly, we demonstrate that by carefully selecting a set of augmentations, a base detector can outperform existing methods for single domain generalization by a good margin. This highlights the importance of domain diversification in improving the performance of object detectors. Secondly, we introduce a method to align detections from multiple views, considering both classification and localization outputs. This alignment procedure leads to better generalized and well-calibrated object detector models, which are crucial for accurate decision-making in safety-critical applications. Our approach is detector-agnostic and can be seamlessly applied to both single-stage and two-stage detectors. To validate the effectiveness of our proposed methods, we conduct extensive experiments and ablations on challenging domain-shift scenarios. The results consistently demonstrate the superiority of our approach compared to existing methods. Our code and models are available at: https://github.com/msohaildanish/DivAlign
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 物理誘導型および周波数強調型リカレントニューラルネットワークを用いた時空間予測の高速化

Enhanced Spatiotemporal Prediction Using Physical-guided And Frequency-enhanced Recurrent Neural Networks ( http://arxiv.org/abs/2405.14504v1 )

ライセンス: Link先を確認
Xuanle Zhao, Yue Sun, Tielin Zhang, Bo Xu, (参考訳) 時空間予測は自然問題の解決やビデオフレームの処理、特に天気予報や人間の行動認識において重要な役割を果たす。 近年の進歩は、時空間予測タスクにおいて有望な結果を示す未知の制御偏微分方程式(PDE)を推定するために、事前の物理知識をディープラーニングフレームワークに組み込もうとしている。 しかし、従来のアプローチでは、物理またはPDE特徴を取得するためにニューラルネットワークアーキテクチャや損失関数のみを制限していたため、ニューラルネットワークの代表能力は低下した。 一方、物理的状態の更新過程を効果的に推定することはできない。 上記の問題を解決するために,周波数増幅フーリエモジュールとモーメント損失を用いた物理誘導型ニューラルネットワークを提案し,時空間力学を推定するモデルの能力を強化する。 さらに,物理状態をより正確にモデル化するための物理制約付き適応二階ルンゲ・クッタ法を提案する。 本研究では,時空間および映像の予測タスクにおけるモデルの評価を行った。 実験結果から,本モデルは最先端の手法より優れ,パラメータ数もはるかに小さく,複数のデータセットで最高の性能を示すことがわかった。

Spatiotemporal prediction plays an important role in solving natural problems and processing video frames, especially in weather forecasting and human action recognition. Recent advances attempt to incorporate prior physical knowledge into the deep learning framework to estimate the unknown governing partial differential equations (PDEs), which have shown promising results in spatiotemporal prediction tasks. However, previous approaches only restrict neural network architectures or loss functions to acquire physical or PDE features, which decreases the representative capacity of a neural network. Meanwhile, the updating process of the physical state cannot be effectively estimated. To solve the above mentioned problems, this paper proposes a physical-guided neural network, which utilizes the frequency-enhanced Fourier module and moment loss to strengthen the model's ability to estimate the spatiotemporal dynamics. Furthermore, we propose an adaptive second-order Runge-Kutta method with physical constraints to model the physical states more precisely. We evaluate our model on both spatiotemporal and video prediction tasks. The experimental results show that our model outperforms state-of-the-art methods and performs best in several datasets, with a much smaller parameter count.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# 自然言語処理を用いた銀行取引分類に基づく説明可能な産業用炭素フットプリント推定

Explainable automatic industrial carbon footprint estimation from bank transaction classification using natural language processing ( http://arxiv.org/abs/2405.14505v1 )

ライセンス: Link先を確認
Jaime González-González, Silvia García-Méndez, Francisco de Arriba-Pérez, Francisco J. González-Castaño, Óscar Barba-Seara, (参考訳) 温室効果ガスの影響に関する懸念は、工業用炭素フットプリント(CF)の定量化のための認証プロトコルの開発を動機付けている。 これらのプロトコルは手作業で、作業集約的で、高価です。 これらすべては、機械学習(ML)ソリューションを含むCFを推定するための自動データ駆動アプローチへの移行につながった。 残念ながら、これらのソリューションに関わる意思決定プロセスには、エンドユーザーの視点からの透明性が欠如しています。 本研究では,CF推定のための手動および自動手法について,その透明性の限界を考慮した検討を行った。 この分析により、銀行取引分類によるCFの自動計算のための説明可能なMLソリューションが提案された。 この目的のために、これまでの研究では、銀行取引分類の説明可能性については検討されていないという事実に留意すべきである。 分類には、Support Vector Machine、Random Forest、Recursive Neural Networksなど、文学における有望なパフォーマンスに基づいて、さまざまなMLモデルが採用されている。 その結果、精度、精度、リコール評価基準の90%の範囲で得られた。 決定経路から、提案したソリューションは、銀行取引に関連するCO2排出量を推定する。 本手法は, 局所解釈可能なモデルを用いて, トランザクション記述から抽出した入力項の影響を非依存に評価することに基づく。 説明可能性の項は、対象カテゴリの記述に対する類似度尺度を用いて自動的に検証された。 総じて、説明性能は、関連する活動セクターの記述に説明が近接しているという点で十分である。

Concerns about the effect of greenhouse gases have motivated the development of certification protocols to quantify the industrial carbon footprint (CF). These protocols are manual, work-intensive, and expensive. All of the above have led to a shift towards automatic data-driven approaches to estimate the CF, including Machine Learning (ML) solutions. Unfortunately, the decision-making processes involved in these solutions lack transparency from the end user's point of view, who must blindly trust their outcomes compared to intelligible traditional manual approaches. In this research, manual and automatic methodologies for CF estimation were reviewed, taking into account their transparency limitations. This analysis led to the proposal of a new explainable ML solution for automatic CF calculations through bank transaction classification. Consideration should be given to the fact that no previous research has considered the explainability of bank transaction classification for this purpose. For classification, different ML models have been employed based on their promising performance in the literature, such as Support Vector Machine, Random Forest, and Recursive Neural Networks. The results obtained were in the 90 % range for accuracy, precision, and recall evaluation metrics. From their decision paths, the proposed solution estimates the CO2 emissions associated with bank transactions. The explainability methodology is based on an agnostic evaluation of the influence of the input terms extracted from the descriptions of transactions using locally interpretable models. The explainability terms were automatically validated using a similarity metric over the descriptions of the target categories. Conclusively, the explanation performance is satisfactory in terms of the proximity of the explanations to the associated activity sector descriptions.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# SIAVC:産業事故ビデオ分類のための半監督フレームワーク

SIAVC: Semi-Supervised Framework for Industrial Accident Video Classification ( http://arxiv.org/abs/2405.14506v1 )

ライセンス: Link先を確認
Zuoyong Li, Qinghua Lin, Haoyi Fan, Tiesong Zhao, David Zhang, (参考訳) 半教師付き学習は、ビデオ監視シナリオにおけるラベル付きおよびラベルなしトレーニングデータの不均衡に悩まされる。 本稿では,産業事故映像分類のための半教師付き学習手法であるSIAVCを提案する。 具体的には、Super Augmentation Block (SAB)と呼ばれるビデオ拡張モジュールを設計する。 SABはガウスノイズを追加し、モデル最適化のためのラベルなしデータの履歴的損失に応じてビデオフレームをランダムにマスクする。 次に,ビデオクロスセット拡張モジュール(VCAM)を提案し,高信頼度未ラベルサンプルから多種多様な擬似ラベルサンプルを生成し,サンプリング経験のミスマッチを軽減し,高品質なトレーニングデータを提供する。 さらに,提案手法を評価するために,フレームレベルのアノテーション,すなわちECA9を用いた新しい産業事故監視ビデオデータセットを構築した。 SIAVCは、最先端の半教師付き学習ベース手法と比較して、優れたビデオ分類性能を示し、ECA9データセットと火災検出データセットでそれぞれ88.76\%と89.13\%の精度を達成している。 ソースコードと構築されたデータセット ECA9 は \url{https://github.com/Alchemy Emperor/SIAVC} でリリースされる。

Semi-supervised learning suffers from the imbalance of labeled and unlabeled training data in the video surveillance scenario. In this paper, we propose a new semi-supervised learning method called SIAVC for industrial accident video classification. Specifically, we design a video augmentation module called the Super Augmentation Block (SAB). SAB adds Gaussian noise and randomly masks video frames according to historical loss on the unlabeled data for model optimization. Then, we propose a Video Cross-set Augmentation Module (VCAM) to generate diverse pseudo-label samples from the high-confidence unlabeled samples, which alleviates the mismatch of sampling experience and provides high-quality training data. Additionally, we construct a new industrial accident surveillance video dataset with frame-level annotation, namely ECA9, to evaluate our proposed method. Compared with the state-of-the-art semi-supervised learning based methods, SIAVC demonstrates outstanding video classification performance, achieving 88.76\% and 89.13\% accuracy on ECA9 and Fire Detection datasets, respectively. The source code and the constructed dataset ECA9 will be released in \url{https://github.com/AlchemyEmperor/SIAVC}.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# ウンチョセンのエキスパートたちも貢献できる: 自己コントラストでMoEモデルのパワーを解放する

Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast ( http://arxiv.org/abs/2405.14507v1 )

ライセンス: Link先を確認
Chufan Shi, Cheng Yang, Xinyu Zhu, Jiahao Wang, Taiqiang Wu, Siheng Li, Deng Cai, Yujiu Yang, Yu Meng, (参考訳) Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。 MoEでは、入力シーケンスの各トークンがルーティング機構によって決定される専門家の異なるサブセットを活性化する。 しかし、MoEモデルのアンチョセンの専門家は出力に寄与せず、おそらくモデルの能力の過小評価に繋がる可能性がある。 本研究は,まず,活性化専門家の増加が必ずしも改善せず,出力品質を低下させることができることを示すための探索的研究である。 そして、異なるルーティング戦略を用いたMoEモデルからの出力分布が著しく異なることを示し、異なる専門家が常に相乗的に振る舞うとは限らないことを示す。 本研究は, 自己コントラスト・ミックス・オブ・エクササイズ (SCMoE) を用いて, 自己コントラスト・オブ・エクササイズ(自己コントラスト・オブ・エクササイズ, 自己コントラスト・オブ・エクササイズ)を提案する。 SCMoEでは、次の確率は、同じMoEモデルを用いて、強い活性化と弱い活性化の出力を対比することにより決定される。 我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。 いくつかのベンチマーク(GSM8K、StrategyQA、MBPP、HumanEval)の実験では、SCMoEは様々な領域にわたるMixtral 8x7Bの推論能力を一貫して強化できることを示した。 例えば、GSM8Kの精度を61.79から66.94に改善する。 さらに、SCMoEと自己整合性を組み合わせることでさらなる利得が得られ、Major@20の精度は75.59から78.31に向上した。

Mixture-of-Experts (MoE) has emerged as a prominent architecture for scaling model size while maintaining computational efficiency. In MoE, each token in the input sequence activates a different subset of experts determined by a routing mechanism. However, the unchosen experts in MoE models do not contribute to the output, potentially leading to underutilization of the model's capacity. In this work, we first conduct exploratory studies to demonstrate that increasing the number of activated experts does not necessarily improve and can even degrade the output quality. Then, we show that output distributions from an MoE model using different routing strategies substantially differ, indicating that different experts do not always act synergistically. Motivated by these findings, we propose Self-Contrast Mixture-of-Experts (SCMoE), a training-free strategy that utilizes unchosen experts in a self-contrast manner during inference. In SCMoE, the next-token probabilities are determined by contrasting the outputs from strong and weak activation using the same MoE model. Our method is conceptually simple and computationally lightweight, as it incurs minimal latency compared to greedy decoding. Experiments on several benchmarks (GSM8K, StrategyQA, MBPP and HumanEval) demonstrate that SCMoE can consistently enhance Mixtral 8x7B's reasoning capability across various domains. For example, it improves the accuracy on GSM8K from 61.79 to 66.94. Moreover, combining SCMoE with self-consistency yields additional gains, increasing major@20 accuracy from 75.59 to 78.31.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# ベイジアンニューラルネットワークを用いた治療中の癌動態の予測:シミュレーションによる研究

Prediction of cancer dynamics under treatment using Bayesian neural networks: A simulated study ( http://arxiv.org/abs/2405.14508v1 )

ライセンス: Link先を確認
Even Moa Myklebust, Arnoldo Frigessi, Fredrik Schjesvold, Jasmine Foo, Kevin Leder, Alvaro Köhn-Luque, (参考訳) 治療中の癌動態の予測は、高い患者間不均一性、予測バイオマーカーの欠如、疎度でノイズの多い経時的データにより困難である。 数学的モデルは、がんのダイナミクスを患者ごとにいくつかの解釈可能なパラメータで要約することができる。 機械学習手法は、ベースラインの共変量からモデルパラメータを予測するために訓練されるが、パラメータ推定の不確実性は考慮しない。 その代わり、階層的ベイズモデリングは、モデルの各部分における不確実性を考慮しつつ、機械的パラメータによるベースライン共変量と縦断的測定との関係をモデル化することができる。 ベースライン共変量からモデルパラメータへのマッピングは、いくつかの方法でモデル化できる。 線形写像は推論を単純化するが、非線型共変量効果を捉えることができず、共変量数が大きければ相互作用のモデル化には不十分である。 対照的に、ベイジアンニューラルネットワークは共変量間の相互作用を自動的に発見することができるが、計算複雑性のかなりのコストがかかる。 本研究では,多発性骨髄腫 (MM) におけるがんの動態に触発されて, 治療中のがんの動態を予測するために, 塩基性共変量情報を用いたサブ集団動態の階層的ベイズモデルを構築した。 実例として、モデルをシミュレーションデータセットに適用し、Mタンパク質の軌道を線形共変量効果を持つモデルと比較する。 ベイズニューラルネットワーク共変量効果モデルでは,共変量相互作用が存在する場合の線形共変量効果モデルよりも,がんの動態を正確に予測できることがわかった。 このフレームワークは、パラメトリックモデルで記述できる他の種類のがんや他の時系列予測問題にも適用することができる。

Predicting cancer dynamics under treatment is challenging due to high inter-patient heterogeneity, lack of predictive biomarkers, and sparse and noisy longitudinal data. Mathematical models can summarize cancer dynamics by a few interpretable parameters per patient. Machine learning methods can then be trained to predict the model parameters from baseline covariates, but do not account for uncertainty in the parameter estimates. Instead, hierarchical Bayesian modeling can model the relationship between baseline covariates to longitudinal measurements via mechanistic parameters while accounting for uncertainty in every part of the model. The mapping from baseline covariates to model parameters can be modeled in several ways. A linear mapping simplifies inference but fails to capture nonlinear covariate effects and scale poorly for interaction modeling when the number of covariates is large. In contrast, Bayesian neural networks can potentially discover interactions between covariates automatically, but at a substantial cost in computational complexity. In this work, we develop a hierarchical Bayesian model of subpopulation dynamics that uses baseline covariate information to predict cancer dynamics under treatment, inspired by cancer dynamics in multiple myeloma (MM), where serum M protein is a well-known proxy of tumor burden. As a working example, we apply the model to a simulated dataset and compare its ability to predict M protein trajectories to a model with linear covariate effects. Our results show that the Bayesian neural network covariate effect model predicts cancer dynamics more accurately than a linear covariate effect model when covariate interactions are present. The framework can also be applied to other types of cancer or other time series prediction problems that can be described with a parametric model.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# ランダム回路における量子ムペンバ効果

Quantum Mpemba Effect in Random Circuits ( http://arxiv.org/abs/2405.14514v1 )

ライセンス: Link先を確認
Xhek Turkeshi, Pasquale Calabrese, Andrea De Luca, (参考訳) ムペンバ効果の本質は、非平衡系が平衡状態からさらに速く緩和できることである。 量子領域において、この現象は閉じた系の力学で発生し、対称性や絡み合いのような基本的な特徴によって観察される。 ここでは, 量子Mpemba効果の量子化を, エンタングルメント非対称性を用いて, 古典的統計力学問題への広範な数値シミュレーションと解析的マッピングを組み合わせ, クイディット上のランダム回路の電荷保存効果について検討する。 我々は、より非対称な初期状態のクラス(タイル付き強磁性体)がより高速に対称性を回復し、グランドカノニカルアンサンブルに達することを示す。 逆に、他の状態のクラス(タイル付き反強磁性体)は、ムペンバ効果を示さない。 我々の分析は、局所性、ユニタリ性、対称性という最小限の原理に基づいている。 その結果,ハミルトニアンおよびフロケ量子回路を含むジェネリックシステムにおけるMpemba物理の出現を明らかにした。

The essence of the Mpemba effect is that non-equilibrium systems may relax faster the further they are from their equilibrium configuration. In the quantum realm, this phenomenon arises in the dynamics of closed systems, where it is witnessed by fundamental features such as symmetry and entanglement. Here, we study the quantum Mpemba effect in charge-preserving random circuits on qudits via entanglement asymmetry, combining extensive numerical simulations and analytical mapping to a classical statistical mechanics problem. We show that the more asymmetric certain classes of initial states (tilted ferromagnets) are, the faster they restore symmetry and reach the grand-canonical ensemble. Conversely, other classes of states (tilted antiferromagnets) do not show the Mpemba effect. Our analysis is based on minimal principles -- locality, unitarity, and symmetry. Consequently, our results represent a significant advancement in clarifying the emergence of Mpemba physics in generic systems, including Hamiltonian and Floquet quantum circuits.
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# オープンワールドにおける現実的なロングテールセミ教師あり学習を目指して

Towards Realistic Long-tailed Semi-supervised Learning in an Open World ( http://arxiv.org/abs/2405.14516v1 )

ライセンス: Link先を確認
Yuanpeng He, Lijian Li, (参考訳) オープンワールドの長い尾を持つ半教師付き学習(OLSSL)が注目を集めている。 しかし、既存のOLSSLアルゴリズムは一般に、既知のカテゴリと新しいカテゴリの分布はほぼ同一であると仮定する。 このような背景から,我々は,既知のカテゴリと新規カテゴリの分布関係を前提としない,より‘emph{Realistic Open-world Long-tailed Semi-supervised Learning}’(\textbf{ROLSSL})を構築した。 さらに、既知のカテゴリにおいても、ラベル付けされたサンプルの数はラベル付けされていないサンプルのそれよりも大幅に少ない。 提案したROOSSL設定では、二重段後ロジット調整と呼ばれる、単純で効果的な解を提案する。 提案手法では,サンプルの頻度,カテゴリの総数,データ全体のサイズの関係を考慮し,ロジット調整戦略を再検討する。 そして、未知のカテゴリと新奇なカテゴリの両方のラベル付きデータの分布を推定し、対応する予測確率を動的に再調整し、不均衡なデータをより選択的に活用することで、既知のクラスと新奇クラスの学習におけるカテゴリバイアスを効果的に軽減する。 CIFAR100やImageNet100のようなデータセットに対する大規模な実験は、最大50.1\%のパフォーマンス向上を示し、提案手法の優位性を検証し、このタスクの強力なベースラインを確立する。 さらなる研究のために、実験コードへの匿名リンクは \href{https://github.com/heyuanpengpku/ROLSSL}{\textcolor{brightpink}{https://github.com/heyuanpengpku/ROLSSL}} にある。

Open-world long-tailed semi-supervised learning (OLSSL) has increasingly attracted attention. However, existing OLSSL algorithms generally assume that the distributions between known and novel categories are nearly identical. Against this backdrop, we construct a more \emph{Realistic Open-world Long-tailed Semi-supervised Learning} (\textbf{ROLSSL}) setting where there is no premise on the distribution relationships between known and novel categories. Furthermore, even within the known categories, the number of labeled samples is significantly smaller than that of the unlabeled samples, as acquiring valid annotations is often prohibitively costly in the real world. Under the proposed ROLSSL setting, we propose a simple yet potentially effective solution called dual-stage post-hoc logit adjustments. The proposed approach revisits the logit adjustment strategy by considering the relationships among the frequency of samples, the total number of categories, and the overall size of data. Then, it estimates the distribution of unlabeled data for both known and novel categories to dynamically readjust the corresponding predictive probabilities, effectively mitigating category bias during the learning of known and novel classes with more selective utilization of imbalanced unlabeled data. Extensive experiments on datasets such as CIFAR100 and ImageNet100 have demonstrated performance improvements of up to 50.1\%, validating the superiority of our proposed method and establishing a strong baseline for this task. For further researches, the anonymous link to the experimental code is at \href{https://github.com/heyuanpengpku/ROLSSL}{\textcolor{brightpink}{https://github.com/heyuanpengpku/ROLSSL}}
翻訳日:2024-05-24 15:15:02 公開日:2024-05-23
# テキストデータのみを用いたCLIPモデルからの同一性推論

Identity Inference from CLIP Models using Only Textual Data ( http://arxiv.org/abs/2405.14517v1 )

ライセンス: Link先を確認
Songze Li, Ruoxi Cheng, Xiaojun Jia, (参考訳) CLIPのような大規模マルチモーダルモデルの普及により、個人識別情報(PII)の漏洩に対する懸念が高まっている。 既存のCLIPモデルにおける身元推定方法、すなわち、CLIPモデルのトレーニングに使用する人物のPIIの存在を検出するには、人物のテキスト記述と対応する画像(例えば、人物の名前と顔写真)を含む完全なPIIでモデルをクエリする必要がある。 しかし、これは画像の潜在的なプライバシー侵害につながる可能性がある。 さらに、従来のメンバーシップ推論攻撃(MIA)は、特に大規模CLIPモデルにおいて高い計算コストを発生させるターゲットモデルの振る舞いを模倣するためにシャドウモデルを訓練する。 これらの課題に対処するため、我々はCLIPモデルにおけるテキスト・ユニモーダル・ディテクター(TUNI)を提案する。 1)ターゲットモデルをテキストデータのみでクエリし、 2) シャドウモデルのトレーニングは不要。 まず,CLIPモデルによって導かれる特徴抽出アルゴリズムを開発し,テキスト記述から特徴抽出を行う。 TUNIは、訓練に明らかに使われていないテキストジベリッシュをランダムに生成し、それらの特徴ベクトルを活用して、異常検出システムのトレーニングを行う。 推論中、各テストテキストの特徴ベクトルが異常検知器に入力され、その人のPIIがトレーニングセット(異常)にあるか否か(正常)を決定する。 さらに、TUNIは、検出器で利用可能であれば、テスト対象と関連する実際の画像の統合をさらに強化することができる。 様々なCLIPモデルアーキテクチャとデータセットにわたるTUNIの大規模な実験は、テキストデータだけで、ベースラインよりも優れたパフォーマンスを示している。

The widespread usage of large-scale multimodal models like CLIP has heightened concerns about the leakage of personally identifiable information (PII). Existing methods for identity inference in CLIP models, i.e., to detect the presence of a person's PII used for training a CLIP model, require querying the model with full PII, including textual descriptions of the person and corresponding images (e.g., the name and the face photo of the person). However, this may lead to potential privacy breach of the image, as it may have not been seen by the target model yet. Additionally, traditional membership inference attacks (MIAs) train shadow models to mimic the behaviors of the target model, which incurs high computational costs, especially for large CLIP models. To address these challenges, we propose a textual unimodal detector (TUNI) in CLIP models, a novel method for ID inference that 1) queries the target model with only text data; and 2) does not require training shadow models. Firstly, we develop a feature extraction algorithm, guided by the CLIP model, to extract features from a text description. TUNI starts with randomly generating textual gibberish that were clearly not utilized for training, and leverages their feature vectors to train a system of anomaly detectors. During inference, the feature vector of each test text is fed into the anomaly detectors to determine if the person's PII is in the training set (abnormal) or not (normal). Moreover, TUNI can be further strengthened integrating real images associated with the tested individuals, if available at the detector. Extensive experiments of TUNI across various CLIP model architectures and datasets demonstrate its superior performance over baselines, albeit with only text data.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# マルウェア検出における逆例のゼロ階最適化のための新しい定式化

A New Formulation for Zeroth-Order Optimization of Adversarial EXEmples in Malware Detection ( http://arxiv.org/abs/2405.14519v1 )

ライセンス: Link先を確認
Marco Rando, Luca Demetrio, Lorenzo Rosasco, Fabio Roli, (参考訳) 機械学習マルウェア検出装置は、敵のEXEmples、すなわち、検出を避けるのに適した慎重に構築されたWindowsプログラムに対して脆弱である。 他の敵問題とは異なり、このコンテキストでの攻撃は機能保存でなければならない。 その結果、ヒューリスティックなアルゴリズムが一般的に使われ、ランダムにピックされたり、正規のプログラムから取り出されたりして、新しいコンテンツを注入する。 本稿では,ゼロ階最適化フレームワークでマルウェア検出を学習し,機能保存操作を組み込む方法について述べる。 これにより、理論的保証と最小限のハイパーパラメータチューニングが可能な、音と効率的な勾配のない最適化アルゴリズムの展開が可能になる。 副産物として、Windows マルウェア検出に対する新しいゼロオーダー攻撃である ZEXE を提案し、研究する。 最先端技術と比較して、ZEXEは、注入されたコンテンツの3分の1以下に削減しつつ、回避率を大幅に改善する。

Machine learning malware detectors are vulnerable to adversarial EXEmples, i.e. carefully-crafted Windows programs tailored to evade detection. Unlike other adversarial problems, attacks in this context must be functionality-preserving, a constraint which is challenging to address. As a consequence heuristic algorithms are typically used, that inject new content, either randomly-picked or harvested from legitimate programs. In this paper, we show how learning malware detectors can be cast within a zeroth-order optimization framework which allows to incorporate functionality-preserving manipulations. This permits the deployment of sound and efficient gradient-free optimization algorithms, which come with theoretical guarantees and allow for minimal hyper-parameters tuning. As a by-product, we propose and study ZEXE, a novel zero-order attack against Windows malware detection. Compared to state-of-the-art techniques, ZEXE provides drastic improvement in the evasion rate, while reducing to less than one third the size of the injected content.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# Ghost-Stereo: ステレオマッチングネットワークのためのGhostNetベースのコストボリューム拡張と集約

Ghost-Stereo: GhostNet-based Cost Volume Enhancement and Aggregation for Stereo Matching Networks ( http://arxiv.org/abs/2405.14520v1 )

ライセンス: Link先を確認
Xingguang Jiang, Xiaofeng Bian, Chenggang Guo, (参考訳) ステレオマッチングに基づく深さ推定は古典的だが一般的なコンピュータビジョン問題であり、様々な実世界の応用がある。 現在のステレオマッチング手法は一般的にディープ・シームズニューラルネットワークアーキテクチャを採用しており、特徴マッチングのコストボリュームを構築し、コストアグリゲーションに3D畳み込みを使用することで、印象的な性能を実現している。 しかし、既存の手法の多くは、3D畳み込みの逐次的使用により、大量のパラメータと実行時間の遅れに悩まされている。 本稿では,新しいエンドツーエンドステレオマッチングネットワークであるGhost-Stereoを提案する。 ネットワークの特徴抽出部は、GhostNetを使用してU字型構造を形成する。 Ghost-Stereoのコアは、GhostNetの機能ベースのコストボリューム拡張(Ghost-CVE)モジュールと、GhostNetにインスパイアされた軽量コストボリュームアグリゲーション(Ghost-CVA)モジュールである。 Ghost-CVEでは、空間的コンテキスト認識を高めるために、GhostNetベースの機能によってコストボリュームを構築し、融合する。 Ghost-CVAでは、GhostNetに基づく軽量な3D畳み込みボトルネックブロックが提案され、このモジュールの計算複雑性を低減している。 テクスチャとジオメトリフュージョンモジュールを組み合わせることで、古典的な砂時計形状のコストボリューム集約構造を構築する。 Ghost-Stereoは、いくつかの公開ベンチマークで最先端のリアルタイムメソッドと同等のパフォーマンスを達成し、より優れた一般化能力を示している。

Depth estimation based on stereo matching is a classic but popular computer vision problem, which has a wide range of real-world applications. Current stereo matching methods generally adopt the deep Siamese neural network architecture, and have achieved impressing performance by constructing feature matching cost volumes and using 3D convolutions for cost aggregation. However, most existing methods suffer from large number of parameters and slow running time due to the sequential use of 3D convolutions. In this paper, we propose Ghost-Stereo, a novel end-to-end stereo matching network. The feature extraction part of the network uses the GhostNet to form a U-shaped structure. The core of Ghost-Stereo is a GhostNet feature-based cost volume enhancement (Ghost-CVE) module and a GhostNet-inspired lightweight cost volume aggregation (Ghost-CVA) module. For the Ghost-CVE part, cost volumes are constructed and fused by the GhostNet-based features to enhance the spatial context awareness. For the Ghost-CVA part, a lightweight 3D convolution bottleneck block based on the GhostNet is proposed to reduce the computational complexity in this module. By combining with the context and geometry fusion module, a classical hourglass-shaped cost volume aggregate structure is constructed. Ghost-Stereo achieves a comparable performance than state-of-the-art real-time methods on several publicly benchmarks, and shows a better generalization ability.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 階層型群構造を利用した断面フェアネスのための合成データ生成

Synthetic Data Generation for Intersectional Fairness by Leveraging Hierarchical Group Structure ( http://arxiv.org/abs/2405.14521v1 )

ライセンス: Link先を確認
Gaurav Maheshwari, Aurélien Bellet, Pascal Denis, Mikaela Keller, (参考訳) 本稿では,分類タスクにおける交差公正性を高めるために,特にデータ拡張手法を提案する。 本手法は,群を親圏の交叉と見なすことにより,交叉性に固有の階層構造に乗じる。 この観点から、これらの親グループからのデータを組み合わせた変換関数を学習することで、より小さなグループのデータを増やすことができる。 テキストと画像の両方を含む4つの多様なデータセットを用いて行った実証分析により、このデータ拡張アプローチで訓練された分類器は、従来のグループフェアネス指標を最適化する手法と比較して、より優れた交差フェアネスを実現し、"レベルダウン"に対してより堅牢であることが明らかになった。

In this paper, we introduce a data augmentation approach specifically tailored to enhance intersectional fairness in classification tasks. Our method capitalizes on the hierarchical structure inherent to intersectionality, by viewing groups as intersections of their parent categories. This perspective allows us to augment data for smaller groups by learning a transformation function that combines data from these parent groups. Our empirical analysis, conducted on four diverse datasets including both text and images, reveals that classifiers trained with this data augmentation approach achieve superior intersectional fairness and are more robust to ``leveling down'' when compared to methods optimizing traditional group fairness metrics.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 一貫性特性を持つ2レベルネスト特徴属性によるブラックボックスモデル予測

Explaining Black-box Model Predictions via Two-level Nested Feature Attributions with Consistency Property ( http://arxiv.org/abs/2405.14522v1 )

ライセンス: Link先を確認
Yuya Yoshikawa, Masanari Kimura, Ryotaro Shimizu, Yuki Saito, (参考訳) ブラックボックス機械学習モデルの予測を説明する技術は、モデルを透過的にすることで、AIシステムの信頼性を高めるために不可欠である。 モデルへの入力機能は、しばしば、高レベルの特徴と低レベルの特徴からなるネスト構造を持ち、それぞれの高レベルの特徴は複数の低レベルの特徴に分解される。 このような入力に対しては、ハイレベルな特徴属性(HiFA)とローレベルな特徴属性(LoFA)の両方がモデルの判断をよりよく理解するために重要である。 本論文では,入力のネスト構造を効果的に活用し,2段階の特徴属性を同時に推定するモデルに依存しない局所的説明法を提案する。 提案手法の鍵となる考え方は、HiFAとLoFAの間に存在するべき整合性を導入することである。 この整合性により、提案手法は、ブラックボックスモデルに忠実で、互いに整合性のあるHiFAとLoFAを、モデルに対するクエリの少ない方法で生成することができる。 言語モデルを用いた複数事例学習における画像分類とテキスト分類の実験において,提案手法により推定されたHiFAとLoFAは正確であり,ブラックボックスモデルの挙動に忠実であり,一貫した説明を提供する。

Techniques that explain the predictions of black-box machine learning models are crucial to make the models transparent, thereby increasing trust in AI systems. The input features to the models often have a nested structure that consists of high- and low-level features, and each high-level feature is decomposed into multiple low-level features. For such inputs, both high-level feature attributions (HiFAs) and low-level feature attributions (LoFAs) are important for better understanding the model's decision. In this paper, we propose a model-agnostic local explanation method that effectively exploits the nested structure of the input to estimate the two-level feature attributions simultaneously. A key idea of the proposed method is to introduce the consistency property that should exist between the HiFAs and LoFAs, thereby bridging the separate optimization problems for estimating them. Thanks to this consistency property, the proposed method can produce HiFAs and LoFAs that are both faithful to the black-box models and consistent with each other, using a smaller number of queries to the models. In experiments on image classification in multiple instance learning and text classification using language models, we demonstrate that the HiFAs and LoFAs estimated by the proposed method are accurate, faithful to the behaviors of the black-box models, and provide consistent explanations.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# パラメトリックダウンコンバージョン過程における非ガウス状態の形成

The formation of non-Gaussian states in the process of parametric down-conversion ( http://arxiv.org/abs/2405.14526v1 )

ライセンス: Link先を確認
Ranjit Singh, Alexander E. Teretenkov, (参考訳) パラメトリックダウンコンバージョン過程における非ガウス状態(シュロディンガー・キャット様状態, ウィグナー関数の負性性)の形成は, ポンプモードが量子状態とみなすときに研究される。 シュロディンガー・キャット様状態は基本モードと第二調和モードで形成され、両方のモードの負性性は特定の初期状態条件と相互作用長に対して研究される。 ウィグナー函数は、質的に非ガウス状態の可視化に使用される。

The formation of non-Gaussian states (Schrodinger cat-like state, negativity of the Wigner function) during the parametric down-conversion process is studied when the pump mode is considered quantum and depleted. The Schrodinger cat-like state is formed in the fundamental and second harmonic modes, and the negativity in both modes is studied for certain initial state conditions and interaction lengths. The Wigner function is used to visualize qualitatively non-Gaussian states.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# ArchesWeather: 1.5°解像度の効率的なAI天気予報モデル

ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution ( http://arxiv.org/abs/2405.14527v1 )

ライセンス: Link先を確認
Guillaume Couairon, Christian Lessig, Anastase Charantonis, Claire Monteleoni, (参考訳) AIベースの天気予報システムを設計する上での指針の1つは、ニューラルネットワークアーキテクチャにインダクティブプリエントとして物理的な制約を埋め込むことである。 3D畳み込みやPangu-Weatherのような3Dローカルアテンションウィンドウのように、大気データは局所的なニューラルな相互作用で処理される。 一方で、この局所性原理を使わずに天気予報に大きな成功を収めた研究もある。 本稿では,Pangu-Weatherにおける3次元局所処理が計算的に準最適であることを示す。 本稿では,2次元アテンションとカラム単位のアテンションに基づく特徴相互作用モジュールを組み合わせたトランスフォーマーモデルArchesWeatherを設計し,この設計が予測能力の向上を実証する。 ArchesWeatherは1.5{\deg}の解像度と24時間リードタイムでトレーニングされている。 ベストモデルの2つのアンサンブルは、IFS HRESと競合するRMSEスコアを示し、1.4{\deg} 50メンバーのNeuralGCMアンサンブルを1日前の予測で上回っている。 コードとモデルはhttps://github.com/gcouairon/ArchesWeather.comで公開される。

One of the guiding principles for designing AI-based weather forecasting systems is to embed physical constraints as inductive priors in the neural network architecture. A popular prior is locality, where the atmospheric data is processed with local neural interactions, like 3D convolutions or 3D local attention windows as in Pangu-Weather. On the other hand, some works have shown great success in weather forecasting without this locality principle, at the cost of a much higher parameter count. In this paper, we show that the 3D local processing in Pangu-Weather is computationally sub-optimal. We design ArchesWeather, a transformer model that combines 2D attention with a column-wise attention-based feature interaction module, and demonstrate that this design improves forecasting skill. ArchesWeather is trained at 1.5{\deg} resolution and 24h lead time, with a training budget of a few GPU-days and a lower inference cost than competing methods. An ensemble of two of our best models shows competitive RMSE scores with the IFS HRES and outperforms the 1.4{\deg} 50-members NeuralGCM ensemble for one day ahead forecasting. Code and models will be made publicly available at https://github.com/gcouairon/ArchesWeather.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# AnomalyDINO:DINOv2を用いたパッチベースのFew-shot異常検出

AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2 ( http://arxiv.org/abs/2405.14529v1 )

ライセンス: Link先を確認
Simon Damm, Mike Laszkiewicz, Johannes Lederer, Asja Fischer, (参考訳) マルチモーダル基礎モデルの最近の進歩は、数発の異常検出において新しい標準を定めている。 本稿では、高品質な視覚的特徴だけで既存の最先端の視覚言語モデルに対抗できるかどうかを考察する。 我々は、DINOv2をワンショットおよび数ショットの異常検出に適用し、産業応用に焦点をあてることでこれを裏付ける。 このアプローチは既存のテクニックに匹敵するだけでなく、多くの設定でそれらを上回ります。 提案するビジョンのみのアプローチであるAnomalyDINOは,パッチの類似性に基づいて,画像レベルの異常予測と画素レベルの異常セグメンテーションの両方を可能にする。 このアプローチは方法論的にシンプルで、トレーニング不要であるため、微調整やメタ学習のために追加のデータを必要としない。 その単純さにもかかわらず、AnomalyDINOは1発と数発の異常検出(例えば、MVTec-ADの1発のパフォーマンスを93.1%から96.6%まで押し上げる)で最先端の結果を達成した。 オーバーヘッドの削減と、その卓越した数ショットのパフォーマンスが相まって、AnomalyDINOは、例えば工業的コンテキストにおいて、迅速なデプロイメントの強力な候補となっている。

Recent advances in multimodal foundation models have set new standards in few-shot anomaly detection. This paper explores whether high-quality visual features alone are sufficient to rival existing state-of-the-art vision-language models. We affirm this by adapting DINOv2 for one-shot and few-shot anomaly detection, with a focus on industrial applications. We show that this approach does not only rival existing techniques but can even outmatch them in many settings. Our proposed vision-only approach, AnomalyDINO, is based on patch similarities and enables both image-level anomaly prediction and pixel-level anomaly segmentation. The approach is methodologically simple and training-free and, thus, does not require any additional data for fine-tuning or meta-learning. Despite its simplicity, AnomalyDINO achieves state-of-the-art results in one- and few-shot anomaly detection (e.g., pushing the one-shot performance on MVTec-AD from an AUROC of 93.1% to 96.6%). The reduced overhead, coupled with its outstanding few-shot performance, makes AnomalyDINO a strong candidate for fast deployment, for example, in industrial contexts.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# パッチ拡散によるシェーディングエマージからのマルチスタブル形状

Multistable Shape from Shading Emerges from Patch Diffusion ( http://arxiv.org/abs/2405.14530v1 )

ライセンス: Link先を確認
Xinran Nicole Han, Todd Zickler, Ko Nishino, (参考訳) なぜなら、連続(eg, bas-relief)と離散(eg, convex/concave)の両品種の基本的な数学的曖昧さがあるからである。 しかし、現在のモデルの出力は単一モードの周りの点推定や厳密な分布に限られており、これらの効果を捉えることができない。 一つのシェーディング画像から形状のマルチモーダル分布を再構成するモデルを提案する。 日常の3Dオブジェクトの合成画像の16ドル16セントのパッチから表面の正規場を生成するために、小さな偏微分拡散過程を訓練する。 このモデルを複数スケールでパッチ単位でデプロイし、パッチ間の整合性制約からガイダンスを得る。 比較的小さなパラメータ数とボトムアップ構造にもかかわらず、このモデルから人間がマルチスタブルであると経験する「あいまいな」テスト画像に対して、マルチスタブルな形状説明が現れることを示す。 同時に、モデルは、独特の閉塞輪郭を含むオブジェクトのような画像に対して、よりあいまいに見えず、検証可能な形状を推定する。 これは、より効率的で、人間の経験と整合した、確率的な3D形状知覚のための新しいアーキテクチャを刺激するかもしれない。

Models for monocular shape reconstruction of surfaces with diffuse reflection -- shape from shading -- ought to produce distributions of outputs, because there are fundamental mathematical ambiguities of both continuous (e.g., bas-relief) and discrete (e.g., convex/concave) varieties which are also experienced by humans. Yet, the outputs of current models are limited to point estimates or tight distributions around single modes, which prevent them from capturing these effects. We introduce a model that reconstructs a multimodal distribution of shapes from a single shading image, which aligns with the human experience of multistable perception. We train a small denoising diffusion process to generate surface normal fields from $16\times 16$ patches of synthetic images of everyday 3D objects. We deploy this model patch-wise at multiple scales, with guidance from inter-patch shape consistency constraints. Despite its relatively small parameter count and predominantly bottom-up structure, we show that multistable shape explanations emerge from this model for ''ambiguous'' test images that humans experience as being multistable. At the same time, the model produces veridical shape estimates for object-like images that include distinctive occluding contours and appear less ambiguous. This may inspire new architectures for stochastic 3D shape perception that are more efficient and better aligned with human experience.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 埋め込みと幾何学的ランダムグラフの整合性:Procrustes-Wasserstein問題に対する情報結果と計算的アプローチ

Aligning Embeddings and Geometric Random Graphs: Informational Results and Computational Approaches for the Procrustes-Wasserstein Problem ( http://arxiv.org/abs/2405.14532v1 )

ライセンス: Link先を確認
Mathieu Even, Luca Ganassali, Jakob Maier, Laurent Massoulié, (参考訳) Procrustes-Wasserstein問題(英語版)は、2つの高次元の点雲を教師なしの設定でマッチングすることであり、自然言語処理とコンピュータビジョンに多くの応用がある。 2つのデータセットが$X,Y$で、$n$のデータポイントが$\mathbb{R}^d$で、$Y$は$X$のノイズバージョンである。 この設定は幾何学モデルにおけるグラフアライメント問題と関連している。 本研究では,アライメント性能の指標として,点雲間のユークリッド輸送コストに着目した。 まず,高(d \gg \log n$)次元と低(d \ll \log n$)次元のレジームで情報理論結果を確立する。 次に計算面を研究し、代わりに直交変換と退化を推定するPing-Pongアルゴリズムを提案し、Franke-Wolfe convex relaxationを通じて初期化する。 本手法は,1ステップの後に植え付け信号を取得するのに十分な条件を与える。 提案手法とGrave et al (2019)の最先端手法との比較実験を行った。

The Procrustes-Wasserstein problem consists in matching two high-dimensional point clouds in an unsupervised setting, and has many applications in natural language processing and computer vision. We consider a planted model with two datasets $X,Y$ that consist of $n$ datapoints in $\mathbb{R}^d$, where $Y$ is a noisy version of $X$, up to an orthogonal transformation and a relabeling of the data points. This setting is related to the graph alignment problem in geometric models. In this work, we focus on the euclidean transport cost between the point clouds as a measure of performance for the alignment. We first establish information-theoretic results, in the high ($d \gg \log n$) and low ($d \ll \log n$) dimensional regimes. We then study computational aspects and propose the Ping-Pong algorithm, alternatively estimating the orthogonal transformation and the relabeling, initialized via a Franke-Wolfe convex relaxation. We give sufficient conditions for the method to retrieve the planted signal after one single step. We provide experimental results to compare the proposed approach with the state-of-the-art method of Grave et al. (2019).
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 共通言語空間におけるアライメントの探索

Exploring Alignment in Shared Cross-lingual Spaces ( http://arxiv.org/abs/2405.14535v1 )

ライセンス: Link先を確認
Basel Mousi, Nadir Durrani, Fahim Dalvi, Majd Hawasly, Ahmed Abdelali, (参考訳) 多様な言語にまたがる言語ニュアンスを捕捉する優れた能力にもかかわらず、多言語埋め込みにおける言語間のアライメントの程度について疑問が残る。 ニューラルネットワークモデルにおける高次元表現の研究からインスピレーションを得て、クラスタリングを用いて多言語モデル内の潜在概念を明らかにする。 我々の分析は、潜在空間内の様々な言語にまたがるこれらの概念の \textit{alignment} と \textit{overlap} の定量化に焦点を当てている。 この目的のために、これらの側面を定量化することを目的とした2つのメトリクス \CA{} と \CO{} を導入し、多言語埋め込みのより深い探索を可能にした。 本研究は,3つの多言語モデル (\texttt{mT5}, \texttt{mBERT}, \texttt{XLM-R}) と3つの下流タスク (Machine Translation, Named Entity Recognition, Sentiment Analysis) を含む。 私たちの分析の主な発見は以下のとおりである。 一 ネットワークの深い層は、言語に依存しない概念の存在により、言語横断的な「textit{alignment}」の増加を示す。 二 モデルの微調整は、潜伏空間内の「textit{alignment}」を増強し、 三 このようなタスク固有のキャリブレーションは、モデルにおけるゼロショット能力の出現を説明するのに役立ちます。 \footnote{The code are available at \url{https://github.com/baselmousi/multilingual-latent-concepts}}

Despite their remarkable ability to capture linguistic nuances across diverse languages, questions persist regarding the degree of alignment between languages in multilingual embeddings. Drawing inspiration from research on high-dimensional representations in neural language models, we employ clustering to uncover latent concepts within multilingual models. Our analysis focuses on quantifying the \textit{alignment} and \textit{overlap} of these concepts across various languages within the latent space. To this end, we introduce two metrics \CA{} and \CO{} aimed at quantifying these aspects, enabling a deeper exploration of multilingual embeddings. Our study encompasses three multilingual models (\texttt{mT5}, \texttt{mBERT}, and \texttt{XLM-R}) and three downstream tasks (Machine Translation, Named Entity Recognition, and Sentiment Analysis). Key findings from our analysis include: i) deeper layers in the network demonstrate increased cross-lingual \textit{alignment} due to the presence of language-agnostic concepts, ii) fine-tuning of the models enhances \textit{alignment} within the latent space, and iii) such task-specific calibration helps in explaining the emergence of zero-shot capabilities in the models.\footnote{The code is available at \url{https://github.com/baselmousi/multilingual-latent-concepts}}
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 薬物応答予測を支援するレグレッタフリー分子生成

Regressor-free Molecule Generation to Support Drug Response Prediction ( http://arxiv.org/abs/2405.14536v1 )

ライセンス: Link先を確認
Kun Li, Xiuwen Gong, Shirui Pan, Jia Wu, Bo Du, Wenbin Hu, (参考訳) 薬物反応予測(DRP)は薬物発見の重要な段階であり、その評価において最も重要な指標はIC50スコアである。 DRPの結果は生成分子の品質に大きく依存する。 既存の分子生成法では、IC50分類範囲内でのサンプリングを可能にする分類器に基づく誘導を用いるのが一般的である。 しかし、これらの方法はサンプリングスペース範囲の有効性を保証できず、多くの非効率な分子を生成する。 実験および理論的研究を通じて,対象IC50スコアに基づく条件生成により,より効果的なサンプリング空間が得られると仮定する。 その結果、より効率的な空間内でサンプリングを確実にし、DRPをサポートするために、レグレシタフリー誘導分子の生成を導入する。 回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。 薬物と細胞間のレグレッションラベルを効果的にマッピングするために,テキスト表現の順序を制約する常識数値知識グラフを設計する。 DRPタスクのための実世界のデータセットの実験結果から,薬物発見における本手法の有効性が示された。 コードはhttps://anonymous.4open.science/r/RMCD-DBD1で公開されている。

Drug response prediction (DRP) is a crucial phase in drug discovery, and the most important metric for its evaluation is the IC50 score. DRP results are heavily dependent on the quality of the generated molecules. Existing molecule generation methods typically employ classifier-based guidance, enabling sampling within the IC50 classification range. However, these methods fail to ensure the sampling space range's effectiveness, generating numerous ineffective molecules. Through experimental and theoretical study, we hypothesize that conditional generation based on the target IC50 score can obtain a more effective sampling space. As a result, we introduce regressor-free guidance molecule generation to ensure sampling within a more effective space and support DRP. Regressor-free guidance combines a diffusion model's score estimation with a regression controller model's gradient based on number labels. To effectively map regression labels between drugs and cell lines, we design a common-sense numerical knowledge graph that constrains the order of text representations. Experimental results on the real-world dataset for the DRP task demonstrate our method's effectiveness in drug discovery. The code is available at:https://anonymous.4open.science/r/RMCD-DBD1.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 動的ベイズ最適化における定常観測の除去

This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization ( http://arxiv.org/abs/2405.14540v1 )

ライセンス: Link先を確認
Anthony Bardou, Patrick Thiran, Giovanni Ranieri, (参考訳) ベイズ最適化 (BO) は静的でノイズの多いブラックボックス関数 $f : \mathcal{S} \to \mathbb{R}$ の最適化に成功している。 しかし、時間関数であるブラックボックスを最適化する(つまり、動的関数) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ は、動的ベイズ最適化(DBO)アルゴリズムが時間とともに最適性を追跡する必要があるため、依然として挑戦である。 これは、最適化問題の性質を少なくとも3つの面で変更する。 (i)$\mathcal{S} \times \mathcal{T}$で任意の点を問うことは不可能である。 (二 時が経つにつれて、過去の観測が最適の追跡に関連しにくくなること。) 3) DBOアルゴリズムはサンプリング周波数が高くなければならず, 時間を通して最適な観測を追跡できる。 本稿では,将来予測に対する観測の妥当性を定量化できるワッサーシュタイン距離に基づく基準を設計する。 そして、この基準を利用してW-DBO(DBOアルゴリズム)を構築する。これは、データセットから無関係な観測をその場で除去し、予測性能とサンプリング周波数を同時に維持できる。 数値実験により、W-DBOの優位性が確立され、より快適なマージンで最先端の手法より優れている。

Bayesian Optimization (BO) has proven to be very successful at optimizing a static, noisy, costly-to-evaluate black-box function $f : \mathcal{S} \to \mathbb{R}$. However, optimizing a black-box which is also a function of time (i.e., a dynamic function) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ remains a challenge, since a dynamic Bayesian Optimization (DBO) algorithm has to keep track of the optimum over time. This changes the nature of the optimization problem in at least three aspects: (i) querying an arbitrary point in $\mathcal{S} \times \mathcal{T}$ is impossible, (ii) past observations become less and less relevant for keeping track of the optimum as time goes by and (iii) the DBO algorithm must have a high sampling frequency so it can collect enough relevant observations to keep track of the optimum through time. In this paper, we design a Wasserstein distance-based criterion able to quantify the relevancy of an observation with respect to future predictions. Then, we leverage this criterion to build W-DBO, a DBO algorithm able to remove irrelevant observations from its dataset on the fly, thus maintaining simultaneously a good predictive performance and a high sampling frequency, even in continuous-time optimization tasks with unknown horizon. Numerical experiments establish the superiority of W-DBO, which outperforms state-of-the-art methods by a comfortable margin.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 深層学習のための核ノルム規則化

Nuclear Norm Regularization for Deep Learning ( http://arxiv.org/abs/2405.14544v1 )

ライセンス: Link先を確認
Christopher Scarvelis, Justin Solomon, (参考訳) 関数のジャコビアンの核ノルムを罰することは、局所的に低ランク線型写像のように振る舞うことを奨励する。 そのような関数は少数の方向で局所的に変化し、ヤコビアン核ノルムは機械学習問題に対する自然な正則化子となる。 しかし、この正規化器は大きなヤコビ行列の計算と特異値分解を必要とするため、高次元問題には難解である。 深層学習に適した手法を用いて,ジャコビアン核規範を効果的に適用する方法を示す。 合成としてパラメータ化された函数に対して、$f = g \circ h$ は、平均二乗フロベニウスノルムを$Jg$ と$Jh$ と等価にペナル化することができる。 次に,ジャコビアン計算を完全に回避したデノナイジング型近似を提案する。 提案手法は単純,効率的,高精度であり,ヤコビアン核の正規化を高次元深層学習問題に拡張することができる。 我々は,本理論を,正規化器の性能に関する実証的研究で補完し,認知と表現学習への応用について検討する。

Penalizing the nuclear norm of a function's Jacobian encourages it to locally behave like a low-rank linear map. Such functions vary locally along only a handful of directions, making the Jacobian nuclear norm a natural regularizer for machine learning problems. However, this regularizer is intractable for high-dimensional problems, as it requires computing a large Jacobian matrix and taking its singular value decomposition. We show how to efficiently penalize the Jacobian nuclear norm using techniques tailor-made for deep learning. We prove that for functions parametrized as compositions $f = g \circ h$, one may equivalently penalize the average squared Frobenius norm of $Jg$ and $Jh$. We then propose a denoising-style approximation that avoids the Jacobian computations altogether. Our method is simple, efficient, and accurate, enabling Jacobian nuclear norm regularization to scale to high-dimensional deep learning problems. We complement our theory with an empirical study of our regularizer's performance and investigate applications to denoising and representation learning.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 潜伏変数を持つサブポピュレーションにおける因果効果の同定

Causal Effect Identification in a Sub-Population with Latent Variables ( http://arxiv.org/abs/2405.14547v1 )

ライセンス: Link先を確認
Amir Mohammad Abouei, Ehsan Mokhtarian, Negar Kiyavash, Matthias Grossglauser, (参考訳) s-ID問題は、同じサブ集団に関する観測データから特定のサブ集団における因果効果を計算しようとする(Abouei et al , 2023)。 この問題は、システム内のすべての変数が観測可能である場合に対処されている。 本稿では,潜伏変数の存在を許容するs-ID問題の拡張について考察する。 サブポピュレーションにおける潜伏変数の存在によって引き起こされる課題に対処するために、我々はまず、c-components や Hedges といった古典的なグラフィカルな定義を、当初はいわゆる ID 問題 (Pearl, 1995; Tian & Pearl, 2002) に拡張する。 次に,潜伏変数を持つs-ID問題に対する音響アルゴリズムを提案する。

The s-ID problem seeks to compute a causal effect in a specific sub-population from the observational data pertaining to the same sub population (Abouei et al., 2023). This problem has been addressed when all the variables in the system are observable. In this paper, we consider an extension of the s-ID problem that allows for the presence of latent variables. To tackle the challenges induced by the presence of latent variables in a sub-population, we first extend the classical relevant graphical definitions, such as c-components and Hedges, initially defined for the so-called ID problem (Pearl, 1995; Tian & Pearl, 2002), to their new counterparts. Subsequently, we propose a sound algorithm for the s-ID problem with latent variables.
翻訳日:2024-05-24 15:05:17 公開日:2024-05-23
# 量子リード・ミュラー符号のフォールトトレランスに対する効率的な再帰エンコーダ

Efficient recursive encoders for quantum Reed-Muller codes towards Fault tolerance ( http://arxiv.org/abs/2405.14549v1 )

ライセンス: Link先を確認
Praveen Jayakumar, Priya J. Nadkarni, Shayan Srinivasa Garani, (参考訳) トランスバーサルゲート(Transversal gate)は、符号付き量子情報に対する論理ゲート演算であり、ゲート数と深さが効率的であり、誤りの伝播を最小限に抑えるように設計されている。 したがって、超越ゲートを許容する量子符号の効率的な符号化回路は、ノイズを低減し、有用な量子コンピュータを実現するために重要である。 句読点付き量子リード・ミュラー符号のクラスは、超越ゲートを許容する。 Reed-Muller と punctured Reed-Muller から構築された量子符号のクラスに対して,資源効率の良い再帰エンコーダを構築する。 n$ qubits 上のこれらのエンコーダは回路深さが$O(\log n)$で、ゲート数が以前のものよりも低い。 量子ビットの2分割にまたがるエンコーダにおけるCNOTゲートの数は、これらのパーティション間の絡み合いエントロピーと等しく、エンコーダがこれらのパーティション間のCNOTゲートの観点で最適であることを示す。 最後に,これらのアイデアを結合することにより,QRMのコードワードから絡み合いを抽出できることを明確に示す。

Transversal gates are logical gate operations on encoded quantum information that are efficient in gate count and depth, and are designed to minimize error propagation. Efficient encoding circuits for quantum codes that admit transversal gates are thus crucial to reduce noise and realize useful quantum computers. The class of punctured Quantum Reed-Muller codes admit transversal gates. We construct resource efficient recursive encoders for the class of quantum codes constructed from Reed-Muller and punctured Reed-Muller codes. These encoders on $n$ qubits have circuit depth of $O(\log n)$ and lower gate counts compared to previous works. The number of CNOT gates in the encoder across bi-partitions of the qubits is found to be equal to the entanglement entropy across these partitions, demonstrating that the encoder is optimal in terms of CNOT gates across these partitions. Finally, connecting these ideas, we explicitly show that entanglement can be extracted from QRM codewords.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# UDKAG: 最新知識による大規模ビジョンランゲージモデルの拡張

UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge ( http://arxiv.org/abs/2405.14554v1 )

ライセンス: Link先を確認
Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang, (参考訳) 大規模な視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。 例えば、2024年1月にLVLMが公開された場合、2024年2月まで公開されなかった新しい映画『デューン2』の詳細なプロットがわからないだろう。 この問題を解決するため、将来的な解決策として、GPT-4Vのようないくつかのクローズドソース商用LVLMにすでに組み込まれているインターネット拡張世代(IAG)の推論中に、インターネットサーチによる最新の知識をLVLMに提供することが挙げられる。 しかし、それらを支える特定の力学は謎のままである。 本稿では、UDKAGと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために、既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。 階層的フィルタリングモデルは、検索エンジンが返却したWebサイトから最も有用なコンテンツを効果的かつ効率的に見つけるように訓練され、LVLMを最新の知識で促す。 モデルをトレーニングし,我々のフレームワークの性能を評価するために,UDK-VQAと呼ばれるデータセットを構築するために,ニュース関連VQAサンプルを自動的に生成するパイプラインを提案する。 トレーニングセットを構築するために、VQAサンプルのWebサイト/コンテンツの有用性をラベル付けするために、マルチモデル投票機構を導入する。 実験の結果,GPT-4Vの精度が約25%向上した。

Large vision-language models (LVLMs) are ignorant of the up-to-date knowledge, such as LLaVA series, because they cannot be updated frequently due to the large amount of resources required, and therefore fail in many cases. For example, if a LVLM was released on January 2024, and it wouldn't know the detailed plot of the new movie Dune 2, which wasn't released until February 2024. To solve the problem, a promising solution is to provide LVLMs with up-to-date knowledge via internet search during inference, i.e., internet-augmented generation (IAG), which is already integrated in some closed-source commercial LVLMs such as GPT-4V. However, the specific mechanics underpinning them remain a mystery. In this paper, we propose a plug-and-play framework, for augmenting existing LVLMs in handling visual question answering (VQA) about up-to-date knowledge, dubbed UDKAG. A hierarchical filtering model is trained to effectively and efficiently find the most helpful content from the websites returned by a search engine to prompt LVLMs with up-to-date knowledge. To train the model and evaluate our framework's performance, we propose a pipeline to automatically generate news-related VQA samples to construct a dataset, dubbed UDK-VQA. A multi-model voting mechanism is introduced to label the usefulness of website/content for VQA samples to construct the training set. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4V by about 25% in accuracy.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# サブストラクタ対策が必要なサブストラクタ:大規模言語モデルにおける代表的・親和性バイアスの評価のための2つの指標

Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models ( http://arxiv.org/abs/2405.14555v1 )

ライセンス: Link先を確認
Abhishek Kumar, Sarfaroz Yunusov, Ali Emami, (参考訳) LLM(Large Language Models)の研究は、しばしば微妙な偏見を無視している。 本研究は LLM 内の2つのバイアスに対処する: \textit{representative bias} 特定のアイデンティティグループの経験を反映した出力を生成する LLM の傾向を表す \textit{representative bias} と、特定の物語や視点に対するモデルの評価的嗜好を反映した \textit{affinity bias} である。 本稿では,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を紹介した。 我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。 さらに,親和性バイアスを調べた結果,各モデルに特徴的な評価パターンがみられた。 この傾向は人間の評価にも見られ、人間と機械の偏見の複雑な相互作用を浮き彫りにしている。

Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models' outputs toward particular social narratives. This study addresses two such biases within LLMs: \textit{representative bias}, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and \textit{affinity bias}, reflecting the models' evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints'. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 高血圧度に対する光胸腺X線信号の深層学習分類

Deep Learning Classification of Photoplethysmogram Signal for Hypertension Levels ( http://arxiv.org/abs/2405.14556v1 )

ライセンス: Link先を確認
Nida Nasir, Mustafa Sameer, Feras Barneih, Omar Alshaltone, Muneeb Ahmed, (参考訳) 医療・フィットネス分野では連続型光胸腺撮影(PPG)による血圧モニタリングが不可欠である。 人工知能(AI)では、機械による信号の分類レベルと深層学習アレンジメントをさらに探求する必要がある。 短時間フーリエ変換 (STFT) のような時間周波数スペクトルに基づく手法は、運動アーチファクト補正の課題に対処するために用いられている。 そこで,本研究では,200人以上の高血圧患者(650以上の信号サンプル)のPSG信号を用いて,様々なニューラルネットワーク(畳み込みニューラルネットワーク(CNN),長短短期記憶(LSTM),双方向長短期記憶(Bi-LSTM)を用いてSTFTを行い,次に,サポートベクタマシン(SVM)やランダムフォレスト(RF)などの機械学習分類を行う。 この分類は、プレ高血圧(正常なレベル)と高血圧(ステージIとステージIIを含む)の2つのカテゴリで行われてきた。 ニューラルネットワークの融合のための2つのバッチサイズ 3 と 16 の様々なパフォーマンス指標が得られた。 精度と特異性の100%と82.1%のリコールにより、LSTMモデルはニューラルネットワークのすべての組み合わせの中で最良の結果を提供する。 しかし、最大71.9%の精度はLSTM-CNNモデルによって達成されている。 さらに,Meta-LSTM-RF,Meta-LSTM-CNN-RF,Meta-STFT-CNN-SVMにおいて,100%の精度を実現するために,Ensemble法が用いられている。

Continuous photoplethysmography (PPG)-based blood pressure monitoring is necessary for healthcare and fitness applications. In Artificial Intelligence (AI), signal classification levels with the machine and deep learning arrangements need to be explored further. Techniques based on time-frequency spectra, such as Short-time Fourier Transform (STFT), have been used to address the challenges of motion artifact correction. Therefore, the proposed study works with PPG signals of more than 200 patients (650+ signal samples) with hypertension, using STFT with various Neural Networks (Convolution Neural Network (CNN), Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (Bi-LSTM), followed by machine learning classifiers, such as, Support Vector Machine (SVM) and Random Forest (RF). The classification has been done for two categories: Prehypertension (normal levels) and Hypertension (includes Stage I and Stage II). Various performance metrics have been obtained with two batch sizes of 3 and 16 for the fusion of the neural networks. With precision and specificity of 100% and recall of 82.1%, the LSTM model provides the best results among all combinations of Neural Networks. However, the maximum accuracy of 71.9% is achieved by the LSTM-CNN model. Further stacked Ensemble method has been used to achieve 100% accuracy for Meta-LSTM-RF, Meta- LSTM-CNN-RF and Meta- STFT-CNN-SVM.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 36kmの都市内ファイバネットワークによるトリガー偏光結合型通信光子の高忠実度分布

High fidelity distribution of triggered polarization-entangled telecom photons via a 36km intra-city fiber network ( http://arxiv.org/abs/2405.14557v1 )

ライセンス: Link先を確認
Tim Strobel1, Stefan Kazmaier1, Tobias Bauer2, Marlon Schäfer2, Ankita Choudhary3, Cornelius Nawrath1, Jonas H. Weber1, Weijie Nie3, Ghata Bhayani3, Lukas Wagner1, André Bisquerra1, Marc Geitz4, Ralf-Peter Braun4, Caspar Hopfmann3, Simone L. Portalupi1, Christoph Becher2, Peter Michler1, (参考訳) 引き起こされた、絡み合った単一光子対のファイバーベースの分布は、将来の地上量子ネットワークの発展の鍵となる要件である。 この文脈では、半導体量子ドット(QD)は、オンデマンドの偏光-絡み合った光子対の決定論的情報源の候補である。 これまでのところ、最もQD偏光に絡み合ったペア光源は、デプロイされたファイバーの伝送距離が制限された近赤外波長で放射される。 ここでは、既存のファイバネットワーク基盤と互換性を保ちながら、二方向偏光保存量子周波数変換(QFC)を用いて、 \unit[780]{nm} からのQD放射をテレコム波長に変換する。 QFC後の偏光絡み(ベル状態$F_{\phi^+, conv}=0.972\pm0.003$)の保存効果を示す。 実世界の応用に向けてのステップとして、標準単一モードファイバリンク(F_{\phi^+, loop}=0.945\pm0.005$)を、標準単一モードファイバリンクにインストールした単体[35.8]{km}フィールドに沿って、絡み合ったペアの1つの光子が伝播した後、高絡み合いフィデリティ(F_{\phi^+, loop}=0.945\pm0.005$)を報告する。 さらに、第2の分極対向QFCステップを、(F_{\phi^+, back}=0.903\pm0.005$)絡みを保ったままの単位[780]{nm}に戻すことに成功した。 これにより、様々な量子メモリに量子光を対向させる方法がさらに準備される。

Fiber-based distribution of triggered, entangled, single-photon pairs is a key requirement for the future development of terrestrial quantum networks. In this context, semiconductor quantum dots (QDs) are promising candidates for deterministic sources of on-demand polarization-entangled photon pairs. So far, the best QD polarization-entangled-pair sources emit in the near-infrared wavelength regime, where the transmission distance in deployed fibers is limited. Here, to be compatible with existing fiber network infrastructures, bi-directional polarization-conserving quantum frequency conversion (QFC) is employed to convert the QD emission from \unit[780]{nm} to telecom wavelengths. We show the preservation of polarization entanglement after QFC (fidelity to Bell state $F_{\phi^+, conv}=0.972\pm0.003$) of the biexciton transition. As a step towards real-world applicability, high entanglement fidelities ($F_{\phi^+, loop}=0.945\pm0.005$) after the propagation of one photon of the entangled pair along a \unit[35.8]{km} field installed standard single mode fiber link are reported. Furthermore, we successfully demonstrate a second polarization-conversing QFC step back to \unit[780]{nm} preserving entanglement ($F_{\phi^+, back}=0.903\pm0.005$). This further prepares the way for interfacing quantum light to various quantum memories.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# FUSE:PDEの高速統一シミュレーションと推定

FUSE: Fast Unified Simulation and Estimation for PDEs ( http://arxiv.org/abs/2405.14558v1 )

ライセンス: Link先を確認
Levi E. Lingsch, Dana Grund, Siddhartha Mishra, Georgios Kissas, (参考訳) 連続場の合同予測と基礎となる離散パラメータの統計的推定は、PDEによって支配される多くの物理系において共通の問題である。 シミュレーションに基づく推論(およびその変種)を統計的パラメータ決定に用いながら,演算子学習サロゲートをフィールド予測に用いた。 ここでは、同一のフレームワーク内で両方の問題を解決することは、精度と堅牢性において一貫した向上をもたらすと論じる。 そこで本研究では,連続的な量の予測と離散パラメータの分布推定が可能な演算子学習問題の新しいフレキシブルな定式化を提案する。 本研究は, 生体内ハエモダイナミックスシミュレーションにおいて, 生体マーカーと生体マーカーの連続的・離散的予測を行う手法を提案する。 また,2次元ドライ・コールド・バブルの大気大渦シミュレーションのケースについても検討し,連続した時系列とシステム状態に関する情報の両方を推測する。 本稿では,逆タスクと代理タスクの双方において,異なるベースラインとの比較を行い,精度が著しく向上したことを示す。

The joint prediction of continuous fields and statistical estimation of the underlying discrete parameters is a common problem for many physical systems, governed by PDEs. Hitherto, it has been separately addressed by employing operator learning surrogates for field prediction while using simulation-based inference (and its variants) for statistical parameter determination. Here, we argue that solving both problems within the same framework can lead to consistent gains in accuracy and robustness. To this end, We propose a novel and flexible formulation of the operator learning problem that allows jointly predicting continuous quantities and inferring distributions of discrete parameters, and thus amortizing the cost of both the inverse and the surrogate models to a joint pre-training step. We present the capabilities of the proposed methodology for predicting continuous and discrete biomarkers in full-body haemodynamics simulations under different levels of missing information. We also consider a test case for atmospheric large-eddy simulation of a two-dimensional dry cold bubble, where we infer both continuous time-series and information about the systems conditions. We present comparisons against different baselines to showcase significantly increased accuracy in both the inverse and the surrogate tasks.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# Beyond the Buzz: 有用なNISQアプリケーションを実現するための戦略パス

Beyond the Buzz: Strategic Paths for Enabling Useful NISQ Applications ( http://arxiv.org/abs/2405.14561v1 )

ライセンス: Link先を確認
Pratibha Raghupati Hegde, Oleksandr Kyriienko, Hermanni Heimonen, Panagiotis Tolias, Gilbert Netzer, Panagiotis Barkoutsos, Ricardo Vinuesa, Ivy Peng, Stefano Markidis, (参考訳) 現在のNISQデバイスにおける量子コンピューティングは、ノイズの多い数百量子ビットで構成され、アルゴリズムの一部として古典コンピューティングの非無視的な使用を必要とするかどうかについては、多くの議論がある。 本論文では,実世界のNISQ量子アプリケーションはまだ従来のアプリケーションを超えていないが,産業的および科学的な応用の進展を促進するために戦略的なアプローチを用いることができると論じる。 NISQコンピューティングを実用的で有用な実装に導くための3つの重要な戦略を特定した。 まず、"キラーアプリ"の識別を優先することが重要なポイントです。 NISQデバイスの特長を示すアプリケーションは、より広範な開発を促進することができる。 我々は、量子化学や物質科学を将来性のある領域として指している、本質的に量子であるアプリケーションに焦点をあてることを提案する。 これらのフィールドはメリットを示す可能性を秘めており、他のアプリケーションが従うためのベンチマークを設定している。 第二に、AIとディープラーニングメソッドをNISQコンピューティングに統合することは、有望なアプローチである。 量子物理学インフォームドニューラルネットワークや微分可能な量子回路(DQC)のような例は、量子コンピューティングとAIの相乗効果を示している。 最後に、NISQコンピューティングの学際的性質を認識し、共同設計アプローチを提唱する。 古典コンピューティングと量子コンピューティングの相乗効果を達成するためには、量子アプリケーション、アルゴリズム、プログラミング環境の共同設計と、HPCと量子ハードウェアの統合が必要である。 これらのコンポーネントの相互運用性は、NISQコンピューティングの完全な可能性を実現するために不可欠である。

There is much debate on whether quantum computing on current NISQ devices, consisting of noisy hundred qubits and requiring a non-negligible usage of classical computing as part of the algorithms, has utility and will ever offer advantages for scientific and industrial applications with respect to traditional computing. In this position paper, we argue that while real-world NISQ quantum applications have yet to surpass their classical counterparts, strategic approaches can be used to facilitate advancements in both industrial and scientific applications. We have identified three key strategies to guide NISQ computing towards practical and useful implementations. Firstly, prioritizing the identification of a "killer app" is a key point. An application demonstrating the distinctive capabilities of NISQ devices can catalyze broader development. We suggest focusing on applications that are inherently quantum, e.g., pointing towards quantum chemistry and material science as promising domains. These fields hold the potential to exhibit benefits, setting benchmarks for other applications to follow. Secondly, integrating AI and deep-learning methods into NISQ computing is a promising approach. Examples such as quantum Physics-Informed Neural Networks and Differentiable Quantum Circuits (DQC) demonstrate the synergy between quantum computing and AI. Lastly, recognizing the interdisciplinary nature of NISQ computing, we advocate for a co-design approach. Achieving synergy between classical and quantum computing necessitates an effort in co-designing quantum applications, algorithms, and programming environments, and the integration of HPC with quantum hardware. The interoperability of these components is crucial for enabling the full potential of NISQ computing.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 超低温原子ガスの量子混合

Quantum Mixtures of Ultracold Atomic Gases ( http://arxiv.org/abs/2405.14562v1 )

ライセンス: Link先を確認
Cosetta Baroni, Giacomo Lamporesi, Matteo Zaccanti, (参考訳) 様々な種類の超低温ガスの組み合わせは、様々な物理問題を研究するための新しい強力な実験の枠組みとなっている。 量子混合の可能性、例えば、同核スピン混合物やヘテロ核混合物の相違について説明し、少数体から多体状態へのトピックの多元性を調べるためにどのように利用することができるかを示す。 特に、いくつかの異なる種類の原子からなる系、宿主の量子ガスに浸漬された単一の不純物、相互作用する2つの気体の量子混合物の3つの異なる視点で超低温気体の量子混合物について議論する。 可能なトピックや実験体制の幅広いスペクトルを考えると、このレビューでは、主に3次元構成で、単一のハーモニックまたはフラットトラップに関する議論を制限する。 最近の実験結果の選択と今後の興味深い方向性について述べる。

The combination of different kinds of ultracold gases constitutes a novel powerful experimental framework for the investigation of a variety of physical problems. We illustrate the differences among possible quantum mixtures, be they homonuclear spin mixtures or heteronuclear ones, and show how they can be exploited to investigate a plethora of topics from the few-body to the many-body regimes. In particular, we discuss quantum mixtures of ultracold gases under three different perspectives: systems made of a few atoms of different kinds, single impurities immersed in a host quantum gas, and quantum mixtures of two interacting gases. Given the broad spectrum of possible topics and experimental regimes, in this review we restrict the discussion on single harmonic or flat traps, predominantly in a three-dimensional configuration. A selection of results on recent experiments and possible interesting future directions are given.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 概念可視化: WordNet を用いた CLIP マルチモーダル埋め込みの解説

Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet ( http://arxiv.org/abs/2405.14563v1 )

ライセンス: Link先を確認
Loris Giulivi, Giacomo Boracchi, (参考訳) マルチモーダル埋め込み、特にCLIPの進歩は、最近コンピュータビジョン(CV)でいくつかのブレークスルーを導いた。 CLIPは様々なタスクで素晴らしいパフォーマンスを示しているが、その本質的に不透明なアーキテクチャはCLIPをバックボーンとして使用するモデルの適用を妨げる可能性がある。 CVモデルの現在の説明手法は、勾配解析や入力摂動によって計算されたSaliency Mapsに依存している。 しかし、これらのSaliency Mapsはエンドタスクに関連するクラスを説明するためにのみ計算され、多くの場合、バックボーンのトレーニングクラスよりもスコープが小さい。 CLIPをビジョンバックボーンとして実装するモデルのコンテキストでは、学習された表現に埋め込まれた情報のかなりの部分が説明されていない。 本研究では,CLIPの埋め込みを画像のマルチモーダルな性質を利用して説明するための概念可視化(ConVis)を提案する。 ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。 我々は、分散検出実験を通じてWordNetの使用を検証するとともに、ConVisをオブジェクトローカライゼーションベンチマークでテストし、概念可視化が画像のセマンティックコンテンツを正しく識別し、ローカライズすることを示す。 さらに,本手法がモデルの機能をユーザに提供することを実証するユーザスタディも実施している。

Advances in multi-modal embeddings, and in particular CLIP, have recently driven several breakthroughs in Computer Vision (CV). CLIP has shown impressive performance on a variety of tasks, yet, its inherently opaque architecture may hinder the application of models employing CLIP as backbone, especially in fields where trust and model explainability are imperative, such as in the medical domain. Current explanation methodologies for CV models rely on Saliency Maps computed through gradient analysis or input perturbation. However, these Saliency Maps can only be computed to explain classes relevant to the end task, often smaller in scope than the backbone training classes. In the context of models implementing CLIP as their vision backbone, a substantial portion of the information embedded within the learned representations is thus left unexplained. In this work, we propose Concept Visualization (ConVis), a novel saliency methodology that explains the CLIP embedding of an image by exploiting the multi-modal nature of the embeddings. ConVis makes use of lexical information from WordNet to compute task-agnostic Saliency Maps for any concept, not limited to concepts the end model was trained on. We validate our use of WordNet via an out of distribution detection experiment, and test ConVis on an object localization benchmark, showing that Concept Visualizations correctly identify and localize the image's semantic content. Additionally, we perform a user study demonstrating that our methodology can give users insight on the model's functioning.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# EHRMamba:電子健康記録のための汎用的でスケーラブルな基礎モデルを目指して

EHRMamba: Towards Generalizable and Scalable Foundation Models for Electronic Health Records ( http://arxiv.org/abs/2405.14567v1 )

ライセンス: Link先を確認
Adibvafa Fallahpour, Mahshid Alinoori, Arash Afkanpour, Amrit Krishnan, (参考訳) トランスフォーマーはElectronic Health Records(EHR)のモデリングを大幅に進歩させたが、実際の医療への展開はいくつかの重要な課題によって制限されている。 第一に、これらのモデルの二次計算コストと文脈長の不足は、EHRデータに典型的な広範な医療履歴を処理する際に、病院にとって重大な障害となる。 さらに、既存のモデルでは、医療環境のメンテナンスを複雑にすることで、それぞれの臨床タスクに個別の微調整が採用されている。 さらに、これらのモデルは、臨床予測またはEHR予測にのみ焦点をあてており、両方でうまく機能する柔軟性が欠如している。 これらの制限を克服するために,我々は,Mambaアーキテクチャ上に構築された堅牢な基盤モデルであるEHRMambaを紹介した。 EHRMambaは、線形計算コストのために、以前のモデルよりも最大4倍長いシーケンスを処理できる。 EHRデータに対するMTF(Multitask Prompted Finetuning)の新たなアプローチを導入することで,EHRMambaは単一ファインチューニングフェーズで複数の臨床タスクを同時に学習し,デプロイメントとクロスタスクの一般化を著しく向上する。 さらに,既存の病院システムへの統合を容易にするため,HL7 FHIRデータ標準を活用している。 EHRMambaとともに、EHRファウンデーションモデルの開発とデプロイをサポートするために設計されたツールキットであるOdysseyをオープンソースとして公開しました。 MIMIC-IVデータセットを用いて評価したところ, EHRMambaは6つの主要な臨床課題にまたがって最先端の成績を向上し, EHR予測に優れており, この分野における飛躍的な進歩を示している。

Transformers have significantly advanced the modeling of Electronic Health Records (EHR), yet their deployment in real-world healthcare is limited by several key challenges. Firstly, the quadratic computational cost and insufficient context length of these models pose significant obstacles for hospitals in processing the extensive medical histories typical in EHR data. Additionally, existing models employ separate finetuning for each clinical task, complicating maintenance in healthcare environments. Moreover, these models focus exclusively on either clinical prediction or EHR forecasting, lacking the flexibility to perform well across both. To overcome these limitations, we introduce EHRMamba, a robust foundation model built on the Mamba architecture. EHRMamba can process sequences up to four times longer than previous models due to its linear computational cost. We also introduce a novel approach to Multitask Prompted Finetuning (MTF) for EHR data, which enables EHRMamba to simultaneously learn multiple clinical tasks in a single finetuning phase, significantly enhancing deployment and cross-task generalization. Furthermore, our model leverages the HL7 FHIR data standard to simplify integration into existing hospital systems. Alongside EHRMamba, we open-source Odyssey, a toolkit designed to support the development and deployment of EHR foundation models, with an emphasis on data standardization and interpretability. Our evaluations on the MIMIC-IV dataset demonstrate that EHRMamba advances state-of-the-art performance across 6 major clinical tasks and excels in EHR forecasting, marking a significant leap forward in the field.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# PrivCirNet: ブロック循環変換による効率的なプライベート推論

PrivCirNet: Efficient Private Inference via Block Circulant Transformation ( http://arxiv.org/abs/2405.14569v1 )

ライセンス: Link先を確認
Tianshi Xu, Lemeng Wu, Runsheng Wang, Meng Li, (参考訳) ホモモルフィック暗号化(HE)ベースのディープニューラルネットワーク(DNN)推論は、データとモデルのプライバシを保護するが、大きな計算オーバーヘッドに悩まされる。 DNN重みを循環行列に変換することにより、一般的な行列ベクトル乗法をHEフレンドリーな1次元畳み込みに変換し、HE計算コストを大幅に削減する。 そこで本稿では,ブロック循環変換に基づくプロトコル/ネットワーク協調最適化フレームワークであるShamethodを提案する。 プロトコルレベルでは、PrivCirNetはブロック循環変換と完全に互換性のあるHE符号化アルゴリズムをカスタマイズし、ブロックサイズに比例して計算レイテンシを低減する。 ネットワークレベルでは,2次情報に基づく階層単位のブロックサイズ割り当てを探索する遅延対応の定式化を提案する。 PrivCirNetは層融合を利用して推論コストをさらに削減する。 我々はPrivCirNetと最先端のHEベースのフレームワークBolt(IEEE S\&P 2024)とHEフレンドリーなプルーニング手法SpENCNN(ICML 2023)を比較した。 Tiny ImageNet 上の ResNet-18 と Vision Transformer (ViT) では、PrivCirNet はレイテンシを5.0\times$ と $1.3\times$ に減らし、それぞれ Bolt に対して等精度で、精度を 4.1\%$ と $112\%$ に改善している。 ImageNet上のMobileNetV2では、PrivCirNetはそれぞれ1.7\times$低レイテンシと4.2\%$の精度をBoltとSpENCNNよりも達成している。 私たちのコードとチェックポイントは補足資料で利用可能です。

Homomorphic encryption (HE)-based deep neural network (DNN) inference protects data and model privacy but suffers from significant computation overhead. We observe transforming the DNN weights into circulant matrices converts general matrix-vector multiplications into HE-friendly 1-dimensional convolutions, drastically reducing the HE computation cost. Hence, in this paper, we propose \method, a protocol/network co-optimization framework based on block circulant transformation. At the protocol level, PrivCirNet customizes the HE encoding algorithm that is fully compatible with the block circulant transformation and reduces the computation latency in proportion to the block size. At the network level, we propose a latency-aware formulation to search for the layer-wise block size assignment based on second-order information. PrivCirNet also leverages layer fusion to further reduce the inference cost. We compare PrivCirNet with the state-of-the-art HE-based framework Bolt (IEEE S\&P 2024) and the HE-friendly pruning method SpENCNN (ICML 2023). For ResNet-18 and Vision Transformer (ViT) on Tiny ImageNet, PrivCirNet reduces latency by $5.0\times$ and $1.3\times$ with iso-accuracy over Bolt, respectively, and improves accuracy by $4.1\%$ and $12\%$ over SpENCNN, respectively. For MobileNetV2 on ImageNet, PrivCirNet achieves $1.7\times$ lower latency and $4.2\%$ better accuracy over Bolt and SpENCNN, respectively. Our code and checkpoints are available in the supplementary materials.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# AndroidWorld: 自律エージェントのための動的ベンチマーク環境

AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents ( http://arxiv.org/abs/2405.14573v1 )

ライセンス: Link先を確認
Christopher Rawles, Sarah Clinckemaillie, Yifan Chang, Jonathan Waltz, Gabrielle Lau, Marybeth Fair, Alice Li, William Bishop, Wei Li, Folawiyo Campbell-Ajala, Daniel Toyama, Robert Berry, Divya Tyamagundlu, Timothy Lillicrap, Oriana Riva, (参考訳) コンピュータを制御することで人間のタスクを実行する自律エージェントは、人間の生産性とアプリケーションアクセシビリティを高めることができる。 しかし、この分野の進歩は現実的で再現可能なベンチマークによって推進される。 我々は、20の現実のAndroidアプリケーションで116のプログラムタスクワークフローに報酬信号を提供する、完全に機能するAndroid環境であるAndroidWorldを提示する。 静的なテストセットを提供する既存のインタラクティブ環境とは異なり、AndroidWorldはパラメータ化され、自然言語で無制限に表現されるタスクを動的に構築する。 リワード信号はコンピュータのシステム状態から導出され、タスクのバリエーションにまたがって耐久性があり、異なるアプリ間で拡張可能である。 AndroidWorldのメリットと運用モードを示すために,新しいコンピュータ制御エージェントM3Aを導入する。 M3Aは、AndroidWorldのタスクの30.6%を完了でき、将来の作業に十分な余地を残している。 さらに、人気のあるデスクトップウェブエージェントをAndroid上で動作させることで、モバイルでは効果が低く、クロスドメインエージェントの実現には将来的な研究が必要であることを示唆している。 最後に、タスクの代表的なサブセット上でのタスク変動に対するM3Aのテストによるロバストネス解析を行い、タスクパラメータの変動がタスクの複雑さを著しく変化させ、従ってエージェントのパフォーマンスを低下させ、多様な条件下でのテストエージェントの重要性を強調した。 AndroidWorldとこの論文の実験はhttps://github.com/google-research/android_world.comで公開されている。

Autonomous agents that execute human tasks by controlling computers can enhance human productivity and application accessibility. Yet, progress in this field will be driven by realistic and reproducible benchmarks. We present AndroidWorld, a fully functioning Android environment that provides reward signals for 116 programmatic task workflows across 20 real world Android applications. Unlike existing interactive environments, which provide a static test set, AndroidWorld dynamically constructs tasks that are parameterized and expressed in natural language in unlimited ways, thus enabling testing on a much larger and realistic suite of tasks. Reward signals are derived from the computer's system state, making them durable across task variations and extensible across different apps. To demonstrate AndroidWorld's benefits and mode of operation, we introduce a new computer control agent, M3A. M3A can complete 30.6% of the AndroidWorld's tasks, leaving ample room for future work. Furthermore, we adapt a popular desktop web agent to work on Android, which we find to be less effective on mobile, suggesting future research is needed to achieve universal, cross-domain agents. Finally, we conduct a robustness analysis by testing M3A against a range of task variations on a representative subset of tasks, demonstrating that variations in task parameters can significantly alter the complexity of a task and therefore an agent's performance, highlighting the importance of testing agents under diverse conditions. AndroidWorld and the experiments in this paper are available at https://github.com/google-research/android_world.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# Fitzpatrick Lossesによる学習

Learning with Fitzpatrick Losses ( http://arxiv.org/abs/2405.14574v1 )

ライセンス: Link先を確認
Seta Rakotomandimby, Jean-Philippe Chancelier, Michel de Lara, Mathieu Blondel, (参考訳) Fenchel-Youngの損失は凸損失関数のファミリーであり、正方形、ロジスティック、スパースマックスの損失を含む。 各Fenchel-Young損失は、モデル出力を予測にマッピングするリンク関数に暗黙的に関連付けられている。 例えば、ロジスティック損失はソフトなargmaxリンク関数と関連している。 Fenchel-Young の損失と同じリンク関数で新しい損失関数を構築できるだろうか? 本稿では,Fitzpatrick関数に基づく凸損失関数の新たなファミリーであるFitzpatrick損失を紹介する。 極大単調作用素論においてよく知られた理論ツールであるフィッツパトリック函数は自然に洗練されたフェンシェル・ヤング不等式を導き、フィッツパトリックの損失はフェンシェル・ヤングの損失よりも強く、予測のための同じリンク関数を維持している。 例えば、Fitzpatrickのロジスティックな損失と、Fitzpatrickのスパースマックスな損失、すなわちロジスティックな損失とスパースマックスな損失を導入する。 これにより、ソフトなargmaxとスパースなargmaxと、マシンラーニングで使用される最もユビキタスな出力層のうちの2つに、新たな2つの損失が生じる。 我々はフィッツパトリックの損失の性質を詳細に研究し、特に、修正された目標依存生成関数を用いてフェンシェル・ヨンの損失と見なせることを示す。 ラベル比率推定におけるフィッツパトリック損失の有効性を示す。

Fenchel-Young losses are a family of convex loss functions, encompassing the squared, logistic and sparsemax losses, among others. Each Fenchel-Young loss is implicitly associated with a link function, for mapping model outputs to predictions. For instance, the logistic loss is associated with the soft argmax link function. Can we build new loss functions associated with the same link function as Fenchel-Young losses? In this paper, we introduce Fitzpatrick losses, a new family of convex loss functions based on the Fitzpatrick function. A well-known theoretical tool in maximal monotone operator theory, the Fitzpatrick function naturally leads to a refined Fenchel-Young inequality, making Fitzpatrick losses tighter than Fenchel-Young losses, while maintaining the same link function for prediction. As an example, we introduce the Fitzpatrick logistic loss and the Fitzpatrick sparsemax loss, counterparts of the logistic and the sparsemax losses. This yields two new tighter losses associated with the soft argmax and the sparse argmax, two of the most ubiquitous output layers used in machine learning. We study in details the properties of Fitzpatrick losses and in particular, we show that they can be seen as Fenchel-Young losses using a modified, target-dependent generating function. We demonstrate the effectiveness of Fitzpatrick losses for label proportion estimation.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 表現ノーミングはLLMの有害な微調整を効果的に防止する

Representation noising effectively prevents harmful fine-tuning on LLMs ( http://arxiv.org/abs/2405.14577v1 )

ライセンス: Link先を確認
Domenic Rosati, Jan Wehner, Kai Williams, Łukasz Bartoszcze, David Atanasov, Robie Gonzales, Subhabrata Majumdar, Carsten Maple, Hassan Sajjad, Frank Rudzicz, (参考訳) オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。 ウェイトをオープンにリリースしなくても、ウェイトステルスと微調整APIによって、クローズドモデルは有害な微調整攻撃(HFA)に対して脆弱になる。 脱獄防止や安全ガードレールの改善といった安全対策は重要であるが、微調整によって容易に逆転できる。 本研究では,攻撃者がウェイトにアクセスできなくなったり,ディフェンダーが制御できなくなったりしても有効である防御機構であるRepresentation Noising(RepNoise)を提案する。 RepNoiseは、有害な表現に関する情報を取り除き、微調整中にそれらを回復することは困難である。 重要なことは、我々の防衛は防衛プロセス中に見られていない様々な害のサブセットにまたがって一般化できるということです。 LLMの一般的な能力は低下せず、無害なタスクでモデルを訓練する能力を維持している。 LLMのすべての層で有害な表現に関する情報が取り除かれる程度に、我々の防衛の有効性が「深み」にあるという実証的な証拠を提供する。

Releasing open-source large language models (LLMs) presents a dual-use risk since bad actors can easily fine-tune these models for harmful purposes. Even without the open release of weights, weight stealing and fine-tuning APIs make closed models vulnerable to harmful fine-tuning attacks (HFAs). While safety measures like preventing jailbreaks and improving safety guardrails are important, such measures can easily be reversed through fine-tuning. In this work, we propose Representation Noising (RepNoise), a defence mechanism that is effective even when attackers have access to the weights and the defender no longer has any control. RepNoise works by removing information about harmful representations such that it is difficult to recover them during fine-tuning. Importantly, our defence is also able to generalize across different subsets of harm that have not been seen during the defence process. Our method does not degrade the general capability of LLMs and retains the ability to train the model on harmless tasks. We provide empirical evidence that the effectiveness of our defence lies in its "depth": the degree to which information about harmful representations is removed across all layers of the LLM.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# 最適学習率とバッチサイズスケーリングにおけるサージ現象

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling ( http://arxiv.org/abs/2405.14578v1 )

ライセンス: Link先を確認
Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang, (参考訳) 現在のディープラーニングタスクでは、Adam、Adagrad、RMSProp、Adafactor、LionといったAdamスタイルオプティマイザがSGDスタイルオプティマイザの代替として広く使用されている。 これらのオプティマイザは通常、勾配の符号を使ってモデルパラメータを更新し、より安定した収束曲線をもたらす。 学習速度とバッチサイズはオプティマイザにとって最も重要なハイパーパラメータであり、効果的な収束を実現するためには注意深いチューニングが必要である。 従来の研究では、最適学習率が線形に増加するか、SGDスタイルオプティマイザのバッチサイズに類似したルールに従うことが示されている。 しかし、この結論はAdamスタイルのオプティマイザには当てはまらない。 本稿では,Adamスタイルオプティマイザの最適学習率とバッチサイズとの関係を理論的解析と広範囲な実験により解明する。 まず, バッチサイズと最適学習率の間のスケーリング法則を勾配の符号で表し, 最適学習率が最初に上昇し, バッチサイズが大きくなるにつれて低下することを示す。 さらに、トレーニングが進むにつれて、サージのピーク値は、より大きなバッチサイズへと徐々に移動します。 第2に,各種CVおよびNLPタスクの実験を行い,スケーリング法則の正当性を検証した。

In current deep learning tasks, Adam style optimizers such as Adam, Adagrad, RMSProp, Adafactor, and Lion have been widely used as alternatives to SGD style optimizers. These optimizers typically update model parameters using the sign of gradients, resulting in more stable convergence curves. The learning rate and the batch size are the most critical hyperparameters for optimizers, which require careful tuning to enable effective convergence. Previous research has shown that the optimal learning rate increases linearly or follows similar rules with batch size for SGD style optimizers. However, this conclusion is not applicable to Adam style optimizers. In this paper, we elucidate the connection between optimal learning rates and batch sizes for Adam style optimizers through both theoretical analysis and extensive experiments. First, we raise the scaling law between batch sizes and optimal learning rates in the sign of gradient case, in which we prove that the optimal learning rate first rises and then falls as the batch size increases. Moreover, the peak value of the surge will gradually move toward the larger batch size as training progresses. Second, we conducted experiments on various CV and NLP tasks and verified the correctness of the scaling law.
翻訳日:2024-05-24 14:55:28 公開日:2024-05-23
# PoseCrafter: フレキシブルなゲームに続き、ワンショットでパーソナライズされたビデオ合成

PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Poses ( http://arxiv.org/abs/2405.14582v1 )

ライセンス: Link先を確認
Yong Zhong, Min Zhao, Zebin You, Xiaofeng Yu, Changwang Zhang, Chongxuan Li, (参考訳) 本稿では、フレキシブルポーズの制御に追随したパーソナライズされたビデオ生成のためのワンショット手法であるPoseCrafterを紹介する。 安定拡散と制御ネットを基盤として,高画質なビデオを生成するための推論プロセスを慎重に設計する。 まず、トレーニングビデオから適切な参照フレームを選択し、それを逆転して潜在変数を初期化して生成する。 そして、トレーニングされた時間的注意モジュールを通して忠実度を高めるために、対応するトレーニングポーズをターゲットポーズシーケンスに挿入する。 さらに、トレーニングビデオのポーズと推論ポーズの相違による顔と手の劣化を軽減するため、顔と手のランドマークを含むアフィン変換マトリクスを用いて簡易な潜時編集を行う。 複数のデータセットに対する大規模な実験により、PoseCrafterは8つの一般的なメトリクスの下で大量のビデオのコレクションに基づいて事前トレーニングされたベースラインに対して、優れた結果が得られることが示された。 さらに、PoseCrafterは、異なる個人や人工的な編集のポーズをフォローでき、オープンドメインのトレーニングビデオで人間のアイデンティティを同時に保持できる。

In this paper, we introduce PoseCrafter, a one-shot method for personalized video generation following the control of flexible poses. Built upon Stable Diffusion and ControlNet, we carefully design an inference process to produce high-quality videos without the corresponding ground-truth frames. First, we select an appropriate reference frame from the training video and invert it to initialize all latent variables for generation. Then, we insert the corresponding training pose into the target pose sequences to enhance faithfulness through a trained temporal attention module. Furthermore, to alleviate the face and hand degradation resulting from discrepancies between poses of training videos and inference poses, we implement simple latent editing through an affine transformation matrix involving facial and hand landmarks. Extensive experiments on several datasets demonstrate that PoseCrafter achieves superior results to baselines pre-trained on a vast collection of videos under 8 commonly used metrics. Besides, PoseCrafter can follow poses from different individuals or artificial edits and simultaneously retain the human identity in an open-domain training video.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# SE3D: 3Dイメージングの精度評価のためのフレームワーク

SE3D: A Framework For Saliency Method Evaluation In 3D Imaging ( http://arxiv.org/abs/2405.14584v1 )

ライセンス: Link先を確認
Mariusz Wiśniewski, Loris Giulivi, Giacomo Boracchi, (参考訳) 10年以上にわたって、ディープラーニングモデルは様々な2Dイメージングタスクで支配されてきた。 現在、彼らのアプリケーションは3Dイメージングに拡張されており、3D畳み込みニューラルネットワーク(3D CNN)はLIDAR、MRI、CTスキャンを処理できる。 これらの重要な設定では、モデルの判断を説明するのが基本です。 しかし、最近のExplainable Artificial Intelligenceの進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。 3Dサリエンシ法の発展に対する基本的な制限の一つは、3Dデータ上でそれらを定量的に評価するベンチマークがないことである。 この問題に対処するため,我々はSaliency Method EvaluationのフレームワークであるSE3Dを提案する。 本研究では,ShapeNet,ScanNet,BraTSデータセットの修正と3次元CNNの精度評価のための評価指標を提案する。 本研究では,3Dデータ用に設計された最先端のサージエンシ手法と,一般的な2Dサージエンシ手法を3Dに拡張した手法の評価を行った。 実験の結果, 3Dサリエンシ法では十分な品質の説明が得られず, 重要な分野における3D CNNの今後の改良と安全性に限界があることが示唆された。

For more than a decade, deep learning models have been dominating in various 2D imaging tasks. Their application is now extending to 3D imaging, with 3D Convolutional Neural Networks (3D CNNs) being able to process LIDAR, MRI, and CT scans, with significant implications for fields such as autonomous driving and medical imaging. In these critical settings, explaining the model's decisions is fundamental. Despite recent advances in Explainable Artificial Intelligence, however, little effort has been devoted to explaining 3D CNNs, and many works explain these models via inadequate extensions of 2D saliency methods. One fundamental limitation to the development of 3D saliency methods is the lack of a benchmark to quantitatively assess them on 3D data. To address this issue, we propose SE3D: a framework for Saliency method Evaluation in 3D imaging. We propose modifications to ShapeNet, ScanNet, and BraTS datasets, and evaluation metrics to assess saliency methods for 3D CNNs. We evaluate both state-of-the-art saliency methods designed for 3D data and extensions of popular 2D saliency methods to 3D. Our experiments show that 3D saliency methods do not provide explanations of sufficient quality, and that there is margin for future improvements and safer applications of 3D CNNs in critical fields.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 位相境界条件がベル非局在性に及ぼす影響

Effects of Topological Boundary Conditions on Bell Nonlocality ( http://arxiv.org/abs/2405.14587v1 )

ライセンス: Link先を確認
Patrick Emonts, Mengyao Hu, Albert Aloy, Jordi Tura, (参考訳) Bell nonlocalityは、デバイスに依存しない量子情報処理タスクを可能にするリソースである。 これはベル不等式と呼ばれる不等式を犯すことで明らかとなり、観測された相関関係が任意の局所的な隠れ変数モデルによって再現できないことを示す。 少数のボディ環境ではよく研究されているが、ベルの不等式が与えられたタスクに最も適しているかどうかという問題は、多体シナリオにおいて非常にオープンなままである。 1つの自然なアプローチはベルの不等式を物理ハミルトニアンに割り当て、相互作用グラフを2体、最も近い隣の項にマッピングすることである。 ここでは、格子系における異なる位相を誘導できる2次元正方格子における境界条件の影響について検討する。 非局所的相関を明らかにする上で, 誘導位相とベル不等式の有効性の関係を見いだした。 トロピカル代数とテンソルネットワークの組み合わせを用いて、非局所性に対する検出能力の定量化を行う。 我々の研究は、適切なハミルトニアンを選択し、その基底状態エネルギーを測定することで、多くの量子デバイスにおけるベル非局所性を証明するためのガイドとして機能する。

Bell nonlocality is the resource that enables device-independent quantum information processing tasks. It is revealed through the violation of so-called Bell inequalities, indicating that the observed correlations cannot be reproduced by any local hidden variable model. While well explored in few-body settings, the question of which Bell inequalities are best suited for a given task remains quite open in the many-body scenario. One natural approach is to assign Bell inequalities to physical Hamiltonians, mapping their interaction graph to two-body, nearest-neighbor terms. Here, we investigate the effect of boundary conditions in a two-dimensional square lattice, which can induce different topologies in lattice systems. We find a relation between the induced topology and the Bell inequality's effectiveness in revealing nonlocal correlations. By using a combination of tropical algebra and tensor networks, we quantify their detection capacity for nonlocality. Our work can act as a guide to certify Bell nonlocality in many-qubit devices by choosing a suitable Hamiltonian and measuring its ground state energy; a task that many quantum experiments are purposely built for.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# MAMOC: Masked AutoencodingによるMRI運動補正

MAMOC: MRI Motion Correction via Masked Autoencoding ( http://arxiv.org/abs/2405.14590v1 )

ライセンス: Link先を確認
Lennart Alexander Van der Goten, Jingyu Guo, Kevin Smith, (参考訳) 磁気共鳴イメージング(MRI)スキャンにおける運動アーティファクトの存在は、小さな患者の動きでさえ、スキャンの有用性を損なう可能性があるアーティファクトに繋がる重要な課題となる。 本稿では, 運動負荷MRI脳スキャンにおける視線アーチファクト補正(RAC)の問題点に対処する新しい手法であるMasked Motion Correction(MAMOC)を紹介する。 MAMOCはマスク付き自己エンコーディングとテストタイム予測を使用して、動きのアーティファクトを効率的に除去し、最先端のネイティブ解像度スキャンを生成する。 最近まで、振り返り運動補正法を評価するための現実的なデータは存在しなかったが、運動アーティファクトをシミュレートしなければならなかった。 MR-ARTデータセットを活用することで、実際の動きデータを用いてMRIスキャンの動作補正を初めて評価し、既存の動き補正(MC)法よりもMAMOCの方が優れていることを示す。

The presence of motion artifacts in magnetic resonance imaging (MRI) scans poses a significant challenge, where even minor patient movements can lead to artifacts that may compromise the scan's utility. This paper introduces Masked Motion Correction (MAMOC), a novel method designed to address the issue of Retrospective Artifact Correction (RAC) in motion-affected MRI brain scans. MAMOC uses masked autoencoding self-supervision and test-time prediction to efficiently remove motion artifacts, producing state-of-the-art, native resolution scans. Until recently, realistic data to evaluate retrospective motion correction methods did not exist, motion artifacts had to be simulated. Leveraging the MR-ART dataset, this work is the first to evaluate motion correction in MRI scans using real motion data, showing the superiority of MAMOC to existing motion correction (MC) methods.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# RoPE境界コンテキスト長の基礎

Base of RoPE Bounds Context Length ( http://arxiv.org/abs/2405.14591v1 )

ライセンス: Link先を確認
Xin Men, Mingyu Xu, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han, Weipeng Chen, (参考訳) 位置埋め込みは、現在のLarge Language Models(LLM)の中核的なコンポーネントである。 回転位置埋め込み(RoPE)は、回転行列で位置情報を符号化する技法であり、ラムラ級数のような多くのLLMに位置情報を埋め込むための事実上の選択肢である。 RoPEはさらに長いコンテキスト能力を拡張するために利用されており、大まかに言えば、位置埋め込みにおけるアウト・オブ・ディストリビューション(OOD)問題を緩和するために、RoPEの \textit{base} パラメータを調整することに基づいている。 しかし,本論文では,LLMがOOD理論に基づく表面長文能力を得る可能性がある。 我々は LLM における RoPE の役割を再検討し、長期的減衰の新たな性質を提唱し、RoPE 境界コンテキスト長の \textit{base} を導出する。 我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。

Position embedding is a core component of current Large Language Models (LLMs). Rotary position embedding (RoPE), a technique that encodes the position information with a rotation matrix, has been the de facto choice for position embedding in many LLMs, such as the Llama series. RoPE has been further utilized to extend long context capability, which is roughly based on adjusting the \textit{base} parameter of RoPE to mitigate out-of-distribution (OOD) problems in position embedding. However, in this paper, we find that LLMs may obtain a superficial long-context ability based on the OOD theory. We revisit the role of RoPE in LLMs and propose a novel property of long-term decay, we derive that the \textit{base of RoPE bounds context length}: there is an absolute lower bound for the base value to obtain certain context length capability. Our work reveals the relationship between context length and RoPE base both theoretically and empirically, which may shed light on future long context training.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 学術論文からのプロセス抽出のためのデータ拡張技術

Data Augmentation Techniques for Process Extraction from Scientific Publications ( http://arxiv.org/abs/2405.14594v1 )

ライセンス: Link先を確認
Yuni Susanti, (参考訳) 本稿では,学術出版物におけるプロセス抽出タスクのためのデータ拡張手法を提案する。 我々はプロセス抽出タスクをシーケンスラベリングタスクとしてキャストし、文中のすべてのエンティティを識別し、プロセス固有の役割に従ってラベル付けする。 提案手法は,(1)原文からのプロセス固有の情報,(2)役割ラベルの類似性,(3)文類似性を利用して意味のある拡張文を作成する。 提案手法は,化学領域のデータセットに基づいて学習したプロセス抽出モデルの性能を大幅に向上し,最大12.3ポイントの性能向上(Fスコア)を示す。 提案手法は、特に小さなデータセットでのトレーニングや、化学やその他の科学領域のような低リソース環境でのオーバーフィッティングを軽減できる可能性がある。

We present data augmentation techniques for process extraction tasks in scientific publications. We cast the process extraction task as a sequence labeling task where we identify all the entities in a sentence and label them according to their process-specific roles. The proposed method attempts to create meaningful augmented sentences by utilizing (1) process-specific information from the original sentence, (2) role label similarity, and (3) sentence similarity. We demonstrate that the proposed methods substantially improve the performance of the process extraction model trained on chemistry domain datasets, up to 12.3 points improvement in performance accuracy (F-score). The proposed methods could potentially reduce overfitting as well, especially when training on small datasets or in a low-resource setting such as in chemistry and other scientific domains.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 微分可能木組における線形モード接続性

Linear Mode Connectivity in Differentiable Tree Ensembles ( http://arxiv.org/abs/2405.14596v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama, (参考訳) 線形モード接続性(英: Linear Mode Connectivity、LMC)とは、パラメータ空間における線形補間モデルに対して、性能が一貫している現象である。 異なるランダム初期化から独立に最適化されたモデルペアに対して、LCCを達成することは、現代の機械学習モデルにおける非凸最適化の安定した成功を検証し、モデルマージのような実用的なパラメータベースの操作を容易にするために重要であると考えられている。 LMCは、隠れた各層におけるニューロンの置換不変性を考慮することで、ニューラルネットワークに対して達成されているが、他のモデルに対するその達成は、未解決の課題である。 本稿では,木をベースとした微分可能モデルであるソフトツリーアンサンブルのLCCを初めて実現した。 ニューラルネットワークには存在しないが木構造に固有のサブツリーフリップ不変性と分割次数不変性という2つの不変性を導入する必要があることを示す。 さらに、決定リストに基づくツリーアーキテクチャを設計することで、LCCを維持しながら、そのような余分な不変性を排除できることを示した。 以上の結果から,LCCの達成におけるアーキテクチャ固有の不変性の重要性が示唆された。

Linear Mode Connectivity (LMC) refers to the phenomenon that performance remains consistent for linearly interpolated models in the parameter space. For independently optimized model pairs from different random initializations, achieving LMC is considered crucial for validating the stable success of the non-convex optimization in modern machine learning models and for facilitating practical parameter-based operations such as model merging. While LMC has been achieved for neural networks by considering the permutation invariance of neurons in each hidden layer, its attainment for other models remains an open question. In this paper, we first achieve LMC for soft tree ensembles, which are tree-based differentiable models extensively used in practice. We show the necessity of incorporating two invariances: subtree flip invariance and splitting order invariance, which do not exist in neural networks but are inherent to tree architectures, in addition to permutation invariance of trees. Moreover, we demonstrate that it is even possible to exclude such additional invariances while keeping LMC by designing decision list-based tree architectures, where such invariances do not exist by definition. Our findings indicate the significance of accounting for architecture-specific invariances in achieving LMC.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 整数スケール: LLMのより高速な微粒化のためのフリーランチ

Integer Scale: A Free Lunch for Faster Fine-grained Quantization of LLMs ( http://arxiv.org/abs/2405.14597v1 )

ライセンス: Link先を確認
Qingyuan Li, Ran Meng, Yiduo Li, Bo Zhang, Yifan Lu, Yerui Sun, Lin Ma, Yuchen Xie, (参考訳) Integer Scaleは,既存の微粒化量子化手法における推論ボトルネックを,類似の精度を維持しつつ効果的に解決する,大規模言語モデルの学習後量子化手法である。 Integer Scaleは、追加のキャリブレーションや微調整を必要としないため、無料のランチである。 ほとんどの微細な量子化法では、プラグアンドプレイが使用できる。 統合により、最大で1.85倍のエンド・ツー・エンドのスピードが元のものと同等の精度で向上する。 さらに,提案した整数スケールのオーケストレーションと微粒化により,Mixtral-8x7BモデルとLLaMA-3モデルの量子化の難しさを無視できる性能劣化で解決し,それぞれFP16モデルと比較すると,エンドツーエンドの高速化が2.13xと2.31xとなる。

We introduce Integer Scale, a novel post-training quantization scheme for large language models that effectively resolves the inference bottleneck in current fine-grained quantization approaches while maintaining similar accuracies. Integer Scale is a free lunch as it requires no extra calibration or fine-tuning which will otherwise incur additional costs. It can be used plug-and-play for most fine-grained quantization methods. Its integration results in at most 1.85x end-to-end speed boost over the original counterpart with comparable accuracy. Additionally, due to the orchestration of the proposed Integer Scale and fine-grained quantization, we resolved the quantization difficulty for Mixtral-8x7B and LLaMA-3 models with negligible performance degradation, and it comes with an end-to-end speed boost of 2.13x, and 2.31x compared with their FP16 versions respectively.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# Visual Echoes:オーディオ・ビジュアル・ジェネレーションのためのシンプルな統一変換器

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation ( http://arxiv.org/abs/2405.14598v1 )

ライセンス: Link先を確認
Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, (参考訳) 近年、現実的な生成結果と幅広いパーソナライズされた応用により、拡散に基づく生成モデルは、視覚と音声の両方の領域で大きな注目を集めている。 text2image や text2audio 生成のかなりの進歩と比較すると、オーディオ2visual や visual2audio 生成の研究は比較的遅かった。 最近の音声視覚生成法は通常、巨大な言語モデルや構成可能な拡散モデルを利用する。 本稿では,音声・視覚生成のための新たな巨大モデルを設計する代わりに,マルチモーダル生成において十分に研究されていないシンプルで軽量な生成変換器を,画像2オーディオ生成において優れた結果が得られることを示す。 トランスは離散オーディオおよび視覚ベクトル量子化GAN空間で動作し、マスクを装飾的に訓練する。 訓練後、分類器なしのガイダンスは、追加の訓練や修正なしに、より良い性能を達成するために棚から展開できる。 トランスモデルはモダリティ対称であるため、オーディオ2画像生成とコジェネレーションのために直接デプロイすることもできる。 実験の結果,本手法は最新の画像2audio 生成法を超越していることがわかった。 生成されたオーディオサンプルはhttps://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQで見ることができる。

In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 光流場の塗布における神経明示的拡散モデル

Neuroexplicit Diffusion Models for Inpainting of Optical Flow Fields ( http://arxiv.org/abs/2405.14599v1 )

ライセンス: Link先を確認
Tom Fischer, Pascal Peter, Joachim Weickert, Eddy Ilg, (参考訳) ディープラーニングは、数百万のパラメータを持つ大規模ニューラルネットワークを導入することによって、コンピュータビジョンの分野に革命をもたらした。 これらのネットワークのトレーニングには大量のデータセットが必要で、一般化に失敗する不透明なモデルにつながる。 一方、偏微分方程式(PDE)から設計されたモデルは、専門的なドメイン知識を数学的方程式に組み込んでおり、通常は手動で選択されたハイパーパラメータに頼っている。 これにより、それらは建設によって透過的になり、設計と校正が慎重に行われると、目に見えないシナリオにうまく一般化できる。 本稿では、PDEに基づく明示的なアプローチと畳み込みニューラルネットワークを組み合わせることで、モデルとデータ駆動のアプローチを組み合わせる方法を示す。 本稿では,光学的流れ場に着色する作業のための共同アーキテクチャについて解説し,モデルとデータ駆動モデリングの組み合わせが効果的なアーキテクチャをもたらすことを示す。 我々のモデルは、再構築の質、堅牢性、必要なトレーニングデータの量の観点から、完全に明示的かつ完全にデータ駆動のベースラインを上回ります。 異なるマスク密度で終端誤差を平均すると、明示的ベースラインを11~27%、GANベースラインを47%、Probabilisite Diffusionベースラインを42%上回る。 そこで本手法では,ランダムマスクから光の流れ場を塗布する手法を提案する。

Deep learning has revolutionized the field of computer vision by introducing large scale neural networks with millions of parameters. Training these networks requires massive datasets and leads to intransparent models that can fail to generalize. At the other extreme, models designed from partial differential equations (PDEs) embed specialized domain knowledge into mathematical equations and usually rely on few manually chosen hyperparameters. This makes them transparent by construction and if designed and calibrated carefully, they can generalize well to unseen scenarios. In this paper, we show how to bring model- and data-driven approaches together by combining the explicit PDE-based approaches with convolutional neural networks to obtain the best of both worlds. We illustrate a joint architecture for the task of inpainting optical flow fields and show that the combination of model- and data-driven modeling leads to an effective architecture. Our model outperforms both fully explicit and fully data-driven baselines in terms of reconstruction quality, robustness and amount of required training data. Averaging the endpoint error across different mask densities, our method outperforms the explicit baselines by 11-27%, the GAN baseline by 47% and the Probabilisitic Diffusion baseline by 42%. With that, our method sets a new state of the art for inpainting of optical flow fields from random masks.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 海馬オートエンコーダにおける連続入力空間の離散化

Discretization of continuous input spaces in the hippocampal autoencoder ( http://arxiv.org/abs/2405.14600v1 )

ライセンス: Link先を確認
Adrian F. Amil, Ismael T. Freire, Paul F. M. J. Verschure, (参考訳) 海馬は、空間認知とエピソード記憶の形成の両方に関連付けられているが、これらの機能を統合された枠組みに統合することは依然として困難である。 そこで本研究では,スパルスオートエンコーダニューロンにおける視覚事象の離散記憶の形成が,海馬の場所細胞と同様の空間的チューニングをもたらすことを示す。 そして、結果として生じる非常に高次元のコードにより、ニューロンは最小の重なりで下層のイメージ空間を識別し、タイル化することができることを示す。 さらに、我々は実験結果を聴覚領域に拡張し、同様に経験に依存した方法で周波数空間を刺激することを示した。 最後に,これらの疎密で高次元の表現を用いて,強化学習エージェントが様々な空間認知タスクを効果的に実行可能であることを示す。

The hippocampus has been associated with both spatial cognition and episodic memory formation, but integrating these functions into a unified framework remains challenging. Here, we demonstrate that forming discrete memories of visual events in sparse autoencoder neurons can produce spatial tuning similar to hippocampal place cells. We then show that the resulting very high-dimensional code enables neurons to discretize and tile the underlying image space with minimal overlap. Additionally, we extend our results to the auditory domain, showing that neurons similarly tile the frequency space in an experience-dependent manner. Lastly, we show that reinforcement learning agents can effectively perform various visuo-spatial cognitive tasks using these sparse, very high-dimensional representations.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# FAIRとフリー・プロンプト・リサーチ・アシスタント

A FAIR and Free Prompt-based Research Assistant ( http://arxiv.org/abs/2405.14601v1 )

ライセンス: Link先を確認
Mahsa Shamsabadi, Jennifer D'Souza, (参考訳) このデモでは、標準化されたインストラクションテンプレートとして定義された6つの主要な研究タスクを支援するために開発されたResearch Assistant(RA)ツールが紹介される。最後にユーザ入力でインスタンス化され、よく知られたプロンプトとして最終的に適用され、洗練された自然言語処理能力のために--ChatGPT (https://chat.openai.com/)やGemini (https://gemini.google.com/app)のようなAIツールが提供される。 RAが取り組んだ6つの研究課題は、FAIR研究比較の作成、研究トピックの構想、認可申請の起草、科学ブログの執筆、予備的なピアレビューの支援、強化された文学検索クエリの定式化である。 RAのChatGPTやGeminiのような生成AIツールへの依存は、あらゆる科学分野において同様の研究タスク支援を提供することを意味する。 計算機科学, ウイルス学, 気候科学でRAの出力を共有することで, その汎用性を実証した。

This demo will present the Research Assistant (RA) tool developed to assist with six main types of research tasks defined as standardized instruction templates, instantiated with user input, applied finally as prompts to well-known--for their sophisticated natural language processing abilities--AI tools, such as ChatGPT (https://chat.openai.com/) and Gemini (https://gemini.google.com/app). The six research tasks addressed by RA are: creating FAIR research comparisons, ideating research topics, drafting grant applications, writing scientific blogs, aiding preliminary peer reviews, and formulating enhanced literature search queries. RA's reliance on generative AI tools like ChatGPT or Gemini means the same research task assistance can be offered in any scientific discipline. We demonstrate its versatility by sharing RA outputs in Computer Science, Virology, and Climate Science, where the output with the RA tool assistance mirrored that from a domain expert who performed the same research task.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 連続テスト時間適応制御

Controllable Continual Test-Time Adaptation ( http://arxiv.org/abs/2405.14602v1 )

ライセンス: Link先を確認
Ziqi Shi, Fan Lyu, Ye Liu, Fanhua Shang, Fuyuan Hu, Wei Feng, Zhang Zhang, Liang Wang, (参考訳) 連続テスト時間適応(CTTA)は、ソースドメインでトレーニングされたモデルが元のソースデータにアクセスすることなく、テスト中に継続的に変化する条件に適応しなければならない、新しくて困難なタスクである。 CTTAは制御不能なドメインシフトによってエラーの蓄積が難しく、カテゴリ間の決定境界が曖昧になる。 既存のCTTA法は主にドメインシフトの抑制に重点を置いており、教師なしテストフェーズでは不十分であることが証明されている。 対照的に、これらのシフトを抑えるのではなく、ガイドする新しいアプローチを導入する。 具体的には、$\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA)を提案する。 さらに,本手法は,モデルのドメイン変換に対する感度を低減し,カテゴリシフトの規模を最小化する。 一方, t-SNEプロットなどの定性的解析により, 提案手法の理論的妥当性が検証された。

Continual Test-Time Adaptation (CTTA) is an emerging and challenging task where a model trained in a source domain must adapt to continuously changing conditions during testing, without access to the original source data. CTTA is prone to error accumulation due to uncontrollable domain shifts, leading to blurred decision boundaries between categories. Existing CTTA methods primarily focus on suppressing domain shifts, which proves inadequate during the unsupervised test phase. In contrast, we introduce a novel approach that guides rather than suppresses these shifts. Specifically, we propose $\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA), which explicitly prevents any single category from encroaching on others, thereby mitigating the mutual influence between categories caused by uncontrollable shifts. Moreover, our method reduces the sensitivity of model to domain transformations, thereby minimizing the magnitude of category shifts. Extensive quantitative experiments demonstrate the effectiveness of our method, while qualitative analyses, such as t-SNE plots, confirm the theoretical validity of our approach.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# キャビティマグノニクスの励起ベクトル場と全偏極状態制御の役割

The role of excitation vector fields and all-polarisation state control of cavity magnonics ( http://arxiv.org/abs/2405.14603v1 )

ライセンス: Link先を確認
Alban Joseph, Jayakrishnan M. P. Nair, Mawgan A. Smith, Rory Holland, Luke J. McLellan, Isabella Boventer, Tim Wolz, Dmytro A. Bozhko, Benedetta Flebus, Martin P. Weides, Rair Macedo, (参考訳) 近年、マイクロ波共振器におけるマグノンと閉じ込められたマイクロ波光子との相互作用を制御する分野であるキャビティ・マグノニクスの分野が注目されている。 ここでは,2ポートキャビティ構成で偏光とプロファイルを容易に調整できる励起ベクトル場を導入し,キャビティマグノン偏光子の結合力学を探索する有効な実験ノブとして機能する。 さらに,キャビティ共振器内の任意の偏極状態と電界分布について実験結果を正確に予測し,再現する理論モデルを開発した。 この汎用的な実験プラットフォームは、スピン光子相互作用を制御するための新しい手段を提供し、またハイブリッドシステム間の情報の交換を容易に制御するメカニズムを提供する。

Recently the field of cavity magnonics, a field focused on controlling the interaction between magnons and confined microwave photons within microwave resonators, has drawn significant attention as it offers a platform for enabling advancements in quantum- and spin-based technologies. Here, we introduce excitation vector fields, whose polarisation and profile can be easily tuned in a two-port cavity setup, thus acting as an effective experimental knob to explore the coupled dynamics of cavity magnon-polaritons. Moreover, we develop theoretical models that accurately predict and reproduce the experimental results for any polarisation state and field profile within the cavity resonator. This versatile experimental platform offers a new avenue for controlling spin-photon interactions and as such also delivering a mechanism to readily control the exchange of information between hybrid systems.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# 大規模言語モデルにおける低エントロピー・アンバイアスド生成のための透かし

A Watermark for Low-entropy and Unbiased Generation in Large Language Models ( http://arxiv.org/abs/2405.14604v1 )

ライセンス: Link先を確認
Minjia Mao, Dongjun Wei, Zeyu Chen, Xiao Fang, Michael Chau, (参考訳) 大規模言語モデル(LLM)の最近の進歩は誤用リスクを浮き彫りにしており、LLM生成コンテンツを正確に検出することへの懸念が高まっている。 検出問題の有効な解決策は、インセプタブル識別子をLLM(ウォーターマーク)に注入することである。 従来の研究は、LLM出力確率分布の期待を維持することにより、不偏の透かしが偽造性を確保し、テキスト品質を維持することを示した。 しかし、従来の非バイアスの透かし方式は、検出時にホワイトボックスのLCMや入力プロンプトへのアクセスに依存するため、ローカルデプロイメントでは実用的ではない。 さらに、これらの手法は、透かし検出のタイプIIエラーに対する統計的保証を提供していない。 本研究では,LLMへのアクセスを必要とせず,検出時にプロンプトも必要とせず,II型エラーを統計的に保証するSTA-1(Samping One Then Accepting)法を提案する。 さらに,不偏形透かしにおける透かし強度とテキスト品質の新たなトレードオフを提案する。 低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。 低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が既存の非バイアスの透かしに匹敵するテキスト品質と透かし強度を達成し、不満足な出力のリスクが低いことを示した。 本研究の実施コードはオンラインで公開されている。

Recent advancements in large language models (LLMs) have highlighted the risk of misuse, raising concerns about accurately detecting LLM-generated content. A viable solution for the detection problem is to inject imperceptible identifiers into LLMs, known as watermarks. Previous work demonstrates that unbiased watermarks ensure unforgeability and preserve text quality by maintaining the expectation of the LLM output probability distribution. However, previous unbiased watermarking methods are impractical for local deployment because they rely on accesses to white-box LLMs and input prompts during detection. Moreover, these methods fail to provide statistical guarantees for the type II error of watermark detection. This study proposes the Sampling One Then Accepting (STA-1) method, an unbiased watermark that does not require access to LLMs nor prompts during detection and has statistical guarantees for the type II error. Moreover, we propose a novel tradeoff between watermark strength and text quality in unbiased watermarks. We show that in low-entropy scenarios, unbiased watermarks face a tradeoff between watermark strength and the risk of unsatisfactory outputs. Experimental results on low-entropy and high-entropy datasets demonstrate that STA-1 achieves text quality and watermark strength comparable to existing unbiased watermarks, with a low risk of unsatisfactory outputs. Implementation codes for this study are available online.
翻訳日:2024-05-24 14:45:33 公開日:2024-05-23
# リカレントグラフニューラルネットワークのリアルとフロートによる論理的特性評価

Logical Characterizations of Recurrent Graph Neural Networks with Reals and Floats ( http://arxiv.org/abs/2405.14606v1 )

ライセンス: Link先を確認
Veeti Ahvonen, Damian Heiman, Antti Kuusisto, Carsten Lutz, (参考訳) 2019年の先駆的な研究の中で、Barcel\'o氏と共著者は、一階述語論理で定義可能な特性に対して、定数反復深度グラフニューラルネットワーク(GNN)の表現力に正確に一致するロジックを特定した。 本稿では,(1)浮動小数点数の設定と(2)実数の設定の2つのシナリオにおいて,繰り返しGNNの正確な論理的特徴を与える。 フロートに対して、繰り返しGNNと一致する形式主義は数えられる規則に基づくモーダル論理であり、実数に対しては数えるにも適切な無限のモーダル論理を用いる。 これらの結果は、どちらの場合もバックグラウンド論理に関連付けることなく、繰り返し設定における論理とGNNの正確な一致を与えるが、浮動小数点演算に関する自然な仮定を用いる。 キャラクタリゼーションを適用することで、モナディック二階述語論理(MSO)で定義可能なグラフ特性と比較して、無限論理と規則論理は等しく表現力があることも証明できる。 これは、実数とフロートを持つリカレントGNNが、MSO定義可能な性質に対して同じ表現力を持つことを意味し、そのような性質に対して、実数を持つリカレントGNNも(最終!)ルールに基づくモーダル論理によって特徴づけられることを示している。 一般的には、フロートによる表現力は実数よりも弱い。 論理指向の結果に加えて、分散オートマトンを用いて、実数とフロートの両方を持つ繰り返しGNNを特徴付け、分散コンピューティングモデルへのリンクを描画する。

In pioneering work from 2019, Barcel\'o and coauthors identified logics that precisely match the expressive power of constant iteration-depth graph neural networks (GNNs) relative to properties definable in first-order logic. In this article, we give exact logical characterizations of recurrent GNNs in two scenarios: (1) in the setting with floating-point numbers and (2) with reals. For floats, the formalism matching recurrent GNNs is a rule-based modal logic with counting, while for reals we use a suitable infinitary modal logic, also with counting. These results give exact matches between logics and GNNs in the recurrent setting without relativising to a background logic in either case, but using some natural assumptions about floating-point arithmetic. Applying our characterizations, we also prove that, relative to graph properties definable in monadic second-order logic (MSO), our infinitary and rule-based logics are equally expressive. This implies that recurrent GNNs with reals and floats have the same expressive power over MSO-definable properties and shows that, for such properties, also recurrent GNNs with reals are characterized by a (finitary!) rule-based modal logic. In the general case, in contrast, the expressive power with floats is weaker than with reals. In addition to logic-oriented results, we also characterize recurrent GNNs, with both reals and floats, via distributed automata, drawing links to distributed computing models.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# ShapeFormer:多変量時系列分類のためのシェープレット変換器

ShapeFormer: Shapelet Transformer for Multivariate Time Series Classification ( http://arxiv.org/abs/2405.14608v1 )

ライセンス: Link先を確認
Xuan-May Le, Ling Luo, Uwe Aickelin, Minh-Tuan Tran, (参考訳) 多変量時系列分類(MTSC)は,多種多様な実世界の応用により注目されている。 近年,MTSCの変圧器の利用は最先端の性能を実現している。 しかし,既存の手法は汎用的な特徴に焦点をあて,データの包括的理解を提供するが,各クラスの代表的特徴を学習するのに不可欠なクラス固有の特徴は無視する。 これにより、不均衡なデータセットや、類似した全体的なパターンを持つデータセットでは、パフォーマンスが低下するが、クラス固有の詳細では異なっている。 本稿では,これら両方の特徴を捉えるために,クラス固有およびジェネリックトランスを用いた新しいシェープレットトランス (ShapeFormer) を提案する。 クラス固有のモジュールでは,各クラス(例えばシェープレット)の識別サブシーケンスをトレーニングセットから抽出する発見手法を導入する。 次に,これらの形状と入力時間列の差分を学習する形状レットフィルタを提案する。 その結果,各形状の相違点には重要なクラス固有の特徴が含まれており,クラスと他との相違点が顕著であることがわかった。 ジェネリックモジュールでは、畳み込みフィルタを使用して、すべてのクラスを区別する情報を含む一般的な特徴を抽出する。 各モジュールに対して変換器エンコーダを用い,それらの特徴間の相関を捉える。 その結果、2つのトランスモジュールの組み合わせにより、モデルが両方のタイプの特徴のパワーを活用できるようになり、分類性能が向上する。 30のUEA MTSCデータセットに対する実験により、ShapeFormerは最先端の手法に比べて高い精度でランク付けされていることが示された。 コードはhttps://github.com/xuanmay2701/shapeformer.comで入手できる。

Multivariate time series classification (MTSC) has attracted significant research attention due to its diverse real-world applications. Recently, exploiting transformers for MTSC has achieved state-of-the-art performance. However, existing methods focus on generic features, providing a comprehensive understanding of data, but they ignore class-specific features crucial for learning the representative characteristics of each class. This leads to poor performance in the case of imbalanced datasets or datasets with similar overall patterns but differing in minor class-specific details. In this paper, we propose a novel Shapelet Transformer (ShapeFormer), which comprises class-specific and generic transformer modules to capture both of these features. In the class-specific module, we introduce the discovery method to extract the discriminative subsequences of each class (i.e. shapelets) from the training set. We then propose a Shapelet Filter to learn the difference features between these shapelets and the input time series. We found that the difference feature for each shapelet contains important class-specific features, as it shows a significant distinction between its class and others. In the generic module, convolution filters are used to extract generic features that contain information to distinguish among all classes. For each module, we employ the transformer encoder to capture the correlation between their features. As a result, the combination of two transformer modules allows our model to exploit the power of both types of features, thereby enhancing the classification performance. Our experiments on 30 UEA MTSC datasets demonstrate that ShapeFormer has achieved the highest accuracy ranking compared to state-of-the-art methods. The code is available at https://github.com/xuanmay2701/shapeformer.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 視覚知覚分析による多モード大言語モデルの記述

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception ( http://arxiv.org/abs/2405.14612v1 )

ライセンス: Link先を確認
Loris Giulivi, Giacomo Boracchi, (参考訳) MLLM(Multi-modal Large Language Models)は、画像やテキストなどの様々なモダリティにまたがるコンテンツの理解と生成において、顕著な能力を示す。 しかし、それらの解釈性は依然として課題であり、重要なアプリケーションでの採用を妨げる。 本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。 オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。 提案したアーキテクチャは解釈可能性を大幅に向上させ,任意の出力トークンを説明するための新しいサリエンシマップを設計し,モデル幻覚を識別し,セマンティック・逆転摂動によるモデルバイアスを評価する。

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in understanding and generating content across various modalities, such as images and text. However, their interpretability remains a challenge, hindering their adoption in critical applications. This research proposes a novel approach to enhance the interpretability of MLLMs by focusing on the image embedding component. We combine an open-world localization model with a MLLM, thus creating a new architecture able to simultaneously produce text and object localization outputs from the same vision embedding. The proposed architecture greatly promotes interpretability, enabling us to design a novel saliency map to explain any output token, to identify model hallucinations, and to assess model biases through semantic adversarial perturbations.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# Push and Pull: 注意機関を測定するためのフレームワーク

Push and Pull: A Framework for Measuring Attentional Agency ( http://arxiv.org/abs/2405.14614v1 )

ライセンス: Link先を確認
Zachary Wojtowicz, Shrey Jain, Nicholas Vincent, (参考訳) 本稿では,デジタルプラットフォーム上で,個人的欲求や目標,意図に応じて注意を割り当てることのできる,注意機関を計測するための枠組みを提案する。 プラットフォームは、これまで考えられていなかった情報オブジェクトの大規模なコレクションに好みを外挿することで、人々の注意力を制限する。 しかし、一般的にプラットフォームは、人々がお互いの注意に影響を及ぼすことを可能にする。 我々は,与えられたプラットフォームが,自身の注意領域に情報を引き出すことと,他者の注意領域に情報をプッシュすることの両方に,どの程度の権限を与えるかを測定するための公式な枠組みを導入する。 また、これらの定義は、情報商品から経済的価値を捉えるための埋め込み広告やその他の手法を基盤とした、暗黙の「意図的バーゲン」を回避できる、生成基盤モデルの影響を浮き彫りにするためにも用いられる。 我々は、オンラインの注目機関の流通を理解し、形を変えるための一連の政策戦略で締めくくります。

We propose a framework for measuring attentional agency - the ability to allocate one's attention according to personal desires, goals, and intentions - on digital platforms. Platforms extend people's limited powers of attention by extrapolating their preferences to large collections of previously unconsidered informational objects. However, platforms typically also allow people to influence one another's attention. We introduce a formal framework for measuring how much a given platform empowers people to both pull information into their own attentional field and push information into the attentional fields of others. We also use these definitions to shed light on the implications of generative foundation models, which enable users to bypass the implicit "attentional bargain" that underlies embedded advertising and other methods for capturing economic value from informational goods. We conclude with a set of policy strategies that can be used to understand and reshape the distribution of attentional agency online.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# TimeMixer: 時系列予測のための分解可能なマルチスケール混合

TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting ( http://arxiv.org/abs/2405.14616v1 )

ライセンス: Link先を確認
Shiyu Wang, Haixu Wu, Xiaoming Shi, Tengge Hu, Huakun Luo, Lintao Ma, James Y. Zhang, Jun Zhou, (参考訳) 時系列予測は、交通計画や天気予報といった広範囲の応用で広く使われている。 しかし、実世界の時系列は通常、複雑な時間変動があり、予測は非常に困難である。 時系列が異なるサンプリングスケールで異なるパターンを示すという直感的だが重要な観察に基づいて, 平滑な分解と多周期性解析という主流パラダイムを超えて, 時間的変動を多スケール混合の新たな視点で分析する。 微視的・微視的情報をそれぞれ微視的・粗視的に反映し、複雑な変動を本質的に非絡み合わせることができる。 本研究では,過去抽出と未来予測の両段階において,非絡み合ったマルチスケールシリーズをフル活用するために,過去分解可能ミキシング(PDM)と未来多重予測器ミキシング(FMM)ブロックを用いた完全なMLPアーキテクチャとしてTimeMixerを提案する。 具体的には、PDMは、分解をマルチスケールシリーズに適用し、分解した季節成分と傾向成分を、微粒方向と粗粒方向に別々に混合し、顕微鏡的季節情報とマクロ的傾向情報を連続的に集約する。 FMMはさらに複数の予測器をアンサンブルし、マルチスケール観測で補完的な予測機能を利用する。 その結果、TimeMixerは、長期および短期の予測タスクにおいて、良好な実行効率で、一貫した最先端のパフォーマンスを達成することができる。

Time series forecasting is widely used in extensive applications, such as traffic planning and weather forecasting. However, real-world time series usually present intricate temporal variations, making forecasting extremely challenging. Going beyond the mainstream paradigms of plain decomposition and multiperiodicity analysis, we analyze temporal variations in a novel view of multiscale-mixing, which is based on an intuitive but important observation that time series present distinct patterns in different sampling scales. The microscopic and the macroscopic information are reflected in fine and coarse scales respectively, and thereby complex variations can be inherently disentangled. Based on this observation, we propose TimeMixer as a fully MLP-based architecture with Past-Decomposable-Mixing (PDM) and Future-Multipredictor-Mixing (FMM) blocks to take full advantage of disentangled multiscale series in both past extraction and future prediction phases. Concretely, PDM applies the decomposition to multiscale series and further mixes the decomposed seasonal and trend components in fine-to-coarse and coarse-to-fine directions separately, which successively aggregates the microscopic seasonal and macroscopic trend information. FMM further ensembles multiple predictors to utilize complementary forecasting capabilities in multiscale observations. Consequently, TimeMixer is able to achieve consistent state-of-the-art performances in both long-term and short-term forecasting tasks with favorable run-time efficiency.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 拡張大言語モデルによる例外行動テストの生成

Generating Exceptional Behavior Tests with Reasoning Augmented Large Language Models ( http://arxiv.org/abs/2405.14619v1 )

ライセンス: Link先を確認
Jiyang Zhang, Yu Liu, Pengyu Nie, Jessy Junyi Li, Milos Gligoric, (参考訳) C#、Java、Pythonを含む多くの人気のあるプログラミング言語は例外をサポートしている。 不要なイベントが発生した場合、例えば不正な引数値でメソッドが呼び出されると、プログラム実行中に例外がスローされる。 ソフトウェア開発者は例外的な振る舞いテスト(EBT)を書き、コードが不要なイベントを検出し、適切な例外を投げることをチェックする。 以前の研究では、EBTの重要性が示されていたが、これらの研究は、開発者が望ましくないイベントのないパスなど、"幸せなパス"に多くの努力を注いでいることも強調した。 このギャップを埋めるために、私たちはEXLONGと呼ばれるEBTを自動生成する最初のフレームワークを提示します。 EXLONGはCodeLlamaからトレーニングされた大きな言語モデルで、スローステートメントにつながるトレース、スローステートメントを保護する条件式、同様のトレースを実行する非例外的動作テストに関する推論を埋め込んでいる。 我々はEXLONGをテスト生成のための最先端モデル(CAT-LM)と最強基盤モデル(GPT3.5)、およびテスト生成のための分析ツール(RandoopとEvoSuite)と比較した。 以上の結果から,EXLONGは既存のモデルやツールよりも優れていることがわかった。 さらに、オープンソースプロジェクトにいくつかのプルリクエストを提供し、EXLONGによって生成された23のEBTがすでに受け入れられています。

Many popular programming languages, including C#, Java, and Python, support exceptions. Exceptions are thrown during program execution if an unwanted event happens, e.g., a method is invoked with an illegal argument value. Software developers write exceptional behavior tests (EBTs) to check that their code detects unwanted events and throws appropriate exceptions. Prior research studies have shown the importance of EBTs, but those studies also highlighted that developers put most of their efforts on "happy paths", e.g., paths without unwanted events. To help developers fill the gap, we present the first framework, dubbed EXLONG, that automatically generates EBTs. EXLONG is a large language model instruction-tuned from CodeLlama and embeds reasoning about traces that lead to throw statements, conditional expressions that guard throw statements, and non-exceptional behavior tests that execute similar traces. We compare EXLONG with the state-of-the-art models for test generation (CAT-LM) and one of the strongest foundation models (GPT3.5), as well as with analysis-based tools for test generation (Randoop and EvoSuite). Our results show that EXLONG outperforms existing models and tools. Furthermore, we contributed several pull requests to open-source projects and 23 EBTs generated by EXLONG were already accepted.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 閉形式記号解:偏微分方程式の解法の新しい展望

Closed-form Symbolic Solutions: A New Perspective on Solving Partial Differential Equations ( http://arxiv.org/abs/2405.14620v1 )

ライセンス: Link先を確認
Shu Wei, Yanjie Li, Lina Yu, Min Wu, Weijun Li, Meilan Hao, Wenqiang Li, Jingyi Liu, Yusong Deng, (参考訳) 閉形式記号解によるユークリッド空間における偏微分方程式(PDE)の解法は、数学者にとって長年の夢であった。 深層学習にインスパイアされた物理情報ニューラルネットワーク(PINN)は,PDEを数値的に解く上で大きな可能性を秘めている。 しかし、PINNは本質的に連続関数空間内の近似解であるため、数値解は記号解と比較して精度と解釈性の両方に劣る。 本稿では, PDE の記号解を直接取得するための深層強化学習の活用を探求する, 閉形式 \textbf{Sym}bolic framework for \textbf{PDE}s (SymPDE) を提案する。 SymPDEは、高周波で急激に変化する機能に適合するPINNが直面する課題を軽減する。 私たちの知る限りでは、これまでの作業ではこのアプローチを実装していません。 時間非依存系と時空間力学系におけるポアソン方程式と熱方程式の解法の実験は、SymPDEが様々な種類のPDEに対して正確な閉形式記号解を提供できることを示した。

Solving partial differential equations (PDEs) in Euclidean space with closed-form symbolic solutions has long been a dream for mathematicians. Inspired by deep learning, Physics-Informed Neural Networks (PINNs) have shown great promise in numerically solving PDEs. However, since PINNs essentially approximate solutions within the continuous function space, their numerical solutions fall short in both precision and interpretability compared to symbolic solutions. This paper proposes a novel framework: a closed-form \textbf{Sym}bolic framework for \textbf{PDE}s (SymPDE), exploring the use of deep reinforcement learning to directly obtain symbolic solutions for PDEs. SymPDE alleviates the challenges PINNs face in fitting high-frequency and steeply changing functions. To our knowledge, no prior work has implemented this approach. Experiments on solving the Poisson's equation and heat equation in time-independent and spatiotemporal dynamical systems respectively demonstrate that SymPDE can provide accurate closed-form symbolic solutions for various types of PDEs.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# Calibrated Self-Rewarding Vision Language Models

Calibrated Self-Rewarding Vision Language Models ( http://arxiv.org/abs/2405.14622v1 )

ライセンス: Link先を確認
Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao, (参考訳) LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と命令チューニングによる視覚モデルを統合することで大きな進歩を遂げた。 これらの進歩にもかかわらず、LVLMは、しばしば幻覚現象を示し、生成したテキスト応答は言語的に妥当に見えるが、入力画像と矛盾し、画像とテキストペアの相違を示す。 このミスアライメントは、言語モデルと視覚表現の両方が高品質である場合でも、モデルが視覚入力よりもテキスト情報を優先する傾向があるために生じる。 既存の方法は、追加のモデルや人間のアノテーションを利用して、好みデータをキュレートし、好みの最適化を通じてモダリティアライメントを強化する。 これらのアプローチはLVLMの選好を効果的に反映していないため、キュレートされた選好を容易に区別できる。 本研究は,CSR (Calibrated Self-Rewarding) アプローチを提案することで,モデルが候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,これらの課題に対処する。 報酬モデリングでは、ステップワイズ戦略を採用し、視覚的制約を自己回帰プロセスに組み込んで視覚的入力に重点を置く。 実証的な結果は、CSRがパフォーマンスを高め、10のベンチマークとタスクの幻覚を減らし、既存のメソッドに対して7.62%の大幅な改善を達成していることを示している。 我々の経験的結果は、厳密な理論的分析によってさらに支持され、軽微な仮定の下で、自己回帰パラダイムに視覚的制約を導入する効果が検証される。 さらに、CSRは異なる視覚言語モデルとの互換性を示し、反復的な微調整によってパフォーマンスを漸進的に改善する能力を示している。 私たちのデータとコードはhttps://github.com/YiyangZhou/CSR.comで公開されています。

Large Vision-Language Models (LVLMs) have made substantial progress by integrating pre-trained large language models (LLMs) and vision models through instruction tuning. Despite these advancements, LVLMs often exhibit the hallucination phenomenon, where generated text responses appear linguistically plausible but contradict the input image, indicating a misalignment between image and text pairs. This misalignment arises because the model tends to prioritize textual information over visual input, even when both the language model and visual representations are of high quality. Existing methods leverage additional models or human annotations to curate preference data and enhance modality alignment through preference optimization. These approaches may not effectively reflect the target LVLM's preferences, making the curated preferences easily distinguishable. Our work addresses these challenges by proposing the Calibrated Self-Rewarding (CSR) approach, which enables the model to self-improve by iteratively generating candidate responses, evaluating the reward for each response, and curating preference data for fine-tuning. In the reward modeling, we employ a step-wise strategy and incorporate visual constraints into the self-rewarding process to place greater emphasis on visual input. Empirical results demonstrate that CSR enhances performance and reduces hallucinations across ten benchmarks and tasks, achieving substantial improvements over existing methods by 7.62%. Our empirical results are further supported by rigorous theoretical analysis, under mild assumptions, verifying the effectiveness of introducing visual constraints into the self-rewarding paradigm. Additionally, CSR shows compatibility with different vision-language models and the ability to incrementally improve performance through iterative fine-tuning. Our data and code are available at https://github.com/YiyangZhou/CSR.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# U-TELL:教師なしタスクエキスパートの生涯学習

U-TELL: Unsupervised Task Expert Lifelong Learning ( http://arxiv.org/abs/2405.14623v1 )

ライセンス: Link先を確認
Indu Solomon, Aye Phyu Phyu Aung, Uttam Kumar, Senthilnath Jayavelu, (参考訳) 連続学習(CL)モデルは、ネットワークを再訓練することなく、連続的に到着するタスクを学習するように設計されている。 しかし、実世界のMLアプリケーションはラベル情報が非常に限られており、これらのモデルは破滅的な忘れ物に悩まされている。 これらの問題に対処するために,教師なしタスクエキスパート生涯学習(Unsupervised Task Expert Lifelong Learning, U-TELL)と呼ばれるタスクエキスパートによる教師なしCLモデルを提案する。 U-TELLの訓練中、我々は新しいタスクの到着について新しい専門家を紹介する。 提案アーキテクチャは,タスクエキスパート,構造化データジェネレータ,タスクアサインラを備える。 各タスクエキスパートは3ブロックで構成されています。 一 タスク分布を捉えてデータの抽象化を行う変分オートエンコーダ 二 k平均クラスタリングモジュール及び 三 潜在タスクデータ署名を保持する構造抽出器 テスト中、タスクアサインラはクラスタリングを行うのに適した専門家を選択する。 U-TELLはタスクサンプルを格納したり再生したりせず、代わりに生成された構造化サンプルを使用してタスクアサインラをトレーニングします。 我々は,U-TELLを5つの教師なしCL法と比較した。 U-TELLは7つのベンチマークと、最高のパフォーマンスベースラインの6倍以上のトレーニング時間で、さまざまなCLシナリオの1つの業界データセットで、すべてのベースラインをパフォーマンスした。

Continual learning (CL) models are designed to learn new tasks arriving sequentially without re-training the network. However, real-world ML applications have very limited label information and these models suffer from catastrophic forgetting. To address these issues, we propose an unsupervised CL model with task experts called Unsupervised Task Expert Lifelong Learning (U-TELL) to continually learn the data arriving in a sequence addressing catastrophic forgetting. During training of U-TELL, we introduce a new expert on arrival of a new task. Our proposed architecture has task experts, a structured data generator and a task assigner. Each task expert is composed of 3 blocks; i) a variational autoencoder to capture the task distribution and perform data abstraction, ii) a k-means clustering module, and iii) a structure extractor to preserve latent task data signature. During testing, task assigner selects a suitable expert to perform clustering. U-TELL does not store or replay task samples, instead, we use generated structured samples to train the task assigner. We compared U-TELL with five SOTA unsupervised CL methods. U-TELL outperformed all baselines on seven benchmarks and one industry dataset for various CL scenarios with a training time over 6 times faster than the best performing baseline.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 構造浴を用いたスピン-ボソンモデルの量子シミュレーション

Quantum Simulation of Spin-Boson Models with Structured Bath ( http://arxiv.org/abs/2405.14624v1 )

ライセンス: Link先を確認
Ke Sun, Mingyu Kang, Hanggai Nuomin, George Schwartz, David N. Beratan, Kenneth R. Brown, Jungsang Kim, (参考訳) スピンボソンモデル(スピンボソンモデル、英: spin-boson model、英: spin-boson model)は、量子調和振動子の浴と相互作用するスピンを含む、オープン量子系の広く使われている表現である。 トラップされたイオンは、そのようなモデルの量子シミュレーションの自然なプラットフォームを示すが、以前の実験は、スピンがボソニックモードとコヒーレントに結合しているシナリオをシミュレートすることに限定されている。 本研究では, 捕捉したイオンの運動状態を用いて, 構造浴を用いたスピンボソンモデルの量子シミュレーションを行った。 制御パラメータにランダム性を加えることにより,浴槽温度と連続スペクトル密度を調整する能力を示す。 その後、最大3つのローレンツピークからなるスペクトル密度を持つ様々なスピンボソンモデルの力学をシミュレートする。 実験結果は理論的な予測と密接に一致しており、開量子系をシミュレートするためにトラップイオン系の実験的ノイズを加える利点を示唆している。

The spin-boson model, involving a spin interacting with a bath of quantum harmonic oscillators, is a widely used representation of open quantum systems. Trapped ions present a natural platform for the quantum simulation of such models; however, previous experiments have been limited to simulating a scenario where a spin is coherently coupled to bosonic modes, which neglects capturing the dissipation of the bath. In our work, we perform quantum simulations of spin-boson models with structured baths using the motional states of trapped ions. We demonstrate the capability for adjusting the bath's temperature and continuous spectral density by adding randomness to the control parameters. Subsequently, we simulate the dynamics of various spin-boson models with spectral densities composed of up to three Lorentzian peaks. The experimental outcomes closely align with theoretical predictions, suggesting the advantage of adding the trapped-ion system's experimental noise for simulating open quantum systems.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 製造組み立て作業の検出と分類のためのイベントベースデータセット

Event-based dataset for the detection and classification of manufacturing assembly tasks ( http://arxiv.org/abs/2405.14626v1 )

ライセンス: Link先を確認
Laura Duarte, Pedro Neto, (参考訳) 特徴付けられたデータセットであるEvent-based Dataset of Assembly Tasks (EDAT24)は、製造のプリミティブなタスク(アイドル、ピック、プレース、ネジ)を選択できる。 DAVIS240Cイベントカメラは、光強度値の変化が発生した時にイベントを登録する非同期視覚センサである。 イベントは視覚情報を伝達するための軽量なデータフォーマットであり、人間の動きのリアルタイム検出と分析に適している。 各製造プリミティブは、合計400のサンプルに対して、イベントやグレースケールフレームを含むDAVIS240Cデータの100のサンプルを記録している。 データセットでは、ユーザは静的なDAVISイベントカメラの前で、オープンソースのCT-Benchmarkのオブジェクトと対話する。 すべてのデータは生の形式(.aedat)と前処理形式(.npy)で利用可能である。 カスタムビルドされたPythonコードはデータセットとともに利用可能で、研究者が新しい製造プリミティブを追加したり、より多くのサンプルでデータセットを拡張するのに役立つ。

The featured dataset, the Event-based Dataset of Assembly Tasks (EDAT24), showcases a selection of manufacturing primitive tasks (idle, pick, place, and screw), which are basic actions performed by human operators in any manufacturing assembly. The data were captured using a DAVIS240C event camera, an asynchronous vision sensor that registers events when changes in light intensity value occur. Events are a lightweight data format for conveying visual information and are well-suited for real-time detection and analysis of human motion. Each manufacturing primitive has 100 recorded samples of DAVIS240C data, including events and greyscale frames, for a total of 400 samples. In the dataset, the user interacts with objects from the open-source CT-Benchmark in front of the static DAVIS event camera. All data are made available in raw form (.aedat) and in pre-processed form (.npy). Custom-built Python code is made available together with the dataset to aid researchers to add new manufacturing primitives or extend the dataset with more samples.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# RL剤にはどのような効果があるのか : 有効性評価による影響評価

Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences ( http://arxiv.org/abs/2405.14629v1 )

ライセンス: Link先を確認
Takuya Hiraoka, Guanquan Wang, Takashi Onishi, Yoshimasa Tsuruoka, (参考訳) 経験的なリプレイを伴う強化学習(RL)では、リプレイバッファに格納された経験がRLエージェントのパフォーマンスに影響を与える。 これらの経験の影響に関する情報は、パフォーマンスの悪いRLエージェントに悪影響を及ぼす経験を特定するなど、様々な目的のために有用である。 経験の影響を推定する1つの方法は、LOO法である。 しかし、この方法は通常計算は禁じられている。 本稿では,ターンオーバー・ドロップアウト(PIToD)によるポリシー・イテレーションを提案し,経験の影響を効率的に評価する。 PIToD が LOO と比較して経験と効率に与える影響を正確に評価した。 次に, PIToDを用いて, パフォーマンスの悪いRLエージェントを補正する。すなわち, PIToDを用いて, RLエージェントに対する負の影響力のある経験を推定し, それらの影響を除去する。 PIToDの修正によりRLエージェントの性能は大幅に改善された。

In reinforcement learning (RL) with experience replay, experiences stored in a replay buffer influence the RL agent's performance. Information about the influence of these experiences is valuable for various purposes, such as identifying experiences that negatively influence poorly performing RL agents. One method for estimating the influence of experiences is the leave-one-out (LOO) method. However, this method is usually computationally prohibitive. In this paper, we present Policy Iteration with Turn-over Dropout (PIToD), which efficiently estimates the influence of experiences. We evaluate how accurately PIToD estimates the influence of experiences and its efficiency compared to LOO. We then apply PIToD to amend poorly performing RL agents, i.e., we use PIToD to estimate negatively influential experiences for the RL agents and to delete the influence of these experiences. We show that RL agents' performance is significantly improved via amendments with PIToD.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 任意の次元の球面データに対するNTKの最小固有値の境界

Bounds for the smallest eigenvalue of the NTK for arbitrary spherical data of arbitrary dimension ( http://arxiv.org/abs/2405.14630v1 )

ライセンス: Link先を確認
Kedar Karhadkar, Michael Murray, Guido Montúfar, (参考訳) ニューラル・タンジェント・カーネル(NTK)の最小固有値の境界は、ニューラルネットワークの最適化と記憶の解析において重要な要素である。 しかし、既存の結果はデータの分布的な仮定を必要とし、入力次元$d_0$はサンプル数$n$で少なくとも対数的にスケールする高次元の設定に制限される。 この作業では、これらの要件を両方取り除き、データのコリニティの尺度で境界を与える。特に、$d_0$ が定数である場合と$n$ である場合でも、これらの境界は高い確率で保持される。 ヘミスフィア・トランスフォーメーションの新たな応用を通してその結果を実証する。

Bounds on the smallest eigenvalue of the neural tangent kernel (NTK) are a key ingredient in the analysis of neural network optimization and memorization. However, existing results require distributional assumptions on the data and are limited to a high-dimensional setting, where the input dimension $d_0$ scales at least logarithmically in the number of samples $n$. In this work we remove both of these requirements and instead provide bounds in terms of a measure of the collinearity of the data: notably these bounds hold with high probability even when $d_0$ is held constant versus $n$. We prove our results through a novel application of the hemisphere transform.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 微調整テキスト音声拡散モデルの強化学習

Reinforcement Learning for Fine-tuning Text-to-speech Diffusion Models ( http://arxiv.org/abs/2405.14632v1 )

ライセンス: Link先を確認
Jingyi Chen, Ju-Seung Byun, Micha Elsner, Andrew Perrault, (参考訳) 生成モデルの最近の進歩は、機械学習コミュニティで大きな関心を集めている。 特に拡散モデルは、画像と音声を合成する際、顕著な能力を示した。 Lee et al [19]、Black et al [4]、Wang et al [36]、Fan et al [8]などの研究は、Reinforcement Learning with Human Feedback (RLHF)が画像合成の拡散モデルを強化することを示している。 しかし、これらのモデルと音声合成に用いられているモデルとのアーキテクチャ的違いから、RLHFが同様に音声合成モデルに有用であるかどうかは不明である。 本稿では,拡散に基づくテキスト音声合成へのRLHFの実践的応用について検討し,東京・猿楽部MOS予測システム[29]で予測される平均世論スコア(MOS)をプロキシ損失として活用する。 拡散モデル損失誘導RLポリシー最適化(DLPO)を導入し,NISQA音声品質および自然性評価モデル[21]と人間の嗜好実験を用いて,他のRLHF手法と比較した。 以上の結果から,RLHFは拡散に基づく音声合成モデルを向上させることができ,また,DLPOは自然および高品質な音声音声を生成する際の拡散モデルを改善することができることがわかった。

Recent advancements in generative models have sparked significant interest within the machine learning community. Particularly, diffusion models have demonstrated remarkable capabilities in synthesizing images and speech. Studies such as those by Lee et al. [19], Black et al. [4], Wang et al. [36], and Fan et al. [8] illustrate that Reinforcement Learning with Human Feedback (RLHF) can enhance diffusion models for image synthesis. However, due to architectural differences between these models and those employed in speech synthesis, it remains uncertain whether RLHF could similarly benefit speech synthesis models. In this paper, we explore the practical application of RLHF to diffusion-based text-to-speech synthesis, leveraging the mean opinion score (MOS) as predicted by UTokyo-SaruLab MOS prediction system [29] as a proxy loss. We introduce diffusion model loss-guided RL policy optimization (DLPO) and compare it against other RLHF approaches, employing the NISQA speech quality and naturalness assessment model [21] and human preference experiments for further evaluation. Our results show that RLHF can enhance diffusion-based text-to-speech synthesis models, and, moreover, DLPO can better improve diffusion models in generating natural and high quality speech audios.
翻訳日:2024-05-24 14:35:49 公開日:2024-05-23
# 平坦な何か: 教師なしのニューラルサーフェスパラメータ化

Flatten Anything: Unsupervised Neural Surface Parameterization ( http://arxiv.org/abs/2405.14633v1 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Wenping Wang, Ying He, (参考訳) 表面のパラメータ化は多くのコンピュータグラフィックスや幾何処理アプリケーションにおいて重要な役割を担っている。 従来のパラメータ化アプローチは、特殊な3Dモデリング者が精力的に作成した高品質メッシュのために設計されており、通常の3Dデータの現在の爆発に対する処理要求を満たすことができない。 さらに、その動作メカニズムは一般に特定の単純なトポロジに制限されるため、前処理に煩雑な手作業(例えば、表面切断、部分分割)に依存する。 本稿では,FAM(Flatten Anything Model)を提案する。FAM(Flatten Anything Model)は,対象の幾何学的曲面上の3D点と2Dパラメータ領域内の適応的に変形したUV座標とのポイントワイズマッピングを学習することで,グローバルな自由境界面パラメータ化を実現するニューラルネットワークである。 実際の物理手順を模倣するため, 表面切削, 紫外線変形, 引抜き, 包帯の機能を持った幾何学的に解釈可能なサブネットワークを構築し, 双方向のサイクルマッピングフレームワークに組み立てた。 従来手法と比較して,FAMは接続情報を使わずに個別の面上で直接動作し,メッシュ品質の厳しい要件を著しく低減し,非構造化点クラウドデータにも適用可能である。 さらに重要なことは、私たちのFAMは完全に自動化されており、プレカットを必要とせず、その学習プロセスは合理的な切断シームとUV境界を適応的に見つけるので、高度に複雑なトポロジを扱うことができます。 広汎な実験は、提案したニューラルサーフェスパラメーター化パラダイムの普遍性、優越性、および刺激力を示す。 コードは公開されます。

Surface parameterization plays an essential role in numerous computer graphics and geometry processing applications. Traditional parameterization approaches are designed for high-quality meshes laboriously created by specialized 3D modelers, thus unable to meet the processing demand for the current explosion of ordinary 3D data. Moreover, their working mechanisms are typically restricted to certain simple topologies, thus relying on cumbersome manual efforts (e.g., surface cutting, part segmentation) for pre-processing. In this paper, we introduce the Flatten Anything Model (FAM), an unsupervised neural architecture to achieve global free-boundary surface parameterization via learning point-wise mappings between 3D points on the target geometric surface and adaptively-deformed UV coordinates within the 2D parameter domain. To mimic the actual physical procedures, we ingeniously construct geometrically-interpretable sub-networks with specific functionalities of surface cutting, UV deforming, unwrapping, and wrapping, which are assembled into a bi-directional cycle mapping framework. Compared with previous methods, our FAM directly operates on discrete surface points without utilizing connectivity information, thus significantly reducing the strict requirements for mesh quality and even applicable to unstructured point cloud data. More importantly, our FAM is fully-automated without the need for pre-cutting and can deal with highly-complex topologies, since its learning process adaptively finds reasonable cutting seams and UV boundaries. Extensive experiments demonstrate the universality, superiority, and inspiring potential of our proposed neural surface parameterization paradigm. The code will be publicly available.
翻訳日:2024-05-24 14:35:48 公開日:2024-05-23
# NLG評価器のアキレスのヒールを解き明かす:大規模言語モデルによる一貫した敵対的枠組み

Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models ( http://arxiv.org/abs/2405.14646v1 )

ライセンス: Link先を確認
Yiming Chen, Chen Zhang, Danqing Luo, Luis Fernando D'Haro, Robby T. Tan, Haizhou Li, (参考訳) 自然言語生成システム(NLG)の自動評価は長期にわたる課題である。 近年の研究では、人間の評価とよく一致した様々な神経指標が強調されている。 しかし,NLG評価タスクの逆データ取得に特有の課題があるため,これらの逆の摂動に対する評価器の堅牢性はいまだ明らかにされていない。 この問題に対処するために,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。 AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。 具体的には,テキスト生成と評価における大規模言語モデル(LLM)の最近の成功に触発されて,データ生成器と金評価器の両方として強力なLCMを採用する。 相手データは金と犠牲者の評価器からのフィードバックで自動的に最適化される。 我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。 その結果、AdvEvalは様々な犠牲者のメトリクスを著しく劣化させ、その結果の有効性が検証された。

The automatic evaluation of natural language generation (NLG) systems presents a long-lasting challenge. Recent studies have highlighted various neural metrics that align well with human evaluations. Yet, the robustness of these evaluators against adversarial perturbations remains largely under-explored due to the unique challenges in obtaining adversarial data for different NLG evaluation tasks. To address the problem, we introduce AdvEval, a novel black-box adversarial framework against NLG evaluators. AdvEval is specially tailored to generate data that yield strong disagreements between human and victim evaluators. Specifically, inspired by the recent success of large language models (LLMs) in text generation and evaluation, we adopt strong LLMs as both the data generator and gold evaluator. Adversarial data are automatically optimized with feedback from the gold and victim evaluator. We conduct experiments on 12 victim evaluators and 11 NLG datasets, spanning tasks including dialogue, summarization, and question evaluation. The results show that AdvEval can lead to significant performance degradation of various victim metrics, thereby validating its efficacy.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# PhiNets: 時間的予測仮説に基づく脳インスパイアされた非コントラスト学習

PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis ( http://arxiv.org/abs/2405.14650v1 )

ライセンス: Link先を確認
Satoki Ishikawa, Makoto Yamada, Han Bao, Yuki Takezawa, (参考訳) SimSiamは、静的環境下で様々な視覚タスクにおいて印象的な結果を得る、卓越した自己教師型学習手法である。 しかし、ハイパーパラメータに対する高感度、特に体重減少、オンライン学習と連続学習における不満足なパフォーマンスという2つの重要な問題があり、神経科学者は脳のように強力な記憶機能が必要であると考えている。 本稿では,時間的予測仮説に基づく海馬モデルにインスパイアされたPhiNetを提案する。 オリジナルの画像の2つの拡張ビューを整列するSimSiamとは異なり、PhiNetはオリジナルの画像表現を推定する予測ブロックを統合して、海馬のCA1領域を模倣する。 さらに, 運動量エンコーダブロックをスローラーナとして, 長期記憶として機能させることで, 補足学習系理論にインスパイアされた新皮質をモデル化する。 我々は、PhiNetが学習表現の完全な崩壊を防ぐために追加の予測器から得られる学習力学を分析し、非競合学習における悪名高い課題を実証する。 この力学解析は、この海馬モデルが生物学的に妥当である理由を部分的に裏付ける可能性がある。 実験の結果、PhiNetは体重減少に対してより堅牢であり、オンラインや連続学習のようなメモリ集約的なタスクにおいてSimSiamよりも優れたパフォーマンスを示している。

SimSiam is a prominent self-supervised learning method that achieves impressive results in various vision tasks under static environments. However, it has two critical issues: high sensitivity to hyperparameters, especially weight decay, and unsatisfactory performance in online and continual learning, where neuroscientists believe that powerful memory functions are necessary, as in brains. In this paper, we propose PhiNet, inspired by a hippocampal model based on the temporal prediction hypothesis. Unlike SimSiam, which aligns two augmented views of the original image, PhiNet integrates an additional predictor block that estimates the original image representation to imitate the CA1 region in the hippocampus. Moreover, we model the neocortex inspired by the Complementary Learning Systems theory with a momentum encoder block as a slow learner, which works as long-term memory. We demonstrate through analysing the learning dynamics that PhiNet benefits from the additional predictor to prevent the complete collapse of learned representations, a notorious challenge in non-contrastive learning. This dynamics analysis may partially corroborate why this hippocampal model is biologically plausible. Experimental results demonstrate that PhiNet is more robust to weight decay and performs better than SimSiam in memory-intensive tasks like online and continual learning.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 知識付加型質問生成による効果的な医療質問応答

Efficient Medical Question Answering with Knowledge-Augmented Question Generation ( http://arxiv.org/abs/2405.14654v1 )

ライセンス: Link先を確認
Julien Khlaut, Corentin Dancette, Elodie Ferreres, Alaedine Bennani, Paul Hérent, Pierre Manceron, (参考訳) 言語モデル応用の分野が拡大する中で、医療知識の表現はドメインの特殊性のために依然として重要な課題である。 GPT-4のような大規模言語モデルは、医学的質問応答タスクにおいて妥当なスコアを得るが、より小さなモデルははるかに遅れている。 本研究では,医療領域における小言語モデルの習熟度を2倍のアプローチで向上させる手法を提案する。 まず、医療教科書のコーパスでモデルを微調整する。 そして、GPT-4を用いて、下流タスクに類似した質問を生成し、教科書の知識でトリガーし、モデルを微調整する。 さらに,関連する質問からなる「プログレッシブな質問」を含む新しい医療質問応答データセットであるECN-QAを紹介する。 このデータセットでトレーニング戦略の利点を示す。 この研究は、適切に微調整された場合の医療領域における小言語モデルの可能性を浮き彫りにした。 コードとウェイトはhttps://github.com/raidium-med/MQG.comで公開されている。

In the expanding field of language model applications, medical knowledge representation remains a significant challenge due to the specialized nature of the domain. Large language models, such as GPT-4, obtain reasonable scores on medical question answering tasks, but smaller models are far behind. In this work, we introduce a method to improve the proficiency of a small language model in the medical domain by employing a two-fold approach. We first fine-tune the model on a corpus of medical textbooks. Then, we use GPT-4 to generate questions similar to the downstream task, prompted with textbook knowledge, and use them to fine-tune the model. Additionally, we introduce ECN-QA, a novel medical question answering dataset containing ``progressive questions'' composed of related sequential questions. We show the benefits of our training strategy on this dataset. The study's findings highlight the potential of small language models in the medical domain when appropriately fine-tuned. The code and weights are available at https://github.com/raidium-med/MQG.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 人間の選好フィードバックによるマルチターン強化学習

Multi-turn Reinforcement Learning from Preference Human Feedback ( http://arxiv.org/abs/2405.14655v1 )

ライセンス: Link先を確認
Lior Shani, Aviv Rosenberg, Asaf Cassel, Oran Lang, Daniele Calandriello, Avital Zipori, Hila Noga, Orgad Keller, Bilal Piot, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Rémi Munos, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデル(LLM)と人間の嗜好を整合させる標準的なアプローチとなり、LLMは様々なタスクにおいて顕著な能力を示すことができる。 既存のメソッドは、単一の決定(ターン)レベルで好みをエミュレートし、長期的な目標を達成するために計画や複数ターンのインタラクションを必要とする設定でそれらの能力を制限します。 本稿では,2つの全会話間の嗜好フィードバックからRL(Reinforcement Learning)の新たな手法を開発することにより,この問題に対処する。 表式設定では、一般的なマルチターン嗜好に基づくRL問題に対して、ミラーディフレッションに基づくポリシー最適化アルゴリズムを新たに提案し、ナッシュ均衡への収束性を証明する。 そこで,教師エージェントがランダムな話題の学習を指導し,アルゴリズムの深いRL変異がRLHFベースラインを上回っていることを示す。 最後に、明示的な報酬を持つ環境では、より弱い選好信号にのみ依存しながら、報酬に基づくRLベースラインと同じ性能を回復することを示す。

Reinforcement Learning from Human Feedback (RLHF) has become the standard approach for aligning Large Language Models (LLMs) with human preferences, allowing LLMs to demonstrate remarkable abilities in various tasks. Existing methods work by emulating the preferences at the single decision (turn) level, limiting their capabilities in settings that require planning or multi-turn interactions to achieve a long-term goal. In this paper, we address this issue by developing novel methods for Reinforcement Learning (RL) from preference feedback between two full multi-turn conversations. In the tabular setting, we present a novel mirror-descent-based policy optimization algorithm for the general multi-turn preference-based RL problem, and prove its convergence to Nash equilibrium. To evaluate performance, we create a new environment, Education Dialogue, where a teacher agent guides a student in learning a random topic, and show that a deep RL variant of our algorithm outperforms RLHF baselines. Finally, we show that in an environment with explicit rewards, our algorithm recovers the same performance as a reward-based RL baseline, despite relying solely on a weaker preference signal.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# インフォーマティブ雑音分布を用いた不定格優先ベイズ最適化

Heteroscedastic Preferential Bayesian Optimization with Informative Noise Distributions ( http://arxiv.org/abs/2405.14657v1 )

ライセンス: Link先を確認
Marshal Arijona Sinaga, Julien Martinelli, Vikas Garg, Samuel Kaski, (参考訳) 優先ベイズ最適化(英: Preferential Bayesian Optimization、PBO)は、候補設計間の人間の嗜好を学習するためのサンプリング効率の高いフレームワークである。 古典的には、PBOはヒトのアレータリック不確実性を表すホモスセダティックノイズモデルに依存している。 しかし、そのようなノイズは、特にユーザーが異なる候補間の部分的知識を持っている場合、人間の失神不確かさのレベルを正確に把握することができない。 例えば、グルコース関連分子の確立した専門知識を持つ化学者は、アルコール関連分子の比較に苦労しながら、その家系の2つの化合物を簡単に比較することができる。 現在、PBOは、取得関数の最大化により、新しい候補の探索中にこの不確実性を見落とし、その結果、人間の不確実性に関連するリスクを過小評価している。 この問題に対処するため,本研究では,ヒトのアレータリック不確かさを捉えるヘテロセシダティックノイズモデルを提案する。 このモデルは、特定の入力の距離に基づいて、人間の提供するアンカーとして知られる信頼度の高い入力のセットに適応的にノイズレベルを割り当てる。 アンカーは部分的な知識をカプセル化し、異なる候補ペアを評価することの難しさに関する洞察を提供する。 このようなモデルは、取得関数にシームレスに組み込むことができ、それによって、人間の専門家に対する情報性と比較の容易さを優雅に交換する設計ペアが候補となる。 提案手法の広範な実証評価を行い, 相補的PBOに対する一貫した改善を実証した。

Preferential Bayesian optimization (PBO) is a sample-efficient framework for learning human preferences between candidate designs. PBO classically relies on homoscedastic noise models to represent human aleatoric uncertainty. Yet, such noise fails to accurately capture the varying levels of human aleatoric uncertainty, particularly when the user possesses partial knowledge among different pairs of candidates. For instance, a chemist with solid expertise in glucose-related molecules may easily compare two compounds from that family while struggling to compare alcohol-related molecules. Currently, PBO overlooks this uncertainty during the search for a new candidate through the maximization of the acquisition function, consequently underestimating the risk associated with human uncertainty. To address this issue, we propose a heteroscedastic noise model to capture human aleatoric uncertainty. This model adaptively assigns noise levels based on the distance of a specific input to a predefined set of reliable inputs known as anchors provided by the human. Anchors encapsulate partial knowledge and offer insight into the comparative difficulty of evaluating different candidate pairs. Such a model can be seamlessly integrated into the acquisition function, thus leading to candidate design pairs that elegantly trade informativeness and ease of comparison for the human expert. We perform an extensive empirical evaluation of the proposed approach, demonstrating a consistent improvement over homoscedastic PBO.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# Inlicit In-Context Learning

Implicit In-context Learning ( http://arxiv.org/abs/2405.14660v1 )

ライセンス: Link先を確認
Zhuowei Li, Zihao Xu, Ligong Han, Yunhe Gao, Song Wen, Di Liu, Hao Wang, Dimitris N. Metaxas, (参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)に対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 汎用性にもかかわらず、ICLはゼロショット学習と比較して計算とメモリのオーバーヘッドがかなり高く、実演例の選択と順序に影響を受けやすい。 本稿では,従来のICLにまつわる課題に,アクティベーション空間内の実演例を吸収することによって対処する,革新的なパラダイムであるImlicit In-Context Learning(I2CL)を紹介する。 I2CLはまずデモ例からコンデンスベクトル表現、すなわちコンテキストベクトルを生成する。 次に、モデル残留ストリームにコンテキストベクトルとクエリアクティベーションの線形結合を注入することで、推論中のコンテキストベクトルを統合する。 3つのモデルアーキテクチャにわたる実世界の9つのタスクに対する実証的な評価は、I2CLがゼロショットコストで数ショットのパフォーマンスを実現し、デモのバリエーションに対して堅牢性を示すことを示している。 さらに、I2CLは「タスクID」の新たな表現を促進し、タスク類似性の検出を強化し、効果的な転送学習を可能にする。 我々はI2CLの包括的分析を行い、そのメカニズムとICLに対するより広範な影響について深い知見を提供する。 ソースコードは、https://github.com/LzVv123456/I2CLで入手できる。

In-context Learning (ICL) empowers large language models (LLMs) to adapt to unseen tasks during inference by prefixing a few demonstration examples prior to test queries. Despite its versatility, ICL incurs substantial computational and memory overheads compared to zero-shot learning and is susceptible to the selection and order of demonstration examples. In this work, we introduce Implicit In-context Learning (I2CL), an innovative paradigm that addresses the challenges associated with traditional ICL by absorbing demonstration examples within the activation space. I2CL first generates a condensed vector representation, namely a context vector, from the demonstration examples. It then integrates the context vector during inference by injecting a linear combination of the context vector and query activations into the model's residual streams. Empirical evaluation on nine real-world tasks across three model architectures demonstrates that I2CL achieves few-shot performance with zero-shot cost and exhibits robustness against the variation of demonstration examples. Furthermore, I2CL facilitates a novel representation of "task-ids", enhancing task similarity detection and enabling effective transfer learning. We provide a comprehensive analysis of I2CL, offering deeper insights into its mechanisms and broader implications for ICL. The source code is available at: https://github.com/LzVv123456/I2CL.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 離散データを用いた生成モデルのための魚のフローマッチング

Fisher Flow Matching for Generative Modeling over Discrete Data ( http://arxiv.org/abs/2405.14664v1 )

ライセンス: Link先を確認
Oscar Davis, Samuel Kessler, Mircea Petrache, {İ}smail {İ}lkan Ceylan, Avishek Joey Bose, (参考訳) 離散データに対する生成的モデリングは、言語モデリング、生物学的シーケンス設計、グラフ構造化された分子データなど、最近多くの成功談を目にしている。 離散データに対する主要な生成的モデリングパラダイムは、依然として自己回帰的であり、最近では拡散やフローマッチングに基づく代替手段が、画像やビデオ生成のような連続的なデータ設定における印象的なパフォーマンスを欠いている。 本稿では,離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。 Fisher-Flow は離散データ上のカテゴリー分布を、その自然なリーマン計量を持つ統計多様体上の点として考えることで、明らかな幾何学的視点を採っている: $\textit{Fisher-Rao metric}$。 その結果、離散データ自体は、$d$-hypersphere $\mathbb{S}^d_+$ の正のorthantに連続的に再パラメータ化され、$\mathbb{S}^d_+$ の(閉形式の)測地線に沿って質量を輸送することで、任意のソース分布をターゲットにマッピングするフローを原則的に定義できることを示した。 さらに、Fisher-Flowの学習フローは、Riemannの最適輸送を活用して、トレーニングダイナミクスを改善することで、さらにブートストラップすることができる。 Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。 我々は,DNAプロモーターやDNAエンハンサー配列の設計を含む,合成および多種多様な実世界のベンチマークに基づいてFisher-Flowを評価する。 実験的に、これらのベンチマーク上で、Fisher-Flowは事前拡散およびフローマッチングモデルよりも改善されていることが判明した。

Generative modeling over discrete data has recently seen numerous success stories, with applications spanning language modeling, biological sequence design, and graph-structured molecular data. The predominant generative modeling paradigm for discrete data is still autoregressive, with more recent alternatives based on diffusion or flow-matching falling short of their impressive performance in continuous data settings, such as image or video generation. In this work, we introduce Fisher-Flow, a novel flow-matching model for discrete data. Fisher-Flow takes a manifestly geometric perspective by considering categorical distributions over discrete data as points residing on a statistical manifold equipped with its natural Riemannian metric: the $\textit{Fisher-Rao metric}$. As a result, we demonstrate discrete data itself can be continuously reparameterised to points on the positive orthant of the $d$-hypersphere $\mathbb{S}^d_+$, which allows us to define flows that map any source distribution to target in a principled manner by transporting mass along (closed-form) geodesics of $\mathbb{S}^d_+$. Furthermore, the learned flows in Fisher-Flow can be further bootstrapped by leveraging Riemannian optimal transport leading to improved training dynamics. We prove that the gradient flow induced by Fisher-Flow is optimal in reducing the forward KL divergence. We evaluate Fisher-Flow on an array of synthetic and diverse real-world benchmarks, including designing DNA Promoter, and DNA Enhancer sequences. Empirically, we find that Fisher-Flow improves over prior diffusion and flow-matching models on these benchmarks.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# C$2$氷中の水素回転エネルギーの巨大分裂

Giant splitting of the hydrogen rotational eigenenergies in the C$_2$ filled ice ( http://arxiv.org/abs/2405.14665v1 )

ライセンス: Link先を確認
Simone Di Cataldo, Maria Rescigno, Lorenzo Monacelli, Umbertoluca Ranieri, Richard Gaal, Stefan Klotz, Jacques Ollivier, Michael Marek Koza, Cristiano De Michele, Livia Eleonora Bove, (参考訳) 水素水和物は圧力と温度の両方に影響を受け、C$2$相は2.5GPa以上で顕著に現れる。 この相では、水素分子は立方体氷のような格子の中に密に充填され、周囲の水分子との相互作用は量子回転力学に大きな影響を与える。 ここでは、密度汎関数理論により生成される有限温度のC$_2$結晶場における量子H$_2$ローターに対して、Schr\"{o}dinger's equationを直接解いて、この複雑な相互作用を掘り下げる。 我々の計算では、磁気量子数に対して、$l=1$で$\pm$3.2 meVの巨大なエネルギー分割が示される。 非弾性中性子散乱を用いて、C$_2$相中のH$_2$のエネルギー準位を6.0と3.4 GPaと低温で実験的に測定し、理論的な予測と顕著に一致した。 これらの結果は,C$_2$相における水素分子の回転挙動を予測し,他の水素水和物と比較して誘導-双極子相互作用を高めることにおいて,水素-水相互作用が重要な役割を担っていることを示す。

Hydrogen hydrates present a rich phase diagram influenced by both pressure and temperature, with the so-called C$_2$ phase emerging prominently above 2.5 GPa. In this phase, hydrogen molecules are densely packed within a cubic ice-like lattice and the interaction with the surrounding water molecules profoundly affects their quantum rotational dynamics. Herein, we delve into this intricate interplay by directly solving the Schr\"{o}dinger's equation for a quantum H$_2$ rotor in the C$_2$ crystal field at finite temperature, generated through Density Functional Theory. Our calculations reveal a giant energy splitting relative to the magnetic quantum number of $\pm$3.2 meV for $l=1$. Employing inelastic neutron scattering, we experimentally measure the energy levels of H$_2$ within the C$_2$ phase at 6.0 and 3.4 GPa and low temperatures, finding remarkable agreement with our theoretical predictions. These findings underscore the pivotal role of hydrogen--water interactions in dictating the rotational behavior of the hydrogen molecules within the C$_2$ phase and indicate heightened induced-dipole interactions compared to other hydrogen hydrates.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 自由のための効率性:理想的なデータは輸送可能な表現である

Efficiency for Free: Ideal Data Are Transportable Representations ( http://arxiv.org/abs/2405.14669v1 )

ライセンス: Link先を確認
Peng Sun, Yi Jiang, Tao Lin, (参考訳) 現代の機械学習における初歩的な機会と課題であるデータは現在、表現学習のスケーラビリティを制約し、モデル進化のペースを妨げる。 既存のパラダイムは、自己監督的な学習とデータセットの蒸留の観点から、大規模なデータセットに対する学習効率の問題に対処する一方で、中間的な視点から表現学習を加速する未解決の可能性を無視する。 本研究では、最適化と一般化の両方の観点から理想的なデータ特性を定義する。 モデル生成表現は、多様なタスクやアーキテクチャで訓練されているにもかかわらず、共有線形空間に収束し、モデル間の効果的な線形輸送を容易にすることを提案する。 さらに,これらの表現が理想データの形成にともなう特性を示すことを示す。 理論的・経験的な洞察は、タスクに依存しない、公開されていない自由モデルを利用して動的データサブセットを形成し、それによって(自己)教師付き学習を加速するRepresentation Learning Accelerator (ReLA)を提案することを促す。 例えば、動的データ生成の事前モデルとしてCLIP ViT B/16を使用することで、ReLA支援のBYOLは、ImageNet-1Kの50%でResNet-50をスクラッチからトレーニングすることができる。 さらに、CIFAR-10で事前訓練されたResNet-18を使用することで、ImageNet-1Kの10%でのResNet-50トレーニングが強化され、精度が7.7%向上する。

Data, the seminal opportunity and challenge in modern machine learning, currently constrains the scalability of representation learning and impedes the pace of model evolution. Existing paradigms tackle the issue of learning efficiency over massive datasets from the perspective of self-supervised learning and dataset distillation independently, while neglecting the untapped potential of accelerating representation learning from an intermediate standpoint. In this work, we delve into defining the ideal data properties from both optimization and generalization perspectives. We propose that model-generated representations, despite being trained on diverse tasks and architectures, converge to a shared linear space, facilitating effective linear transport between models. Furthermore, we demonstrate that these representations exhibit properties conducive to the formation of ideal data. The theoretical/empirical insights therein inspire us to propose a Representation Learning Accelerator (ReLA), which leverages a task- and architecture-agnostic, yet publicly available, free model to form a dynamic data subset and thus accelerate (self-)supervised learning. For instance, employing a CLIP ViT B/16 as a prior model for dynamic data generation, ReLA-aided BYOL can train a ResNet-50 from scratch with 50% of ImageNet-1K, yielding performance surpassing that of training on the full dataset. Additionally, employing a ResNet-18 pre-trained on CIFAR-10 can enhance ResNet-50 training on 10% of ImageNet-1K, resulting in a 7.7% increase in accuracy.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# フェデレーションラーニングにおけるバッチ正規化の課題

Overcoming the Challenges of Batch Normalization in Federated Learning ( http://arxiv.org/abs/2405.14670v1 )

ライセンス: Link先を確認
Rachid Guerraoui, Rafael Pinot, Geovani Rizk, John Stephan, François Taiani, (参考訳) バッチの正規化は、トレーニングを加速し、集中環境におけるディープニューラルネットワークの精度を向上させるための非常に有益なメカニズムであることが証明されている。 しかし、このスキームは、特に高データの異種性の下で、フェデレートラーニングにおいて大きな課題に直面している。 基本的に、主な課題は、クライアント間の外部共変量シフトと一貫性のない統計から生じます。 本稿では、フェデレート学習におけるバッチ正規化の利点を回復する新しいスキームであるFederated BatchNorm(FBN)を紹介する。 基本的に、FBNは、トレーニング中のバッチ正規化が集中的な実行で達成されるものと一致していることを保証するため、データの分散を保存し、グローバル統計を正確に近似する実行統計を提供する。 これにより、FBNは外部共変量シフトを低減し、集中設定の評価性能に適合する。 また, 複雑さがわずかに増大すると, FBN を強固にし, 誤った統計や潜在的敵意攻撃を緩和できることを示す。

Batch normalization has proven to be a very beneficial mechanism to accelerate the training and improve the accuracy of deep neural networks in centralized environments. Yet, the scheme faces significant challenges in federated learning, especially under high data heterogeneity. Essentially, the main challenges arise from external covariate shifts and inconsistent statistics across clients. We introduce in this paper Federated BatchNorm (FBN), a novel scheme that restores the benefits of batch normalization in federated learning. Essentially, FBN ensures that the batch normalization during training is consistent with what would be achieved in a centralized execution, hence preserving the distribution of the data, and providing running statistics that accurately approximate the global statistics. FBN thereby reduces the external covariate shift and matches the evaluation performance of the centralized setting. We also show that, with a slight increase in complexity, we can robustify FBN to mitigate erroneous statistics and potentially adversarial attacks.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 自己指導型学習における非受容的バックドアアタックを目指して

Towards Imperceptible Backdoor Attack in Self-supervised Learning ( http://arxiv.org/abs/2405.14672v1 )

ライセンス: Link先を確認
Hanrong Zhang, Zhenting Wang, Tingxu Han, Mingyu Jin, Chenlu Zhan, Mengnan Du, Hongwei Wang, Shiqing Ma, (参考訳) 自己教師型学習モデルは、バックドア攻撃に対して脆弱である。 自己監督学習に有効な既存のバックドア攻撃は、人間の検査に弱い色のパッチのような顕著なトリガーを伴うことが多い。 本稿では,自己教師型モデルに対する非受容的で効果的なバックドア攻撃を提案する。 まず、教師付き学習用に設計された既存の知覚不可能なトリガーが、自己教師付きモデルの妥協にあまり効果がないことを発見した。 そして、この非効率性は、自己教師付き学習で使用されるバックドアと強化サンプルの分布の重なりに起因すると同定する。 この知見に基づいて、我々は、自己教師付き学習における強化された変換に拘束されない最適化されたトリガーを用いて攻撃を設計する。 5つのデータセットと7つのSSLアルゴリズムの実験は、我々の攻撃が非常に効果的でステルスであることを示している。 既存の防備にも強い抵抗がある。 私たちのコードはhttps://github.com/Zhang-Henry/IMPERATIVE.comで参照できます。

Self-supervised learning models are vulnerable to backdoor attacks. Existing backdoor attacks that are effective in self-supervised learning often involve noticeable triggers, like colored patches, which are vulnerable to human inspection. In this paper, we propose an imperceptible and effective backdoor attack against self-supervised models. We first find that existing imperceptible triggers designed for supervised learning are not as effective in compromising self-supervised models. We then identify this ineffectiveness is attributed to the overlap in distributions between the backdoor and augmented samples used in self-supervised learning. Building on this insight, we design an attack using optimized triggers that are disentangled to the augmented transformation in the self-supervised learning, while also remaining imperceptible to human vision. Experiments on five datasets and seven SSL algorithms demonstrate our attack is highly effective and stealthy. It also has strong resistance to existing backdoor defenses. Our code can be found at https://github.com/Zhang-Henry/IMPERATIVE.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# ドローンがドローンを助ける: 多次元物体軌道予測のための協調的フレームワーク

Drones Help Drones: A Collaborative Framework for Multi-Drone Object Trajectory Prediction and Beyond ( http://arxiv.org/abs/2405.14674v1 )

ライセンス: Link先を確認
Zhechao Wang, Peirui Cheng, Mingxin Chen, Pengju Tian, Zhirui Wang, Xinming Li, Xue Yang, Xian Sun, (参考訳) 協調軌道予測は、多視点補完情報を通して、オブジェクトの将来の動きを包括的に予測することができる。 しかし、マルチドローンのコラボレーション設定では2つの大きな課題に直面している。 広範にわたる航空観測により、正確なバードアイビュー(BEV)表現の生成が困難になる。 さらに、過剰なインタラクションは、制約されたドローンベースの通信帯域内でのリアルタイムな予測要求を満たすことができない。 これらの問題に対処するため,我々はDrones Help Drones (DHD) という新しいフレームワークを提案する。 まず、物体とドローンの距離を推定するために、ドローンの傾いた観測によって提供される地上の先行情報を組み込むことで、より正確なBEV生成を可能にします。 次に,局所的特徴差に基づく選択的なメカニズムを設計し,ロボット間相互作用における予測タスクに寄与する重要な情報を優先する。 さらに,DHDフレームワークの有効性を検証するために,"Air-Co-Pred"と呼ばれるマルチドローン共同予測のための最初のデータセットを作成し,定量的かつ定性的な実験を行った。 さらに、DHDはCoPerception-UAVにおける協調的な3Dオブジェクト検出に有望な一般化を示す。

Collaborative trajectory prediction can comprehensively forecast the future motion of objects through multi-view complementary information. However, it encounters two main challenges in multi-drone collaboration settings. The expansive aerial observations make it difficult to generate precise Bird's Eye View (BEV) representations. Besides, excessive interactions can not meet real-time prediction requirements within the constrained drone-based communication bandwidth. To address these problems, we propose a novel framework named "Drones Help Drones" (DHD). Firstly, we incorporate the ground priors provided by the drone's inclined observation to estimate the distance between objects and drones, leading to more precise BEV generation. Secondly, we design a selective mechanism based on the local feature discrepancy to prioritize the critical information contributing to prediction tasks during inter-drone interactions. Additionally, we create the first dataset for multi-drone collaborative prediction, named "Air-Co-Pred", and conduct quantitative and qualitative experiments to validate the effectiveness of our DHD framework.The results demonstrate that compared to state-of-the-art approaches, DHD reduces position deviation in BEV representations by over 20% and requires only a quarter of the transmission ratio for interactions while achieving comparable prediction performance. Moreover, DHD also shows promising generalization to the collaborative 3D object detection in CoPerception-UAVs.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# RectifID: Anchored Classifier Guidanceを用いた定位流れのパーソナライズ

RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance ( http://arxiv.org/abs/2405.14677v1 )

ライセンス: Link先を確認
Zhicheng Sun, Zhenhao Yang, Yang Jin, Haozhe Chi, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Di Zhang, Yang Song, Kun Gai, Yadong Mu, (参考訳) ユーザが提供する参照画像からID保存画像を生成するための拡散モデルのカスタマイズは、興味深い新しい問題である。 一般的なアプローチでは、さまざまなユースケースの柔軟性に欠けるID保存を実現するために、広範なドメイン固有のイメージのトレーニングが必要となる。 この問題に対処するために,既存の分類器を用いて拡散モデルを操るトレーニングフリーな手法である分類器指導を利用して,画像のパーソナライズを行う。 本研究は,近年の正統化フローの枠組みに基づいて,特定分類器を必要とする場合のバニラ分類器指導の限界を,簡単な固定点法で解決し,オフザシェルフ画像識別器によるフレキシブルなパーソナライゼーションを実現することを示唆している。 さらに、その解法は、収束保証とともに基準流路に固定されたときに安定であることが証明される。 本発明の方法は、市販画像識別装置の異なる整流流れに実装され、人間の顔、生きた被写体、特定の対象物に対して有利なパーソナライズ結果を提供する。 コードはhttps://github.com/feifeiobama/RectifIDで入手できる。

Customizing diffusion models to generate identity-preserving images from user-provided reference images is an intriguing new problem. The prevalent approaches typically require training on extensive domain-specific images to achieve identity preservation, which lacks flexibility across different use cases. To address this issue, we exploit classifier guidance, a training-free technique that steers diffusion models using an existing classifier, for personalized image generation. Our study shows that based on a recent rectified flow framework, the major limitation of vanilla classifier guidance in requiring a special classifier can be resolved with a simple fixed-point solution, allowing flexible personalization with off-the-shelf image discriminators. Moreover, its solving procedure proves to be stable when anchored to a reference flow trajectory, with a convergence guarantee. The derived method is implemented on rectified flow with different off-the-shelf image discriminators, delivering advantageous personalization results for human faces, live subjects, and certain objects. Code is available at https://github.com/feifeiobama/RectifID.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# Recursive PAC-Bayes: 情報損失のない逐次更新に対する周波数論的アプローチ

Recursive PAC-Bayes: A Frequentist Approach to Sequential Prior Updates with No Information Loss ( http://arxiv.org/abs/2405.14681v1 )

ライセンス: Link先を確認
Yi-Shan Wu, Yijie Zhang, Badr-Eddine Chérief-Abdellatif, Yevgeny Seldin, (参考訳) PAC-Bayesian分析は、事前知識を学習に組み込むための頻繁なフレームワークである。 これはベイズ学習にインスパイアされたもので、シーケンシャルなデータ処理を可能にし、後続の処理ステップを次の処理ステップに自然に変換する。 しかし、20年半にわたる研究にもかかわらず、PAC-Bayesは、その過程で信頼を失わずに、逐次更新できる能力は、明らかにされたままであった。 PAC-Bayesは、データインフォームド前の構築を可能にするが、最終的な信頼区間は、前の構築に使われていない点数にのみ依存する。 これにより、最終バウンダリは最終バッチのサイズにのみ依存するため、シーケンシャルな事前更新の可能性とメリットが制限される。 我々は,情報損失のない逐次的事前更新を可能にする,驚くほどシンプルで強力なPAC-Bayesianプロシージャを提案する。 この手順は、ランダム化された分類器の期待損失の新たな分解に基づいている。 分解は、前者の縮小損失と前者の縮小損失との相対的な余剰損失として後部の損失を再帰的に再帰的に書き直す。 副作用として、余剰損失の有界化に使用する離散確率変数に対して、分割-kl と PAC-Bayes-split-kl の不等式を一般化する。 経験的評価では、新しい手順は最先端技術よりも大幅に優れている。

PAC-Bayesian analysis is a frequentist framework for incorporating prior knowledge into learning. It was inspired by Bayesian learning, which allows sequential data processing and naturally turns posteriors from one processing step into priors for the next. However, despite two and a half decades of research, the ability to update priors sequentially without losing confidence information along the way remained elusive for PAC-Bayes. While PAC-Bayes allows construction of data-informed priors, the final confidence intervals depend only on the number of points that were not used for the construction of the prior, whereas confidence information in the prior, which is related to the number of points used to construct the prior, is lost. This limits the possibility and benefit of sequential prior updates, because the final bounds depend only on the size of the final batch. We present a novel and, in retrospect, surprisingly simple and powerful PAC-Bayesian procedure that allows sequential prior updates with no information loss. The procedure is based on a novel decomposition of the expected loss of randomized classifiers. The decomposition rewrites the loss of the posterior as an excess loss relative to a downscaled loss of the prior plus the downscaled loss of the prior, which is bounded recursively. As a side result, we also present a generalization of the split-kl and PAC-Bayes-split-kl inequalities to discrete random variables, which we use for bounding the excess losses, and which can be of independent interest. In empirical evaluation the new procedure significantly outperforms state-of-the-art.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 共有バスコヒーレンスによる結合量子ビットの復調制御

Controlling dephasing of coupled qubits via shared-bath coherence ( http://arxiv.org/abs/2405.14685v1 )

ライセンス: Link先を確認
L. M. J. Hall, L. S. Sirkina, A. Morreau, W. Langbein, E. A. Muljarov, (参考訳) 量子システムとその環境との相互作用は、量子ビットコヒーレンス時間を制限し、量子情報処理アプリケーションにおけるその実用性を制限する。 このレターでは、結合した量子ビット系のデコヒーレンスを最小化したり、バス自体の量子コヒーレンスを利用して取り除いたりすることができる。 空間的に分離された電子的に疎結合された2つの量子ビットが共有浴と相互作用する直接結合あるいは媒介結合を持つシステムにおけるデフォーカスについて検討した。 図示のために、音響フォノンと相互作用する半導体量子ドット間のF\オースターまたはキャビティを介するカップリングを扱う。 累積膨張を伴うトロッター分解の厳密な方法を用いて, 特定の距離における脱落速度の低減を実証した。 このコントロールは、共有浴のコヒーレントな効果であり、独立した浴室には含まれない。 これは結合系の絡み合った量子ビット状態間のフォノンアシスト遷移の観点から理解することができる。

The interaction of a quantum system with its environment limits qubit coherence times and restricts its utility in quantum information processing applications. In this Letter, we show that the decoherence of a coupled qubit system can be minimized, or even eliminated by exploiting the quantum coherence of the bath itself. We investigate the dephasing in a system of two spatially separated, electronically decoupled qubits, with direct or mediated coupling, interacting with a shared bath. For illustration we treat F\"orster or cavity-mediated coupling between semiconductor quantum dots interacting with acoustic phonons. Using the rigorous method of Trotter's decomposition with cumulant expansion, we demonstrate a reduction in the dephasing rates at specific distances. This control is a coherent effect of the shared bath and is absent for independent baths. It can be understood in terms of phonon-assisted transitions between the entangled qubit states of the coupled system.
翻訳日:2024-05-24 14:26:04 公開日:2024-05-23
# 磁気メトリーにおけるエネルギー分解能限界の量子熱力学的導出

Quantum thermodynamic derivation of the energy resolution limit in magnetometry ( http://arxiv.org/abs/2405.14687v1 )

ライセンス: Link先を確認
I. K. Kominis, (参考訳) 近年,多くの磁気センサ技術がエネルギー分解能の限界を満たすことが実証され,磁場推定値,センサ体積,測定時間などの分散によって構成される量を$\hbar$で結合することがわかった。 エネルギー分解限界の第一原理の導出はいまだに解明されている。 ここでは、量子熱力学の議論に基づく導出について述べる。 エネルギー分解限界は、量子計測とランダウアー消去に関連する量子熱力学的な仕事の結果であり、磁場と交換されることが示される。 これらの考察を原子磁気センサやSQUIDSに適用する。 前者については,原子蒸気が生成する磁気ノイズに関連する新しいスピン相関効果を解明する。

It was recently demonstrated that a large number of magnetic sensing technologies satisfy the energy resolution limit, which connects a quantity composed by the variance of the magnetic field estimate, the sensor volume and the measurement time, and having units of action, with $\hbar$. A first-principles derivation of the energy resolution limit is still elusive. We here present such a derivation based on quantum thermodynamic arguments. We show that the energy resolution limit is a result of quantum thermodynamic work associated with quantum measurement and Landauer erasure, the work being exchanged with the magnetic field. We apply these considerations to atomic magnetometers and SQUIDS. Regarding the former, we unravel a new spin correlation effect relevant to the magnetic noise produced by atomic vapors.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# CityGPT: 都市におけるIoT学習,分析,マルチエージェントシステムとのインタラクションを目指す

CityGPT: Towards Urban IoT Learning, Analysis and Interaction with Multi-Agent System ( http://arxiv.org/abs/2405.14691v1 )

ライセンス: Link先を確認
Qinghua Guan, Jinhui Ouyang, Di Wu, Weiren Yu, (参考訳) IoT(Internet of Things)の大規模なセンサによって生成された時空間データは、非常にダイナミックで、異質で、大規模で、時間依存である。 リアルタイム分析と異なるIoTアプリケーションの意思決定において、大きな課題(例えば、正確性、信頼性、安定性)を生じます。 IoTデータの複雑さは、一般の人々による理解の深化を妨げる。 エージェントシステムは、一般の人々のためのデータ洞察の欠如に対処するのに役立つ。 エンドツーエンドのパラダイムでIoT時系列の学習と分析を容易にする汎用フレームワークであるCityGPTを提案する。 CityGPTはIoTデータの時空間分析を達成するために3つのエージェントを使用している。 要求エージェントは、自然言語に基づくユーザ入力を容易にする。 そして、解析タスクを時間的・空間的分析プロセスに分解し、対応するデータ分析エージェント(時間的・空間的エージェント)によって完了する。 最後に、時空間融合エージェントは、データ分析エージェントから解析結果を受信し、サブ視覚化エージェントを起動することにより、システムの分析結果を可視化し、ユーザ要求に基づいて対応するテキスト記述を提供する。 我々のフレームワークを利用する一般の人々の洞察を高めるため、我々は、大きな言語モデル(LLM)によって促進されたフレームワークを承認し、データの理解度を高めました。 時間依存の異なる実世界のデータに対する評価結果は,CityGPTフレームワークがIoTコンピューティングにおける堅牢なパフォーマンスを保証できることを示唆している。

The spatiotemporal data generated by massive sensors in the Internet of Things (IoT) is extremely dynamic, heterogeneous, large scale and time-dependent. It poses great challenges (e.g. accuracy, reliability, and stability) in real-time analysis and decision making for different IoT applications. The complexity of IoT data prevents the common people from gaining a deeper understanding of it. Agentized systems help address the lack of data insight for the common people. We propose a generic framework, namely CityGPT, to facilitate the learning and analysis of IoT time series with an end-to-end paradigm. CityGPT employs three agents to accomplish the spatiotemporal analysis of IoT data. The requirement agent facilitates user inputs based on natural language. Then, the analysis tasks are decomposed into temporal and spatial analysis processes, completed by corresponding data analysis agents (temporal and spatial agents). Finally, the spatiotemporal fusion agent visualizes the system's analysis results by receiving analysis results from data analysis agents and invoking sub-visualization agents, and can provide corresponding textual descriptions based on user demands. To increase the insight for common people using our framework, we have agnentized the framework, facilitated by a large language model (LLM), to increase the data comprehensibility. Our evaluation results on real-world data with different time dependencies show that the CityGPT framework can guarantee robust performance in IoT computing.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# AIワークロード最適化のための宣言システム

A Declarative System for Optimizing AI Workloads ( http://arxiv.org/abs/2405.14696v1 )

ライセンス: Link先を確認
Chunwei Liu, Matthew Russo, Michael Cafarella, Lei Cao, Peter Baille Chen, Zui Chen, Michael Franklin, Tim Kraska, Samuel Madden, Gerardo Vitagliano, (参考訳) 現代のAIモデルは、ほぼあらゆる種類のデータに関する分析クエリを処理するという長年の夢の鍵を提供する。 最近まで、企業文書や科学論文のデータ、画像やビデオのコーパスからの洞察から事実を抽出することは困難で費用がかかる。 今日のモデルはこれらのタスクを高い精度で達成することができる。 しかし、現実的なAIによるクエリに答えたいプログラマは、大量のモデル、プロンプト、データ操作を編成する必要がある。 単一のクエリであっても、モデルの選択、正しい推論方法、最もコスト効率の良い推論ハードウェア、理想的なプロンプト設計など、多くの決定をしなければならない。 クエリの変更や、急速に進化する技術的状況の変化によって、最適な一連の決定が変更される可能性がある。 本稿では,AIを利用した分析クエリを宣言型言語で定義するだけで誰でも処理できるシステムであるPalimpzestを提案する。 このシステムは、AIモデルの検索スペース、技術、関連する基礎モデル最適化を探求するコスト最適化フレームワークを使用して、実行時、財務コスト、出力データ品質の最良のトレードオフでクエリを実装する。 本稿では,AIを活用した分析タスクの作業負荷,Palimpzestが使用している最適化手法,プロトタイプシステム自体について述べる。 法的な発見, 不動産検索, 医療スキーママッチングにおける課題に対するPalimpzestの評価を行った。 私たちの単純なプロトタイプでさえ,3.3倍高速で2.9倍安価で,ベースライン方式よりも優れたデータ品質を備えた,魅力的なプランを提供していることを示しています。 パラレル化を有効にすることで、パラリンピストは1スレッドのGPT-4ベースラインと比較して9.1倍のコストで最大90.3倍のスピードアップでF1スコアを得ることができ、ベースラインの83.5%以内にF1スコアを得ることができる。 これらは、ユーザーによる追加の作業を必要としない。

Modern AI models provide the key to a long-standing dream: processing analytical queries about almost any kind of data. Until recently, it was difficult and expensive to extract facts from company documents, data from scientific papers, or insights from image and video corpora. Today's models can accomplish these tasks with high accuracy. However, a programmer who wants to answer a substantive AI-powered query must orchestrate large numbers of models, prompts, and data operations. For even a single query, the programmer has to make a vast number of decisions such as the choice of model, the right inference method, the most cost-effective inference hardware, the ideal prompt design, and so on. The optimal set of decisions can change as the query changes and as the rapidly-evolving technical landscape shifts. In this paper we present Palimpzest, a system that enables anyone to process AI-powered analytical queries simply by defining them in a declarative language. The system uses its cost optimization framework -- which explores the search space of AI models, prompting techniques, and related foundation model optimizations -- to implement the query with the best trade-offs between runtime, financial cost, and output data quality. We describe the workload of AI-powered analytics tasks, the optimization methods that Palimpzest uses, and the prototype system itself. We evaluate Palimpzest on tasks in Legal Discovery, Real Estate Search, and Medical Schema Matching. We show that even our simple prototype offers a range of appealing plans, including one that is 3.3x faster, 2.9x cheaper, and offers better data quality than the baseline method. With parallelism enabled, Palimpzest can produce plans with up to a 90.3x speedup at 9.1x lower cost relative to a single-threaded GPT-4 baseline, while obtaining an F1-score within 83.5% of the baseline. These require no additional work by the user.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 古典的信号処理による量子振幅推定

Quantum amplitude estimation from classical signal processing ( http://arxiv.org/abs/2405.14697v1 )

ライセンス: Link先を確認
Farrokh Labib, B. David Clader, Nikitas Stamatopoulos, William J. Zeng, (参考訳) 本稿では,多くの量子アルゴリズムで使用されるコアサブルーチンである振幅推定の問題を,方向推定(DOA)と呼ばれる信号処理の問題に直接マッピングできることを実証する。 DOAタスクは、最も少ない測定値で、受信波の到着方向を決定することである。 振幅推定とDOAの接続により、大量の信号処理アルゴリズムを用いて、事前に定義された深さでGroverイテレータの測定を後処理することができる。 ESPRITと呼ばれるオフ・ザ・シェルフのDOAアルゴリズムと圧縮センシングに基づくサンプリング手法を用いて、合計クエリ複雑性が$\sim 4.9/\varepsilon$、並列クエリ複雑性が$\sim 0.40/\varepsilon$の位相推定自由並列量子振幅推定(QAE)アルゴリズムを95%信頼で作成する。 この性能は、最悪の場合の複雑さに対して、Rell and Fuller (Quantum 7, 937 (2023))よりも1.1\times$と14\times$の改善である。 ここで提示されるアプローチは、QAEを実行するための単純で堅牢で並列な方法を提供し、古典的な信号処理における文学からのアイデアの借用を改善するための多くの道のりを提供する。

We demonstrate that the problem of amplitude estimation, a core subroutine used in many quantum algorithms, can be mapped directly to a problem in signal processing called direction of arrival (DOA) estimation. The DOA task is to determine the direction of arrival of an incoming wave with the fewest possible measurements. The connection between amplitude estimation and DOA allows us to make use of the vast amount of signal processing algorithms to post-process the measurements of the Grover iterator at predefined depths. Using an off-the-shelf DOA algorithm called ESPRIT together with a compressed-sensing based sampling approach, we create a phase-estimation free, parallel quantum amplitude estimation (QAE) algorithm with a total query complexity of $\sim 4.9/\varepsilon$ and a parallel query complexity of $\sim 0.40/\varepsilon$ at 95% confidence. This performance is a factor of $1.1\times$ and $14\times$ improvement over Rall and Fuller [Quantum 7, 937 (2023)], for worst-case complexity, which to our knowledge is the best published result for amplitude estimation. The approach presented here provides a simple, robust, parallel method to performing QAE, with many possible avenues for improvement borrowing ideas from the wealth of literature in classical signal processing.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# スパースチューニング:効率的な微調整と推論による視覚変換器の適応

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference ( http://arxiv.org/abs/2405.14700v1 )

ライセンス: Link先を確認
Ting Liu, Xuyang Liu, Liangtao Shi, Zunnan Xu, Siteng Huang, Yi Xin, Quanjun Yin, (参考訳) パラメータ効率のよい微調整(PEFT)は、トレーニング済みの視覚変換器(ViT)モデルを下流アプリケーションに適用するための一般的なアプローチとして現れている。 現在のPEFT法はパラメータ効率を実現するが、ViTアーキテクチャにおける冗長トークンの繰り返し計算のため、微調整と推論の両方でGPUメモリと時間効率を見落としている。 これは下流タスク適応の実践的な要件に欠ける。 本稿では,事前学習したViTモデルの微調整と推論の効率を大幅に向上させる新しいチューニングパラダイムである「textbf{Sparse-Tuning}」を提案する。 Sparse-Tuningは、情報トークンをわずかに保存し、冗長なトークンをマージすることで、トレーニング済みのViTを効率よく微調整する。 情報化トークンを不定形トークンと正確に区別するために,ViT内の異なるエンコーダ層にまたがる密結合を確立し,トークンスペーシングの表現能力と品質を向上する調整されたDense Adapterを導入する。 VTAB-1Kと3つの完全な画像データセット、および2つの完全なビデオデータセットの実証結果から、Sparse-TuningはGFLOPsを最先端のパフォーマンスを達成しつつ、元のViT-Bのtextbf{62\%-70\%}に還元することを示した。 ソースコードは \url{https://github.com/liuting20/Sparse-Tuning} で入手できる。

Parameter-efficient fine-tuning (PEFT) has emerged as a popular approach for adapting pre-trained Vision Transformer (ViT) models to downstream applications. While current PEFT methods achieve parameter efficiency, they overlook GPU memory and time efficiency during both fine-tuning and inference, due to the repeated computation of redundant tokens in the ViT architecture. This falls short of practical requirements for downstream task adaptation. In this paper, we propose \textbf{Sparse-Tuning}, a novel tuning paradigm that substantially enhances both fine-tuning and inference efficiency for pre-trained ViT models. Sparse-Tuning efficiently fine-tunes the pre-trained ViT by sparsely preserving the informative tokens and merging redundant ones, enabling the ViT to focus on the foreground while reducing computational costs on background regions in the images. To accurately distinguish informative tokens from uninformative ones, we introduce a tailored Dense Adapter, which establishes dense connections across different encoder layers in the ViT, thereby enhancing the representational capacity and quality of token sparsification. Empirical results on VTAB-1K, three complete image datasets, and two complete video datasets demonstrate that Sparse-Tuning reduces the GFLOPs to \textbf{62\%-70\%} of the original ViT-B while achieving state-of-the-art performance. Source code is available at \url{https://github.com/liuting20/Sparse-Tuning}.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 高忠実なシーンテキスト合成

High Fidelity Scene Text Synthesis ( http://arxiv.org/abs/2405.14701v1 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, (参考訳) シーンテキスト合成では、指定されたテキストを任意の画像にレンダリングする。 現在の方法は、通常、このタスクをエンドツーエンドで定式化するが、トレーニング中に効果的なキャラクタレベルのガイダンスが欠如している。 さらに、それらのテキストエンコーダは、1つのフォントタイプで事前訓練されており、実用的なアプリケーションで遭遇する多様なフォントスタイルに適応するのに苦労している。 結果として、これらの手法は、特にポリスチリスティックなシナリオにおいて、文字の歪み、繰り返し、欠如に悩まされる。 そこで本研究では,高忠実度シーンテキスト合成のためのDreamTextを提案する。 我々のキーとなる考え方は、拡散訓練プロセスの再構築であり、このタスクに合わせたより洗練されたガイダンスを導入し、文字レベルでモデルの注意を露呈し、修正し、テキスト領域の学習を強化することである。 この変換は、離散変数と連続変数の両方を含むハイブリッド最適化の課題となる。 この課題に効果的に対処するために、ヒューリスティックな代替最適化戦略を採用する。 一方、テキストエンコーダとジェネレータを共同でトレーニングし、トレーニングデータセットに存在する多様なフォントを包括的に学習し、活用する。 このジョイントトレーニングは、代替最適化プロセスにシームレスに統合され、学習文字埋め込みと再推定文字アテンションの相乗的関係を育む。 具体的には、各ステップにおいて、まずクロスアテンションマップから潜在文字マスクへの潜在的文字生成位置情報を符号化する。 これらのマスクは、現在のステップで特定の文字の表現を更新するために使用される。 定性的かつ定量的な結果は,本手法の最先端性を示すものである。

Scene text synthesis involves rendering specified texts onto arbitrary images. Current methods typically formulate this task in an end-to-end manner but lack effective character-level guidance during training. Besides, their text encoders, pre-trained on a single font type, struggle to adapt to the diverse font styles encountered in practical applications. Consequently, these methods suffer from character distortion, repetition, and absence, particularly in polystylistic scenarios. To this end, this paper proposes DreamText for high-fidelity scene text synthesis. Our key idea is to reconstruct the diffusion training process, introducing more refined guidance tailored to this task, to expose and rectify the model's attention at the character level and strengthen its learning of text regions. This transformation poses a hybrid optimization challenge, involving both discrete and continuous variables. To effectively tackle this challenge, we employ a heuristic alternate optimization strategy. Meanwhile, we jointly train the text encoder and generator to comprehensively learn and utilize the diverse font present in the training dataset. This joint training is seamlessly integrated into the alternate optimization process, fostering a synergistic relationship between learning character embedding and re-estimating character attention. Specifically, in each step, we first encode potential character-generated position information from cross-attention maps into latent character masks. These masks are then utilized to update the representation of specific characters in the current step, which, in turn, enables the generator to correct the character's attention in the subsequent steps. Both qualitative and quantitative results demonstrate the superiority of our method to the state of the art.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# G3: 大規模多モードモデルを用いた世界規模のジオローカライゼーションのための効果的で適応的なフレームワーク

G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models ( http://arxiv.org/abs/2405.14702v1 )

ライセンス: Link先を確認
Pengyue Jia, Yiding Liu, Xiaopeng Li, Xiangyu Zhao, Yuhao Wang, Yantong Du, Xiao Han, Xuetao Wei, Shuaiqiang Wang, Dawei Yin, (参考訳) 世界規模の地理的ローカライゼーションは、地球上のどこでも撮影された写真の座標レベルで正確な位置を見つけることを目的としている。 それはとても難しいです。 1)微妙な位置認識視覚意味論の把握の難しさ 2)画像データの異種地理的分布 その結果、既存の研究は世界規模で規模を拡大する際、明らかな限界がある。 類似した視覚的内容で容易に遠方の画像を混同したり、様々な場所に異なる量の関連データで適応することはできない。 これらの制約を解決するため、我々は検索型拡張生成(RAG)に基づく新しいフレームワークであるG3を提案する。 特に、G3は、グローバルなジオローカライゼーションの検索フェーズと生成フェーズを最適化するために、ジオアライメント、ジオ多様性、ジオビジョライゼーションの3つのステップで構成されている。 ジオアライメントでは,画像,GPS,テキスト記述の表現的マルチモーダル表現を共同で学習し,位置認識のセマンティクスを抽出して検索する。 ジオ・ディバイシフィケーションでは,画像クエリに対する不整合検索性能に頑健なプロンプト・アンサンブル法を利用する。 最後に,Geo-verificationで取得したGPS候補と生成したGPS候補を組み合わせ,位置情報の予測を行う。 2つの確立されたデータセット IM2GPS3k と YFCC4k の実験は、他の最先端手法と比較して G3 の優位性を検証する。

Worldwide geolocalization aims to locate the precise location at the coordinate level of photos taken anywhere on the Earth. It is very challenging due to 1) the difficulty of capturing subtle location-aware visual semantics, and 2) the heterogeneous geographical distribution of image data. As a result, existing studies have clear limitations when scaled to a worldwide context. They may easily confuse distant images with similar visual contents, or cannot adapt to various locations worldwide with different amounts of relevant data. To resolve these limitations, we propose G3, a novel framework based on Retrieval-Augmented Generation (RAG). In particular, G3 consists of three steps, i.e., Geo-alignment, Geo-diversification, and Geo-verification to optimize both retrieval and generation phases of worldwide geolocalization. During Geo-alignment, our solution jointly learns expressive multi-modal representations for images, GPS and textual descriptions, which allows us to capture location-aware semantics for retrieving nearby images for a given query. During Geo-diversification, we leverage a prompt ensembling method that is robust to inconsistent retrieval performance for different image queries. Finally, we combine both retrieved and generated GPS candidates in Geo-verification for location prediction. Experiments on two well-established datasets IM2GPS3k and YFCC4k verify the superiority of G3 compared to other state-of-the-art methods.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# テキスト・画像生成のための多次元人間の選好学習

Learning Multi-dimensional Human Preference for Text-to-Image Generation ( http://arxiv.org/abs/2405.14705v1 )

ライセンス: Link先を確認
Sixian Zhang, Bohan Wang, Junqiang Wu, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang, (参考訳) テキスト・ツー・イメージモデルの現在の指標は、典型的には人間の真の嗜好を不十分に表す統計指標に依存している。 近年の研究では、人間のアノテート画像を通してこれらの嗜好を学習しようと試みているが、人間の嗜好の豊富なタペストリーを1つの総合スコアに減らしている。 しかし、人間が異なる側面で画像を評価すると、好みの結果が変わる。 そこで本研究では,多次元の人間の嗜好を学習するために,テキスト・ツー・イメージ・モデル評価のための最初の多次元選好スコアモデルである多次元選好スコア(MPS)を提案する。 MPSはCLIPモデルに設定条件モジュールを導入し、これらの様々な好みを学習する。 これは607,541画像上の4次元(美学、セマンティックアライメント、詳細品質、全体評価)にわたる918,315人の選好選択を含むMHPデータセットに基づいて訓練されている。 画像は、さまざまな最新のテキスト・画像モデルによって生成される。 MPSは既存のスコアリング手法を4次元の3つのデータセットで上回り、テキスト・ツー・イメージ生成の評価と改善のための有望な指標となる。

Current metrics for text-to-image models typically rely on statistical metrics which inadequately represent the real preference of humans. Although recent work attempts to learn these preferences via human annotated images, they reduce the rich tapestry of human preference to a single overall score. However, the preference results vary when humans evaluate images with different aspects. Therefore, to learn the multi-dimensional human preferences, we propose the Multi-dimensional Preference Score (MPS), the first multi-dimensional preference scoring model for the evaluation of text-to-image models. The MPS introduces the preference condition module upon CLIP model to learn these diverse preferences. It is trained based on our Multi-dimensional Human Preference (MHP) Dataset, which comprises 918,315 human preference choices across four dimensions (i.e., aesthetics, semantic alignment, detail quality and overall assessment) on 607,541 images. The images are generated by a wide range of latest text-to-image models. The MPS outperforms existing scoring methods across 3 datasets in 4 dimensions, enabling it a promising metric for evaluating and improving text-to-image generation.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 法律データマイニングにおける人工知能(AI)

Artificial Intelligence (AI) in Legal Data Mining ( http://arxiv.org/abs/2405.14707v1 )

ライセンス: Link先を確認
Aniket Deroy, Naksatra Kumar Bailung, Kripabandhu Ghosh, Saptarshi Ghosh, Abhijnan Chakraborty, (参考訳) 膨大な量のデータが利用可能であるにもかかわらず、法律データはしばしば非構造化されており、法律実務者が同じデータを取り込み、理解することさえ困難である。 実践者や下流の自動化作業に役立つ方法で法的情報を整理することが重要である。 オントロジーという言葉はギリシアの哲学者によって存在、存在、成長、現実の概念について議論するために使われた。 今日、科学者はこの用語を使って概念、データ、実体の関係を記述している。 作業オントロジーのよい例は、DhaniとBhattによって開発された。 このオントロジーは、知的財産権(IPR)に関するインドの訴訟を扱う。

Despite the availability of vast amounts of data, legal data is often unstructured, making it difficult even for law practitioners to ingest and comprehend the same. It is important to organise the legal information in a way that is useful for practitioners and downstream automation tasks. The word ontology was used by Greek philosophers to discuss concepts of existence, being, becoming and reality. Today, scientists use this term to describe the relation between concepts, data, and entities. A great example for a working ontology was developed by Dhani and Bhatt. This ontology deals with Indian court cases on intellectual property rights (IPR) The future of legal ontologies is likely to be handled by computer experts and legal experts alike.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# OpFlowTalker: オプティカルフロー誘導によるリアルで自然な顔生成

OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance ( http://arxiv.org/abs/2405.14709v1 )

ライセンス: Link先を確認
Shuheng Ge, Haoyu Xing, Li Zhang, Xiangqian Wu, (参考訳) リアルで、自然で、口で読めるビデオを作るのは、まだまだ難しい課題だ。 従来の研究は主に、フレーム間の遷移と時間的依存関係の滑らかさを見越しながら、単一フレーム画像の生成と整合性に焦点を当てていた。 これは、特に複雑な顔データや音声コンテンツを扱う際の視覚的品質や効果を損なうことがあり、しばしば意味的に矛盾する視覚錯覚を引き起こした。 特に、合成されたビデオは、通常、非組織的な唇の動きを特徴としており、理解と認識が困難である。 これらの制約を克服するため,フレーム間の連続性とセマンティック一貫性を向上し,顔画像生成を誘導するための光フローの応用を提案する。 我々は,直接画像予測ではなく,音声入力から予測される光フロー変化を利用する新しい手法である"OpFlowTalker"を提案する。 この方法は画像の遷移を円滑にし、変化を意味のある内容と整合させる。 さらに、単一のフレームの独立生成を置き換えるためにシーケンス融合技術を採用し、コンテキスト情報を保持し、時間的一貫性を維持する。 また,全顔と唇の動きを制御し,局所力学のバランスをとることで視覚合成を最適化する光フロー同期モジュールを開発した。 さらに、合成ビデオのリップ可読性を正確に測定するVisual Text Consistency Score(VTCS)を導入する。 広範囲にわたる経験的証拠が我々のアプローチの有効性を証明している。

Creating realistic, natural, and lip-readable talking face videos remains a formidable challenge. Previous research primarily concentrated on generating and aligning single-frame images while overlooking the smoothness of frame-to-frame transitions and temporal dependencies. This often compromised visual quality and effects in practical settings, particularly when handling complex facial data and audio content, which frequently led to semantically incongruent visual illusions. Specifically, synthesized videos commonly featured disorganized lip movements, making them difficult to understand and recognize. To overcome these limitations, this paper introduces the application of optical flow to guide facial image generation, enhancing inter-frame continuity and semantic consistency. We propose "OpFlowTalker", a novel approach that utilizes predicted optical flow changes from audio inputs rather than direct image predictions. This method smooths image transitions and aligns changes with semantic content. Moreover, it employs a sequence fusion technique to replace the independent generation of single frames, thus preserving contextual information and maintaining temporal coherence. We also developed an optical flow synchronization module that regulates both full-face and lip movements, optimizing visual synthesis by balancing regional dynamics. Furthermore, we introduce a Visual Text Consistency Score (VTCS) that accurately measures lip-readability in synthesized videos. Extensive empirical evidence validates the effectiveness of our approach.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 多変量ポアソン異常家系におけるゼロインフレーション

Zero-inflation in the Multivariate Poisson Lognormal Family ( http://arxiv.org/abs/2405.14711v1 )

ライセンス: Link先を確認
Bastien Batardière, Julien Chiquet, François Gindraud, Mahendra Mariadassou, (参考訳) 高次元のカウントデータを解析することは困難であり、統計モデルに基づくアプローチは、説明可能性を維持するための適切かつ効率的なフレームワークを提供する。 多変数(multivariate)のPoisson-Log-Normal(PLN)モデルはそのようなモデルである: カウントデータは基盤となる構造化された潜在ガウス変数によって駆動されると仮定する。 しかしPLNは、実世界のデータセットでよく見られる機能であるゼロインフレーションを説明できない。 ここでは、Zero-Inflated PLN (ZIPLN) モデルを導入し、モデルに多変量ゼロ膨張成分を付加し、ベルヌーイ潜在変数を付加する。 Zero-Inflationは、固定、サイト固有、特徴特化、または共変量に依存する。 数千の変数を持つデータセットにスケールする変動推論を用いてモデルパラメータを推定し、2つの近似を比較する。 (i)独立ガウスおよびベルヌーイ変分分布 (ii)ベルヌーイに条件付きガウス変分分布。 本手法は合成データに基づいて評価し, ゼロインフレーションが最大90\%の場合にもZIPLNの効率性を確立する。 次に、ZIPLNとPLNの両方を牛のマイクロバイオームデータセットに適用し、90.6\%のゼロを含む。 ゼロインフレの会計はログの類似度を著しく増加させ、潜伏空間における分散を減少させ、グループ識別を改善する。

Analyzing high-dimensional count data is a challenge and statistical model-based approaches provide an adequate and efficient framework that preserves explainability. The (multivariate) Poisson-Log-Normal (PLN) model is one such model: it assumes count data are driven by an underlying structured latent Gaussian variable, so that the dependencies between counts solely stems from the latent dependencies. However PLN doesn't account for zero-inflation, a feature frequently observed in real-world datasets. Here we introduce the Zero-Inflated PLN (ZIPLN) model, adding a multivariate zero-inflated component to the model, as an additional Bernoulli latent variable. The Zero-Inflation can be fixed, site-specific, feature-specific or depends on covariates. We estimate model parameters using variational inference that scales up to datasets with a few thousands variables and compare two approximations: (i) independent Gaussian and Bernoulli variational distributions or (ii) Gaussian variational distribution conditioned on the Bernoulli one. The method is assessed on synthetic data and the efficiency of ZIPLN is established even when zero-inflation concerns up to $90\%$ of the observed counts. We then apply both ZIPLN and PLN to a cow microbiome dataset, containing $90.6\%$ of zeroes. Accounting for zero-inflation significantly increases log-likelihood and reduces dispersion in the latent space, thus leading to improved group discrimination.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# ロボットの進化と学習

Evolution and learning in differentiable robots ( http://arxiv.org/abs/2405.14712v1 )

ライセンス: Link先を確認
Luke Strgar, David Matthews, Tyler Hummer, Sam Kriegman, (参考訳) ロボットの自動設計は30年前から存在するが、シリアルな非微分不可能な設計評価、単純体や不器用な動作への早めの収束、シム2リアルな物理機械への移動の欠如によって制限されている。 そこで本研究では, 大規模並列微分可能シミュレーションを用いて, 多数の候補体計画において, 行動の個々の神経制御を迅速かつ同時に最適化し, 完全に最適化された動作性能に基づく各設計に対する適合度スコアを返却する。 個体群における各ロボットの機械的構造に相違のない変化が、探索の外側ループにおいて遺伝的アルゴリズムによって応用され、高度に調整された優雅な行動によって導かれる新しい形態の連続的な流れが生成される。 これにより、ロボットは従来の研究よりも独立したモーターの数で、はるかに複雑になる可能性があるにもかかわらず、これまでのすべての方法よりも数桁のオーダーで多くのデザインを探索することが可能になった。 その結果,進化は「段階的に分化しやすい」ロボットを確実に生み出すことが明らかとなった。 最後に、シミュレーションで発見された非常に微分可能な形態の1つは、物理ロボットとして実現され、その最適化された振舞いを維持できた。 これは、生物学的システムにおける進化と学習の関係を調査し、ロボットの物理的構造が政策を訓練する能力にどのように影響するかを理解するためのサイバー物理プラットフォームを提供する。 ビデオとコードはhttps://sites.google.com/view/eldir.comにある。

The automatic design of robots has existed for 30 years but has been constricted by serial non-differentiable design evaluations, premature convergence to simple bodies or clumsy behaviors, and a lack of sim2real transfer to physical machines. Thus, here we employ massively-parallel differentiable simulations to rapidly and simultaneously optimize individual neural control of behavior across a large population of candidate body plans and return a fitness score for each design based on the performance of its fully optimized behavior. Non-differentiable changes to the mechanical structure of each robot in the population -- mutations that rearrange, combine, add, or remove body parts -- were applied by a genetic algorithm in an outer loop of search, generating a continuous flow of novel morphologies with highly-coordinated and graceful behaviors honed by gradient descent. This enabled the exploration of several orders-of-magnitude more designs than all previous methods, despite the fact that robots here have the potential to be much more complex, in terms of number of independent motors, than those in prior studies. We found that evolution reliably produces ``increasingly differentiable'' robots: body plans that smooth the loss landscape in which learning operates and thereby provide better training paths toward performant behaviors. Finally, one of the highly differentiable morphologies discovered in simulation was realized as a physical robot and shown to retain its optimized behavior. This provides a cyberphysical platform to investigate the relationship between evolution and learning in biological systems and broadens our understanding of how a robot's physical structure can influence the ability to train policies for it. Videos and code at https://sites.google.com/view/eldir.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 教育者主導型チュータオーサリングに向けて - インテリジェントチュータインターフェース構築のためのジェネレーティブAIアプローチ

Towards Educator-Driven Tutor Authoring: Generative AI Approaches for Creating Intelligent Tutor Interfaces ( http://arxiv.org/abs/2405.14713v1 )

ライセンス: Link先を確認
Tommaso Calo, Christopher J. MacLellan, (参考訳) Intelligent Tutoring Systems(ITS)は、パーソナライズされた適応的な教育を提供する大きな可能性を示しているが、その普及は、専門的なプログラミングと設計スキルの必要性によって妨げられている。 既存のアプローチは、ドラッグアンドドロップを通じてコードのオーサリングを行わず、プログラミングの制限を克服するが、教育者は効果的なチューターインターフェイスを設計するために必要なスキルを持っていると仮定する。 この仮定に対処するために、私たちは、デザイン原則に固執しながら、彼らのニーズを満たすチューターインターフェースを作成する際に、教育者を支援するために、生成的AI機能を導入します。 提案手法は,Large Language Models (LLM) を利用して,教育者が入力として提供する高レベル要件に基づいて,チューターレイアウトと内容を生成する。 しかし、AI生成ソリューションに完全に依存するのではなく、設計プロセスに積極的に参加できるようにするため、インターフェース全体のレベルでも、個々のコンポーネントレベルでも生成することができる。 前者は、直接操作で洗練できる完全なインターフェースを備えた教育者を提供し、後者は、チューターインターフェイスに追加する特定の要素を作成する機能を提供する。 小規模比較では,教師インタフェース設計の効率を高めるためのアプローチの可能性を示している。 今後は、生成的AI能力を持つ教育者を支援して、パーソナライズされ、効果的で、魅力的な家庭教師を作るための重要な疑問を提起し、最終的に採用を拡大する。

Intelligent Tutoring Systems (ITSs) have shown great potential in delivering personalized and adaptive education, but their widespread adoption has been hindered by the need for specialized programming and design skills. Existing approaches overcome the programming limitations with no-code authoring through drag and drop, however they assume that educators possess the necessary skills to design effective and engaging tutor interfaces. To address this assumption we introduce generative AI capabilities to assist educators in creating tutor interfaces that meet their needs while adhering to design principles. Our approach leverages Large Language Models (LLMs) and prompt engineering to generate tutor layout and contents based on high-level requirements provided by educators as inputs. However, to allow them to actively participate in the design process, rather than relying entirely on AI-generated solutions, we allow generation both at the entire interface level and at the individual component level. The former provides educators with a complete interface that can be refined using direct manipulation, while the latter offers the ability to create specific elements to be added to the tutor interface. A small-scale comparison shows the potential of our approach to enhance the efficiency of tutor interface design. Moving forward, we raise critical questions for assisting educators with generative AI capabilities to create personalized, effective, and engaging tutors, ultimately enhancing their adoption.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# ML大気シミュレータにおける誤差蓄積の定義

Defining error accumulation in ML atmospheric simulators ( http://arxiv.org/abs/2405.14714v1 )

ライセンス: Link先を確認
Raghul Parthipan, Mohit Anand, Hannah M. Christensen, J. Scott Hosking, Damon J. Wischik, (参考訳) 機械学習(ML)は、最近、天気などの大気システムのモデル化において大きな可能性を示している。 これらのMLモデルの多くは自己回帰的であり、予測におけるエラーの蓄積は重要な問題である。 しかしながら、‘エラーの蓄積’が実際に必要とするものを明確に定義することはできない。 本稿では,それを測定するための定義と関連する指標を提案する。 我々の定義では、修正を希望するかもしれないモデル欠陥による誤差と、修正不可能な大気系(カオス、未観測変数)の本質的な性質による誤差とを区別する。 本定義は, 単純正則化損失のペナルティに着想を得たものである。 このアプローチは、実際の気象予報タスクを含む大気系の選択における性能改善(RMSEとスプレッド/スキル)を示す。

Machine learning (ML) has recently shown significant promise in modelling atmospheric systems, such as the weather. Many of these ML models are autoregressive, and error accumulation in their forecasts is a key problem. However, there is no clear definition of what `error accumulation' actually entails. In this paper, we propose a definition and an associated metric to measure it. Our definition distinguishes between errors which are due to model deficiencies, which we may hope to fix, and those due to the intrinsic properties of atmospheric systems (chaos, unobserved variables), which are not fixable. We illustrate the usefulness of this definition by proposing a simple regularization loss penalty inspired by it. This approach shows performance improvements (according to RMSE and spread/skill) in a selection of atmospheric systems, including the real-world weather prediction task.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# 視覚言語モデルのためのモーダルな後方互換表現学習に向けて

Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models ( http://arxiv.org/abs/2405.14715v1 )

ライセンス: Link先を確認
Young Kyun Jang, Ser-nam Lim, (参考訳) 現代の検索システムは、古いモデルと新しいモデルの間の埋め込みの非互換性のために、新しいより強力なモデルへのアップグレードに苦慮することが多い。 これは、大量のデータサンプルに対する埋め込みを再計算する、バックフィルと呼ばれるコストのかかるプロセスを必要とする。 ビジョンにおいて、新しいモデルが古いモデルの埋め込みと一致することを保証するために、後方互換トレーニング(BT)が提案されている。 本稿では、視覚のみのBTの概念をクロスモーダル検索の分野に拡張し、クロスモーダルBT(XBT)に対処する最初の試みを示す。 我々のゴールは、モーダル横断検索タスクにおいて、CLIPのようなビジョンランゲージ事前学習(VLP)モデル間の後方互換性を達成することである。 XBT問題に対処するために,新しいモデルの埋め込みを古いモデルにマッピングするプロジェクションモジュールという,効率的な解を提案する。 このモジュールは、テキストデータのみで事前訓練されており、XBT学習に必要な画像とテキストのペアの数を著しく減らし、事前訓練された後、トレーニング中に古いモデルを使用するのを避ける。 さらに、パラメータ効率のトレーニング戦略を利用して効率を向上し、いかなる修正も回避し、既製の新しいモデルの知識を保ちます。 クロスモーダル検索データセットの実験結果は、XBTの有効性と、新しいVLPモデルが出現したときのバックフィルフリーアップグレードを可能にする可能性を示している。

Modern retrieval systems often struggle with upgrading to new and more powerful models due to the incompatibility of embeddings between the old and new models. This necessitates a costly process known as backfilling, which involves re-computing the embeddings for a large number of data samples. In vision, Backward-compatible Training (BT) has been proposed to ensure that the new model aligns with the old model's embeddings. This paper extends the concept of vision-only BT to the field of cross-modal retrieval, marking the first attempt to address Cross-modal BT (XBT). Our goal is to achieve backward-compatibility between Vision-Language Pretraining (VLP) models, such as CLIP, for the cross-modal retrieval task. To address XBT challenges, we propose an efficient solution: a projection module that maps the new model's embeddings to those of the old model. This module, pretrained solely with text data, significantly reduces the number of image-text pairs required for XBT learning, and, once it is pretrained, it avoids using the old model during training. Furthermore, we utilize parameter-efficient training strategies that improve efficiency and preserve the off-the-shelf new model's knowledge by avoiding any modifications. Experimental results on cross-modal retrieval datasets demonstrate the effectiveness of XBT and its potential to enable backfill-free upgrades when a new VLP model emerges.
翻訳日:2024-05-24 14:16:19 公開日:2024-05-23
# HTNベースのチュータ:階層型タスクネットワークに基づく新しいインテリジェントチュータフレームワーク

HTN-Based Tutors: A New Intelligent Tutoring Framework Based on Hierarchical Task Networks ( http://arxiv.org/abs/2405.14716v1 )

ライセンス: Link先を確認
Momin N. Siddiqui, Adit Gupta, Jennifer M. Reddig, Christopher J. Maclellan, (参考訳) インテリジェントな家庭教師は、パーソナライズされた適応的な学習体験を提供することに成功した。 しかし、既存のフレームワークにおける知識の粒度と、それらが提供するインストラクションに関する課題がある。 これらの課題に対処するために,階層型タスクネットワーク(HTN)を用いたエキスパートモデルを表現するインテリジェントなチュータフレームワークであるHTNベースのチュータを提案する。 他のチューターフレームワークと同様に、さまざまな問題解決戦略の柔軟なエンコーディングを可能にし、階層的な知識組織によるさらなるメリットを提供する。 私たちは後者を活用して、足場の粒度に適応できるチューターを作成します。 この組織は、スキルの構成的性質ともよく一致している。

Intelligent tutors have shown success in delivering a personalized and adaptive learning experience. However, there exist challenges regarding the granularity of knowledge in existing frameworks and the resulting instructions they can provide. To address these issues, we propose HTN-based tutors, a new intelligent tutoring framework that represents expert models using Hierarchical Task Networks (HTNs). Like other tutoring frameworks, it allows flexible encoding of different problem-solving strategies while providing the additional benefit of a hierarchical knowledge organization. We leverage the latter to create tutors that can adapt the granularity of their scaffolding. This organization also aligns well with the compositional nature of skills.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# StyleX: X線スタイル距離のトレーニング可能なメトリック

StyleX: A Trainable Metric for X-ray Style Distances ( http://arxiv.org/abs/2405.14718v1 )

ライセンス: Link先を確認
Dominik Eckert, Christopher Syben, Christian Hümmer, Ludwig Ritschl, Steffen Kappler, Sebastian Stober, (参考訳) X線技術の進歩は、放射線学者の好みに適応する必要がある多様な画像スタイルを導入している。 この課題を支援するために,非マッチング画像ペアのスタイルの違いを定量化する,新しいディープラーニングベースのメトリクスを導入する。 私たちのメトリクスの中心は、X線画像スタイルの表現を生成するエンコーダです。 このエンコーダは、単純なシームズ学習を利用して、スタイル距離の明示的な知識なしで訓練される。 推論中、エンコーダによって生成されるスタイル表現を用いて、非マッチング画像対の距離メトリックを算出する。 まず、t分散確率的隣接埋め込み(t-SNE)解析を用いて、エンコーダ出力が有意かつ識別的なスタイル表現を提供することを示す。 第二に、エンコーダ出力から算出した提案指標は、人間の知覚とよく一致した非マッチングペアのスタイル距離を定量化する。 これらの結果から,提案手法はスタイルの差分を定量化するための有望な手法であることが確認された。

The progression of X-ray technology introduces diverse image styles that need to be adapted to the preferences of radiologists. To support this task, we introduce a novel deep learning-based metric that quantifies style differences of non-matching image pairs. At the heart of our metric is an encoder capable of generating X-ray image style representations. This encoder is trained without any explicit knowledge of style distances by exploiting Simple Siamese learning. During inference, the style representations produced by the encoder are used to calculate a distance metric for non-matching image pairs. Our experiments investigate the proposed concept for a disclosed reproducible and a proprietary image processing pipeline along two dimensions: First, we use a t-distributed stochastic neighbor embedding (t-SNE) analysis to illustrate that the encoder outputs provide meaningful and discriminative style representations. Second, the proposed metric calculated from the encoder outputs is shown to quantify style distances for non-matching pairs in good alignment with the human perception. These results confirm that our proposed method is a promising technique to quantify style differences, which can be used for guided style selection as well as automatic optimization of image pipeline parameters.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 意思決定型予測:多段階最適化のための決定損失

Decision-Focused Forecasting: Decision Losses for Multistage Optimisation ( http://arxiv.org/abs/2405.14719v1 )

ライセンス: Link先を確認
Egon Peršak, Miguel F. Anjos, (参考訳) 意思決定を重視した学習は、下流の意思決定の品質に関して、パイプラインの上流予測的な側面をトレーニングすることで、不確実性の下で意思決定するための有望なアプローチとして現れています。 既存の作業の多くは、単一ステージの問題に重点を置いています。 多くの現実の意思決定問題は、時間とともに価格や需要などの文脈情報を明らかにするため、多段階最適化を用いてより適切にモデル化されている。 本稿では,予測の時間的時間的決定効果を考慮した多層モデルである決定中心予測を提案する。 再帰モデルは、完全に微分可能な多段階最適化アプローチを反映している。 本モデルでは,予測による状態パスを考慮した調整を行った。 エネルギー貯蔵調停タスクへのモデルの適用を実証し,本モデルが既存手法より優れていることを報告する。

Decision-focused learning has emerged as a promising approach for decision making under uncertainty by training the upstream predictive aspect of the pipeline with respect to the quality of the downstream decisions. Most existing work has focused on single stage problems. Many real-world decision problems are more appropriately modelled using multistage optimisation as contextual information such as prices or demand is revealed over time and decisions now have a bearing on future decisions. We propose decision-focused forecasting, a multiple-implicitlayer model which in its training accounts for the intertemporal decision effects of forecasts using differentiable optimisation. The recursive model reflects a fully differentiable multistage optimisation approach. We present an analysis of the gradients produced by this model showing the adjustments made to account for the state-path caused by forecasting. We demonstrate an application of the model to an energy storage arbitrage task and report that our model outperforms existing approaches.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 仮想乳房共生ファントムの探索中における信号様解剖構造を識別する畳み込みニューラルネットワークモデル

Convolutional Neural Network Model Observers Discount Signal-like Anatomical Structures During Search in Virtual Digital Breast Tomosynthesis Phantoms ( http://arxiv.org/abs/2405.14720v1 )

ライセンス: Link先を確認
Aditya Jonnalagadda, Bruno B. Barufaldi, Andrew D. A. Maidment, Susan P. Weinstein, Craig K. Abbey, Miguel P. Eckstein, (参考訳) モデルオブザーバは、タスクベースの医療画像の品質を評価し最適化するための計算ツールである。 CHO(Channelized Hotelling Observer)のような線形モデルオブザーバーは、臨床ファントムや実際の解剖学的背景のいくつかの信号位置で検出タスクにおける人間の精度を予測する。 近年,新しいタイプのモデルオブザーバとして,畳み込みニューラルネットワーク(CNN)が提案されている。 良く理解されていないのは、CNNがより一般的な線形モデルオブザーバアプローチに何を加えるかである。 我々は,CHOとCNNの検出精度を,2D/3D乳房トモシン合成ファントム(DBT)に埋め込まれた2種類の信号(質量および微小石灰化)の検索精度と比較した。 我々は,CHOモデルの精度が,位置未知検出タスクにおけるCNNの性能に匹敵することを示す。 しかし, 2D/3D DBTファントムを用いた探索では, CHOの検出精度はCNNの精度よりも有意に低かった。 放射線技師の精度と比較すると、CNNはCHOではないが、2Dマイクロ石灰化および3Dマスサーチ条件において、放射線技師の精度と一致するか、超える可能性があることが示された。 眼位分析の結果,CNN偽陽性に相当する部位で放射線科医が頻繁に固定された。 ほとんどのCHO偽陽性はファントムの正常解剖であり、放射線技師によって固定されなかった。 結論として,従来の線形モデルオブザーバが解剖学的背景から偽陽性を否定できないため,従来の線形モデルオブザーバが失敗する検索タスクにおいて,CNNが人為的モデルオブザーバとして使用できることを示す。

Model observers are computational tools to evaluate and optimize task-based medical image quality. Linear model observers, such as the Channelized Hotelling Observer (CHO), predict human accuracy in detection tasks with a few possible signal locations in clinical phantoms or real anatomic backgrounds. In recent years, Convolutional Neural Networks (CNNs) have been proposed as a new type of model observer. What is not well understood is what CNNs add over the more common linear model observer approaches. We compare the CHO and CNN detection accuracy to the radiologist's accuracy in searching for two types of signals (mass and microcalcification) embedded in 2D/3D breast tomosynthesis phantoms (DBT). We show that the CHO model's accuracy is comparable to the CNN's performance for a location-known-exactly detection task. However, for the search task with 2D/3D DBT phantoms, the CHO's detection accuracy was significantly lower than the CNN accuracy. A comparison to the radiologist's accuracy showed that the CNN but not the CHO could match or exceed the radiologist's accuracy in the 2D microcalcification and 3D mass search conditions. An analysis of the eye position showed that radiologists fixated more often and longer at the locations corresponding to CNN false positives. Most CHO false positives were the phantom's normal anatomy and were not fixated by radiologists. In conclusion, we show that CNNs can be used as an anthropomorphic model observer for the search task for which traditional linear model observers fail due to their inability to discount false positives arising from the anatomical backgrounds.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# CAPE:長さ外挿のための文脈適応位置符号化

CAPE: Context-Adaptive Positional Encoding for Length Extrapolation ( http://arxiv.org/abs/2405.14722v1 )

ライセンス: Link先を確認
Chuanyang Zheng, Yihang Gao, Han Shi, Minbin Huang, Jingyao Li, Jing Xiong, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li, (参考訳) 位置符号化はトランスにおいて重要な役割を担い、モデルの性能と長さの一般化に大きな影響を及ぼす。 従来の研究では、絶対位置符号化(APE)と相対位置符号化(RPE)を導入して、与えられたシーケンスにおけるトークンの位置を区別している。 しかし、APEとRPEは、入力データに関係なくモデルトレーニング後に固定され、適応性と柔軟性が制限される。 したがって、所望の位置符号化は文脈適応的であり、所定の注意を払って動的に調整できることを期待する。 本稿では,文脈適応型位置符号化(CAPE,Context-Adaptive Positional Encoding)手法を提案する。 実世界のデータセット(Arxiv、Books3、CHE)に対する実験的検証は、CAPEが訓練された長さと長さの一般化の点でモデル性能を向上させることを示した。 モデルビジュアライゼーションは、我々のモデルがローカル情報とアンチローカル情報の両方を保持することを示唆している。 最後に,配列長128でモデルをトレーニングし,他の静的位置符号化法と比較して,評価シーケンス長8192での性能向上を実現し,適応位置符号化法の利点を明らかにした。

Positional encoding plays a crucial role in transformers, significantly impacting model performance and length generalization. Prior research has introduced absolute positional encoding (APE) and relative positional encoding (RPE) to distinguish token positions in given sequences. However, both APE and RPE remain fixed after model training regardless of input data, limiting their adaptability and flexibility. Hence, we expect that the desired positional encoding should be context-adaptive and can be dynamically adjusted with the given attention. In this paper, we propose a Context-Adaptive Positional Encoding (CAPE) method, which dynamically and semantically adjusts based on input context and learned fixed priors. Experimental validation on real-world datasets (Arxiv, Books3, and CHE) demonstrates that CAPE enhances model performances in terms of trained length and length generalization, where the improvements are statistically significant. The model visualization suggests that our model can keep both local and anti-local information. Finally, we successfully train the model on sequence length 128 and achieve better performance at evaluation sequence length 8192, compared with other static positional encoding methods, revealing the benefit of the adaptive positional encoding method.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 地域差分プライバシが公正性に及ぼす影響に関する体系的および形式的研究:予備的結果

A Systematic and Formal Study of the Impact of Local Differential Privacy on Fairness: Preliminary Results ( http://arxiv.org/abs/2405.14725v1 )

ライセンス: Link先を確認
Karima Makhlouf, Tamara Stefanovic, Heber H. Arcolezi, Catuscia Palamidessi, (参考訳) 機械学習(ML)アルゴリズムは、主にトレーニングデータの可用性に依存しており、ドメインによっては、これらのデータはデータプロバイダに関する機密情報を含んでいるため、重大なプライバシー問題を引き起こす可能性がある。 差別化プライバシ(DP)はプライバシ保護MLの主要なソリューションであり、サーバやデータコレクタが信頼されていない場合、DPのローカルモデルが望ましい選択である。 近年の研究では、ローカルDPが個人の異なるサブグループのML予測に影響を与え、公正な意思決定に影響を及ぼすことが示されている。 しかし、結果が矛盾しているのは、一部の研究がプライバシーが公正に与える影響を肯定的に示す一方で、他の研究は否定的な影響を示すという意味でである。 本研究では,ローカルDPが公正性に与える影響について,体系的および形式的な研究を行う。 具体的には、ローカルDPの下でMLモデルによる決定の公平さが、異なるレベルのプライバシとデータ分散に対してどのように変化するかを定量的に研究する。 特に、局所DPがモデルの公平性に影響を与える範囲を減らし、共同分布とプライバシのレベルでのバウンダリを提供する。 プライバシーが差別を減少させるケースと、その逆の効果を持つケースを特徴付ける。 合成および実世界のデータセットに関する理論的知見を検証した。 本研究の結果は,1つの感度特性,統計的差異,条件的統計的相違,機会的相違についてのみ検討するという意味で予備的である。

Machine learning (ML) algorithms rely primarily on the availability of training data, and, depending on the domain, these data may include sensitive information about the data providers, thus leading to significant privacy issues. Differential privacy (DP) is the predominant solution for privacy-preserving ML, and the local model of DP is the preferred choice when the server or the data collector are not trusted. Recent experimental studies have shown that local DP can impact ML prediction for different subgroups of individuals, thus affecting fair decision-making. However, the results are conflicting in the sense that some studies show a positive impact of privacy on fairness while others show a negative one. In this work, we conduct a systematic and formal study of the effect of local DP on fairness. Specifically, we perform a quantitative study of how the fairness of the decisions made by the ML model changes under local DP for different levels of privacy and data distributions. In particular, we provide bounds in terms of the joint distributions and the privacy level, delimiting the extent to which local DP can impact the fairness of the model. We characterize the cases in which privacy reduces discrimination and those with the opposite effect. We validate our theoretical findings on synthetic and real-world datasets. Our results are preliminary in the sense that, for now, we study only the case of one sensitive attribute, and only statistical disparity, conditional statistical disparity, and equal opportunity difference.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 効率的なクロスモーダル検索のための蒸留ビジョンランゲージ事前学習

Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval ( http://arxiv.org/abs/2405.14726v1 )

ライセンス: Link先を確認
Young Kyun Jang, Donghyun Kim, Ser-nam Lim, (参考訳) は効率的な検索のための実用的なソリューションであり、高速な検索速度と低ストレージコストを提供する。 画像テキストのクロスモーダル検索など、様々な用途に広く応用されている。 本稿では,VLP(Vision-Language Pre-Training)モデルなどの大規模事前学習モデルの普及に伴う学習性能向上の可能性を検討する。 本稿では,VLPモデルの豊富な意味的知識を活用し,ハッシュ表現学習を改善する新しい手法であるDistillation for Cross-Modal Quantization (DCMQ)を提案する。 具体的には、VLPを'Teacher'として使用して、知識をコードブックを備えた'student'ハッシュモデルに抽出する。 このプロセスでは、マルチホットベクトルとセマンティクスの欠如からなる教師付きラベルをVLPのリッチなセマンティクスに置き換える。 最後に,Paired Consistency (NPC) による正規化という変換を適用し,蒸留の差別的目標を達成する。 さらに、バランスの取れたコードブック学習を促進し、検索性能を向上させる新しい量化手法であるGumbel(PQG)を導入する。 大規模なベンチマークテストでは、DCMQが既存の教師付きクロスモーダルハッシュアプローチを一貫して上回っており、その大きな可能性を示している。

``Learning to hash'' is a practical solution for efficient retrieval, offering fast search speed and low storage cost. It is widely applied in various applications, such as image-text cross-modal search. In this paper, we explore the potential of enhancing the performance of learning to hash with the proliferation of powerful large pre-trained models, such as Vision-Language Pre-training (VLP) models. We introduce a novel method named Distillation for Cross-Modal Quantization (DCMQ), which leverages the rich semantic knowledge of VLP models to improve hash representation learning. Specifically, we use the VLP as a `teacher' to distill knowledge into a `student' hashing model equipped with codebooks. This process involves the replacement of supervised labels, which are composed of multi-hot vectors and lack semantics, with the rich semantics of VLP. In the end, we apply a transformation termed Normalization with Paired Consistency (NPC) to achieve a discriminative target for distillation. Further, we introduce a new quantization method, Product Quantization with Gumbel (PQG) that promotes balanced codebook learning, thereby improving the retrieval performance. Extensive benchmark testing demonstrates that DCMQ consistently outperforms existing supervised cross-modal hashing approaches, showcasing its significant potential.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 因果ベイズネットワークにおける干渉と条件

Intervention and Conditioning in Causal Bayesian Networks ( http://arxiv.org/abs/2405.14728v1 )

ライセンス: Link先を確認
Sainyam Galhotra, Joseph Y. Halpern, (参考訳) 因果モデルは、複雑なシステムを理解し、変数間の因果関係を特定するために重要である。 因果モデルは非常に人気があるが、介入を含む公式の条件付き確率計算は重要な課題である。 Causal Bayesian Networks (CBN) の場合、パールは様々な確率を計算するための介入を決定するメカニズムの自主性を前提としている。 単純だが現実的な独立を仮定することで、介入公式の確率を一意に見積もることができる(十分性と必要性の確率に関するよく研究された概念を含む)。 これらの仮定がいつ適切かを論じる。 重要な点として、多くの場合、仮定が適切であれば、これらの確率推定は観測データを用いて評価することができる。

Causal models are crucial for understanding complex systems and identifying causal relationships among variables. Even though causal models are extremely popular, conditional probability calculation of formulas involving interventions pose significant challenges. In case of Causal Bayesian Networks (CBNs), Pearl assumes autonomy of mechanisms that determine interventions to calculate a range of probabilities. We show that by making simple yet often realistic independence assumptions, it is possible to uniquely estimate the probability of an interventional formula (including the well-studied notions of probability of sufficiency and necessity). We discuss when these assumptions are appropriate. Importantly, in many cases of interest, when the assumptions are appropriate, these probability estimates can be evaluated using observational data, which carries immense significance in scenarios where conducting experiments is impractical or unfeasible.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 効率的な再同定のための埋め込み圧縮

Embedding Compression for Efficient Re-Identification ( http://arxiv.org/abs/2405.14730v1 )

ライセンス: Link先を確認
Luke McDermott, (参考訳) ReID(Real World Re-identfication)アルゴリズムは、オブジェクトの新たな観測を以前に記録されたインスタンスにマッピングすることを目的としている。 これらのシステムは、しばしば格納された埋め込みの量と大きさによって制約される。 このスケーリング問題に対処するために,様々な圧縮手法を用いて,これらのベクトルのサイズを縮小しようとする。 本稿では,初期化時に埋め込みをスライスし,低階埋め込みを使用する3つの異なる次元削減手法とともに,量子化対応学習をベンチマークする。 ReIDの埋め込みは96倍まで圧縮でき、性能は最小限に抑えられる。 これは、現代の再同定パラダイムが高次元の潜在空間を完全に活用していないことを意味しており、これらのシステムの能力を高めるためのさらなる研究が開かれている。

Real world re-identfication (ReID) algorithms aim to map new observations of an object to previously recorded instances. These systems are often constrained by quantity and size of the stored embeddings. To combat this scaling problem, we attempt to shrink the size of these vectors by using a variety of compression techniques. In this paper, we benchmark quantization-aware-training along with three different dimension reduction methods: iterative structured pruning, slicing the embeddings at initialize, and using low rank embeddings. We find that ReID embeddings can be compressed by up to 96x with minimal drop in performance. This implies that modern re-identification paradigms do not fully leverage the high dimensional latent space, opening up further research to increase the capabilities of these systems.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# CoPeD-Advancing Multi-Robot Collaborative Perception: A Comprehensive Dataset in Real-World Environments

CoPeD-Advancing Multi-Robot Collaborative Perception: A Comprehensive Dataset in Real-World Environments ( http://arxiv.org/abs/2405.14731v1 )

ライセンス: Link先を確認
Yang Zhou, Long Quang, Carlos Nieto-Granda, Giuseppe Loianno, (参考訳) 過去10年間、単一ロボットの知覚は大きな進歩を遂げてきたが、複数ロボットの協調的な知覚の探索はほとんど未発見のままである。 これは、複数のロボットにまたがって圧縮された、断続的で、制限された、異質で、非同期な環境情報を融合させることで、センサーノイズ、閉塞、センサーの故障といった問題にもかかわらず、全体的な知覚を高めます。 ひとつ大きなハードルは、現実世界のデータセットがないことだ。 本稿では,この領域の研究を促進するために,先駆的で包括的な実世界のマルチロボット協調認識データセットを提案する。 我々のデータセットは、異なる空間的視点、相補的なロボットの運動量、カバー範囲、センサーのモーダル性を特徴とする空地ロボット協調の未解決の可能性を生かしている。 生のセンサー入力、ポーズ推定、オプションのハイレベルな認識アノテーションが特徴で、様々な研究の関心を集めている。 同時局在マッピング(SLAM)のために設計された既存のデータセットと比較して,センサビューの多様な範囲と適切な重複を保証し,マルチロボット協調認識アルゴリズムの研究を容易にする。 我々は,複数の協調認識タスクを通じて,このデータセットの価値を定性的に示す。 この研究は、マルチロボット設定におけるマルチモーダル協調認識を通して、ハイレベルなシーン理解の潜在的研究を解き放つだろうと考えている。

In the past decade, although single-robot perception has made significant advancements, the exploration of multi-robot collaborative perception remains largely unexplored. This involves fusing compressed, intermittent, limited, heterogeneous, and asynchronous environmental information across multiple robots to enhance overall perception, despite challenges like sensor noise, occlusions, and sensor failures. One major hurdle has been the lack of real-world datasets. This paper presents a pioneering and comprehensive real-world multi-robot collaborative perception dataset to boost research in this area. Our dataset leverages the untapped potential of air-ground robot collaboration featuring distinct spatial viewpoints, complementary robot mobilities, coverage ranges, and sensor modalities. It features raw sensor inputs, pose estimation, and optional high-level perception annotation, thus accommodating diverse research interests. Compared to existing datasets predominantly designed for Simultaneous Localization and Mapping (SLAM), our setup ensures a diverse range and adequate overlap of sensor views to facilitate the study of multi-robot collaborative perception algorithms. We demonstrate the value of this dataset qualitatively through multiple collaborative perception tasks. We believe this work will unlock the potential research of high-level scene understanding through multi-modal collaborative perception in multi-robot settings.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# SimPO: 参照なしリワードによるシンプルな参照最適化

SimPO: Simple Preference Optimization with a Reference-Free Reward ( http://arxiv.org/abs/2405.14734v1 )

ライセンス: Link先を確認
Yu Meng, Mengzhou Xia, Danqi Chen, (参考訳) 直接選好最適化 (DPO) は、人間のフィードバック(RLHF)からの強化学習における報酬関数を再パラメータ化し、単純さと訓練安定性を高めるために広く使われているオフライン選好最適化アルゴリズムである。 本研究では,よりシンプルかつ効果的なアプローチであるSimPOを提案する。 SimPOの有効性は重要な設計によるもので、シーケンスの平均ログ確率を暗黙の報酬として使用する。 この報酬の定式化はモデル生成と整合性を高め、参照モデルの必要性を排除し、より計算とメモリ効率を高める。 さらに、Bradley-Terry目標に対して目標報酬マージンを導入し、勝利と負けのマージンを大きくし、アルゴリズムの性能をさらに向上させる。 私たちはSimPOとDPOを比較し、MistralやLlama3といったベースモデルとインストラクションチューニングモデルを含む、最先端のトレーニング設定の最新のバリエーションを比較します。 本稿では,AlpacaEval 2 MT-Bench,最近のアレナ・ハードベンチマークなど,広範囲な命令追従ベンチマークについて検討した。 以上の結果から,SimPOは応答長を大幅に増加させることなく,既存のアプローチよりも一貫して,はるかに優れていたことが示唆された。 具体的には、AlpacaEval 2では最大6.4ポイント、Arena-Hardでは最大7.5ポイントでDPOを上回っている。 私たちのトップパフォーマンスモデルは、Llama3-8B-Instruct上に構築され、AlpacaEval 2で44.7回、リーダーボードでClaude 3 Opusを上回り、Arena-Hardで33.8回、最強の8Bオープンソースモデルを実現しています。

Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further enhancing the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models like Mistral and Llama3. We evaluated on extensive instruction-following benchmarks, including AlpacaEval 2, MT-Bench, and the recent challenging Arena-Hard benchmark. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Llama3-8B-Instruct, achieves a remarkable 44.7 length-controlled win rate on AlpacaEval 2 -- surpassing Claude 3 Opus on the leaderboard, and a 33.8 win rate on Arena-Hard -- making it the strongest 8B open-source model.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# GIFT: ほぼゼロのコストで蒸留されたデータセットにラベルの完全な可能性を解き放つ

GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost ( http://arxiv.org/abs/2405.14736v1 )

ライセンス: Link先を確認
Xinyi Shang, Peng Sun, Tao Lin, (参考訳) データセット蒸留の最近の進歩は、事前訓練された教師モデルによって生成されたソフトラベルを使うことによる重要な利点を示している。 本稿では,ラベルのフル活用を重視した新しい視点を紹介する。 まず, データセット蒸留におけるソフトラベル利用における損失関数の総合的な比較を行い, そのモデルがソフトラベル利用における損失関数の選択に対して高い感度を示すことを示した。 この発見は、合成データセットのトレーニングモデルのための普遍的損失関数の必要性を強調している。 これらの知見に基づいて,ソフトラベルの改良とコサイン類似性に基づく損失関数を包含し,完全なラベル情報を効率的に活用する,極めて単純かつ驚くほど効果的なプラグイン・アンド・プレイ・アプローチであるGIFTを導入する。 大規模な実験により、GIFTは計算コストを増大させることなく、様々なスケールのデータセットにわたる最先端のデータセット蒸留手法を一貫して強化することを示した。 例えば、ImageNet-1Kでは、ICC = 10で、GIFTは、それぞれConvNetとResNet-18で3.9%改善し、1.8%改善した。 コード:https://github.com/LINs-lab/GIFT。

Recent advancements in dataset distillation have demonstrated the significant benefits of employing soft labels generated by pre-trained teacher models. In this paper, we introduce a novel perspective by emphasizing the full utilization of labels. We first conduct a comprehensive comparison of various loss functions for soft label utilization in dataset distillation, revealing that the model trained on the synthetic dataset exhibits high sensitivity to the choice of loss function for soft label utilization. This finding highlights the necessity of a universal loss function for training models on synthetic datasets. Building on these insights, we introduce an extremely simple yet surprisingly effective plug-and-play approach, GIFT, which encompasses soft label refinement and a cosine similarity-based loss function to efficiently leverage full label information. Extensive experiments demonstrate that GIFT consistently enhances the state-of-the-art dataset distillation methods across various scales datasets without incurring additional computational costs. For instance, on ImageNet-1K with IPC = 10, GIFT improves the SOTA method RDED by 3.9% and 1.8% on ConvNet and ResNet-18, respectively. Code: https://github.com/LINs-lab/GIFT.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# CLIPScope:ベイジアンスコーリングによるゼロショットOOD検出の強化

CLIPScope: Enhancing Zero-Shot OOD Detection with Bayesian Scoring ( http://arxiv.org/abs/2405.14737v1 )

ライセンス: Link先を確認
Hao Fu, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami, (参考訳) 機械学習モデルの安全な実環境展開には、OOD(out-of-distriion)サンプルの検出が不可欠である。 近年,視覚言語基盤モデルの進歩により,内分布(ID)画像を必要としないOODサンプルの検出が可能になった。 しかし、これらのゼロショット法は、検出信頼度スコアにおいてIDクラスの可能性が十分に考慮されていないため、性能が劣ることが多い。 そこで我々は,ゼロショットOOD検出手法であるCLIPScopeを紹介した。 さらに、CLIPScopeは大きな語彙データベースからOODクラスをマイニングするための新しい戦略を取り入れている。 OODサンプルのカバレッジを最大化するために、CLIP埋め込み距離の観点から、最も多く、最もIDクラスに最も近いクラスラベルを選択する。 様々なOOD検出ベンチマークでCLIPScopeの最先端性能を実証し,広範囲にわたるアブレーション研究と実証評価を行った。

Detection of out-of-distribution (OOD) samples is crucial for safe real-world deployment of machine learning models. Recent advances in vision language foundation models have made them capable of detecting OOD samples without requiring in-distribution (ID) images. However, these zero-shot methods often underperform as they do not adequately consider ID class likelihoods in their detection confidence scoring. Hence, we introduce CLIPScope, a zero-shot OOD detection approach that normalizes the confidence score of a sample by class likelihoods, akin to a Bayesian posterior update. Furthermore, CLIPScope incorporates a novel strategy to mine OOD classes from a large lexical database. It selects class labels that are farthest and nearest to ID classes in terms of CLIP embedding distance to maximize coverage of OOD samples. We conduct extensive ablation studies and empirical evaluations, demonstrating state of the art performance of CLIPScope across various OOD detection benchmarks.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# FLoRA:N次元のための低ランクコアスペース

FLoRA: Low-Rank Core Space for N-dimension ( http://arxiv.org/abs/2405.14739v1 )

ライセンス: Link先を確認
Chongjie Si, Xuehui Wang, Xue Yang, Zhengqin Xu, Qingyun Li, Jifeng Dai, Yu Qiao, Xiaokang Yang, Wei Shen, (参考訳) さまざまな下流タスクに事前訓練された基礎モデルを適応させることは、人工知能において一般的である。 タスクの多さと高いコストのため、パラメータの調整は不可能になる。 これを緩和するために、低ランク調整などによりより資源効率の良い方法で事前訓練されたモデルの重みを更新するために、いくつかの微調整技術が開発されている。 しかし、これらの手法のほとんど全てが線形重みに焦点を合わせ、4Dのような高次元のパラメータ空間の複雑さを無視している。 あるいは、元の空間の変化を2次元に圧縮し、低ランク行列分解を用いることで、高次元のパラメータ空間に適応することができる。 しかし、これらのアプローチは、関連する高次元空間の構造的整合性を損なう。 本稿では,異なる基礎モデル間の次元空間の多様性に取り組み,それらの空間内の変化をより正確に表現するために,様々な次元パラメータ空間用に設計された一般化されたパラメータ効率の微調整フレームワークFLoRAを提案する。 具体的には、タッカー分解を利用して、各次元パラメータ空間の変化は、元の空間と一貫した位相構造を維持する低ランクコア空間に基づいているとFLoRAは主張する。 そして、対応する重みと共にこのコア空間を通しての変化をモデル化し、元の空間における変化を再構築する。 FLoRA は元の N-次元パラメータ空間の変化の構造的整合性を効果的に保ち、一方、低ランクテンソル分解によって分解する。 コンピュータビジョン、自然言語処理、マルチモーダルタスクに関する大規模な実験は、FLoRAの有効性を検証する。 コードはhttps://github.com/SJTU-DeepVisionLab/FLoRAで公開されている。

Adapting pre-trained foundation models for various downstream tasks has been prevalent in artificial intelligence. Due to the vast number of tasks and high costs, adjusting all parameters becomes unfeasible. To mitigate this, several fine-tuning techniques have been developed to update the pre-trained model weights in a more resource-efficient manner, such as through low-rank adjustments. Yet, almost all of these methods focus on linear weights, neglecting the intricacies of parameter spaces in higher dimensions like 4D. Alternatively, some methods can be adapted for high-dimensional parameter space by compressing changes in the original space into two dimensions and then employing low-rank matrix decomposition. However, these approaches destructs the structural integrity of the involved high-dimensional spaces. To tackle the diversity of dimensional spaces across different foundation models and provide a more precise representation of the changes within these spaces, this paper introduces a generalized parameter-efficient fine-tuning framework, FLoRA, designed for various dimensional parameter space. Specifically, utilizing Tucker decomposition, FLoRA asserts that changes in each dimensional parameter space are based on a low-rank core space which maintains the consistent topological structure with the original space. It then models the changes through this core space alongside corresponding weights to reconstruct alterations in the original space. FLoRA effectively preserves the structural integrity of the change of original N-dimensional parameter space, meanwhile decomposes it via low-rank tensor decomposition. Extensive experiments on computer vision, natural language processing and multi-modal tasks validate FLoRA's effectiveness. Codes are available at https://github.com/SJTU-DeepVisionLab/FLoRA.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# HC-GAE:グラフ表現学習のための階層的クラスタベースグラフオートエンコーダ

HC-GAE: The Hierarchical Cluster-based Graph Auto-Encoder for Graph Representation Learning ( http://arxiv.org/abs/2405.14742v1 )

ライセンス: Link先を確認
Zhuo Xu, Lu Bai, Lixin Cui, Ming Li, Yue Wang, Edwin R. Hancock, (参考訳) グラフ自動エンコーダ(GAE)は、グラフ表現学習のための強力なツールである。 本稿では,グラフデータ解析に有効な構造特性を学習できる階層型クラスタベースGAE(HC-GAE)を開発した。 この目的のために、符号化の過程で、ハードノードの割り当てを利用してサンプルグラフを分離したサブグラフの族に分解し始める。 我々は各部分グラフを粗いノードに圧縮し、元のグラフを粗いグラフに変換する。 一方,復号化過程において,粗いノードを拡張して元のグラフ構造を再構築するためにソフトノード割り当てを採用する。 復号処理中に上述の圧縮手順と復号処理中に拡大手順を階層的に行うことにより、提案したHC-GAEは、元のサンプルグラフの双方向階層構造特徴を効果的に抽出することができる。 さらに、エンコーダまたはデコーダからの情報を統合することができるロス関数を再設計する。 提案したHC-GAEのグラフ畳み込み操作は個々の分離されたサブグラフで制限されており,各サブグラフ間でノード情報を伝播できないため,提案したHC-GAEは,古典的畳み込みに基づくGAEの過度なスムーシング問題を著しく低減することができる。 提案したHC-GAEは,ノード分類やグラフ分類に有効な表現を生成できる。

Graph Auto-Encoders (GAEs) are powerful tools for graph representation learning. In this paper, we develop a novel Hierarchical Cluster-based GAE (HC-GAE), that can learn effective structural characteristics for graph data analysis. To this end, during the encoding process, we commence by utilizing the hard node assignment to decompose a sample graph into a family of separated subgraphs. We compress each subgraph into a coarsened node, transforming the original graph into a coarsened graph. On the other hand, during the decoding process, we adopt the soft node assignment to reconstruct the original graph structure by expanding the coarsened nodes. By hierarchically performing the above compressing procedure during the decoding process as well as the expanding procedure during the decoding process, the proposed HC-GAE can effectively extract bidirectionally hierarchical structural features of the original sample graph. Furthermore, we re-design the loss function that can integrate the information from either the encoder or the decoder. Since the associated graph convolution operation of the proposed HC-GAE is restricted in each individual separated subgraph and cannot propagate the node information between different subgraphs, the proposed HC-GAE can significantly reduce the over-smoothing problem arising in the classical convolution-based GAEs. The proposed HC-GAE can generate effective representations for either node classification or graph classification, and the experiments demonstrate the effectiveness on real-world datasets.
翻訳日:2024-05-24 14:06:33 公開日:2024-05-23
# 反復因果セグメンテーション:市場セグメンテーションとマーケティング戦略のギャップを埋める

Iterative Causal Segmentation: Filling the Gap between Market Segmentation and Marketing Strategy ( http://arxiv.org/abs/2405.14743v1 )

ライセンス: Link先を確認
Kaihua Ding, Jingsong Cui, Mohammad Soltani, Jing Jin, (参考訳) 因果機械学習(ML)の分野は近年大きな進歩を遂げている。 注目すべきブレークスルーには、メタ学習者(arXiv:1706.03461v6)や、過去5年間に導入された異質な二重頑健な推定者(arXiv:2004.14497)などが含まれる。 これらの進歩にもかかわらず、この分野は依然として課題に直面しており、特に因果的処理変数と相補的共変量の両方が重要な意思決定指標として機能しなくてはならない、密結合したシステムを管理している。 このシナリオは、マーケティングセグメンテーションやインクリメンタルマーケティングアップリフトのようなマーケティングのための因果MLの応用で一般的である。 本研究では,この問題に対処するために,我々の公式な証明アルゴリズムである反復因果セグメンテーションを提案する。

The field of causal Machine Learning (ML) has made significant strides in recent years. Notable breakthroughs include methods such as meta learners (arXiv:1706.03461v6) and heterogeneous doubly robust estimators (arXiv:2004.14497) introduced in the last five years. Despite these advancements, the field still faces challenges, particularly in managing tightly coupled systems where both the causal treatment variable and a confounding covariate must serve as key decision-making indicators. This scenario is common in applications of causal ML for marketing, such as marketing segmentation and incremental marketing uplift. In this work, we present our formally proven algorithm, iterative causal segmentation, to address this issue.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# LLMエージェントの社会的不合理性を探る:社会的認知の視点から

Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View ( http://arxiv.org/abs/2405.14744v1 )

ライセンス: Link先を確認
Xuan Liu, Jie Zhang, Song Guo, Haoyang Shang, Chengxu Yang, Quanyan Zhu, (参考訳) 大規模言語モデル(LLM)は、人間の偏見を含むように訓練されたデータによって幻覚に直面することが示されている。 LLMエージェントは、人間の認知バイアスを反映するために幻覚を利用して、不合理な社会的知性を示すことができるのか? 本稿では,現代LLMエージェントにおける不合理行動について,理論的知見を取り入れた実践的社会科学実験を融合して検討する。 具体的には、幻覚特性を利用して認知バイアスを通じてLLMエージェントの社会的知性を評価し、強化するオープンエンドマルチLLMエージェントフレームワークであるCogMirを提案する。 CogMirサブセットを用いた実験の結果,LLMエージェントとヒトは不確定な条件下で不合理性および社会的意思決定において高い一貫性を示し,LLMエージェントの社会的存在としての社会的存在性を強調し,幻覚特性の重要性を強調した。 さらに、CagMirフレームワークは、LLMエージェントのソーシャルインテリジェンスに関するさらなる研究を促進するための貴重なプラットフォームとしての可能性を示している。

Large language models (LLMs) have been shown to face hallucination issues due to the data they trained on often containing human bias; whether this is reflected in the decision-making process of LLM agents remains under-explored. As LLM Agents are increasingly employed in intricate social environments, a pressing and natural question emerges: Can LLM Agents leverage hallucinations to mirror human cognitive biases, thus exhibiting irrational social intelligence? In this paper, we probe the irrational behavior among contemporary LLM agents by melding practical social science experiments with theoretical insights. Specifically, We propose CogMir, an open-ended Multi-LLM Agents framework that utilizes hallucination properties to assess and enhance LLM Agents' social intelligence through cognitive biases. Experimental results on CogMir subsets show that LLM Agents and humans exhibit high consistency in irrational and prosocial decision-making under uncertain conditions, underscoring the prosociality of LLM Agents as social entities, and highlighting the significance of hallucination properties. Additionally, CogMir framework demonstrates its potential as a valuable platform for encouraging more research into the social intelligence of LLM Agents.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# AnyLoss: 分類基準を損失関数に変換する

AnyLoss: Transforming Classification Metrics into Loss Functions ( http://arxiv.org/abs/2405.14745v1 )

ライセンス: Link先を確認
Doheon Han, Nuno Moniz, Nitesh V Chawla, (参考訳) バイナリ分類タスクにおけるモデルの性能を評価するために、多くの評価指標を使用することができる。 しかし、そのほとんどは非微分可能形式の混乱行列から派生しており、直接最適化できる微分可能損失関数を生成することは極めて困難である。 この課題を橋渡しするソリューションの欠如は、不均衡学習のような難しいタスクを解く能力を妨げているだけでなく、計算に高価なハイパーパラメーター探索プロセスをモデル選択に配置する必要がある。 本稿では、任意の混乱行列に基づく計量を、最適化プロセスで利用できる損失関数である「textit{AnyLoss}」に変換する汎用的アプローチを提案する。 この目的のために、近似関数を用いて、微分行列を微分可能な形で表現し、この手法により、任意の混乱行列ベースの計量を損失関数として直接使用することができる。 近似関数の機構は、その演算性と損失関数の微分可能性を保証するために、それらの導関数を提案することによって証明される。 我々は、多くのデータセットを持つ多様なニューラルネットワークの下で広範な実験を行い、混乱行列ベースのメトリクスをターゲットとして、それらの一般的な可用性を実証する。 特に本手法は,複数のベースラインモデルと比較して,不均衡なデータセットを扱う上での卓越した成果と,その効率を裏付ける学習速度を示す。

Many evaluation metrics can be used to assess the performance of models in binary classification tasks. However, most of them are derived from a confusion matrix in a non-differentiable form, making it very difficult to generate a differentiable loss function that could directly optimize them. The lack of solutions to bridge this challenge not only hinders our ability to solve difficult tasks, such as imbalanced learning, but also requires the deployment of computationally expensive hyperparameter search processes in model selection. In this paper, we propose a general-purpose approach that transforms any confusion matrix-based metric into a loss function, \textit{AnyLoss}, that is available in optimization processes. To this end, we use an approximation function to make a confusion matrix represented in a differentiable form, and this approach enables any confusion matrix-based metric to be directly used as a loss function. The mechanism of the approximation function is provided to ensure its operability and the differentiability of our loss functions is proved by suggesting their derivatives. We conduct extensive experiments under diverse neural networks with many datasets, and we demonstrate their general availability to target any confusion matrix-based metrics. Our method, especially, shows outstanding achievements in dealing with imbalanced datasets, and its competitive learning speed, compared to multiple baseline models, underscores its efficiency.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 量子アニールハードウェアにおけるパリティ制約のスケーラブル埋め込み

Scalable embedding of parity constraints in quantum annealing hardware ( http://arxiv.org/abs/2405.14746v1 )

ライセンス: Link先を確認
Michele Cattelan, Jemma Bennett, Sheir Yarkoni, Wolfgang Lechner, (参考訳) 量子アニールを用いた組合せ最適化問題の解決における主要なボトルネックの1つは、ハードウェアにおける量子ビット接続である。 より大きな接続性のための可能な解決策は、小さな埋め込みである。 この手法は、組合せ最適化問題の幾何学的性質を、量子アニーリングハードウェアの特性と一致するハミルトニアンとして符号化する。 埋め込み自体が難しい計算問題であり、従ってヒューリスティックアルゴリズムが必要である。 本研究では,イジング・ハミルトニアン(Ising Hamiltonian)と呼ばれる組合せ最適化問題を埋め込むのに使用できる固定的,モジュール的,スケーラブルな埋め込みを提案する。 これらの埋め込みは、かつて高階イジング・ハミルトニアンから既存の量子ハードウェアに適した二次ハミルトニアンへの写像に用いられてきた、よく知られたパリティ写像の拡張の結果である。 我々は、新しい埋め込みが既存の量子異方体にどのようにマッピングされ、埋め込みされたハミルトンの物理的性質が元のハミルトンの性質と一致するかを示す。

One of the main bottlenecks in solving combinatorial optimization problems with quantum annealers is the qubit connectivity in the hardware. A possible solution for larger connectivty is minor embedding. This techniques makes the geometrical properties of the combinatorial optimization problem, encoded as a Hamiltonian, match the properties of the quantum annealing hardware. The embedding itself is a hard computational problem and therefore heuristic algorithms are required. In this work, we present fixed, modular and scalable embeddings that can be used to embed any combinatorial optimization problem described as an Ising Hamiltonian. These embeddings are the result of an extension of the well-known parity mapping, which has been used in the past to map higher-order Ising Hamiltonians to quadratic Hamiltonians, which are suitable for existing quantum hardware. We show how our new embeddings can be mapped to existing quantum annealers and that the embedded Hamiltonian physical properties match the original Hamiltonian properties.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# TopoLogic: 運転シーンにおけるレーントポロジー推論のための解釈可能なパイプライン

TopoLogic: An Interpretable Pipeline for Lane Topology Reasoning on Driving Scenes ( http://arxiv.org/abs/2405.14747v1 )

ライセンス: Link先を確認
Yanping Fu, Wenbin Liao, Xinyuan Liu, Hang xu, Yike Ma, Feng Dai, Yucheng Zhang, (参考訳) 認識と推論を統合した新しいタスクとして、自律運転シーンにおけるトポロジ推論が近年注目を集めている。 しかし、既存の研究はしばしば「推論に対する知覚」を強調しており、車線知覚を高め、車線クエリから車線トポロジーを学習するために直接MLPを採用することで推論性能を高めるのが一般的である。 このパラダイムは、レーン自体に固有の幾何学的特徴を見落とし、レーン検出において固有のエンドポイントシフトの影響を受けやすい。 この問題に対処するために,車線幾何学的距離と車線クエリ類似性に基づく車線トポロジー推論の解釈可能な手法 TopoLogic を提案する。 この方法は、幾何学空間における終端シフトの影響を緩和し、補体として意味空間における明示的な類似性計算を導入する。 両空間からの結果を統合することで,この手法はレーントポロジーのより包括的な情報を提供する。 最終的に、我々のアプローチは、主要なベンチマークOpenLane-V2(23.9 v.s. 10.9 in TOP$_{ll}$と44.1 v.s.39.8 in subset_Aで既存の最先端メソッドよりも大幅に優れています。 さらに, 提案手法は, 軌道トポロジ推論の性能を大幅に向上させるため, 再学習を伴わずに, 十分に訓練されたモデルに組み込むことができる。 コードはhttps://github.com/Franpin/TopoLogic.comで公開されている。

As an emerging task that integrates perception and reasoning, topology reasoning in autonomous driving scenes has recently garnered widespread attention. However, existing work often emphasizes "perception over reasoning": they typically boost reasoning performance by enhancing the perception of lanes and directly adopt MLP to learn lane topology from lane query. This paradigm overlooks the geometric features intrinsic to the lanes themselves and are prone to being influenced by inherent endpoint shifts in lane detection. To tackle this issue, we propose an interpretable method for lane topology reasoning based on lane geometric distance and lane query similarity, named TopoLogic. This method mitigates the impact of endpoint shifts in geometric space, and introduces explicit similarity calculation in semantic space as a complement. By integrating results from both spaces, our methods provides more comprehensive information for lane topology. Ultimately, our approach significantly outperforms the existing state-of-the-art methods on the mainstream benchmark OpenLane-V2 (23.9 v.s. 10.9 in TOP$_{ll}$ and 44.1 v.s. 39.8 in OLS on subset_A. Additionally, our proposed geometric distance topology reasoning method can be incorporated into well-trained models without re-training, significantly boost the performance of lane topology reasoning. The code is released at https://github.com/Franpin/TopoLogic.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# LLMを用いたゼロショット多変量時系列予測

MultiCast: Zero-Shot Multivariate Time Series Forecasting Using LLMs ( http://arxiv.org/abs/2405.14748v1 )

ライセンス: Link先を確認
Georgios Chatzigeorgakidis, Konstantinos Lentzos, Dimitrios Skoutas, (参考訳) 多変量時系列における将来の値の予測は、様々な領域において不可欠である。 本研究は,この課題に対する大規模言語モデル (LLM) の利用について検討する。 しかし、LLMは1次元のデータを扱うのが一般的である。 多変量時系列予測のためのゼロショットLCMベースのアプローチであるMultiCastを導入する。 LLMが入力として多変量時系列を受信することを可能にするため、3つの新しいトークン多重化ソリューションが鍵反復パターンを保ちながら次元性を効果的に減少させる。 さらに、量子化スキームは、LLMがこれらのパターンをよりよく学習するのに役立つ一方で、実用的なアプリケーションにおけるトークンの使用を著しく削減する。 実世界の3つのデータセットに対する最先端アプローチに対するRMSEと実行時間の観点から,我々のアプローチのパフォーマンスを示す。

Predicting future values in multivariate time series is vital across various domains. This work explores the use of large language models (LLMs) for this task. However, LLMs typically handle one-dimensional data. We introduce MultiCast, a zero-shot LLM-based approach for multivariate time series forecasting. It allows LLMs to receive multivariate time series as input, through three novel token multiplexing solutions that effectively reduce dimensionality while preserving key repetitive patterns. Additionally, a quantization scheme helps LLMs to better learn these patterns, while significantly reducing token use for practical applications. We showcase the performance of our approach in terms of RMSE and execution time against state-of-the-art approaches on three real-world datasets.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 確率収束型リスク感性分布強化学習のためのポリシーグラディエント手法

Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence ( http://arxiv.org/abs/2405.14749v1 )

ライセンス: Link先を確認
Minheng Xiao, Xian Yu, Lei Ying, (参考訳) リスクに敏感な強化学習(RL)は、多くの高リスクアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。 ほとんどのRL法は、ランダム累積コストの点推定を学習することを目的としているが、分布RL(DRL)はその分布全体を推定しようとする。 このディストリビューションは、コストに関する必要な情報をすべて提供し、さまざまなリスク対策をリスクに敏感な環境で処理するための統一されたフレームワークにつながります。 しかし、リスクに敏感なDRLに対する政策勾配法の開発は、確率測度の勾配を見つけることに関連するため、本質的にはより複雑である。 本稿では、一般的なコヒーレントリスク尺度を用いたリスク感応DRLのポリシー勾配法を提案し、確率尺度の勾配の分析形式を提供する。 さらに、軽度な滑らかさ仮定の下で提案アルゴリズムの局所収束を証明した。 また,カテゴリ分布ポリシー評価とトラジェクトリに基づく勾配推定に基づいて,カテゴリ分布ポリシー勾配アルゴリズム(CDPG)を設計する。 確率的崖遊泳環境の実験を通じて,DRLのリスク感応的な設定を考慮し,その利点を考察した。

Risk-sensitive reinforcement learning (RL) is crucial for maintaining reliable performance in many high-stakes applications. While most RL methods aim to learn a point estimate of the random cumulative cost, distributional RL (DRL) seeks to estimate the entire distribution of it. The distribution provides all necessary information about the cost and leads to a unified framework for handling various risk measures in a risk-sensitive setting. However, developing policy gradient methods for risk-sensitive DRL is inherently more complex as it pertains to finding the gradient of a probability measure. This paper introduces a policy gradient method for risk-sensitive DRL with general coherent risk measures, where we provide an analytical form of the probability measure's gradient. We further prove the local convergence of the proposed algorithm under mild smoothness assumptions. For practical use, we also design a categorical distributional policy gradient algorithm (CDPG) based on categorical distributional policy evaluation and trajectory-based gradient estimation. Through experiments on a stochastic cliff-walking environment, we illustrate the benefits of considering a risk-sensitive setting in DRL.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# HMIマグネティックグラムとインテンシティグラムを用いた残差網を用いた極端太陽フレア予測

Extreme Solar Flare Prediction Using Residual Networks with HMI Magnetograms and Intensitygrams ( http://arxiv.org/abs/2405.14750v1 )

ライセンス: Link先を確認
Juyoung Yun, Jungmin Shin, (参考訳) 太陽フレア、特にC、M、Xクラスは、衛星の運用、通信システム、電力網に重大なリスクをもたらす。 HMI強度図とマグネティックグラムを用いた極端太陽フレアの予測手法を提案する。 強度図から太陽点を検出し、磁気グラムから磁場パッチを抽出することにより、極度のクラスフレアを分類するためにResidual Network(ResNet)を訓練する。 我々のモデルは高精度で、極端太陽フレアを予測し、宇宙天気予報を改善するための堅牢なツールを提供する。 さらに,HMIマグネティックグラムは,他のSDO AIA画像と比較して,フレアマグニチュードの予測に重要な特徴を捉えることにより,より有用な深層学習データを提供することを示した。 本研究は、太陽フレア予測における磁場の同定の重要性を強調し、太陽活動予測の顕著な進歩と、宇宙気象への影響を緩和するための実践的意味を明らかにした。

Solar flares, especially C, M, and X class, pose significant risks to satellite operations, communication systems, and power grids. We present a novel approach for predicting extreme solar flares using HMI intensitygrams and magnetograms. By detecting sunspots from intensitygrams and extracting magnetic field patches from magnetograms, we train a Residual Network (ResNet) to classify extreme class flares. Our model demonstrates high accuracy, offering a robust tool for predicting extreme solar flares and improving space weather forecasting. Additionally, we show that HMI magnetograms provide more useful data for deep learning compared to other SDO AIA images by better capturing features critical for predicting flare magnitudes. This study underscores the importance of identifying magnetic fields in solar flare prediction, marking a significant advancement in solar activity prediction with practical implications for mitigating space weather impacts.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# AGILE: LLMエージェントの新しいフレームワーク

AGILE: A Novel Framework of LLM Agents ( http://arxiv.org/abs/2405.14751v1 )

ライセンス: Link先を確認
Peiyuan Feng, Yichen He, Guanhua Huang, Yuan Lin, Hanchong Zhang, Yuchen Zhang, Hang Li, (参考訳) 本稿では,ユーザとの複雑な対話作業を行うための,AGILE (AGent that Interacts and Learns from Environments) という名のLLMエージェントのフレームワークを紹介する。 エージェントの能力には、会話だけでなく、リフレクション、ツールの利用、専門家との相談が含まれる。 本稿では,LLM が政策モデルとして機能する強化学習問題として,そのような LLM エージェントの構築を定式化する。 ラベル付きアクションデータとPPOアルゴリズムを用いてLLMを微調整する。 我々は、オンラインショッピングにおいて難しい質問を含む、ProductQAと呼ばれるエージェントのための質問応答とデータセットのリリースに注力する。 ProductQA と MedMCQA に関する広範な実験により,PPO で訓練した 13B および 7B の LLM に基づく AGILE エージェントは GPT-4 エージェントより優れていることが示された。 我々のアブレーション研究は、エージェントの強いパフォーマンスを達成する上で、メモリ、ツール、コンサルテーション、リフレクション、強化学習の欠如を強調している。

We introduce a novel framework of LLM agents named AGILE (AGent that Interacts and Learns from Environments) designed to perform complex conversational tasks with users, leveraging LLMs, memory, tools, and interactions with experts. The agent's abilities include not only conversation but also reflection, utilization of tools, and consultation with experts. We formulate the construction of such an LLM agent as a reinforcement learning problem, in which the LLM serves as the policy model. We fine-tune the LLM using labeled data of actions and the PPO algorithm. We focus on question answering and release a dataset for agents called ProductQA, comprising challenging questions in online shopping. Our extensive experiments on ProductQA and MedMCQA show that AGILE agents based on 13B and 7B LLMs trained with PPO can outperform GPT-4 agents. Our ablation study highlights the indispensability of memory, tools, consultation, reflection, and reinforcement learning in achieving the agent's strong performance.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# クォービットエコーの量子一般化とそのクォートベーストフォリゲートへの応用

Qudit generalization of the qubit echo and its application to a qutrit-based Toffoli gate ( http://arxiv.org/abs/2405.14752v1 )

ライセンス: Link先を確認
Yutaro Iiyama, Wonho Jang, Naoki Kanazawa, Ryu Sawada, Tamiya Onodera, Koji Terashi, (参考訳) ノイズの多い量子コンピュータ上の特定のゲートの忠実度は、2段階以上のトランスモンを用いて実装することで改善される可能性がある。 このポテンシャルを達成するための主な障害は、キャリブレーションによって修正できない動的ゲート位相誤差である。 このような位相誤差を2段階の量子ビットで対応させる標準的なツールはエコープロトコルであり、しばしばダイナミックデカップリングシーケンスと呼ばれ、量子ビットの進化は偶数個のXゲートによって句読される。 本稿では,一般キューディットへのクォービットエコーの直接一般化であるベースサイクリングを導入し,この手法を用いてゲート列を設計し,所望の効果を生み出すためのフレームワークを提供する。 次に, 量子コンピュータ上での量子プロセストモグラフィーにより, クオリットを内包したトッホリゲート分解に基底サイクルを適用し, CCZゲート忠実度93.8 +-0.1を得る。 クエットの共振周波数が変動しても、ゲートの忠実度は補正することなく安定であり、基底サイクルによる位相誤差キャンセルの動的性質を強調している。 以上の結果から,超伝導量子コンピュータ上でのキューディットを用いたゲート分解を行う上での最大の困難は,一定の条件が満たされた場合に体系的に克服できることが示され,ゲート最適化エージェントとしてのキューディットの約束を果たすための道を開いた。

The fidelity of certain gates on noisy quantum computers may be improved when they are implemented using more than two levels of the involved transmons. The main impediments to achieving this potential are the dynamic gate phase errors that cannot be corrected via calibration. The standard tool for countering such phase errors in two-level qubits is the echo protocol, often referred to as the dynamical decoupling sequence, where the evolution of a qubit is punctuated by an even number of X gates. We introduce basis cycling, which is a direct generalization of the qubit echo to general qudits, and provide a framework in which to design gate sequences to produce desired effects using this technique. We then apply basis cycling to a Toffoli gate decomposition incorporating a qutrit and obtain a CCZ gate fidelity of 93.8 +- 0.1 via quantum process tomography on an IBM quantum computer. The gate fidelity remains stable without recalibration even while the resonant frequency of the qutrit fluctuates, highlighting the dynamical nature of phase error cancellation through basis cycling. Our results demonstrate that one of the biggest difficulties in implementing qudit-based gate decompositions on superconducting quantum computers can be systematically overcome when certain conditions are met, and thus open a path toward fulfilling the promise of qudits as gate optimization agents.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 自動コード補完のスマートな実行のためのトランスフォーマーに基づくアプローチ

A Transformer-Based Approach for Smart Invocation of Automatic Code Completion ( http://arxiv.org/abs/2405.14753v1 )

ライセンス: Link先を確認
Aral de Moor, Arie van Deursen, Maliheh Izadi, (参考訳) トランスフォーマーベースの言語モデルは、コード補完に非常に効果的であり、これらの補完の内容の強化に多くの研究が費やされている。 有効性にも拘わらず、これらのモデルには高い運用コストが伴い、特に頻繁な提案や作業に集中している開発者を中断する場合は、侵入的になる可能性がある。 現在の研究は、これらのモデルが実際に開発者とどのように相互作用しているかを概ね見落としており、開発者が補完提案を受けるべきときの対処を怠っている。 この問題に対処するために、コードコンテキストと利用可能なテレメトリデータからコード補完ツールをいつ呼び出すべきかを正確に予測できる機械学習モデルを開発した。 そのため、クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集し、いくつかの呼び出しフィルタリングモデルをトレーニングします。 以上の結果から,我々の小型変圧器モデルは低レイテンシを保ちながらベースラインを著しく上回っていることが示唆された。 さらに,事前学習した変圧器に付加的なテレメトリデータを統合するための探索空間を探索し,有望な結果を得る。 このアプローチの実践的可能性をさらに実証するため、34人の開発者によるオンライン環境にモデルをデプロイし、74kの実際の呼び出しに基づいた実世界の洞察を提供しました。

Transformer-based language models are highly effective for code completion, with much research dedicated to enhancing the content of these completions. Despite their effectiveness, these models come with high operational costs and can be intrusive, especially when they suggest too often and interrupt developers who are concentrating on their work. Current research largely overlooks how these models interact with developers in practice and neglects to address when a developer should receive completion suggestions. To tackle this issue, we developed a machine learning model that can accurately predict when to invoke a code completion tool given the code context and available telemetry data. To do so, we collect a dataset of 200k developer interactions with our cross-IDE code completion plugin and train several invocation filtering models. Our results indicate that our small-scale transformer model significantly outperforms the baseline while maintaining low enough latency. We further explore the search space for integrating additional telemetry data into a pre-trained transformer directly and obtain promising results. To further demonstrate our approach's practical potential, we deployed the model in an online environment with 34 developers and provided real-world insights based on 74k actual invocations.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 大規模言語モデルは時系列のゼロショット異常検出器となるか?

Large language models can be zero-shot anomaly detectors for time series? ( http://arxiv.org/abs/2405.14755v1 )

ライセンス: Link先を確認
Sarah Alnegheimish, Linh Nguyen, Laure Berti-Equille, Kalyan Veeramachaneni, (参考訳) 近年の研究では、時系列予測など、大規模言語モデルが様々なタスクを遂行できることが示されている。 これらのモデルの柔軟な性質により、多くのアプリケーションで使用することができる。 本稿では,時系列異常検出の課題に用いた大規模言語モデルについて述べる。 この問題は、入力シーケンスの一部(または複数の部分)を異常として識別するモデルの必要性と、従来のテキスト入力ではなく時系列データを扱うモデルの必要性の2つの側面を含む。 大規模言語モデルを用いた時系列異常検出のためのフレームワークであるsigllmを紹介する。 我々のフレームワークには、時系列からテキストへの変換モジュールと、言語モデルに時系列異常検出の実行を促すエンドツーエンドパイプラインが含まれています。 本研究では,大規模言語モデルによる検出タスクの実行能力をテストするための2つのパラダイムについて検討する。 まず,入力のどの要素が異常であるかを直接言語モデルに問い合わせる。 第2に,大言語モデルの予測機能を活用し,異常検出プロセスの導出を行う。 さまざまなソースと10のパイプラインにまたがる11のデータセットで、私たちのフレームワークを評価しました。 その結果, 予測手法はF1スコアに対して, 全11データセットにおいてプロンプト法よりも有意に優れていた。 さらに、大きな言語モデルは異常を見つけることができるが、最先端のディープラーニングモデルは依然として性能に優れており、大きな言語モデルよりも30%良い結果が得られる。

Recent studies have shown the ability of large language models to perform a variety of tasks, including time series forecasting. The flexible nature of these models allows them to be used for many applications. In this paper, we present a novel study of large language models used for the challenging task of time series anomaly detection. This problem entails two aspects novel for LLMs: the need for the model to identify part of the input sequence (or multiple parts) as anomalous; and the need for it to work with time series data rather than the traditional text input. We introduce sigllm, a framework for time series anomaly detection using large language models. Our framework includes a time-series-to-text conversion module, as well as end-to-end pipelines that prompt language models to perform time series anomaly detection. We investigate two paradigms for testing the abilities of large language models to perform the detection task. First, we present a prompt-based detection method that directly asks a language model to indicate which elements of the input are anomalies. Second, we leverage the forecasting capability of a large language model to guide the anomaly detection process. We evaluated our framework on 11 datasets spanning various sources and 10 pipelines. We show that the forecasting method significantly outperformed the prompting method in all 11 datasets with respect to the F1 score. Moreover, while large language models are capable of finding anomalies, state-of-the-art deep learning models are still superior in performance, achieving results 30% better than large language models.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 人間のフィードバックからのAIアライメントの公理

Axioms for AI Alignment from Human Feedback ( http://arxiv.org/abs/2405.14758v1 )

ライセンス: Link先を確認
Luise Ge, Daniel Halpern, Evi Micha, Ariel D. Procaccia, Itai Shapira, Yevgeniy Vorobeychik, Junlin Wu, (参考訳) 人間からのフィードバック(RLHF)からの強化学習の文脈において、報酬関数は一般に、人間によるペア比較に基づくランダムユーティリティモデルの最大推定から導かれる。 報酬関数を学習する問題は、選好集約の1つであり、社会選択論の範囲内にあると我々は論じている。 この観点から、確立された公理を用いて異なるアグリゲーション手法を評価することができ、これらの手法がよく知られた基準を満たしているかどうかを調べることができる。 我々はBradley-Terry-Luceモデルとその広範な一般化の両方が基本公理を満たさないことを示した。 そこで我々は,強い公理的保証を持つ報酬関数を学習するための新しいルールを開発した。 社会的選択の観点からの大きな革新は、我々の問題には線形構造があり、実現可能なルールの空間を著しく制限し、私たちが線形社会選択と呼ぶ新しいパラダイムへと導くことである。

In the context of reinforcement learning from human feedback (RLHF), the reward function is generally derived from maximum likelihood estimation of a random utility model based on pairwise comparisons made by humans. The problem of learning a reward function is one of preference aggregation that, we argue, largely falls within the scope of social choice theory. From this perspective, we can evaluate different aggregation methods via established axioms, examining whether these methods meet or fail well-known standards. We demonstrate that both the Bradley-Terry-Luce Model and its broad generalizations fail to meet basic axioms. In response, we develop novel rules for learning reward functions with strong axiomatic guarantees. A key innovation from the standpoint of social choice is that our problem has a linear structure, which greatly restricts the space of feasible rules and leads to a new paradigm that we call linear social choice.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# フォールトトレラントML:効率的なメタアグリゲーションと同期トレーニング

Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training ( http://arxiv.org/abs/2405.14759v1 )

ライセンス: Link先を確認
Tehila Dahan, Kfir Y. Levy, (参考訳) 本稿では,分散機械学習(ML)システムにおけるビザンチン・ロバスト・トレーニングの挑戦的枠組みについて検討し,効率性と実用性の両方に焦点をあてる。 分散MLシステムは複雑なMLタスクに不可欠なものとなり、ビザンチンの障害に対するレジリエンスを確保する。 最初のコントリビューションは、CTMA(Centered Trimmed Meta Aggregator)の導入です。これは、低計算要求を必要としながら、ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする効率的なメタアグリゲータです。 さらに,ビザンチン文脈における2重モーメント戦略に基づいて,最近開発された勾配推定手法を提案する。 本稿では,ビザンチン・ロバスト訓練の理論的・実践的優位性,特にチューニングプロセスの簡素化と多数のハイパーパラメータへの依存軽減について述べる。 この手法の有効性は,確率凸最適化(SCO)フレームワークにおける理論的洞察に支えられている。

In this paper, we investigate the challenging framework of Byzantine-robust training in distributed machine learning (ML) systems, focusing on enhancing both efficiency and practicality. As distributed ML systems become integral for complex ML tasks, ensuring resilience against Byzantine failures-where workers may contribute incorrect updates due to malice or error-gains paramount importance. Our first contribution is the introduction of the Centered Trimmed Meta Aggregator (CTMA), an efficient meta-aggregator that upgrades baseline aggregators to optimal performance levels, while requiring low computational demands. Additionally, we propose harnessing a recently developed gradient estimation technique based on a double-momentum strategy within the Byzantine context. Our paper highlights its theoretical and practical advantages for Byzantine-robust training, especially in simplifying the tuning process and reducing the reliance on numerous hyperparameters. The effectiveness of this technique is supported by theoretical insights within the stochastic convex optimization (SCO) framework.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# ニューラル・ファフィアン:多くの電子シュレーディンガー方程式を解く

Neural Pfaffians: Solving Many Many-Electron Schrödinger Equations ( http://arxiv.org/abs/2405.14762v1 )

ライセンス: Link先を確認
Nicholas Gao, Stephan Günnemann, (参考訳) 神経波関数は、計算コストが高いにもかかわらず、多電子系の基底状態の近似において前例のない精度を達成した。 近年の研究では、個々の問題を個別に解くのではなく、様々な構造や化合物にまたがる一般化波動関数を学習することでコストを下げることが提案されている。 このような一般化された神経波関数における電子の置換反対称性を強制することは、既存の方法では、学習不可能な手作りアルゴリズムによる離散軌道選択を必要とするため、依然として困難である。 この研究は、分子間の一般化に適した過度にパラメータ化され、完全に学習可能なニューラルウェーブ関数を定義することで、この問題に対処する。 我々は、スレーター行列式ではなく、ファフィアンに依存することでこれを達成している。 ファフィアンは電子スピン配置や分子構造に制約を加えることなく任意の電子系に反対称性を強制することができる。 実験により, 1つのニューラル・ファフアンが, 各種系の化学的精度で基底状態と電離エネルギーを計算することがわかった。 TinyMolデータセットでは,CBSの基準エネルギーである「ゴールドスタンダード」CCSD(T)を1.9m$E_h$で上回り,従来の一般化されたニューラルウェーブ関数と比較してエネルギー誤差を最大1桁まで低減する。

Neural wave functions accomplished unprecedented accuracies in approximating the ground state of many-electron systems, though at a high computational cost. Recent works proposed amortizing the cost by learning generalized wave functions across different structures and compounds instead of solving each problem independently. Enforcing the permutation antisymmetry of electrons in such generalized neural wave functions remained challenging as existing methods require discrete orbital selection via non-learnable hand-crafted algorithms. This work tackles the problem by defining overparametrized, fully learnable neural wave functions suitable for generalization across molecules. We achieve this by relying on Pfaffians rather than Slater determinants. The Pfaffian allows us to enforce the antisymmetry on arbitrary electronic systems without any constraint on electronic spin configurations or molecular structure. Our empirical evaluation finds that a single neural Pfaffian calculates the ground state and ionization energies with chemical accuracy across various systems. On the TinyMol dataset, we outperform the `gold-standard' CCSD(T) CBS reference energies by 1.9m$E_h$ and reduce energy errors compared to previous generalized neural wave functions by up to an order of magnitude.
翻訳日:2024-05-24 13:56:49 公開日:2024-05-23
# 行列のトップ固有ベクトル近似のための量子スピードアップ

A Quantum Speed-Up for Approximating the Top Eigenvectors of a Matrix ( http://arxiv.org/abs/2405.14765v1 )

ライセンス: Link先を確認
Yanlin Chen, András Gilyén, Ronald de Wolf, (参考訳) 与えられた$d\times d$ matrix $A$ のトップ固有ベクトルのよい近似を見つけることは、多くの応用において基礎的で重要な計算問題である。 エルミート行列のエントリへのクエリアクセスを与えられたとき、定数固有値ギャップを仮定すると、時間複雑性を持つ1つのアルゴリズム $\mathcal{\tilde{O}}(d^{1.75})$ と時間複雑性を持つ1つのアルゴリズム $d^{1.5+o(1)}$ という2つの異なる量子アルゴリズムを出力する。 どちらの量子アルゴリズムも、$A$のエントリに対して$\Omega(d^2)$クエリが必要であり、従って$\Omega(d^2)$タイムである。 これを量子アルゴリズムに拡張し、qd^{1.5+o(1)}$ の時間で、上位$q$固有ベクトルで区切られた部分空間の古典的な記述を出力する。 また、最上位固有ベクトルを近似する量子クエリの複雑さについて、ほぼ最適の$\tilde{\Omega}(d^{1.5})$を証明した。 我々の量子アルゴリズムは、ある種の良質なエラーに対して頑健な古典的パワーメソッドのバージョンを実行し、そこでは2つのアルゴリズムの異なる方法で、量子コンピュータ上で、小さくてよく定義されたエラーで各行列ベクトル乗法を実装します。 我々の第一のアルゴリズムは,新しい「ガウス位相推定」手法を用いて,行列ベクトル積を1回に1回推定する。 第2のアルゴリズムはブロックエンコーディング技術を用いて行列ベクトル積を量子状態として計算し、新しい時間効率の非バイアス純状態トモグラフィーによる古典的な記述を得る。

Finding a good approximation of the top eigenvector of a given $d\times d$ matrix $A$ is a basic and important computational problem, with many applications. We give two different quantum algorithms that, given query access to the entries of a Hermitian matrix $A$ and assuming a constant eigenvalue gap, output a classical description of a good approximation of the top eigenvector: one algorithm with time complexity $\mathcal{\tilde{O}}(d^{1.75})$ and one with time complexity $d^{1.5+o(1)}$ (the first algorithm has a slightly better dependence on the $\ell_2$-error of the approximating vector than the second, and uses different techniques of independent interest). Both of our quantum algorithms provide a polynomial speed-up over the best-possible classical algorithm, which needs $\Omega(d^2)$ queries to entries of $A$, and hence $\Omega(d^2)$ time. We extend this to a quantum algorithm that outputs a classical description of the subspace spanned by the top-$q$ eigenvectors in time $qd^{1.5+o(1)}$. We also prove a nearly-optimal lower bound of $\tilde{\Omega}(d^{1.5})$ on the quantum query complexity of approximating the top eigenvector. Our quantum algorithms run a version of the classical power method that is robust to certain benign kinds of errors, where we implement each matrix-vector multiplication with small and well-behaved error on a quantum computer, in different ways for the two algorithms. Our first algorithm estimates the matrix-vector product one entry at a time, using a new ``Gaussian phase estimation'' procedure. Our second algorithm uses block-encoding techniques to compute the matrix-vector product as a quantum state, from which we obtain a classical description by a new time-efficient unbiased pure-state tomography procedure.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# 公衆衛生の分類・抽出課題における大規模言語モデルの評価

Evaluating Large Language Models for Public Health Classification and Extraction Tasks ( http://arxiv.org/abs/2405.14766v1 )

ライセンス: Link先を確認
Joshua Harris, Timothy Laurence, Leo Loman, Fan Grayson, Toby Nonnenmacher, Harry Long, Loes WalsGriffith, Amy Douglas, Holly Fountain, Stelios Georgiou, Jo Hardstaff, Kathryn Hopkins, Y-Ling Chi, Galena Kuyumdzhieva, Lesley Larkin, Samuel Collins, Hamish Mohammed, Thomas Finnie, Luke Hounsome, Steven Riley, (参考訳) LLM(Large Language Models)の進歩は、公衆衛生を含む様々な分野において、人間の専門家を支援する可能性に大きな関心を惹き付けている。 本研究では,自由テキストの分類と抽出を含む公衆衛生業務におけるLCMの自動評価について述べる。 6つの外部注釈付きデータセットと7つの内部注釈付きデータセットを組み合わせることで、健康負担、疫学的リスクファクター、公衆衛生介入に関連するテキスト処理のためのLCMを評価する。 当初、ゼロショットインコンテキスト学習を用いて、全タスクで5つのオープンウェイト LLM (7~70億のパラメータ) を評価した。 Llama-3-70B-Instructは最高性能のモデルであり、15/17タスク(マイクロF1スコア)で最高の結果が得られる。 接触分類などの課題では,全オープンウェイト LLM が 60% micro-F1 以下であり,すべての LLM が GI Illness Classification など 80% micro-F1 以上を達成している。 12タスクのサブセットに対して、GPT-4の評価を行い、12タスクのうち6タスクでGPT-4のスコアが等しくまたは上回っているLlama-3-70B-Instructに匹敵する結果を得る。 全体として、これらの最初の結果に基づいて、公共衛生の専門家が様々な自由なテキストソースから情報を抽出し、公衆衛生監視、研究、介入を支援するのに、LCMが有用なツールであることを示す有望な兆候を見出した。

Advances in Large Language Models (LLMs) have led to significant interest in their potential to support human experts across a range of domains, including public health. In this work we present automated evaluations of LLMs for public health tasks involving the classification and extraction of free text. We combine six externally annotated datasets with seven new internally annotated datasets to evaluate LLMs for processing text related to: health burden, epidemiological risk factors, and public health interventions. We initially evaluate five open-weight LLMs (7-70 billion parameters) across all tasks using zero-shot in-context learning. We find that Llama-3-70B-Instruct is the highest performing model, achieving the best results on 15/17 tasks (using micro-F1 scores). We see significant variation across tasks with all open-weight LLMs scoring below 60% micro-F1 on some challenging tasks, such as Contact Classification, while all LLMs achieve greater than 80% micro-F1 on others, such as GI Illness Classification. For a subset of 12 tasks, we also evaluate GPT-4 and find comparable results to Llama-3-70B-Instruct, which scores equally or outperforms GPT-4 on 6 of the 12 tasks. Overall, based on these initial results we find promising signs that LLMs may be useful tools for public health experts to extract information from a wide variety of free text sources, and support public health surveillance, research, and interventions.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# FinRobot: 大規模言語モデルを用いた金融アプリケーションのためのオープンソースのAIエージェントプラットフォーム

FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models ( http://arxiv.org/abs/2405.14767v1 )

ライセンス: Link先を確認
Hongyang Yang, Boyu Zhang, Neng Wang, Cheng Guo, Xiaoli Zhang, Likun Lin, Junlin Wang, Tianyu Zhou, Mao Guan, Runjia Zhang, Christina Dan Wang, (参考訳) 金融機関や専門家が自分たちのワークフローにLarge Language Models(LLM)を組み入れていくにつれて、プロプライエタリなデータや専門知識を含む大きな障壁が金融セクターとAIコミュニティの間で持続する。 これらの課題は、AIコミュニティの経済的タスクを効果的に強化する能力を妨げる。 金融分析の重要な役割を認識し、金融特化LDMベースのツールチェーンを考案し、オープンソースイニシアチブを通じてそれらへのアクセスを民主化し、金融意思決定におけるAI採用の拡大を促進することを目的としています。 本稿では,複数の金融特化AIエージェントをサポートする,オープンソースのAIエージェントプラットフォームであるFinRobotを紹介する。 具体的には、このプラットフォームは4つの主要なレイヤから構成されている。 1) 金融AIエージェント層は、洗練された金融問題を論理的な順序に分解することで、金融危機(CoT)を定式化する。 2)金融LLMアルゴリズム層は,特定のタスクに対して適切なモデル適用戦略を動的に設定する。 3) LLMOpsとDataOpsレイヤは、トレーニング/ファインチューニング技術を適用し、タスク関連データを使用することで、正確なモデルを生成する。 4) 様々なLCMを統合し、上記のレイヤに直接アクセスできるようにするマルチソース LLM Foundation Models レイヤ。 最後にFinRobotは、高度な財務分析に強力なAI技術を利用するために、プロ級のアナリストとレイパーの両方にハンズオンを提供する。 FinRobot は \url{https://github.com/AI4Finance-Foundation/FinRobot} でオープンソース化しました。

As financial institutions and professionals increasingly incorporate Large Language Models (LLMs) into their workflows, substantial barriers, including proprietary data and specialized knowledge, persist between the finance sector and the AI community. These challenges impede the AI community's ability to enhance financial tasks effectively. Acknowledging financial analysis's critical role, we aim to devise financial-specialized LLM-based toolchains and democratize access to them through open-source initiatives, promoting wider AI adoption in financial decision-making. In this paper, we introduce FinRobot, a novel open-source AI agent platform supporting multiple financially specialized AI agents, each powered by LLM. Specifically, the platform consists of four major layers: 1) the Financial AI Agents layer that formulates Financial Chain-of-Thought (CoT) by breaking sophisticated financial problems down into logical sequences; 2) the Financial LLM Algorithms layer dynamically configures appropriate model application strategies for specific tasks; 3) the LLMOps and DataOps layer produces accurate models by applying training/fine-tuning techniques and using task-relevant data; 4) the Multi-source LLM Foundation Models layer that integrates various LLMs and enables the above layers to access them directly. Finally, FinRobot provides hands-on for both professional-grade analysts and laypersons to utilize powerful AI techniques for advanced financial analysis. We open-source FinRobot at \url{https://github.com/AI4Finance-Foundation/FinRobot}.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# WISE:大規模言語モデルの生涯モデル編集における知識記憶の再考

WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models ( http://arxiv.org/abs/2405.14768v1 )

ライセンス: Link先を確認
Peng Wang, Zexi Li, Ningyu Zhang, Ziwen Xu, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的な応答を修正するために知識更新を必要とし、生涯にわたるモデル編集の方法を容易にする。 更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。 本稿では,長期記憶(直接モデルパラメータ)やワーキングメモリ(ニューラルネットワークアクティベーション/検索による表現の非パラメトリック知識)の編集が不可能な三角形となることを発見した。 長期記憶の場合、パラメータを直接編集すると、無関係な事前訓練された知識や以前の編集(信頼性と局所性)と衝突する。 ワーキングメモリでは、検索ベースのアクティベーションは、モデルを編集を理解して一般化させる(低次一般化)ことはほとんどできない。 そこで本研究では,記憶のギャップを埋めるためにWISEを提案する。 WISEでは、事前訓練された知識のための主記憶と、編集された知識のための副記憶からなる二重パラメトリックメモリ方式を設計する。 サイドメモリの知識を編集し、ルータをトレーニングして、クエリが与えられたときにどのメモリを経由するかを決めます。 連続的な編集のために、異なる編集セットがパラメータの異なる部分空間に存在する知識シャーディング機構を考案し、その後、競合なく共有メモリにマージする。 WISE は従来のモデル編集手法より優れており,質問応答,幻覚,分布外設定,例えば,GPT,LLaMA,Mistral といったトレンドな LLM アーキテクチャにおいて,寿命の長いモデル編集において不可能な三角形を克服することができる。 コードはhttps://github.com/zjunlp/EasyEdit.comでリリースされる。

Large language models (LLMs) need knowledge updates to meet the ever-growing world facts and correct the hallucinated responses, facilitating the methods of lifelong model editing. Where the updated knowledge resides in memories is a fundamental question for model editing. In this paper, we find that editing either long-term memory (direct model parameters) or working memory (non-parametric knowledge of neural network activations/representations by retrieval) will result in an impossible triangle -- reliability, generalization, and locality can not be realized together in the lifelong editing settings. For long-term memory, directly editing the parameters will cause conflicts with irrelevant pretrained knowledge or previous edits (poor reliability and locality). For working memory, retrieval-based activations can hardly make the model understand the edits and generalize (poor generalization). Therefore, we propose WISE to bridge the gap between memories. In WISE, we design a dual parametric memory scheme, which consists of the main memory for the pretrained knowledge and a side memory for the edited knowledge. We only edit the knowledge in the side memory and train a router to decide which memory to go through when given a query. For continual editing, we devise a knowledge-sharding mechanism where different sets of edits reside in distinct subspaces of parameters, and are subsequently merged into a shared memory without conflicts. Extensive experiments show that WISE can outperform previous model editing methods and overcome the impossible triangle under lifelong model editing of question answering, hallucination, and out-of-distribution settings across trending LLM architectures, e.g., GPT, LLaMA, and Mistral. Code will be released at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input ( http://arxiv.org/abs/2405.14769v1 )

ライセンス: Link先を確認
Andi Peng, Yuying Sun, Tianmin Shu, David Abel, (参考訳) 人間は社会的文脈を用いて行動よりも好み、すなわち報酬関数を指定する。 しかし、好みデータから報酬モデルを推測するアルゴリズムは、この社会的学習の視点を考慮に入れていない。 現実的な人間コミュニケーションに触発されて、より正確な報酬モデルを学ぶのに有用な例が好まれる理由について、きめ細かいデータを抽出する方法を研究する。 本稿では,(1)例間の比較に加えて,(1)例の特徴が望ましいか,(2)例間の比較が望ましいかを問うために,二分選好クエリの強化を提案する。 我々は,どの機能に報酬関係があるか,ユーザがそうでないかをユーザが指定した場合に,これらの機能レベルの嗜好から学習するためのアプローチを導出する。 視覚領域と言語領域の両方における線形帯域設定に対するアプローチを評価する。 その結果,より少ない比較で精度の高い報奨に迅速に収束するアプローチの効率が,例のみのラベルと比較できることがわかった。 最後に,キノコ採餌作業における行動実験により実世界の応用性を検証した。 本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。

Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# ベクトル値スペクトル正規化学習アルゴリズムの最適速度

Optimal Rates for Vector-Valued Spectral Regularization Learning Algorithms ( http://arxiv.org/abs/2405.14778v1 )

ライセンス: Link先を確認
Dimitri Meunier, Zikai Shen, Mattes Mollenhauer, Arthur Gretton, Zhu Li, (参考訳) ベクトル値出力を持つ多種多様な正規化アルゴリズムの理論的特性について検討する。 これらのスペクトルアルゴリズムには、カーネルリッジ回帰、カーネル主成分回帰、勾配降下の様々な実装などが含まれる。 私たちの貢献は2倍です。 まず, ベクトル値出力によるリッジ回帰に対するいわゆる飽和効果を, 学習率の新たな下限を導出することにより厳密に検証し, 回帰関数の滑らかさが一定のレベルを超えた場合, この境界は最適以下であることが示される。 第2に、有限サンプルリスク一般ベクトル値スペクトルアルゴリズムの上限を、様々な状況において極小最適である、明確に特定されかつ不特定なシナリオ(真の回帰関数が仮説空間の外側にある)の両方に適用する。 全ての結果は、無限次元の出力変数の場合を明示的に許容し、最近の実用的な応用の一貫性を証明している。

We study theoretical properties of a broad class of regularized algorithms with vector-valued output. These spectral algorithms include kernel ridge regression, kernel principal component regression, various implementations of gradient descent and many more. Our contributions are twofold. First, we rigorously confirm the so-called saturation effect for ridge regression with vector-valued output by deriving a novel lower bound on learning rates; this bound is shown to be suboptimal when the smoothness of the regression function exceeds a certain level. Second, we present the upper bound for the finite sample risk general vector-valued spectral algorithms, applicable to both well-specified and misspecified scenarios (where the true regression function lies outside of the hypothesis space) which is minimax optimal in various regimes. All of our results explicitly allow the case of infinite-dimensional output variables, proving consistency of recent practical applications.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# スマートバイリンガルに着目した並列文書のクローリング

Smart Bilingual Focused Crawling of Parallel Documents ( http://arxiv.org/abs/2405.14779v1 )

ライセンス: Link先を確認
Cristian García-Romero, Miquel Esplà-Gomis, Felipe Sánchez-Martínez, (参考訳) 並列テキストをcrawling parallel texts $\unicode{x2014}$texts that are mutual translations$\unicode{x2014}$ from the Internet 通常、ブルートフォースのアプローチに従って行われる。 本研究では,より高速な並列コンテンツ発見に向けて,クローリングを誘導するスマートクローリング手法を提案する。 このアプローチは、URLからドキュメントの言語を推論するモデルと、URLのペアがパラレルドキュメントにリンクするかどうかを推論するモデルに基づいています。 両方のモデルを分離して評価し、クローリングツールに統合する。 その結果、両モデルの個人的有効性を示し、それらの組み合わせにより、クローリング中に並列コンテンツの早期発見が可能であり、ダウンロードされたドキュメントの量を無駄とみなすことができ、従来のクローリング手法と比較して、大量の並列ドキュメントが得られることがわかった。

Crawling parallel texts $\unicode{x2014}$texts that are mutual translations$\unicode{x2014}$ from the Internet is usually done following a brute-force approach: documents are massively downloaded in an unguided process, and only a fraction of them end up leading to actual parallel content. In this work we propose a smart crawling method that guides the crawl towards finding parallel content more rapidly. Our approach builds on two different models: one that infers the language of a document from its URL, and another that infers whether a pair of URLs link to parallel documents. We evaluate both models in isolation and their integration into a crawling tool. The results demonstrate the individual effectiveness of both models and highlight that their combination enables the early discovery of parallel content during crawling, leading to a reduction in the amount of downloaded documents deemed useless, and yielding a greater quantity of parallel documents compared to conventional crawling approaches.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# データマニフォールド上の滑らかな補間のためのメトリックフローマッチング

Metric Flow Matching for Smooth Interpolations on the Data Manifold ( http://arxiv.org/abs/2405.14780v1 )

ライセンス: Link先を確認
Kacper Kapusniak, Peter Potaptchik, Teodora Reu, Leo Zhang, Alexander Tong, Michael Bronstein, Avishek Joey Bose, Francesco Di Giovanni, (参考訳) マッチングの目的は、現代の生成モデルの成功を支えるものであり、ソース分布をターゲット分布に変換する条件パスの構築に依存している。 基本的なビルディングブロックであるにもかかわらず、条件付きパスは主にユークリッド幾何学の前提で設計され、結果として直線的補間が行われる。 しかし、これは、直線経路がデータ多様体の外側にあるかもしれないような軌道推論のようなタスクには特に制限があり、従って、観測された限界点を生じさせる基礎となる力学を捉えることができない。 本稿では,データ誘起リーマン計量の運動エネルギーを最小化することにより,補間物が近似測地線である条件付きフローマッチングのための新しいシミュレーションフリーフレームワークであるMetric Flow Matching (MFM)を提案する。 このようにして、生成モデルはデータ多様体上のベクトル場と一致し、それはより低い不確実性とより有意義な補間に対応する。 我々は、MMMをインスタンス化し、タスクとは独立して、LiDARナビゲーション、未ペア画像翻訳、セルダイナミックスをモデル化するなど、困難な問題スイート上で、一般的なメトリクスを処方する。 MFMはユークリッド基底線よりも優れており、特に単一セル軌道予測においてSOTAを達成している。

Matching objectives underpin the success of modern generative models and rely on constructing conditional paths that transform a source distribution into a target distribution. Despite being a fundamental building block, conditional paths have been designed principally under the assumption of Euclidean geometry, resulting in straight interpolations. However, this can be particularly restrictive for tasks such as trajectory inference, where straight paths might lie outside the data manifold, thus failing to capture the underlying dynamics giving rise to the observed marginals. In this paper, we propose Metric Flow Matching (MFM), a novel simulation-free framework for conditional flow matching where interpolants are approximate geodesics learned by minimizing the kinetic energy of a data-induced Riemannian metric. This way, the generative model matches vector fields on the data manifold, which corresponds to lower uncertainty and more meaningful interpolations. We prescribe general metrics to instantiate MFM, independent of the task, and test it on a suite of challenging problems including LiDAR navigation, unpaired image translation, and modeling cellular dynamics. We observe that MFM outperforms the Euclidean baselines, particularly achieving SOTA on single-cell trajectory prediction.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# 未学習と再学習によるクリーンサンプルの少ない統一型ニューラルバックドア除去

Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning ( http://arxiv.org/abs/2405.14781v1 )

ライセンス: Link先を確認
Nay Myat Min, Long H. Pham, Jun Sun, (参考訳) さまざまなセキュリティクリティカルなアプリケーションにおけるディープニューラルネットワークモデルの適用は、セキュリティ上の大きな懸念、特にバックドア攻撃のリスクを引き起こしている。 ニューラルネットワークのバックドアは、攻撃者がモデル動作を悪意を持って変更できるようにするため、深刻なセキュリティ上の脅威となる。 多くの防衛策が検討されているが、既存のアプローチはモデル固有の制約によって境界づけられたり、トレーニングプロセスに複雑な変更が必要であったり、さまざまなバックドア攻撃に対して不足していたりすることが多い。 本研究では, バックドアの包括的かつ効果的な除去方法として, ULRL (UnLearn と ReLearn の略) を提案する。 ULRLは少量のクリーンなサンプルしか必要とせず、あらゆる種類のバックドアに対して効果的に機能する。 まず、不審ニューロンの同定にアンラーニングを適用し、その後、バックドア緩和のための神経量調整(すなわち、不審ニューロンに対する重み付けを促進することで)をターゲットにした。 12種類のバックドアに対して評価したところ、ULRLはモデルユーティリティを保ちながらバックドアの除去において、最先端の手法を著しく上回っていることがわかった。

The application of deep neural network models in various security-critical applications has raised significant security concerns, particularly the risk of backdoor attacks. Neural backdoors pose a serious security threat as they allow attackers to maliciously alter model behavior. While many defenses have been explored, existing approaches are often bounded by model-specific constraints, or necessitate complex alterations to the training process, or fall short against diverse backdoor attacks. In this work, we introduce a novel method for comprehensive and effective elimination of backdoors, called ULRL (short for UnLearn and ReLearn for backdoor removal). ULRL requires only a small set of clean samples and works effectively against all kinds of backdoors. It first applies unlearning for identifying suspicious neurons and then targeted neural weight tuning for backdoor mitigation (i.e., by promoting significant weight deviation on the suspicious neurons). Evaluated against 12 different types of backdoors, ULRL is shown to significantly outperform state-of-the-art methods in eliminating backdoors whilst preserving the model utility.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# 言語モデルの再現性評価に関するトレンチからの教訓

Lessons from the Trenches on Reproducible Evaluation of Language Models ( http://arxiv.org/abs/2405.14782v1 )

ライセンス: Link先を確認
Stella Biderman, Hailey Schoelkopf, Lintang Sutawika, Leo Gao, Jonathan Tow, Baber Abbasi, Alham Fikri Aji, Pawan Sasanka Ammanamanchi, Sidney Black, Jordan Clive, Anthony DiPofi, Julen Etxaniz, Benjamin Fattori, Jessica Zosa Forde, Charles Foster, Mimansa Jaiswal, Wilson Y. Lee, Haonan Li, Charles Lovering, Niklas Muennighoff, Ellie Pavlick, Jason Phang, Aviya Skowron, Samson Tan, Xiangru Tang, Kevin A. Wang, Genta Indra Winata, François Yvon, Andy Zou, (参考訳) 言語モデルの効果的な評価は、NLPでは未解決の課題である。 研究者やエンジニアは、評価設定に対するモデルの感度、メソッド間の適切な比較の難しさ、再現性と透明性の欠如など、方法論上の問題に直面している。 本稿では,大規模言語モデルの評価を3年間経験し,研究者に指導と授業を提供する。 まず,言語モデル評価において直面する共通課題について概説する。 第2に、これらの課題が研究に与える影響に対処または軽減するためのベストプラクティスを述べます。 第三に、言語モデル評価ハーネス(lm-eval:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model 本稿では,これらの方法論的懸念を和らげるために,図書館の特徴と,図書館を利用した事例研究について述べる。

Effective evaluation of language models remains an open challenge in NLP. Researchers and engineers face methodological issues such as the sensitivity of models to evaluation setup, difficulty of proper comparisons across methods, and the lack of reproducibility and transparency. In this paper we draw on three years of experience in evaluating large language models to provide guidance and lessons for researchers. First, we provide an overview of common challenges faced in language model evaluation. Second, we delineate best practices for addressing or lessening the impact of these challenges on research. Third, we present the Language Model Evaluation Harness (lm-eval): an open source library for independent, reproducible, and extensible evaluation of language models that seeks to address these issues. We describe the features of the library as well as case studies in which the library has been used to alleviate these methodological concerns.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# EditWorld: インストラクション追従画像編集のためのワールドダイナミクスのシミュレーション

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing ( http://arxiv.org/abs/2405.14785v1 )

ライセンス: Link先を確認
Ling Yang, Bohan Zeng, Jiaming Liu, Hong Li, Minghao Xu, Wentao Zhang, Shuicheng Yan, (参考訳) 拡散モデルは画像編集の性能を大幅に改善した。 既存の方法は,テキストコントロールやドラッグ操作,マスク・アンド・インペインティングなど,高品質な画像編集を実現するための様々なアプローチを実現する。 これらのうち、命令ベースの編集は、様々なシナリオにまたがる人間の指示に従うことの利便性と有効性で際立っている。 しかし、それは依然として追加、置換、削除のような単純な編集操作に焦点を合わせており、物理的な世界の現実的なダイナミックな性質を伝達する世界力学の側面を理解していない。 そのため、この作業であるEditWorldは、様々な世界のシナリオによって根ざされた命令を定義し分類する、新しい編集タスク、すなわち、ワールドインストラクトされた画像編集を導入している。 我々は,大規模な事前学習モデル(GPT-3.5, Video-LLava, SDXL)を用いて,新しい画像編集データセットをワールドインストラクションでキュレートする。 画像編集のためのワールドダイナミクスの十分なシミュレーションを実現するため、我々のEditWorldトレーナーは、キュレートされたデータセットでモデルを作成し、デザインされたポストエジット戦略で命令追従能力を向上させる。 大規模な実験により,本手法は既存の編集方法よりも大幅に優れていた。 私たちのデータセットとコードはhttps://github.com/YangLing0818/EditWorldで公開されます。

Diffusion models have significantly improved the performance of image editing. Existing methods realize various approaches to achieve high-quality image editing, including but not limited to text control, dragging operation, and mask-and-inpainting. Among these, instruction-based editing stands out for its convenience and effectiveness in following human instructions across diverse scenarios. However, it still focuses on simple editing operations like adding, replacing, or deleting, and falls short of understanding aspects of world dynamics that convey the realistic dynamic nature in the physical world. Therefore, this work, EditWorld, introduces a new editing task, namely world-instructed image editing, which defines and categorizes the instructions grounded by various world scenarios. We curate a new image editing dataset with world instructions using a set of large pretrained models (e.g., GPT-3.5, Video-LLava and SDXL). To enable sufficient simulation of world dynamics for image editing, our EditWorld trains model in the curated dataset, and improves instruction-following ability with designed post-edit strategy. Extensive experiments demonstrate our method significantly outperforms existing editing methods in this new task. Our dataset and code will be available at https://github.com/YangLing0818/EditWorld
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# 網膜 OCT 理解のための仮面画像モデリング

Masked Image Modelling for retinal OCT understanding ( http://arxiv.org/abs/2405.14788v1 )

ライセンス: Link先を確認
Theodoros Pissas, Pablo Márquez-Neila, Sebastian Wolf, Martin Zinkernagel, Raphael Sznitman, (参考訳) 本研究は,網膜CT画像の表現学習におけるマスク画像モデリングの有効性について検討する。 そこで我々は,自己教師型学習のためのシンプルでスケーラブルな方法であるMasked Autoencoders (MAE) を用いて,実世界の臨床環境下で収集した41K の OCT 画像から,700K の OCT 画像をトレーニングすることにより,OCT 画像の強力な汎用表現を得る。 また,OCTのモデルに対して,下流6タスクの挑戦的なバッテリ上での大規模な評価を行った。 本モデルでは, 完全微調整時に高い性能が得られるが, 軽量アダプタを用いた多用途凍結機能抽出器としても機能する。 さらに,ORTを補助的なモダリティで融合させるためのMAEの拡張,すなわちIRファウンダス画像を学習し,両者のジョイントモデルを学ぶことを提案する。 本稿では,マルチモーダルダウンストリームアプリケーションの性能向上を実証する。 我々の実験は、最も一般に利用可能なOCTデータセットを利用し、将来の比較を可能にする。 私たちのコードとモデルの重み付けはhttps://github.com/TheoPis/MIM_OCT.comで公開されています。

This work explores the effectiveness of masked image modelling for learning representations of retinal OCT images. To this end, we leverage Masked Autoencoders (MAE), a simple and scalable method for self-supervised learning, to obtain a powerful and general representation for OCT images by training on 700K OCT images from 41K patients collected under real world clinical settings. We also provide the first extensive evaluation for a model of OCT on a challenging battery of 6 downstream tasks. Our model achieves strong performance when fully finetuned but can also serve as a versatile frozen feature extractor for many tasks using lightweight adapters. Furthermore, we propose an extension of the MAE pretraining to fuse OCT with an auxiliary modality, namely, IR fundus images and learn a joint model for both. We demonstrate our approach improves performance on a multimodal downstream application. Our experiments utilize most publicly available OCT datasets, thus enabling future comparisons. Our code and model weights are publicly available https://github.com/TheoPis/MIM_OCT.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# DIDI:オフライン行動生成のための拡散誘導多様性

DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation ( http://arxiv.org/abs/2405.14790v1 )

ライセンス: Link先を確認
Jinxin Liu, Xinghong Guo, Zifeng Zhuang, Donglin Wang, (参考訳) 本稿では,ディフュージョン誘導ダイバーシティ(DIDI)と呼ばれるオフライン行動生成のための新しい手法を提案する。 DIDIの目標は、ラベルなしオフラインデータの混合から多様なスキルセットを学ぶことである。 我々は,拡散確率モデルを事前として活用し,学習プロセスの指導と政策の正規化を実現している。 多様性と拡散誘導正規化を取り入れた共同目標を最適化することにより,オフラインデータとの類似性を維持しつつ,多様な行動の出現を促す。 4つの意思決定領域(Push、Kitchen、Humanoid、D4RLタスク)の実験結果から、DIDIは多種多様な識別能力の発見に有効であることが示された。 また,学習するスキル空間の一般性を強調する,スキルステッチとスキル補間も導入する。 さらに、外部報酬関数を組み込むことで、報酬誘導行動生成を可能にし、準最適データから多様な最適な行動の学習を容易にする。

In this paper, we propose a novel approach called DIffusion-guided DIversity (DIDI) for offline behavioral generation. The goal of DIDI is to learn a diverse set of skills from a mixture of label-free offline data. We achieve this by leveraging diffusion probabilistic models as priors to guide the learning process and regularize the policy. By optimizing a joint objective that incorporates diversity and diffusion-guided regularization, we encourage the emergence of diverse behaviors while maintaining the similarity to the offline data. Experimental results in four decision-making domains (Push, Kitchen, Humanoid, and D4RL tasks) show that DIDI is effective in discovering diverse and discriminative skills. We also introduce skill stitching and skill interpolation, which highlight the generalist nature of the learned skill space. Further, by incorporating an extrinsic reward function, DIDI enables reward-guided behavior generation, facilitating the learning of diverse and optimal behaviors from sub-optimal data.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# 不均質なクライアントによるフェデレーション学習のための繰り返し早期学習

Recurrent Early Exits for Federated Learning with Heterogeneous Clients ( http://arxiv.org/abs/2405.14791v1 )

ライセンス: Link先を確認
Royson Lee, Javier Fernandez-Marques, Shell Xu Hu, Da Li, Stefanos Laskaridis, Łukasz Dudziak, Timothy Hospedales, Ferenc Huszár, Nicholas D. Lane, (参考訳) フェデレーテッド・ラーニング(FL)は、プライバシを保存する方法で、複数のクライアントにまたがるモデルの分散学習を可能にした。 FLの主な課題の1つは、クライアントに様々なハードウェア能力を持たせることである。 この課題に対処するため、最近の最先端のアプローチは早期出口の利用を活用している。 にもかかわらず、これらのアプローチは、複数の出口分類器を共同学習する際の課題を緩和するに足りず、しばしば、分類器間の知識蒸留や、より弱い分類器のための追加層の利用のために、手書きのヒューリスティックな解に頼っている。 本研究では,複数の分類器を使わずに,異なるサブモデルの特徴を1つの共有分類器に融合するReeFLという手法を提案する。 具体的には、サブモデル間で共有されるトランスフォーマーベースの早期退避モジュールを使用する。 一 タスク特化予測のための多層特徴表現の活用 二 後続の予測のために、バックボーンモデルの特徴表現を変調すること。 また,各クライアントにおける他のサブモデルの教師として,最高のサブモデルを自動的に選択する,クライアントごとの自己蒸留手法を提案する。 様々なファインチューニングベースラインにまたがる標準画像分類と音声分類のベンチマーク実験により、ReeFLが過去の研究よりも有効であることを実証した。

Federated learning (FL) has enabled distributed learning of a model across multiple clients in a privacy-preserving manner. One of the main challenges of FL is to accommodate clients with varying hardware capacities; clients have differing compute and memory requirements. To tackle this challenge, recent state-of-the-art approaches leverage the use of early exits. Nonetheless, these approaches fall short of mitigating the challenges of joint learning multiple exit classifiers, often relying on hand-picked heuristic solutions for knowledge distillation among classifiers and/or utilizing additional layers for weaker classifiers. In this work, instead of utilizing multiple classifiers, we propose a recurrent early exit approach named ReeFL that fuses features from different sub-models into a single shared classifier. Specifically, we use a transformer-based early-exit module shared among sub-models to i) better exploit multi-layer feature representations for task-specific prediction and ii) modulate the feature representation of the backbone model for subsequent predictions. We additionally present a per-client self-distillation approach where the best sub-model is automatically selected as the teacher of the other sub-models at each client. Our experiments on standard image and speech classification benchmarks across various emerging federated fine-tuning baselines demonstrate ReeFL's effectiveness over previous works.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# SEA-RAFT:光学流用簡易高精度RAFT

SEA-RAFT: Simple, Efficient, Accurate RAFT for Optical Flow ( http://arxiv.org/abs/2405.14793v1 )

ライセンス: Link先を確認
Yihan Wang, Lahav Lipson, Jia Deng, (参考訳) よりシンプルで効率的で正確な光流用RAFTであるSEA-RAFTを紹介する。 RAFTと比較すると、SEA-RAFTは新たな損失(Laplaceの混合)で訓練される。 反復的洗練の高速化のために初期流れを直接回帰し、一般化を改善するために剛体運動前訓練を導入する。 SEA-RAFTは、3.69のエンドポイントエラー(EPE)と0.361ピクセルのアウトリーチレート(1px)でSpringベンチマークの最先端の精度を達成し、ベストパブリッシュされた結果から22.9%と17.8%のエラー削減を達成した。 さらに、SEA-RAFTは、KITTIとSpring上で最高のクロスデータセットの一般化を得る。 SEA-RAFTは高い効率で既存の手法よりも少なくとも2.3倍速く動作し、競争性能を維持している。 コードはhttps://github.com/princeton-vl/SEA-RAFTで公開されている。

We introduce SEA-RAFT, a more simple, efficient, and accurate RAFT for optical flow. Compared with RAFT, SEA-RAFT is trained with a new loss (mixture of Laplace). It directly regresses an initial flow for faster convergence in iterative refinements and introduces rigid-motion pre-training to improve generalization. SEA-RAFT achieves state-of-the-art accuracy on the Spring benchmark with a 3.69 endpoint-error (EPE) and a 0.36 1-pixel outlier rate (1px), representing 22.9% and 17.8% error reduction from best published results. In addition, SEA-RAFT obtains the best cross-dataset generalization on KITTI and Spring. With its high efficiency, SEA-RAFT operates at least 2.3x faster than existing methods while maintaining competitive performance. The code is publicly available at https://github.com/princeton-vl/SEA-RAFT.
翻訳日:2024-05-24 13:46:53 公開日:2024-05-23
# シーケンスインフォームド環境条件による植物生長シミュレーション

Generative Plant Growth Simulation from Sequence-Informed Environmental Conditions ( http://arxiv.org/abs/2405.14796v1 )

ライセンス: Link先を確認
Mohamed Debbagh, Yixue Liu, Zhouzhou Zheng, Xintong Jiang, Shangpeng Sun, Mark Lefsrud, (参考訳) 植物成長シミュレーションは、植物または植物系の再構成された視覚表現として特徴付けられる。 表現型の特徴と植物構造は、シーン環境および他の文脈特性によって制御される。 種々の要因の時間的依存性と複合化効果を考慮して,フレーム合成とパターン認識の問題を解くことにより,シミュレーションタスクに対する確率論的アプローチを定式化する。 低次元時空間センサとコンテキストデータとの融合から動的シーン内の植物表現の分布を暗黙的に学習する条件生成モデルを用いて、SI-PGS(Sequence-Informed Plant Growth Simulation)を提案する。 予測のフレーム間の植物構造におけるコヒーレンスを改善するために、制御された潜時サンプリングや繰り返し出力接続などの手法が用いられる。 本研究では、SI-PGSが時間的依存を捉え、植物シーンのリアルなフレームを連続的に生成できることを実証する。

A plant growth simulation can be characterized as a reconstructed visual representation of a plant or plant system. The phenotypic characteristics and plant structures are controlled by the scene environment and other contextual attributes. Considering the temporal dependencies and compounding effects of various factors on growth trajectories, we formulate a probabilistic approach to the simulation task by solving a frame synthesis and pattern recognition problem. We introduce a Sequence-Informed Plant Growth Simulation framework (SI-PGS) that employs a conditional generative model to implicitly learn a distribution of possible plant representations within a dynamic scene from a fusion of low dimensional temporal sensor and context data. Methods such as controlled latent sampling and recurrent output connections are used to improve coherence in plant structures between frames of predictions. In this work, we demonstrate that SI-PGS is able to capture temporal dependencies and continuously generate realistic frames of a plant scene.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 条件付き相違によるテキスト・画像拡散モデルの会員推定

Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy ( http://arxiv.org/abs/2405.14800v1 )

ライセンス: Link先を確認
Shengfang Zhai, Huanran Chen, Yinpeng Dong, Jiajun Li, Qingni Shen, Yansong Gao, Hang Su, Yang Liu, (参考訳) テキストから画像への拡散モデルは、制御可能な画像生成の分野で大きな成功を収め、同時にプライバシーの漏洩やデータ著作権の問題も抱えている。 メンバーシップ推論は、許可されていないデータの使用を検出する潜在的な監査方法として、これらの文脈で発生する。 拡散モデルにはいくつかの取り組みがあるが、高い計算オーバーヘッドと一般化能力の強化のため、テキストから画像への拡散モデルには適用できない。 本稿では,テキスト・画像拡散モデルにおける条件オーバーフィット現象を最初に同定し,これらのモデルが画像の限界分布よりもテキストの条件分布に過度に適合する傾向があることを示す。 本研究は,分析指標である条件的類似不一致(CLiD)を導出し,会員推定を行う。 この指標は、個々のサンプルの記憶を推定する確率を減少させる。 実験結果から,本手法は様々なデータ分布やスケールにおいて,従来手法よりも有意に優れていたことが示唆された。 さらに,本手法は,早期停止やデータ拡張といった緩和戦略の過度な適合に対する優れた抵抗性を示す。

Text-to-image diffusion models have achieved tremendous success in the field of controllable image generation, while also coming along with issues of privacy leakage and data copyrights. Membership inference arises in these contexts as a potential auditing method for detecting unauthorized data usage. While some efforts have been made on diffusion models, they are not applicable to text-to-image diffusion models due to the high computation overhead and enhanced generalization capabilities. In this paper, we first identify a conditional overfitting phenomenon in text-to-image diffusion models, indicating that these models tend to overfit the conditional distribution of images given the text rather than the marginal distribution of images. Based on this observation, we derive an analytical indicator, namely Conditional Likelihood Discrepancy (CLiD), to perform membership inference. This indicator reduces the stochasticity in estimating the memorization of individual samples. Experimental results demonstrate that our method significantly outperforms previous methods across various data distributions and scales. Additionally, our method shows superior resistance to overfitting mitigation strategies such as early stopping and data augmentation.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 医用画像から画像への高速拡散確率モデル

Fast Denoising Diffusion Probabilistic Models for Medical Image-to-Image Generation ( http://arxiv.org/abs/2405.14802v1 )

ライセンス: Link先を確認
Hongxu Jiang, Muhammad Imran, Linhai Ma, Teng Zhang, Yuyin Zhou, Muxuan Liang, Kuang Gong, Wei Shao, (参考訳) 拡散確率モデル(DDPM)はコンピュータビジョンにおいて前例のない成功を収めた。 しかし、病気の診断と治療計画に不可欠な分野である医用画像の分野では未利用のままである。 これは主に、(1)拡散過程における大量の時間ステップ(例えば1,000)の使用、(2)医療画像の次元性の増大によるものであり、これはしばしば3Dまたは4Dである。 医療画像上の拡散モデルのトレーニングは通常数日から数週間かかるが、各画像量をサンプリングするには数分から数時間かかる。 この課題に対処するために,トレーニング速度,サンプリング速度,生成品質を同時に向上する,シンプルかつ効果的なアプローチであるFast-DDPMを導入する。 1000のタイムステップでイメージデノイザを訓練するDDPMとは異なり、Fast-DDPMは10のタイムステップのみを使用する。 我々の手法の鍵は、トレーニングとサンプリングの手順を整列することにある。 10段の時間ステップを持つ2つの効率的なノイズスケジューラを導入し,その1つは時間ステップを均一にサンプリングし,もう1つは一様でないサンプリングを行った。 マルチイメージ・スーパーレゾリューション,イメージデノイング,イメージ・ツー・イメージ翻訳という3つの医療画像・画像生成タスクにおけるFast-DDPMの評価を行った。 高速DDPMはDDPMよりも優れており、全てのタスクにおける畳み込みネットワークと生成的敵ネットワークに基づく最先端の手法である。 さらに,Fast-DDPMではトレーニング時間を5倍,サンプリング時間を100倍に短縮した。 私たちのコードは、https://github.com/mirthAI/Fast-DDPM.comで公開されています。

Denoising diffusion probabilistic models (DDPMs) have achieved unprecedented success in computer vision. However, they remain underutilized in medical imaging, a field crucial for disease diagnosis and treatment planning. This is primarily due to the high computational cost associated with (1) the use of large number of time steps (e.g., 1,000) in diffusion processes and (2) the increased dimensionality of medical images, which are often 3D or 4D. Training a diffusion model on medical images typically takes days to weeks, while sampling each image volume takes minutes to hours. To address this challenge, we introduce Fast-DDPM, a simple yet effective approach capable of improving training speed, sampling speed, and generation quality simultaneously. Unlike DDPM, which trains the image denoiser across 1,000 time steps, Fast-DDPM trains and samples using only 10 time steps. The key to our method lies in aligning the training and sampling procedures. We introduced two efficient noise schedulers with 10 time steps: one with uniform time step sampling and another with non-uniform sampling. We evaluated Fast-DDPM across three medical image-to-image generation tasks: multi-image super-resolution, image denoising, and image-to-image translation. Fast-DDPM outperformed DDPM and current state-of-the-art methods based on convolutional networks and generative adversarial networks in all tasks. Additionally, Fast-DDPM reduced training time by a factor of 5 and sampling time by a factor of 100 compared to DDPM. Our code is publicly available at: https://github.com/mirthAI/Fast-DDPM.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# LLMはより長い数学的単語問題を解けるか?

Can LLMs Solve longer Math Word Problems Better? ( http://arxiv.org/abs/2405.14804v1 )

ライセンス: Link先を確認
Xin Xu, Tong Xiao, Zitong Chao, Zhenya Huang, Can Yang, Yang Wang, (参考訳) 数学語問題(MWP)は、大規模言語モデル(LLM)の能力を評価する上で重要である。 しかし、現実の数学の問題は複雑な状況を伴うことが多いため、LLMが長いMWPを解く能力はこれらのシナリオでの応用には不可欠である。 この研究は、LLMが長いMWPを解く能力であるコンテキスト長一般化可能性(CoLeG)の探索の先駆者である。 長大な物語を持つMWPの集合であるE-GSM(Extended Grade-School Math)を紹介する。 これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。 既存のゼロショットプロンプト技術およびプロプライエタリおよびオープンソース LLM の検証により,CoLeG の欠如が明らかとなった。 これらの課題を軽減するために, LLMの異なるカテゴリに対して, 異なるアプローチを提案する。 プロプライエタリなLLMでは、長いコンテキストの影響を軽減するために、新しい命令プロンプトが提案されている。 オープンソースのLLMでは、CoLeGを改善するために新しいデータ拡張タスクが開発されている。 提案手法の有効性を総合的に検証し,E-GSMの性能向上だけでなく,他のMWPベンチマークの一般化可能性も示す。 我々の研究は,LLMを複雑な実世界の応用に適用し,現在の限界に対する実践的な解決策を提供し,モデル一般化可能性とトレーニング方法論のさらなる探求を行うための道を開くという今後の研究の道を開くものである。

Math Word Problems (MWPs) are crucial for evaluating the capability of Large Language Models (LLMs), with current research primarily focusing on questions with concise contexts. However, as real-world math problems often involve complex circumstances, LLMs' ability to solve long MWPs is vital for their applications in these scenarios, yet remains under-explored. This study pioneers the exploration of Context Length Generalizability (CoLeG), the ability of LLMs to solve long MWPs. We introduce Extended Grade-School Math (E-GSM), a collection of MWPs with lengthy narratives. Two novel metrics are proposed to assess the efficacy and resilience of LLMs in solving these problems. Our examination of existing zero-shot prompting techniques and both proprietary and open-source LLMs reveals a general deficiency in CoLeG. To alleviate these challenges, we propose distinct approaches for different categories of LLMs. For proprietary LLMs, a new instructional prompt is proposed to mitigate the influence of long context. For open-source LLMs, a new data augmentation task is developed to improve CoLeG. Our comprehensive results demonstrate the effectiveness of our proposed methods, showing not only improved performance on E-GSM but also generalizability across several other MWP benchmarks. Our findings pave the way for future research in employing LLMs for complex, real-world applications, offering practical solutions to current limitations and opening avenues for further exploration of model generalizability and training methodologies.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 高エネルギー物理のためのローレンツ等変幾何代数変換器

Lorentz-Equivariant Geometric Algebra Transformers for High-Energy Physics ( http://arxiv.org/abs/2405.14806v1 )

ライセンス: Link先を確認
Jonas Spinner, Victor Bresó, Pim de Haan, Tilman Plehn, Jesse Thaler, Johann Brehmer, (参考訳) 粒子物理実験から科学的理解を抽出するには、高精度で優れたデータ効率で多様な学習問題を解く必要がある。 高エネルギー物理のための新しい多目的アーキテクチャであるLorentz Geometric Algebra Transformer (L-GATr)を提案する。 L-GATrは4次元時空上の幾何学代数における高エネルギーデータを表し、相対論的運動学の対称性群であるローレンツ変換の下で同変である。 同時に、アーキテクチャはTransformerであり、大規模システムに対して多用途でスケーラブルである。 L-GATrは、粒子物理学からの回帰および分類タスクで最初に実証された。 次に,L-GATrネットワークに基づく連続正規化フローを,リーマン流マッチングを用いて学習した最初のローレンツ同変生成モデルを構築した。 実験全体では、L-GATrは強いドメイン固有のベースラインに匹敵する、あるいは優れています。

Extracting scientific understanding from particle-physics experiments requires solving diverse learning problems with high precision and good data efficiency. We propose the Lorentz Geometric Algebra Transformer (L-GATr), a new multi-purpose architecture for high-energy physics. L-GATr represents high-energy data in a geometric algebra over four-dimensional space-time and is equivariant under Lorentz transformations, the symmetry group of relativistic kinematics. At the same time, the architecture is a Transformer, which makes it versatile and scalable to large systems. L-GATr is first demonstrated on regression and classification tasks from particle physics. We then construct the first Lorentz-equivariant generative model: a continuous normalizing flow based on an L-GATr network, trained with Riemannian flow matching. Across our experiments, L-GATr is on par with or outperforms strong domain-specific baselines.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 言語モデルにおける暗黙のパーソナライゼーション : 体系的研究

Implicit Personalization in Language Models: A Systematic Study ( http://arxiv.org/abs/2405.14808v1 )

ライセンス: Link先を確認
Zhijing Jin, Nils Heil, Jiarui Liu, Shehzaad Dhuliawala, Yahang Qi, Bernhard Schölkopf, Rada Mihalcea, Mrinmaya Sachan, (参考訳) インプリシトパーソナライゼーション(IP)は、入力プロンプト内の暗黙の手がかりからユーザの背景を推測し、この推論に基づいて応答を調整する言語モデルである。 これまでの研究は、この問題のさまざまな事例に触れてきたが、この振る舞いを研究するための統一されたフレームワークは欠如している。 この研究は、厳密な数学的定式化、多面的道徳的推論フレームワーク、そして一連の事例研究を通じて、IPを体系的に研究する。 我々の理論基盤は構造因果モデルに依存しており、直接介入できない媒介変数の因果効果を推定するために、間接的介入という新しい手法を導入している。 技術的アプローチの他に、IPが倫理的に適切であるかどうかを研究するために、道徳哲学の3つの学派に基づく道徳的推論の原則も導入する。 数学的・倫理的な知見をともなう3つのケーススタディとして,知的財産権問題の性質について考察し,今後の研究を推奨する。 私たちのコードとデータはhttps://github.com/jiarui-liu/IPにあります。

Implicit Personalization (IP) is a phenomenon of language models inferring a user's background from the implicit cues in the input prompts and tailoring the response based on this inference. While previous work has touched upon various instances of this problem, there lacks a unified framework to study this behavior. This work systematically studies IP through a rigorous mathematical formulation, a multi-perspective moral reasoning framework, and a set of case studies. Our theoretical foundation for IP relies on a structural causal model and introduces a novel method, indirect intervention, to estimate the causal effect of a mediator variable that cannot be directly intervened upon. Beyond the technical approach, we also introduce a set of moral reasoning principles based on three schools of moral philosophy to study when IP may or may not be ethically appropriate. Equipped with both mathematical and ethical insights, we present three diverse case studies illustrating the varied nature of the IP problem and offer recommendations for future research. Our code and data are at https://github.com/jiarui-liu/IP.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# AI言語モデルとしての"Yes I Recommend called the Police': Norm Unconsistency in LLM Decision-Making"

As an AI Language Model, "Yes I Would Recommend Calling the Police'': Norm Inconsistency in LLM Decision-Making ( http://arxiv.org/abs/2405.14812v1 )

ライセンス: Link先を確認
Shomik Jain, D Calacci, Ashia Wilson, (参考訳) 我々は,LLMが同様の状況において異なる規範を適用しているノルムの不整合現象について検討する。 具体的には、Amazon Ringのホーム監視ビデオで警察を呼ぶかどうかを決める、リスクの高いアプリケーションに焦点を当てます。 GPT-4, Gemini 1.0, Claude 3 Sonnetの3つの最先端LCMの判断は, 映像に描かれた活動, 被験者の肌色, 性別, 映像が記録された地区の特徴と関連して評価した。 分析の結果,(1)警察に通報する勧告と犯罪行為の実態との間には不一致がみられ,(2)地区の人口動態に左右される偏見がみられた。 これらの結果は、監視文脈におけるモデル決定の任意性や、規範的意思決定における現在のバイアス検出と緩和戦略の限界を浮き彫りにする。

We investigate the phenomenon of norm inconsistency: where LLMs apply different norms in similar situations. Specifically, we focus on the high-risk application of deciding whether to call the police in Amazon Ring home surveillance videos. We evaluate the decisions of three state-of-the-art LLMs -- GPT-4, Gemini 1.0, and Claude 3 Sonnet -- in relation to the activities portrayed in the videos, the subjects' skin-tone and gender, and the characteristics of the neighborhoods where the videos were recorded. Our analysis reveals significant norm inconsistencies: (1) a discordance between the recommendation to call the police and the actual presence of criminal activity, and (2) biases influenced by the racial demographics of the neighborhoods. These results highlight the arbitrariness of model decisions in the surveillance context and the limitations of current bias detection and mitigation strategies in normative decision-making.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# モジュラノームにおけるスケーラブルな最適化

Scalable Optimization in the Modular Norm ( http://arxiv.org/abs/2405.14813v1 )

ライセンス: Link先を確認
Tim Large, Yang Liu, Minyoung Huh, Hyojin Bahng, Phillip Isola, Jeremy Bernstein, (参考訳) 現代のディープラーニングのパフォーマンス向上のために、レイヤの数とサイズの両方の観点から、ニューラルネットワークのスケールアップに関心がある。 単一のレイヤの幅を拡大する際、トレーニングの優雅なスケーリングは、そのレイヤに特有の"自然な基準"でウェイトと更新を標準化する必要性と関連付けられています。 本稿では,任意のニューラルネットワークアーキテクチャの全重み空間の自然なノルムであるモジュラーノルムを定義することにより,このアイデアを著しく一般化する。 モジュラーノルムは、ネットワークアーキテクチャ自体と直交して再帰的に定義される。 モジュラーノルムにはいくつかの有望な応用があることが示される。 実用面では、任意のベースオプティマイザの更新を正規化して、学習率が幅と深さで転送可能であるようにするためにモジュラーノルムを用いることができる。 これは、トレーニングをスケールするために、ユーザーがオプティマイザ固有のスケールファクタを計算する必要がないことを意味する。 理論的な側面から、"十分に計算された"原子モジュールから構築された任意のニューラルネットワークに対して、ネットワークの勾配はモジュラーノルムにおいてリプシッツ連続であり、リプシッツ定数は単純な再帰公式を許容する。 この特徴は、最適化理論の標準アイデアをディープラーニングに移植する扉を開く。 我々はModulaと呼ばれるPythonパッケージを作成し、アーキテクチャのモジュラー標準で自動的に重み更新を正規化しました。 パッケージは"pip install modula"を通じて入手でき、ソースコードはhttps://github.com/jxbz/modulaにある。

To improve performance in contemporary deep learning, one is interested in scaling up the neural network in terms of both the number and the size of the layers. When ramping up the width of a single layer, graceful scaling of training has been linked to the need to normalize the weights and their updates in the "natural norm" particular to that layer. In this paper, we significantly generalize this idea by defining the modular norm, which is the natural norm on the full weight space of any neural network architecture. The modular norm is defined recursively in tandem with the network architecture itself. We show that the modular norm has several promising applications. On the practical side, the modular norm can be used to normalize the updates of any base optimizer so that the learning rate becomes transferable across width and depth. This means that the user does not need to compute optimizer-specific scale factors in order to scale training. On the theoretical side, we show that for any neural network built from "well-behaved" atomic modules, the gradient of the network is Lipschitz-continuous in the modular norm, with the Lipschitz constant admitting a simple recursive formula. This characterization opens the door to porting standard ideas in optimization theory over to deep learning. We have created a Python package called Modula that automatically normalizes weight updates in the modular norm of the architecture. The package is available via "pip install modula" with source code at https://github.com/jxbz/modula.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 人間ラベルを使わずにサステナブル・マリン・デブリのクリーンアップ・フレームワークを設計する

Designing A Sustainable Marine Debris Clean-up Framework without Human Labels ( http://arxiv.org/abs/2405.14815v1 )

ライセンス: Link先を確認
Raymond Wang, Nicholas R. Record, D. Whitney King, Tahiya Chowdhury, (参考訳) 海洋の破片は、鳥類、魚、その他の動物の生命に重大な生態学的脅威をもたらす。 伝統的に残骸の堆積を評価する方法には、労働集約的かつ高価な手作業による調査が含まれる。 本研究では,ドローンが捉えた空中画像を利用して遠隔地ゴミ調査を行うフレームワークを提案する。 コンピュータビジョン技術を活用して, 海洋破片の分布を検出し, 分類し, マッピングする。 このフレームワークは、トランスフォーマーベースのゼロショットオブジェクト検出器であるGrounding DINOと、ゼロショットオブジェクト分類のための視覚言語モデルであるCLIPを使用しており、ラベルをトレーニングすることなく、素材タイプに基づいたデブリオブジェクトの検出と分類を可能にしている。 同じオブジェクトの異なるビューによるオーバーカウントを軽減するため、局所的なオブジェクト特徴を用いた重複マッチングにはスケール不変特徴変換(SIFT)が使用される。 さらに, 対象物の検出, 分類, 可視化など, ドローン画像のエンドツーエンド解析を容易にするユーザフレンドリーなWebアプリケーションを開発し, クリーンアップ作業を支援する。 本手法は,ラベル付きデータを持たない7つのデブリオブジェクトクラスに対して,検出(0.69平均IoU)と分類(0.74F1スコア)の競合性能を実現する。 このフレームワークは、自動化されたゴミサンプリングサーベイを合理化し、効率的で持続可能なコミュニティ主導のクリーンアップイニシアチブを育成する可能性がある。

Marine debris poses a significant ecological threat to birds, fish, and other animal life. Traditional methods for assessing debris accumulation involve labor-intensive and costly manual surveys. This study introduces a framework that utilizes aerial imagery captured by drones to conduct remote trash surveys. Leveraging computer vision techniques, our approach detects, classifies, and maps marine debris distributions. The framework uses Grounding DINO, a transformer-based zero-shot object detector, and CLIP, a vision-language model for zero-shot object classification, enabling the detection and classification of debris objects based on material type without the need for training labels. To mitigate over-counting due to different views of the same object, Scale-Invariant Feature Transform (SIFT) is employed for duplicate matching using local object features. Additionally, we have developed a user-friendly web application that facilitates end-to-end analysis of drone images, including object detection, classification, and visualization on a map to support cleanup efforts. Our method achieves competitive performance in detection (0.69 mean IoU) and classification (0.74 F1 score) across seven debris object classes without labeled data, comparable to state-of-the-art supervised methods. This framework has the potential to streamline automated trash sampling surveys, fostering efficient and sustainable community-led cleanup initiatives.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# PaGoDA:低分解能拡散教師によるワンステップ発電機の進行的成長

PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher ( http://arxiv.org/abs/2405.14822v1 )

ライセンス: Link先を確認
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, (参考訳) サンプリングを加速するため、拡散モデル(DM)は1ステップで直接データにノイズをマッピングするジェネレータに蒸留されることが多い。 このアプローチでは、ジェネレータの分解能は教師DMの分解能によって根本的に制限される。 この制限を克服するため,本論文では,原教師DMの解像度を超えて,ジェネレータの解像度を段階的に向上させる手法であるProgressive Growing of Diffusion Autoencoder (PaGoDA)を提案する。 我々の重要な洞察は、事前学習された低解像度のDMを用いて、適切なサンプル画像から始まるPF-ODEを前方に解き、構造化された潜在空間に高解像度データを決定的に符号化することができることである。 この凍結エンコーダを自動エンコーダフレームワークで使用することにより、デコーダの解像度を徐々に向上させることでデコーダを訓練する。 徐々に成長するデコーダの性質から、PaGoDAは、学生モデルをアップサンプリングするときに、教師/学生モデルの再トレーニングを回避し、トレーニングパイプライン全体をずっと安価にします。 実験では, 段階的に成長するデコーダを用いて, 事前学習モデルの64x64解像度から512x512サンプルを生成する。 PaGoDAはまた、64x64から512x512までのすべての解像度でImageNetの最先端のFIDを達成している。 さらに,逆問題に対するPaGoDAの有効性を実証し,制御可能な生成を可能にする。

To accelerate sampling, diffusion models (DMs) are often distilled into generators that directly map noise to data in a single step. In this approach, the resolution of the generator is fundamentally limited by that of the teacher DM. To overcome this limitation, we propose Progressive Growing of Diffusion Autoencoder (PaGoDA), a technique to progressively grow the resolution of the generator beyond that of the original teacher DM. Our key insight is that a pre-trained, low-resolution DM can be used to deterministically encode high-resolution data to a structured latent space by solving the PF-ODE forward in time (data-to-noise), starting from an appropriately down-sampled image. Using this frozen encoder in an auto-encoder framework, we train a decoder by progressively growing its resolution. From the nature of progressively growing decoder, PaGoDA avoids re-training teacher/student models when we upsample the student model, making the whole training pipeline much cheaper. In experiments, we used our progressively growing decoder to upsample from the pre-trained model's 64x64 resolution to generate 512x512 samples, achieving 2x faster inference compared to single-step distilled Stable Diffusion like LCM. PaGoDA also achieved state-of-the-art FIDs on ImageNet across all resolutions from 64x64 to 512x512. Additionally, we demonstrated PaGoDA's effectiveness in solving inverse problems and enabling controllable generation.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# シャドウフリー神経放射場におけるカメラ再局在

Camera Relocalization in Shadow-free Neural Radiance Fields ( http://arxiv.org/abs/2405.14824v1 )

ライセンス: Link先を確認
Shiyao Xu, Caiyun Liu, Yuantao Chen, Zhenxin Zhu, Zike Yan, Yongliang Shi, Hao Zhao, Guyue Zhou, (参考訳) カメラのリローカライゼーションはコンピュータビジョンとロボティクスにおいて重要な問題である。 ニューラルレイディアンスフィールド(NeRF)の最近の進歩は、光リアル画像の合成において有望であることを示している。 カメラポーズの精細化にNeRFを使用している作品もいくつかあるが、シーンの外観や影の領域に影響を及ぼすような照明変更を考慮せず、劣化したポーズ最適化プロセスを引き起こしている。 本稿では,照明条件や影条件の異なる画像を正規化し,カメラ再配置を改善するための2段パイプラインを提案する。 我々は,ハッシュ符号化されたNeRF上にシーン表現を実装し,ポーズ最適化プロセスを大幅に向上させる。 格子型NeRFのノイズ画像勾配計算問題として,TDLF (Truncated dynamic Low-pass filter) と数値勾配平均化法を提案する。 照明条件の異なる複数のデータセットに対する実験結果から, 本手法は, 照明条件の異なるカメラ再配置において, 最先端の成果を達成できることが示唆された。 コードとデータは公開されます。

Camera relocalization is a crucial problem in computer vision and robotics. Recent advancements in neural radiance fields (NeRFs) have shown promise in synthesizing photo-realistic images. Several works have utilized NeRFs for refining camera poses, but they do not account for lighting changes that can affect scene appearance and shadow regions, causing a degraded pose optimization process. In this paper, we propose a two-staged pipeline that normalizes images with varying lighting and shadow conditions to improve camera relocalization. We implement our scene representation upon a hash-encoded NeRF which significantly boosts up the pose optimization process. To account for the noisy image gradient computing problem in grid-based NeRFs, we further propose a re-devised truncated dynamic low-pass filter (TDLF) and a numerical gradient averaging technique to smoothen the process. Experimental results on several datasets with varying lighting conditions demonstrate that our method achieves state-of-the-art results in camera relocalization under varying lighting conditions. Code and data will be made publicly available.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# 緩和時間近似のためのリンドブラディアン法、環境温度クエンチによるキブル・ズレーク過程、リンドブラディアン摂動理論への応用

Lindbladian way for the relaxation time approximation, application to Kibble-Zurek processes due to environment temperature quench, and to Lindbladian perturbation theory ( http://arxiv.org/abs/2405.14825v1 )

ライセンス: Link先を確認
Gergő Roósz, (参考訳) 本稿では,地球規模のリンドブラディアン・アンサッツを作製し,温度$T$からGibs状態までの熱処理を行った。 このアンザッツはハミルトニアンの2つの固有状態全てを結び、緩和時間近似(RTA)として知られる単純なマスター方程式をもたらす。 この論文の主なメッセージは、RTAはリンドブラディアンのアプローチそのものであり、物理過程をモデル化する際の熱化を確保するためにリンドブラディアンとして利用することができ、したがって平衡状態のシステムを駆動する他のタイプのリンドブラディアンと組み合わせることができることである。 私はそれを2つのアプリケーションでデモします。 第一の応用は、環境温度を臨界点に変化させることにより、量子系の遅い冷却(または加熱)である。 この RTA-Lindblad ansatz は系の平衡挙動に直接関係し、順序パラメータが指数 $\Psi$ を持つなら、相転移の残り値は $1/\tau^{\Psi}$ で減少する。 第2の応用では、RTA-Lindbladian項が熱化しているのに対し、リンドブラディアン項を平衡から外す余剰な項による保存量(ハミルトンと通勤する演算子)の期待値の変化について検討する。 元の熱平衡で計算された期待値のみを用いて、新しい定常状態における期待値を第1次で閉じた摂動式を与える。

In the present paper, a global Lindbladian ansatz is constructed which leads to thermalization at temperature $T$ to the Gibs state of the investigated system. This ansatz connects every two eigenstates of the Hamiltonian and leads to a simple master equation known in the literature as the relaxation time approximation (RTA). The main message of this paper is that RTA, being a Lindbladian approach itself, can be used as Lindbladian securing thermalization when modeling physical processes, and can be consequently combined with other types of Lindbladians which would drive the system of the equilibrium state. I demonstrate it with two applications. The first application is the slow cooling (or heating) of quantum systems by varying the environment temperature to a critical point. With this RTA-Lindblad ansatz, one can directly relate to the equilibrium behavior of the system, and if an order parameter has the exponent $\Psi$, the remaining value at the phase transition will decrease with $1/\tau^{\Psi}$, where $\tau$ is the overall time of the slow process. In the second application, I investigate the change in the expectation value of a conserved quantity (an operator commuting with the Hamiltonian) due to an extra Lindbladian term which would drive the system out from equilibrium, while the thermalizing RTA-Lindbladian term is also present. I give a closed perturbative expression in the first order for the expectation value in the new steady state using only expectation values calculated in the original thermal equilibrium.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# テキストと画像の拡散モデルで秘密の種を発見できる「Good Seed」

Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2405.14828v1 )

ライセンス: Link先を確認
Katherine Xu, Lingzhi Zhang, Jianbo Shi, (参考訳) テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩は、創造的、フォトリアリスティックな画像合成を促進する。 ランダムな種を可変させることで、固定されたテキストプロンプトに対して様々な画像を生成することができる。 技術的には、シードは初期ノイズを制御し、多段階拡散推定では、逆拡散過程の中間段階における再パラメータ化に用いられるノイズを制御する。 しかし、生成した画像に対するランダムシードの具体的な影響は、まだ明らかになっていない。 本研究では,拡散推論におけるランダム種子の影響について,大規模な科学的研究を行う。 興味深いことに、最も優れた'金'シードが21.60の印象的なFIDを達成したのに対し、最悪の'不妊'シードのFIDは31.97である。 さらに、分類器は、わずかのエポックで99.9%以上の精度で画像を生成するために使用されるシード番号を予測でき、生成した画像に基づいて種子が高度に識別可能であることを確認できる。 これらの結果から,種が視覚的解釈にどのような影響を及ぼすかを検討した。 特定の種子は、グレースケールの画像、目立つ空域、または画像境界を連続的に生成していることがわかりました。 種子は、オブジェクトの位置、サイズ、深さなどの画像組成にも影響を及ぼす。 さらに,これらの「黄金」種子を活用することで,高忠実度推論や多彩化サンプリングなどの画像生成の改善を実証した。 我々の調査は、不要なテキストアーティファクトを挿入する傾向がある種子を発見できる作業に及んでいる。 総合的な分析では、良い種子を選択することの重要性を強調し、画像生成に実用的なユーティリティを提供する。

Recent advances in text-to-image (T2I) diffusion models have facilitated creative and photorealistic image synthesis. By varying the random seeds, we can generate various images for a fixed text prompt. Technically, the seed controls the initial noise and, in multi-step diffusion inference, the noise used for reparameterization at intermediate timesteps in the reverse diffusion process. However, the specific impact of the random seed on the generated images remains relatively unexplored. In this work, we conduct a large-scale scientific study into the impact of random seeds during diffusion inference. Remarkably, we reveal that the best 'golden' seed achieved an impressive FID of 21.60, compared to the worst 'inferior' seed's FID of 31.97. Additionally, a classifier can predict the seed number used to generate an image with over 99.9% accuracy in just a few epochs, establishing that seeds are highly distinguishable based on generated images. Encouraged by these findings, we examined the influence of seeds on interpretable visual dimensions. We find that certain seeds consistently produce grayscale images, prominent sky regions, or image borders. Seeds also affect image composition, including object location, size, and depth. Moreover, by leveraging these 'golden' seeds, we demonstrate improved image generation such as high-fidelity inference and diversified sampling. Our investigation extends to inpainting tasks, where we uncover some seeds that tend to insert unwanted text artifacts. Overall, our extensive analyses highlight the importance of selecting good seeds and offer practical utility for image generation.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# Analog Counterdiabatic Quantum Computing

Analog Counterdiabatic Quantum Computing ( http://arxiv.org/abs/2405.14829v1 )

ライセンス: Link先を確認
Qi Zhang, Narendra N. Hegade, Alejandro Gomez Cadavid, Lucas Lassablière, Jan Trautmann, Sébastien Perseguers, Enrique Solano, Loïc Henriet, Eric Michon, (参考訳) 我々は,中性原子量子プロセッサの組合せ最適化問題に対処するために,アナログ反断熱量子コンピューティング(ACQC)を提案する。 これらのデバイスは数百の量子ビットを使用することができるが、断熱的量子コンピューティングは非断熱的エラーに悩まされ、ハードウェアのコヒーレンス時間制限のために避けられない。 我々は、地上のRydberg量子ビットを持つアナログ量子デバイス上で、ACQCを介してこれらの制限を回避するために、反断熱プロトコルを設計する。 提案手法の有効性を実証するため,100量子ビットの最大独立集合(MIS)問題に適用し,短い進化時間で近似比の増大を示す。 我々は、ACQCが様々な業界のユースケースに量子的優位性をもたらす道を確立していると信じている。

We propose analog counterdiabatic quantum computing (ACQC) to tackle combinatorial optimization problems on neutral-atom quantum processors. While these devices allow for the use of hundreds of qubits, adiabatic quantum computing struggles with non-adiabatic errors, which are inevitable due to the hardware's restricted coherence time. We design counterdiabatic protocols to circumvent those limitations via ACQC on analog quantum devices with ground-Rydberg qubits. To demonstrate the effectiveness of our paradigm, we experimentally apply it to the maximum independent set (MIS) problem with up to 100 qubits and show an enhancement in the approximation ratio with a short evolution time. We believe ACQC establishes a path toward quantum advantage for a variety of industry use cases.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# HippoRAG: 大規模言語モデルのための神経生物学的にヒントを得た長期記憶

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models ( http://arxiv.org/abs/2405.14831v1 )

ライセンス: Link先を確認
Bernal Jiménez Gutiérrez, Yiheng Shu, Yu Gu, Michihiro Yasunaga, Yu Su, (参考訳) 敵対的かつ絶え間なく変化する自然環境の中で育つために、哺乳類の脳は世界に関する大量の知識を蓄積し、破滅的な忘れ物を避けながら、新しい情報を継続的に統合するように進化した。 印象的な成果にもかかわらず、大規模な言語モデル(LLM)は、検索強化世代(RAG)でさえ、事前トレーニング後の大量の新しい体験を効率的に効果的に統合することに苦慮している。 本研究では,ヒトの長期記憶の海馬索引付け理論にインスパイアされた新しい検索フレームワークであるHippoRAGを紹介し,新しい体験よりも深い,より効率的な知識統合を実現する。 HippoRAGは、LLM、知識グラフ、およびパーソナライズされたPageRankアルゴリズムを相乗的にオーケストレーションし、ヒト記憶における新皮質と海馬の異なる役割を模倣する。 マルチホップ質問応答における既存のRAG法とHippoRAGを比較し,提案手法が最先端手法を最大20%向上させることを示す。 HippoRAGによるシングルステップの検索は、IRCoTのような反復的な検索に比べて10~30倍のコストと6~13倍の高速化を実現し、HippoRAGをIRCoTに組み込むことで、さらに大幅に向上する。 最後に,提案手法は既存手法に及ばない新たなシナリオに対処可能であることを示す。 コードとデータはhttps://github.com/OSU-NLP-Group/HippoRAGで公開されている。

In order to thrive in hostile and ever-changing natural environments, mammalian brains evolved to store large amounts of knowledge about the world and continually integrate new information while avoiding catastrophic forgetting. Despite the impressive accomplishments, large language models (LLMs), even with retrieval-augmented generation (RAG), still struggle to efficiently and effectively integrate a large amount of new experiences after pre-training. In this work, we introduce HippoRAG, a novel retrieval framework inspired by the hippocampal indexing theory of human long-term memory to enable deeper and more efficient knowledge integration over new experiences. HippoRAG synergistically orchestrates LLMs, knowledge graphs, and the Personalized PageRank algorithm to mimic the different roles of neocortex and hippocampus in human memory. We compare HippoRAG with existing RAG methods on multi-hop question answering and show that our method outperforms the state-of-the-art methods remarkably, by up to 20%. Single-step retrieval with HippoRAG achieves comparable or better performance than iterative retrieval like IRCoT while being 10-30 times cheaper and 6-13 times faster, and integrating HippoRAG into IRCoT brings further substantial gains. Finally, we show that our method can tackle new types of scenarios that are out of reach of existing methods. Code and data are available at https://github.com/OSU-NLP-Group/HippoRAG.
翻訳日:2024-05-24 13:37:09 公開日:2024-05-23
# Direct3D: 3次元遅延拡散変換器によるスケーラブルな画像から3次元生成

Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer ( http://arxiv.org/abs/2405.14832v1 )

ライセンス: Link先を確認
Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Jingxi Xu, Philip Torr, Xun Cao, Yao Yao, (参考訳) テキストや画像から高品質な3Dアセットを生成することは、主に複雑な幾何学分布をキャプチャできるスケーラブルな3D表現がないために、長年難しかった。 本研究では,マルチビュー拡散モデルやSDS最適化を必要とせず,入力画像にスケーラブルなネイティブ3D生成モデルであるDirect3Dを紹介する。 提案手法は,D3D-VAE (Direct 3D Variational Auto-Encoder) とD3D-DiT (Direct 3D Diffusion Transformer) の2成分からなる。 D3D-VAEは高解像度の3次元形状をコンパクトで連続的な3次元平面空間に効率的に符号化する。 特に,本手法は半連続表面サンプリング手法を用いてデコードされた幾何を直接監督し,画像のレンダリングを監督信号として用いた従来の手法から逸脱する。 D3D-DiTは、符号化された3Dラテントの分布をモデル化し、特に3次元ラテントの3つの特徴マップから位置情報を融合して、大規模3Dデータセットにスケーラブルなネイティブな3D生成モデルを可能にするように設計されている。 さらに,セマンティックおよび画素レベルの画像条件を取り入れた3次元画像生成パイプラインを導入し,提案した条件付き画像入力と整合した3次元形状をモデルで生成する。 広汎な実験により、従来の画像から3Dへのアプローチよりも大規模に事前訓練されたDirect3Dの優位性が示され、生成品質と一般化能力が大幅に向上し、3Dコンテンツ作成のための新たな最先端技術が確立された。 プロジェクトページ: https://nju-3dv.github.io/projects/Direct3D/。

Generating high-quality 3D assets from text and images has long been challenging, primarily due to the absence of scalable 3D representations capable of capturing intricate geometry distributions. In this work, we introduce Direct3D, a native 3D generative model scalable to in-the-wild input images, without requiring a multiview diffusion model or SDS optimization. Our approach comprises two primary components: a Direct 3D Variational Auto-Encoder (D3D-VAE) and a Direct 3D Diffusion Transformer (D3D-DiT). D3D-VAE efficiently encodes high-resolution 3D shapes into a compact and continuous latent triplane space. Notably, our method directly supervises the decoded geometry using a semi-continuous surface sampling strategy, diverging from previous methods relying on rendered images as supervision signals. D3D-DiT models the distribution of encoded 3D latents and is specifically designed to fuse positional information from the three feature maps of the triplane latent, enabling a native 3D generative model scalable to large-scale 3D datasets. Additionally, we introduce an innovative image-to-3D generation pipeline incorporating semantic and pixel-level image conditions, allowing the model to produce 3D shapes consistent with the provided conditional image input. Extensive experiments demonstrate the superiority of our large-scale pre-trained Direct3D over previous image-to-3D approaches, achieving significantly better generation quality and generalization ability, thus establishing a new state-of-the-art for 3D content creation. Project page: https://nju-3dv.github.io/projects/Direct3D/.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# グラフニューラルネットワーク分子特性モデルのためのQMデータを用いた原子レベルの事前学習の解析

Analysis of Atom-level pretraining with QM data for Graph Neural Networks Molecular property models ( http://arxiv.org/abs/2405.14837v1 )

ライセンス: Link先を確認
Jose Arjona-Medina, Ramil Nugmanov, (参考訳) 定量的構造-活性関係(QSAR)モデルのためのディープラーニングの急速な進歩にもかかわらず、現実世界のシナリオを新しい化合物に効果的に一般化する堅牢な分子表現を学習するという課題は、解明され未解決の課題のままである。 本研究では、量子力学(QM)データを用いた原子レベルの事前トレーニングが、トレーニングデータとテストデータ間の分布類似性に関する仮定違反を緩和し、下流タスクのパフォーマンスと一般化を改善する方法について検討する。 公開データセット Therapeutics Data Commons (TDC) では、原子レベルのQMの事前トレーニングが全体的なパフォーマンスを向上し、機能の活性化がガウス的(Gaussian)的な結果をもたらすことを示し、分散シフトに対してより堅牢な表現をもたらす。 我々の知る限りでは、分子レベルと原子レベルの事前学習がQMデータに与える影響を比較するために隠れ状態の分子表現が分析されたのはこれが初めてである。

Despite the rapid and significant advancements in deep learning for Quantitative Structure-Activity Relationship (QSAR) models, the challenge of learning robust molecular representations that effectively generalize in real-world scenarios to novel compounds remains an elusive and unresolved task. This study examines how atom-level pretraining with quantum mechanics (QM) data can mitigate violations of assumptions regarding the distributional similarity between training and test data and therefore improve performance and generalization in downstream tasks. In the public dataset Therapeutics Data Commons (TDC), we show how pretraining on atom-level QM improves performance overall and makes the activation of the features distributes more Gaussian-like which results in a representation that is more robust to distribution shifts. To the best of our knowledge, this is the first time that hidden state molecular representations are analyzed to compare the effects of molecule-level and atom-level pretraining on QM data.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# Explicit CoT から Implicit CoT: ステップごとに CoT を内部化するための学習

From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ( http://arxiv.org/abs/2405.14838v1 )

ライセンス: Link先を確認
Yuntian Deng, Yejin Choi, Stuart Shieber, (参考訳) 推論タスクに言語モデルを利用する場合、明示的なチェーン・オブ・シント(CoT)ステップを生成することは、最終的な出力で高い精度を達成するために不可欠であることがしばしば証明される。 本稿では,これらのCoTステップを内部化するためのモデルについて検討する。 そこで本研究では,CoT ステップを内在化するための簡易かつ効果的な手法を提案する。これは,CoT の論理的推論を訓練したモデルから始めて,中間ステップを徐々に除去し,モデルを微調整する。 このプロセスにより、モデルは中間的推論ステップを内部化し、高い性能を維持しながら推論プロセスを簡素化することができる。 提案手法により,GPT-2小モデルでは最大99%の精度で9-by-9乗算を解けるが,標準トレーニングでは4-by-4乗算以上は解けない。 さらに,提案手法はMistral 7Bのような大規模言語モデルに対して有効であり,中間ステップを生成せずにGSM8K上で50%以上の精度を実現している。

When leveraging language models for reasoning tasks, generating explicit chain-of-thought (CoT) steps often proves essential for achieving high accuracy in final outputs. In this paper, we investigate if models can be taught to internalize these CoT steps. To this end, we propose a simple yet effective method for internalizing CoT steps: starting with a model trained for explicit CoT reasoning, we gradually remove the intermediate steps and finetune the model. This process allows the model to internalize the intermediate reasoning steps, thus simplifying the reasoning process while maintaining high performance. Our approach enables a GPT-2 Small model to solve 9-by-9 multiplication with up to 99% accuracy, whereas standard training cannot solve beyond 4-by-4 multiplication. Furthermore, our method proves effective on larger language models, such as Mistral 7B, achieving over 50% accuracy on GSM8K without producing any intermediate steps.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# ドメインシフトのための教科書治療 : 医用画像解析のための知識優先

A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis ( http://arxiv.org/abs/2405.14839v1 )

ライセンス: Link先を確認
Yue Yang, Mona Gandhi, Yufei Wang, Yifan Wu, Michael S. Yao, Chris Callison-Burch, James C. Gee, Mark Yatskar, (参考訳) ディープ・ネットワークは、自然画像の解析において幅広い成功を収めてきたが、医学的なスキャンに適用すると、例外なく失敗することが多い。 胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。 私たちが経験的に示した重要な発見は、既存の視覚バックボーンは、これらの設定における信頼性の高い一般化のために、アーキテクチャから適切な事前を欠いていることである。 医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。 この目的のために我々は、医学教科書やPubMedで見られる臨床的に関連性のある要因による推論を制約する知識優先を組み込んだ概念ボトルネックモデルであるKnoBo(Knowledge-enhanced Bottlenecks)を導入する。 KnoBoは、検索拡張言語モデルを使用して、概念を認識するための自動トレーニング手順と組み合わせた適切な概念空間を設計する。 知識と認識アーキテクチャの異なるリソースを、20のデータセットにわたる幅広いドメインシフトに基づいて評価する。 2つの画像モダリティによる包括的な評価では、KnoBoは、統合データセット上の微調整されたモデルを平均32.4%上回っている。 最後に、PubMedはドメインシフトに敏感な医療モデルを実現するための有望なリソースであり、情報の多様性と最終的な予測性能の両方において、他のリソースよりも優れています。

While deep networks have achieved broad success in analyzing natural images, when applied to medical scans, they often fail in unexcepted situations. We investigate this challenge and focus on model sensitivity to domain shifts, such as data sampled from different hospitals or data confounded by demographic variables such as sex, race, etc, in the context of chest X-rays and skin lesion images. A key finding we show empirically is that existing visual backbones lack an appropriate prior from the architecture for reliable generalization in these settings. Taking inspiration from medical training, we propose giving deep networks a prior grounded in explicit medical knowledge communicated in natural language. To this end, we introduce Knowledge-enhanced Bottlenecks (KnoBo), a class of concept bottleneck models that incorporates knowledge priors that constrain it to reason with clinically relevant factors found in medical textbooks or PubMed. KnoBo uses retrieval-augmented language models to design an appropriate concept space paired with an automatic training procedure for recognizing the concept. We evaluate different resources of knowledge and recognition architectures on a broad range of domain shifts across 20 datasets. In our comprehensive evaluation with two imaging modalities, KnoBo outperforms fine-tuned models on confounded datasets by 32.4% on average. Finally, evaluations reveal that PubMed is a promising resource for making medical models less sensitive to domain shift, outperforming other resources on both diversity of information and final prediction performance.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 初期分布と目標分布のジェンセン・シャノン差を最小化した異種焼鈍重要度サンプリング

Differentiable Annealed Importance Sampling Minimizes The Jensen-Shannon Divergence Between Initial and Target Distribution ( http://arxiv.org/abs/2405.14840v1 )

ライセンス: Link先を確認
Johannes Zenn, Robert Bamler, (参考訳) Geffner & Domke (2021) と Zhang et al (2021) によって提唱されたDAISは、AISの初期分布を最適化する。 本稿では,多くの遷移の限界において,DAISは初期分布と目標分布の間の対称性付きKL分散(ジェンセン-シャノン分岐)を最小化することを示す。 したがって、DAISは、その初期分布が難解な対象分布に適合するパラメトリックであるという点において、変分推論(VI)の一形態と見なすことができる。 合成および実世界のデータに対する変動分布としての初期分布の有用性を実証的に評価し、標準VI(逆KL分岐の最適化)、重み付きVI(前方KL分岐の最適化)、マルコフスコアクライミング(前方KL分岐の最適化)よりも精度の高い不確実性推定値が得られることを示した。

Differentiable annealed importance sampling (DAIS), proposed by Geffner & Domke (2021) and Zhang et al. (2021), allows optimizing, among others, over the initial distribution of AIS. In this paper, we show that, in the limit of many transitions, DAIS minimizes the symmetrized KL divergence (Jensen-Shannon divergence) between the initial and target distribution. Thus, DAIS can be seen as a form of variational inference (VI) in that its initial distribution is a parametric fit to an intractable target distribution. We empirically evaluate the usefulness of the initial distribution as a variational distribution on synthetic and real-world data, observing that it often provides more accurate uncertainty estimates than standard VI (optimizing the reverse KL divergence), importance weighted VI, and Markovian score climbing (optimizing the forward KL divergence).
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# ラベルなしビデオから移動物体を検出・分離する学習

Learning to Detect and Segment Mobile Objects from Unlabeled Videos ( http://arxiv.org/abs/2405.14841v1 )

ライセンス: Link先を確認
Yihong Sun, Bharath Hariharan, (参考訳) エージェントは、例えば自動運転車の交通参加者など、興味のある対象を検出し、ローカライズする必要がある。 このタスクのバウンディングボックスという形でのスーパービジョンは非常に高価です。 このように、事前の研究では教師なしのオブジェクトセグメンテーションが検討されているが、注釈付きボックスがないため、どのようにピクセルがオブジェクトにグループ化されなければならないのか、どのオブジェクトが興味を持つのかは不明である。 これはオーバー/アンダーセグメンテーションと無関係なオブジェクトをもたらす。 人間の視覚システムと実践的応用の両方にインスパイアされた、重要な欠落したキューは動きである、と仮定する: 興味のあるオブジェクトは、通常、移動オブジェクトである。 未ラベルビデオのみから学習した移動物体検出器MOD-UVを提案する。 動作セグメンテーションから派生した擬似ラベルから始めるが、動きセグメンテーションによって欠落する小さな物体や静的な移動物体を段階的に発見する新しい訓練パラダイムを導入する。 その結果、ラベル付けされていないビデオからしか学ばないが、MOD-UVは単一の静的画像からモバイルオブジェクトを検出し、セグメンテーションすることができる。 Waymo Open, nuScenes, およびKITTIデータセット上で, 外部データや教師付きモデルを用いることなく, 教師なし移動体検出における最先端性能を実現する。 コードはhttps://github.com/YihongSun/MOD-UV.comで公開されている。

Embodied agents must detect and localize objects of interest, e.g. traffic participants for self-driving cars. Supervision in the form of bounding boxes for this task is extremely expensive. As such, prior work has looked at unsupervised object segmentation, but in the absence of annotated boxes, it is unclear how pixels must be grouped into objects and which objects are of interest. This results in over- / under-segmentation and irrelevant objects. Inspired both by the human visual system and by practical applications, we posit that the key missing cue is motion: objects of interest are typically mobile objects. We propose MOD-UV, a Mobile Object Detector learned from Unlabeled Videos only. We begin with pseudo-labels derived from motion segmentation, but introduce a novel training paradigm to progressively discover small objects and static-but-mobile objects that are missed by motion segmentation. As a result, though only learned from unlabeled videos, MOD-UV can detect and segment mobile objects from a single static image. Empirically, we achieve state-of-the-art performance in unsupervised mobile object detection on Waymo Open, nuScenes, and KITTI Dataset without using any external data or supervised models. Code is publicly available at https://github.com/YihongSun/MOD-UV.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 視覚依存提示モデルにおける高効率かつ高精度な指向性符号化

Neural Directional Encoding for Efficient and Accurate View-Dependent Appearance Modeling ( http://arxiv.org/abs/2405.14847v1 )

ライセンス: Link先を確認
Liwen Wu, Sai Bi, Zexiang Xu, Fujun Luan, Kai Zhang, Iliyan Georgiev, Kalyan Sunkavalli, Ravi Ramamoorthi, (参考訳) 光沢のある金属や光沢のある塗料のような特異な物体の新規な合成は重要な課題である。 光沢のある外観だけでなく、環境中の他の物体の反射を含む地球規模の照明効果も、シーンを忠実に再現するための重要な要素である。 本稿では,ニューラル指向符号化(Neural Directional Encoding, NDE)を提案する。 NDEは特徴グリッドに基づく空間符号化の概念を角領域に転送し、高周波角信号のモデル化能力を大幅に向上させる。 角入力のみの符号化関数を使用する従来の手法とは対照的に,空間的に異なる方向の符号化を実現するために,コーントラス空間的特徴を付加して,難解な相互反射効果に対処する。 合成データと実データの両方に対する大規模な実験により、NDE (1) を用いた NeRF モデルは、スペクトルオブジェクトのビュー合成における現状よりも優れており、(2) 高速(リアルタイム)な推論を可能にするために、小さなネットワークで動作することが示された。 プロジェクトのWebページとソースコードは以下の通りである。

Novel-view synthesis of specular objects like shiny metals or glossy paints remains a significant challenge. Not only the glossy appearance but also global illumination effects, including reflections of other objects in the environment, are critical components to faithfully reproduce a scene. In this paper, we present Neural Directional Encoding (NDE), a view-dependent appearance encoding of neural radiance fields (NeRF) for rendering specular objects. NDE transfers the concept of feature-grid-based spatial encoding to the angular domain, significantly improving the ability to model high-frequency angular signals. In contrast to previous methods that use encoding functions with only angular input, we additionally cone-trace spatial features to obtain a spatially varying directional encoding, which addresses the challenging interreflection effects. Extensive experiments on both synthetic and real datasets show that a NeRF model with NDE (1) outperforms the state of the art on view synthesis of specular objects, and (2) works with small networks to allow fast (real-time) inference. The project webpage and source code are available at: \url{https://lwwu2.github.io/nde/}.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 直接識別による局所因果発見

Local Causal Discovery for Structural Evidence of Direct Discrimination ( http://arxiv.org/abs/2405.14848v1 )

ライセンス: Link先を確認
Jacqueline Maasch, Kyra Gan, Violet Chen, Agni Orfanoudaki, Nil-Jana Akpinar, Fei Wang, (参考訳) 公正は政策設計とアルゴリズムによる意思決定において重要な目標である。 不公平な因果経路を特定するには、根底にある構造因果モデルに関する知識が必要である。 これにより、複素あるいは低知識領域における因果フェアネス解析の実践性が制限される。 この実用性ギャップを軽減するため、フェアネスアプリケーションのための効率的な因果探索手法の開発を提唱する。 そこで本研究では, 直接識別のための局所的発見(LD3): 直接識別の構造的証拠を復元する多項式時間アルゴリズムを提案する。 LD3は、可変セットサイズに関する条件付き独立テストの線形数を実行する。 さらに、直接識別の質的尺度である重み付け制御直接効果(CDE)を識別するためのグラフィカルな基準を提案する。 この基準はLD3が返す知識によって満たされ、因果フェアネス尺度としての重み付きCDEのアクセシビリティが向上することを証明する。 本研究は,肝移植を事例として,複雑な意思決定システムにおける公平性をモデル化するためのLD3の潜在的影響を強調した。 実世界のデータでは、ベースラインよりも明確な因果関係が示され、実行には197倍から5870倍の時間がかかった。

Fairness is a critical objective in policy design and algorithmic decision-making. Identifying the causal pathways of unfairness requires knowledge of the underlying structural causal model, which may be incomplete or unavailable. This limits the practicality of causal fairness analysis in complex or low-knowledge domains. To mitigate this practicality gap, we advocate for developing efficient causal discovery methods for fairness applications. To this end, we introduce local discovery for direct discrimination (LD3): a polynomial-time algorithm that recovers structural evidence of direct discrimination. LD3 performs a linear number of conditional independence tests with respect to variable set size. Moreover, we propose a graphical criterion for identifying the weighted controlled direct effect (CDE), a qualitative measure of direct discrimination. We prove that this criterion is satisfied by the knowledge returned by LD3, increasing the accessibility of the weighted CDE as a causal fairness measure. Taking liver transplant allocation as a case study, we highlight the potential impact of LD3 for modeling fairness in complex decision systems. Results on real-world data demonstrate more plausible causal relations than baselines, which took 197x to 5870x longer to execute.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 磁壁磁気トンネル接合の信頼性と火災ニューロン

Domain Wall Magnetic Tunnel Junction Reliable Integrate and Fire Neuron ( http://arxiv.org/abs/2405.14851v1 )

ライセンス: Link先を確認
Can Cui1, Sam Liu, Jaesuk Kwon, Jean Anne C. Incorvia, (参考訳) スパイキングニューラルネットワークにおいて、ニューロンのダイナミクスは、膜電位の蓄積と閾値上の発射挙動をキャプチャする生物学的に現実的な統合と発射モデルによって記述される。 インテグレート・アンド・ファイア・ニューロンデバイスのハードウェア実装のうち、重要な機能であるリセットは無視されている。 本稿では,磁区壁と磁気トンネル接合を用いた人工統合火災ニューロンデバイスの設計と製造について述べる。 筆者らは, 領域壁のレーストラック(積分)における領域伝播, 磁気トンネル接合(焼成)を用いて読み出し, 走行トラックからドメインが放出されるとリセットし, 人工ニューロンを100回以上の統合火リセットサイクルで連続的に動作させることができることを示した。 パルス振幅とパルス数符号化の両方を実証する。 デバイスデータは、スパイクニューラルネットワークを用いて画像分類タスクに適用され、理想的な漏れ・統合・発火ニューラルネットワークに匹敵する性能を示す。 これらの結果は、磁壁-磁気トンネル接合型ニューロンデバイスにおける信頼性のある統合火炎リセットを初めて実現し、ニューロモルフィックコンピューティングのためのスピントロニクスの約束を示す。

In spiking neural networks, neuron dynamics are described by the biologically realistic integrate-and-fire model that captures membrane potential accumulation and above-threshold firing behaviors. Among the hardware implementations of integrate-and-fire neuron devices, one important feature, reset, has been largely ignored. Here, we present the design and fabrication of a magnetic domain wall and magnetic tunnel junction based artificial integrate-and-fire neuron device that achieves reliable reset at the end of the integrate-fire cycle. We demonstrate the domain propagation in the domain wall racetrack (integration), reading using a magnetic tunnel junction (fire), and reset as the domain is ejected from the racetrack, showing the artificial neuron can be operated continuously over 100 integrate-fire-reset cycles. Both pulse amplitude and pulse number encoding is demonstrated. The device data is applied on an image classification task using a spiking neural network and shown to have comparable performance to an ideal leaky, integrate-and-fire neural network. These results achieve the first demonstration of reliable integrate-fire-reset in domain wall-magnetic tunnel junction-based neuron devices and shows the promise of spintronics for neuromorphic computing.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# PV調整:極端LLM圧縮のためのストレートスルー推定を超えて

PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression ( http://arxiv.org/abs/2405.14852v1 )

ライセンス: Link先を確認
Vladimir Malinovskii, Denis Mazur, Ivan Ilin, Denis Kuznedelev, Konstantin Burlachenko, Kai Yi, Dan Alistarh, Peter Richtarik, (参考訳) 大規模言語モデル(LLM)の「極端」圧縮、すなわちパラメータ毎に1-2ビットまで、リソース制約のあるデバイス上で効率的に実行されることへの大きな関心がある。 既存の研究は、改良されたワンショット量子化技術と重み表現に焦点を当てているが、純粋なポストトレーニングアプローチは、精度-vs-bit-widthトレードオフの観点からは、リターンが低下している。 QuIP#やAQLMのような最先端の量子化手法は、圧縮されたパラメータを限られた量のキャリブレーションデータで微調整することを含むが、圧縮された重みに対する微調整技術は、この設定では性能がよく理解されていないストレートスルー推定器(STE)を排他的に利用することが多い。 本研究では, 極端LLM圧縮におけるSTEの使用を疑問視し, 準最適であることを示すとともに, LLMの量子化対応微調整戦略の体系的研究を行う。 本稿では,既存の微調整戦略を一般化し,改良する表現に依存しないフレームワークであるPV-Tuningを提案する。 実用面では、1-2ビットベクトル量子化に使用する場合、PV-TuningはLlamaやMistralのような高性能モデルの先行技術に優れる。 PV-Tuningを用いて,パラメータあたり2ビットのLlama 2ファミリーモデルに対して,最初のパレート最適量子化を実現する。

There has been significant interest in "extreme" compression of large language models (LLMs), i.e., to 1-2 bits per parameter, which allows such models to be executed efficiently on resource-constrained devices. Existing work focused on improved one-shot quantization techniques and weight representations; yet, purely post-training approaches are reaching diminishing returns in terms of the accuracy-vs-bit-width trade-off. State-of-the-art quantization methods such as QuIP# and AQLM include fine-tuning (part of) the compressed parameters over a limited amount of calibration data; however, such fine-tuning techniques over compressed weights often make exclusive use of straight-through estimators (STE), whose performance is not well-understood in this setting. In this work, we question the use of STE for extreme LLM compression, showing that it can be sub-optimal, and perform a systematic study of quantization-aware fine-tuning strategies for LLMs. We propose PV-Tuning - a representation-agnostic framework that generalizes and improves upon existing fine-tuning strategies, and provides convergence guarantees in restricted cases. On the practical side, when used for 1-2 bit vector quantization, PV-Tuning outperforms prior techniques for highly-performant models such as Llama and Mistral. Using PV-Tuning, we achieve the first Pareto-optimal quantization for Llama 2 family models at 2 bits per parameter.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# プライヴィレグドセンシングによる強化学習

Privileged Sensing Scaffolds Reinforcement Learning ( http://arxiv.org/abs/2405.14853v1 )

ライセンス: Link先を確認
Edward S. Hu, James Springer, Oleh Rybkin, Dinesh Jayaraman, (参考訳) 最初に靴ひもを縛ることを学びましたが、このスキルを習得したので、タッチだけでできるのです。 我々は、この現象を「感覚的な足場」と呼んでいる:マスターが必要としない観察ストリームは、初心者の学習者を助けるかもしれない。 人工エージェントを訓練するための感覚的足場設定について検討する。 例えば、ロボットアームは、低価格で頑丈で汎用的なカメラで展開する必要があるが、その性能は、高価で控えめなモーションキャプチャーリグや、壊れやすい触覚センサーに特権的な訓練時間のみアクセスすることで改善される。 これらの設定のために,批判者,世界モデル,報酬推定器など,訓練時にのみ使用される補助的要素を効果的に活用し,目標政策を改善するための強化学習手法「Scaffolder」を提案する。 センサスキャフォールディングエージェントを評価するため,我々は,多種多様な10種類のロボットタスクからなる「S3」スイートを設計した。 エージェントは、視覚障害者を訓練するために特権カメラセンサーを使用し、ロボットアームが視覚的閉塞を克服するのを助けるために、アクティブな視覚認知、ロボットハンドを訓練するための特権タッチセンサーなどを使用する必要がある。 スカフォルダーは、関連する事前ベースラインを容易に上回り、特権センサにテストタイムアクセス可能なポリシーに対しても、相容れないほど頻繁に機能する。 ウェブサイト:https://penn-pal-lab.github.io/scaffolder/

We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon "sensory scaffolding": observation streams that are not needed by a master might yet aid a novice learner. We consider such sensory scaffolding setups for training artificial agents. For example, a robot arm may need to be deployed with just a low-cost, robust, general-purpose camera; yet its performance may improve by having privileged training-time-only access to informative albeit expensive and unwieldy motion capture rigs or fragile tactile sensors. For these settings, we propose "Scaffolder", a reinforcement learning approach which effectively exploits privileged sensing in critics, world models, reward estimators, and other such auxiliary components that are only used at training time, to improve the target policy. For evaluating sensory scaffolding agents, we design a new "S3" suite of ten diverse simulated robotic tasks that explore a wide range of practical sensor setups. Agents must use privileged camera sensing to train blind hurdlers, privileged active visual perception to help robot arms overcome visual occlusions, privileged touch sensors to train robot hands, and more. Scaffolder easily outperforms relevant prior baselines and frequently performs comparably even to policies that have test-time access to the privileged sensors. Website: https://penn-pal-lab.github.io/scaffolder/
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# TerDiT:変圧器を用いた3次拡散モデル

TerDiT: Ternary Diffusion Models with Transformers ( http://arxiv.org/abs/2405.14854v1 )

ライセンス: Link先を確認
Xudong Lu, Aojun Zhou, Ziyi Lin, Qi Liu, Yuhui Xu, Renrui Zhang, Yafei Wen, Shuai Ren, Peng Gao, Junchi Yan, Hongsheng Li, (参考訳) 大規模な事前訓練されたテキスト・画像拡散モデルにおける最近の進歩は、特にトランスフォーマーアーキテクチャ(DiT)に基づく拡散モデルの出現により、高忠実度画像の生成を著しく改善している。 これらの拡散モデルの中で、拡散変換器は優れた画像生成能力を示し、FIDスコアが低くなり、スケーラビリティが向上した。 しかし、大規模なDiTモデルのデプロイは、パラメータ数が広いため、コストがかかる可能性がある。 モデル量子化のような拡散モデルの効率的な展開手法を研究してきたが、DiTモデルに関する研究はほとんどない。 本稿では, 変圧器を用いた3次拡散モデルのための量子化対応トレーニング(QAT)と効率的な配置方式である TerDiT を提案する。 我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。 本研究は、大規模DiTモデルの効率的な展開戦略の探索に寄与し、フル精度モデルと比較して画像生成能力の競争力を維持しつつ、極低ビット拡散変圧器モデルをスクラッチから訓練することが可能であることを示す。 コードはhttps://github.com/Lucky-Lance/TerDiT.comで入手できる。

Recent developments in large-scale pre-trained text-to-image diffusion models have significantly improved the generation of high-fidelity images, particularly with the emergence of diffusion models based on transformer architecture (DiTs). Among these diffusion models, diffusion transformers have demonstrated superior image generation capabilities, boosting lower FID scores and higher scalability. However, deploying large-scale DiT models can be expensive due to their extensive parameter numbers. Although existing research has explored efficient deployment techniques for diffusion models such as model quantization, there is still little work concerning DiT-based models. To tackle this research gap, in this paper, we propose TerDiT, a quantization-aware training (QAT) and efficient deployment scheme for ternary diffusion models with transformers. We focus on the ternarization of DiT networks and scale model sizes from 600M to 4.2B. Our work contributes to the exploration of efficient deployment strategies for large-scale DiT models, demonstrating the feasibility of training extremely low-bit diffusion transformer models from scratch while maintaining competitive image generation capacities compared to full-precision models. Code will be available at https://github.com/Lucky-Lance/TerDiT.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 相乗的グローバル空間カメラと映像からの人間の復元

Synergistic Global-space Camera and Human Reconstruction from Videos ( http://arxiv.org/abs/2405.14855v1 )

ライセンス: Link先を確認
Yizhou Zhao, Tuanfeng Y. Wang, Bhiksha Raj, Min Xu, Jimei Yang, Chun-Hao Paul Huang, (参考訳) モノクラービデオから静的なシーンや人間の身体を再構築する動きが目覚ましい。 しかし、この2つの問題は相乗効果を伴わずに独立にアプローチされてきた。 ほとんどの視覚的SLAM法は、カメラの軌跡やシーン構造を大規模に再構築するしかなく、ほとんどのHMR法はメートル法で人間のメッシュを再構築するが、カメラやシーンによる推論では不足する。 この研究は、SynCHMR(Synergistic Camera and Human Restruction)を導入し、両者の長所を結婚させる。 具体的には,カメラフレームのHMRを高精細度,スケール,ダイナミックなあいまいさに対処し,カメラフレームのHMRを用いて,メカニカルカメラのポーズとシーンポイントの雲を再構成するための人間対応メトリックSLAMを設計する。 得られた密集したシーンを条件に、時空間コヒーレンシと動的シーン制約を組み込むことで、世界フレームHMRを強化するためのシーン対応SMPLデノイザを更に学習する。 同時に、共通の世界フレーム内のカメラ軌道、人間のメッシュ、密集したシーンポイントの雲を一貫した再構築に導く。 プロジェクトページ: https://paulchhuang.github.io/synchmr

Remarkable strides have been made in reconstructing static scenes or human bodies from monocular videos. Yet, the two problems have largely been approached independently, without much synergy. Most visual SLAM methods can only reconstruct camera trajectories and scene structures up to scale, while most HMR methods reconstruct human meshes in metric scale but fall short in reasoning with cameras and scenes. This work introduces Synergistic Camera and Human Reconstruction (SynCHMR) to marry the best of both worlds. Specifically, we design Human-aware Metric SLAM to reconstruct metric-scale camera poses and scene point clouds using camera-frame HMR as a strong prior, addressing depth, scale, and dynamic ambiguities. Conditioning on the dense scene recovered, we further learn a Scene-aware SMPL Denoiser to enhance world-frame HMR by incorporating spatio-temporal coherency and dynamic scene constraints. Together, they lead to consistent reconstructions of camera trajectories, human meshes, and dense scene point clouds in a common world frame. Project page: https://paulchhuang.github.io/synchmr
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# 相対論的文字列のチャネル容量

The Channel Capacity of a Relativistic String ( http://arxiv.org/abs/2405.14856v1 )

ライセンス: Link先を確認
Adam R. Brown, (参考訳) 光の逆速度の有限性から生じる電力と情報を伝達するための相対論的チャネルの容量の制限について検討する。 モデルシステムとして、相対論的不変性を組み込んだ基本弦から構築されたロープを考える。 弦の一方の端を束ねることで、電力と情報の両方を他方の端に伝達することができる。 私は、無制限の電力と情報が弦を下るかもしれないとしても、どのくらいの電力が伝達されるかに制限がある、と論じます。 さらに、私は2種類のチャネル容量(電力と情報)が互いに干渉していると推測するので、最大電力を伝送する唯一の方法は情報を送ることであり、その逆である。

I explore the limitations on the capacity of a relativistic channel to transmit power and information that arise because of the finiteness of the transverse speed of light. As a model system, I consider a rope constructed from a fundamental string, for which relativistic invariance is built in. By wiggling one end of the string, both power and information may be transmitted to the other end. I argue that even though an unbounded amount of power and information may be traveling down the string, there is a bound on how much may be transmitted. Further, I conjecture that the two kinds of channel capacity -- power and information -- interfere with each other, so that the only way to transmit the maximum amount of power is to send no information, and vice versa.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# Semantica: 適応型画像共有拡散モデル

Semantica: An Adaptable Image-Conditioned Diffusion Model ( http://arxiv.org/abs/2405.14857v1 )

ライセンス: Link先を確認
Manoj Kumar, Neil Houlsby, Emiel Hoogeboom, (参考訳) 画像生成モデルを微調整なしで異なるデータセットに適応させる作業について検討する。 この目的のために,条件付き画像のセマンティクスに基づいて画像を生成することができる画像条件拡散モデルであるSemanticaを紹介する。 Semanticaは、条件入力としてWebページからランダムなイメージを受け取り、同じWebページから別のランダムなイメージをモデル化する。 実験では,事前学習した画像エンコーダの表現性と,高品質な画像生成を実現するための意味に基づくデータフィルタリングの必要性を強調した。 トレーニングが完了すると、データセットからのイメージを入力として単純に使用することで、データセットから新しいイメージを適応的に生成できる。 ImageNet, LSUN Churches, LSUN Bedroom, SUN397におけるSemanticaの転写特性について検討した。

We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.
翻訳日:2024-05-24 13:27:25 公開日:2024-05-23
# Mamba-R: Vision Mamba ALSOに登録が必要

Mamba-R: Vision Mamba ALSO Needs Registers ( http://arxiv.org/abs/2405.14858v1 )

ライセンス: Link先を確認
Feng Wang, Jiahao Wang, Sucheng Ren, Guoyizhe Wei, Jieru Mei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie, (参考訳) ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。 これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応するもので、Vision Mambaでははるかに深刻に見えます。 この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。 Mambaブロックの一方向推論パラダイムに対処するために、2つの重要な修正が導入されている。 1)入力トークンシーケンス全体を通じてレジスタを均等に挿入し、 2)最終決定予測のためのリサイクルレジスタ。 この新しいアーキテクチャをMamba-Rと呼ぶ。 質的な観察は、バニラ・ヴィジュアル・マンバと比較して、マンバ-Rの特徴地図はよりきれいで意味のある領域に焦点を当てていることを示唆している。 定量的には、Mamba-Rはパフォーマンスが向上し、スケールが向上する。 例えば、ImageNetベンチマークでは、我々のベースサイズのMamba-Rは82.9%の精度で、Vim-Bの81.8%を大きく上回り、さらに大きなモデルサイズ(341万のパラメータを含む)へのスケーリングを初めて成功させ、競争精度は83.2%(384x384入力で微調整された場合84.5%)に達した。 下流セマンティックセグメンテーションタスクに関するさらなる検証も、Mamba-Rの有効性をサポートしている。

Similar to Vision Transformers, this paper identifies artifacts also present within the feature maps of Vision Mamba. These artifacts, corresponding to high-norm tokens emerging in low-information background areas of images, appear much more severe in Vision Mamba -- they exist prevalently even with the tiny-sized model and activate extensively across background regions. To mitigate this issue, we follow the prior solution of introducing register tokens into Vision Mamba. To better cope with Mamba blocks' uni-directional inference paradigm, two key modifications are introduced: 1) evenly inserting registers throughout the input token sequence, and 2) recycling registers for final decision predictions. We term this new architecture Mamba-R. Qualitative observations suggest, compared to vanilla Vision Mamba, Mamba-R's feature maps appear cleaner and more focused on semantically meaningful regions. Quantitatively, Mamba-R attains stronger performance and scales better. For example, on the ImageNet benchmark, our base-size Mamba-R attains 82.9% accuracy, significantly outperforming Vim-B's 81.8%; furthermore, we provide the first successful scaling to the large model size (i.e., with 341M parameters), attaining a competitive accuracy of 83.2% (84.5% if finetuned with 384x384 inputs). Additional validation on the downstream semantic segmentation task also supports Mamba-R's efficacy.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 室温量子センサを用いた原子核の準極子共鳴分光

Quadrupolar resonance spectroscopy of individual nuclei using a room-temperature quantum sensor ( http://arxiv.org/abs/2405.14859v1 )

ライセンス: Link先を確認
S. Alex Breitweiser, Mathieu Ouellet, Tzu-Yung Huang, Tim H. Taminiau, Lee C. Bassett, (参考訳) 核四極子共鳴(NQR)分光法は、核スピンと局所場の間の特異な結合を通して、物質と分子の化学結合パターンを明らかにする。 しかし、従来のNQR技術では、個々の分子の研究を妨害し、局所的な摂動や変形による分子と分子の変動を隠蔽する検出可能な信号を生成するために、核のマクロなアンサンブルを必要とする。 ダイヤモンド中の窒素空孔(NV)中心のような光学活性電子スピン量子ビットは、局所的な磁気結合を通じて個々の核の検出と制御を促進する。 ここでは、NV中心を用いて、関連する窒素14(^{14}$N)原子核を室温でNQR分光する。 原子核四極性ハミルトニアンをマッピングする際には、個々の原子核間の微小な変化を解消する。 この測定により、NV中心の電子スピンハミルトニアンと$^{14}$Nの四極ハミルトニアンのパラメータと、対称性の破れから生じる未報告のハミルトニアン項との相関が明らかになる。 さらに、核四極子ハミルトニアンを用いて、$^{14}$N核状態の量子進化を初期化し、読み出し、制御するためにパルス列を設計する。

Nuclear quadrupolar resonance (NQR) spectroscopy reveals chemical bonding patterns in materials and molecules through the unique coupling between nuclear spins and local fields. However, traditional NQR techniques require macroscopic ensembles of nuclei to yield a detectable signal, which precludes the study of individual molecules and obscures molecule-to-molecule variations due to local perturbations or deformations. Optically active electronic spin qubits, such as the nitrogen-vacancy (NV) center in diamond, facilitate the detection and control of individual nuclei through their local magnetic couplings. Here, we use NV centers to perform NQR spectroscopy on their associated nitrogen-14 ($^{14}$N) nuclei at room temperature. In mapping the nuclear quadrupolar Hamiltonian, we resolve minute variations between individual nuclei. The measurements further reveal correlations between the parameters in the NV center's electronic spin Hamiltonian and the $^{14}$N quadropolar Hamiltonian, as well as a previously unreported Hamiltonian term that results from symmetry breaking. We further design pulse sequences to initialize, readout, and control the quantum evolution of the $^{14}$N nuclear state using the nuclear quadrupolar Hamiltonian.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# すべての言語モデル機能が線形であるとは限らない

Not All Language Model Features Are Linear ( http://arxiv.org/abs/2405.14860v1 )

ライセンス: Link先を確認
Joshua Engels, Isaac Liao, Eric J. Michaud, Wes Gurnee, Max Tegmark, (参考訳) 近年の研究では、言語モデルがアクティベーション空間における概念の1次元表現("features")を操作することによって計算を行うという線形表現仮説が提案されている。 対照的に、いくつかの言語モデル表現が本質的に多次元であるかどうかを考察する。 まず、独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴を厳密に定義することから始める。 これらの定義により,GPT-2とMistral 7Bの多次元特徴を自動的に見つけるためにスパースオートエンコーダを用いたスケーラブルな手法を設計する。 これらの自動発見機能には、著しく解釈可能な例、例えば1週間と数ヶ月の日を表す円形機能などが含まれる。 我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。 最後に,これらの特徴がMistral 7BとLlama 3 8Bの介入実験により,これらの課題における計算の基本単位であることを示す。

Recent work has proposed the linear representation hypothesis: that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimensional. We begin by developing a rigorous definition of irreducible multi-dimensional features based on whether they can be decomposed into either independent or non-co-occurring lower-dimensional features. Motivated by these definitions, we design a scalable method that uses sparse autoencoders to automatically find multi-dimensional features in GPT-2 and Mistral 7B. These auto-discovered features include strikingly interpretable examples, e.g. circular features representing days of the week and months of the year. We identify tasks where these exact circles are used to solve computational problems involving modular arithmetic in days of the week and months of the year. Finally, we provide evidence that these circular features are indeed the fundamental unit of computation in these tasks with intervention experiments on Mistral 7B and Llama 3 8B, and we find further circular representations by breaking down the hidden states for these tasks into interpretable components.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# スコアベース拡散モデルにおける未知の低次元構造への適応

Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models ( http://arxiv.org/abs/2405.14861v1 )

ライセンス: Link先を確認
Gen Li, Yuling Yan, (参考訳) 本稿では, 対象分布が正規に存在する高次元空間内の低次元多様体あるいは近辺に集中している場合, 自然像分布の共通特性として, スコアベース拡散モデルについて検討する。 従来の拡散モデルのデータ生成過程の理解の試みにもかかわらず,本論文では低次元構造の存在下では,既存の理論的支援が極めて最適である。 一般的な Denoising Diffusion Probabilistic Model (DDPM) では、環境次元$d$における各 Denoising ステップ内で発生する誤差の依存性は、一般的には避けられない。 さらに、$O(k^{2}/\sqrt{T})$(ログファクタまで)の順序で収束率をもたらす係数のユニークな設計を特定し、$k$は対象分布の内在次元であり、$T$はステップ数である。 これはDDPMサンプリング器がターゲット分布における未知の低次元構造に適応できるという最初の理論実証であり、係数設計の重要な重要性を強調している。 これら全ては、より決定論的にアルゴリズム力学を特徴づける新しい分析ツールによって達成される。

This paper investigates score-based diffusion models when the underlying target distribution is concentrated on or near low-dimensional manifolds within the higher-dimensional space in which they formally reside, a common characteristic of natural image distributions. Despite previous efforts to understand the data generation process of diffusion models, existing theoretical support remains highly suboptimal in the presence of low-dimensional structure, which we strengthen in this paper. For the popular Denoising Diffusion Probabilistic Model (DDPM), we find that the dependency of the error incurred within each denoising step on the ambient dimension $d$ is in general unavoidable. We further identify a unique design of coefficients that yields a converges rate at the order of $O(k^{2}/\sqrt{T})$ (up to log factors), where $k$ is the intrinsic dimension of the target distribution and $T$ is the number of steps. This represents the first theoretical demonstration that the DDPM sampler can adapt to unknown low-dimensional structures in the target distribution, highlighting the critical importance of coefficient design. All of this is achieved by a novel set of analysis tools that characterize the algorithmic dynamics in a more deterministic manner.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# Bitune: 双方向インストラクションチューニング

Bitune: Bidirectional Instruction-Tuning ( http://arxiv.org/abs/2405.14862v1 )

ライセンス: Link先を確認
Dawid J. Kopiczko, Tijmen Blankevoort, Yuki M. Asano, (参考訳) 我々は、事前訓練されたデコーダのみの大規模言語モデルの命令チューニングを改善する方法であるBituneを導入し、下流タスクで一貫したゲインをもたらす。 Bituneは、クエリや命令のより良い表現を得るために、因果的および双方向の両方の注意をプロンプトに適用する。 2つのパラメータセットを導入し、パラメータ効率の良い微調整手法を適用した。 これらの因果的特徴と双方向的特徴は、トレーニング可能な係数を持つ重み付き平均に結合され、新しいトークンを生成するために使用される。 本研究では,コモンセンス推論,算術,言語理解タスクにおけるゼロショット性能の大幅な向上を示すとともに,各コンポーネントの役割を検証し,異なるPEFT手法に対する手法の非依存性を実証する。

We introduce Bitune, a method that improves instruction-tuning of pretrained decoder-only large language models, leading to consistent gains on downstream tasks. Bitune applies both causal and bidirectional attention to the prompt, to obtain a better representation of the query or instruction. We realize this by introducing two sets of parameters, for which we apply parameter-efficient finetuning techniques. These causal and bidirectional features are then combined into a weighted average with trainable coefficients, which is subsequently used to generate new tokens. We demonstrate significant improvements in zero-shot performance on commonsense reasoning, arithmetic, and language understanding tasks, while extensive ablation studies validate the role of each component and demonstrate the method's agnosticism to different PEFT techniques.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns

A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns ( http://arxiv.org/abs/2405.14863v1 )

ライセンス: Link先を確認
Asaf Yehudai, Taelin Karidi, Gabriel Stanovsky, Ariel Goldstein, Omri Abend, (参考訳) クロスドメインアライメント(クロスドメインアライメント)とは、あるドメインから別のドメインへ概念をマッピングするタスクを指す。 例えば、 `` a \textit{doctor} が \textit{color} であれば、それは何色か? この一見特異なタスクは、カテゴリ間のマッピングとそれらのマッピングに対する推論プロセスを通じて、人々が具体的および抽象的な概念をどのように表現するかを調査するために設計されている。 本稿では,この課題を認知科学から応用して,大規模言語モデル(LLM)の概念化と推論能力を評価する。 クロスドメインマッピングタスクを起動し,その応答を個体群と個体群の両方で分析することにより,複数のLSMを検証した。 さらに、これらのマッピングに対するモデルの説明を分析し、分類することで、モデルが予測を推論する能力を評価する。 結果は、人間のマッピングとモデルのマッピングと説明の間にいくつかの類似点を明らかにし、モデルが人間に似た概念を表現することを示唆している。 この類似性は、モデル表現だけでなく、その振る舞いにも明らかである。 さらに、モデルは主に有効な説明を提供し、人間に類似した推論経路を配置する。

Cross-domain alignment refers to the task of mapping a concept from one domain to another. For example, ``If a \textit{doctor} were a \textit{color}, what color would it be?''. This seemingly peculiar task is designed to investigate how people represent concrete and abstract concepts through their mappings between categories and their reasoning processes over those mappings. In this paper, we adapt this task from cognitive science to evaluate the conceptualization and reasoning abilities of large language models (LLMs) through a behavioral study. We examine several LLMs by prompting them with a cross-domain mapping task and analyzing their responses at both the population and individual levels. Additionally, we assess the models' ability to reason about their predictions by analyzing and categorizing their explanations for these mappings. The results reveal several similarities between humans' and models' mappings and explanations, suggesting that models represent concepts similarly to humans. This similarity is evident not only in the model representation but also in their behavior. Furthermore, the models mostly provide valid explanations and deploy reasoning paths that are similar to those of humans.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 動画拡散モデル : 学習不要なモーションインタプリタとコントローラ

Video Diffusion Models are Training-free Motion Interpreter and Controller ( http://arxiv.org/abs/2405.14864v1 )

ライセンス: Link先を確認
Zeqi Xiao, Yifan Zhou, Shuai Yang, Xingang Pan, (参考訳) ビデオ生成は主に、フレーム間での真正かつカスタマイズされた動きをモデル化することを目的としており、動きの理解と制御が重要なトピックとなっている。 ビデオモーションの拡散に基づくほとんどの研究は、トレーニングベースのパラダイムによる動きのカスタマイズに焦点を当てている。 重要なことは、これらの手法は、ビデオ拡散モデルが、それらの特徴においてクロスフレーム運動情報をエンコードする方法を探求せず、その効果の解釈性と透明性が欠如している。 そこで本研究では,映像拡散モデルにおける動作認識機能を理解し,局所化し,操作するための新しい視点を提案する。 主成分分析(PCA)を用いて解析した結果,映像拡散モデルにはロバストな動き認識機能があることが判明した。 コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。 MOFTは、明確な解釈可能性を持つ包括的な動作情報をエンコードする機能、トレーニングを必要とせずに抽出する機能、多様なアーキテクチャをまたいだ一般化性など、さまざまなメリットを提供している。 そこで本研究では,MOFTを活用した新しいトレーニングフリービデオモーション制御フレームワークを提案する。 提案手法は,自然かつ忠実な動作を生成する上での競合性能を示し,様々な下流タスクにおいてアーキテクチャに依存しない洞察と適用性を提供する。

Video generation primarily aims to model authentic and customized motion across frames, making understanding and controlling the motion a crucial topic. Most diffusion-based studies on video motion focus on motion customization with training-based paradigms, which, however, demands substantial training resources and necessitates retraining for diverse models. Crucially, these approaches do not explore how video diffusion models encode cross-frame motion information in their features, lacking interpretability and transparency in their effectiveness. To answer this question, this paper introduces a novel perspective to understand, localize, and manipulate motion-aware features in video diffusion models. Through analysis using Principal Component Analysis (PCA), our work discloses that robust motion-aware feature already exists in video diffusion models. We present a new MOtion FeaTure (MOFT) by eliminating content correlation information and filtering motion channels. MOFT provides a distinct set of benefits, including the ability to encode comprehensive motion information with clear interpretability, extraction without the need for training, and generalizability across diverse architectures. Leveraging MOFT, we propose a novel training-free video motion control framework. Our method demonstrates competitive performance in generating natural and faithful motion, providing architecture-agnostic insights and applicability in a variety of downstream tasks.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 一次元三次元系におけるボロメアン状態

Borromean states in a one-dimensional three-body system ( http://arxiv.org/abs/2405.14865v1 )

ライセンス: Link先を確認
Tobias Schnurrenberger, Lucas Happ, Maxim A. Efremov, (参考訳) 2つの同一粒子と識別可能な粒子からなる1次元量子3体系におけるボロメアン境界状態の存在を示す。 2つのボソンの間に相互作用はないと仮定され、質量不均衡な2体のサブシステムは、有界あるいは非有界に調整できる。 ファドデエフ方程式の枠組みの中では、三体スペクトルと対応する波動関数が数値的に計算される。 さらに,ボローム状態が生じる二体相互作用のパラメータ空間領域を同定し,その幾何学的性質を評価し,質量比への依存性を検討する。

We show the existence of Borromean bound states in a one-dimensional quantum three-body system composed of two identical bosons and a distinguishable particle. It is assumed that there is no interaction between the two bosons, while the mass-imbalanced two-body subsystems can be tuned to be either bound or unbound. Within the framework of the Faddeev equations, the three-body spectrum and the corresponding wave functions are computed numerically. In addition, we identify the parameter-space region for the two-body interaction, where the Borromean states occur, evaluate their geometric properties, and investigate their dependence on the mass ratio.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# テレアロハ:スパースRGBカメラを用いた低予算高精度テレプレゼンスシステム

Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras ( http://arxiv.org/abs/2405.14866v1 )

ライセンス: Link先を確認
Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu, (参考訳) 本稿では,ピアツーピア通信を対象とする低予算・高精度双方向テレプレゼンスシステムTele-Alohaを提案する。 従来のシステムと比較して、Tele-Alohaは低解像度のRGBカメラ4台、コンシューマグレードのGPU1台、ステレオスコープのスクリーン1台で高解像度(2048x2048)、リアルタイム(30fps)、低レイテンシ(150ms未満)、堅牢な遠隔通信を実現している。 本稿では,Tele-Alohaのコアとして,上半身に対する効率的なビュー合成アルゴリズムを提案する。 まず、ロバストな幾何学的キューを得るためのカスケード不均質推定器を設計する。 さらに、ガウススプラッティングによるニューラルラスタライザを導入して、潜在機能をターゲットビューに投影し、それらを縮小解像度にデコードする。 さらに、高品質なキャプチャデータから、重み付けブレンディング機構を利用して、デコードされた画像を2Kの最終的な解像度に洗練する。 世界がリードするオートステレオスコープディスプレイと低遅延アイリストラッキングを駆使して、ユーザはウェアラブルのヘッドマウントディスプレイデバイスを使わずとも、強力な3次元感覚を体験できる。 テレプレゼンスシステムは、実生活実験におけるコプレゼンス感を実証し、次世代のコミュニケーションを刺激する。

In this paper, we present a low-budget and high-authenticity bidirectional telepresence system, Tele-Aloha, targeting peer-to-peer communication scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms) and robust distant communication. As the core of Tele-Aloha, we propose an efficient novel view synthesis algorithm for upper-body. Firstly, we design a cascaded disparity estimator for obtaining a robust geometry cue. Additionally a neural rasterizer via Gaussian Splatting is introduced to project latent features onto target view and to decode them into a reduced resolution. Further, given the high-quality captured data, we leverage weighted blending mechanism to refine the decoded image into the final resolution of 2K. Exploiting world-leading autostereoscopic display and low-latency iris tracking, users are able to experience a strong three-dimensional sense even without any wearable head-mounted display device. Altogether, our telepresence system demonstrates the sense of co-presence in real-life experiments, inspiring the next generation of communication.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 高速画像合成のための分散マッチング蒸留の改良

Improved Distribution Matching Distillation for Fast Image Synthesis ( http://arxiv.org/abs/2405.14867v1 )

ライセンス: Link先を確認
Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, (参考訳) 近年のアプローチでは、効率的な1段階生成器への拡散モデルの蒸留が約束されている。 このうち、DMDは教師のサンプリング軌跡と1対1の対応を強制することなく、教師の分布に一致する1ステップのジェネレータを生成する。 しかし、安定したトレーニングを確保するために、DMDは、教師が多くのステップを決定論的サンプリング器で生成した大量のノイズ像ペアを用いて計算されたさらなる回帰損失を必要とする。 これは、大規模なテキストと画像の合成に費用がかかり、生徒の質を制限し、教師のオリジナルのサンプリングパスに近づきすぎている。 この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。 まず、回帰損失と高価なデータセット構築の必要性を排除します。 結果, 結果の不安定性は, 生成したサンプルの分布を正確に推定しない偽の批判によるものであり, 2つの時間スケール更新規則を治療として提案する。 第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。 これにより、実際のデータに基づいて学生モデルをトレーニングし、教師モデルから不完全な実点推定を緩和し、品質を向上させることができる。 最後に,マルチステップサンプリングを可能にするためにトレーニング手順を変更した。 この設定では、トレーニング時間中の推論時間生成サンプルをシミュレートすることにより、トレーニング-推論入力ミスマッチ問題を特定し、対処する。 FIDスコアはImageNet-64x64で1.28、ゼロショットCOCO 2014で8.35で、500倍の推論コストの削減にもかかわらず、元の教師を上回った。 さらに,SDXLを蒸留してメガピクセル画像を生成する手法を提案する。

Recent approaches have shown promises distilling diffusion models into efficient one-step generators. Among them, Distribution Matching Distillation (DMD) produces one-step generators that match their teacher in distribution, without enforcing a one-to-one correspondence with the sampling trajectories of their teachers. However, to ensure stable training, DMD requires an additional regression loss computed using a large set of noise-image pairs generated by the teacher with many steps of a deterministic sampler. This is costly for large-scale text-to-image synthesis and limits the student's quality, tying it too closely to the teacher's original sampling paths. We introduce DMD2, a set of techniques that lift this limitation and improve DMD training. First, we eliminate the regression loss and the need for expensive dataset construction. We show that the resulting instability is due to the fake critic not estimating the distribution of generated samples accurately and propose a two time-scale update rule as a remedy. Second, we integrate a GAN loss into the distillation procedure, discriminating between generated samples and real images. This lets us train the student model on real data, mitigating the imperfect real score estimation from the teacher model, and enhancing quality. Lastly, we modify the training procedure to enable multi-step sampling. We identify and address the training-inference input mismatch problem in this setting, by simulating inference-time generator samples during training time. Taken together, our improvements set new benchmarks in one-step image generation, with FID scores of 1.28 on ImageNet-64x64 and 8.35 on zero-shot COCO 2014, surpassing the original teacher despite a 500X reduction in inference cost. Further, we show our approach can generate megapixel images by distilling SDXL, demonstrating exceptional visual quality among few-step methods.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 生成型カメラ:超単分子動的新しいビュー合成

Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis ( http://arxiv.org/abs/2405.14868v1 )

ライセンス: Link先を確認
Basile Van Hoorick, Rundi Wu, Ege Ozguroglu, Kyle Sargent, Ruoshi Liu, Pavel Tokmakov, Achal Dave, Changxi Zheng, Carl Vondrick, (参考訳) 単一の視点から複雑な動的シーンを正確に再構築することは、コンピュータビジョンにおいて難しい課題である。 現在のダイナミックな新しいビュー合成手法は、通常、多くの異なるカメラ視点からのビデオを必要とし、注意深い記録設定を必要とし、その実用性を大幅に制限すると同時に、具体化されたAIアプリケーションも必要である。 本稿では,任意のシーンのビデオに対して,他の選択された視点から同期映像を生成し,相対カメラのポーズパラメータのセットを条件とした,大規模拡散に先立って,制御可能なモノクロダイナミックビュー合成パイプラインである$\textbf{GCD}$を提案する。 我々のモデルは入力として深度を必要とせず、3Dシーンの幾何学を明示的にモデル化せず、その目的を効率的に達成するためにエンドツーエンドの映像翻訳を行う。 合成多視点ビデオデータのみに訓練されているにもかかわらず、ゼロショットの実世界の一般化実験は、ロボット工学、オブジェクト永続性、運転環境を含む複数の領域で有望な結果を示している。 私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。

Accurate reconstruction of complex dynamic scenes from just a single viewpoint continues to be a challenging task in computer vision. Current dynamic novel view synthesis methods typically require videos from many different camera viewpoints, necessitating careful recording setups, and significantly restricting their utility in the wild as well as in terms of embodied AI applications. In this paper, we propose $\textbf{GCD}$, a controllable monocular dynamic view synthesis pipeline that leverages large-scale diffusion priors to, given a video of any scene, generate a synchronous video from any other chosen perspective, conditioned on a set of relative camera pose parameters. Our model does not require depth as input, and does not explicitly model 3D scene geometry, instead performing end-to-end video-to-video translation in order to achieve its goal efficiently. Despite being trained on synthetic multi-view video data only, zero-shot real-world generalization experiments show promising results in multiple domains, including robotics, object permanence, and driving environments. We believe our framework can potentially unlock powerful applications in rich dynamic scene understanding, perception for robotics, and interactive 3D video viewing experiences for virtual reality.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# PuzzleAvatar:個人アルバムから3Dアバターを組み立てる

PuzzleAvatar: Assembling 3D Avatars from Personal Albums ( http://arxiv.org/abs/2405.14869v1 )

ライセンス: Link先を確認
Yuliang Xiu, Yufei Ye, Zhen Liu, Dimitrios Tzionas, Michael J. Black, (参考訳) パーソナライズされた3Dアバターの生成は、AR/VRにとって不可欠である。 しかし、近年では、有名人や架空のキャラクターのアバターを生成するテキスト・ツー・3D手法が日常の人と争っている。 忠実な復元法は通常、コントロールされた設定でフルボディのイメージを必要とする。 もしユーザーが自分の「OOTD(Outfit Of The Day)」写真をアップロードして、その代わりに忠実なアバターをもらえるとしたらどうだろう? 課題は、このようなカジュアルな写真コレクションには、さまざまなポーズ、挑戦的な視点、収穫された視点、そして(一貫した服装、アクセサリー、ヘアスタイルの)隠蔽が含まれていることだ。 本稿では,OOTDアルバムから忠実な3Dアバター(カノニカルポーズ)を生成する新しいモデルであるPuzzleAvatarを開発し,身体とカメラのポーズの難易度を回避しながら,この課題に対処する。 この目的のために、このような写真に基礎となる視覚言語モデル(VLM)を微調整し、人物の外観、アイデンティティ、衣服、髪型、アクセサリーを学習トークン(別個)に符号化し、これらのキューをVLMに注入する。 事実上、学習したトークンを「パズルピース」として活用し、忠実でパーソナライズされた3Dアバターを組み立てる。 重要なのは、トークンを交換するだけでアバターをカスタマイズできることです。 この新しいタスクのベンチマークとして、PuzzleIOIと呼ばれる新しいデータセットを収集し、41人の被験者が合計で1K OOTD構成をしており、対の地上3Dボディを持つ部分的な写真に挑戦している。 PuzzleAvatarは高い再現精度、TeCHとMVDreamBoothを上回っているだけでなく、アルバム写真に特有のスケーラビリティ、強力な堅牢性を持っている。 私たちのモデルとデータは公開されます。

Generating personalized 3D avatars is crucial for AR/VR. However, recent text-to-3D methods that generate avatars for celebrities or fictional characters, struggle with everyday people. Methods for faithful reconstruction typically require full-body images in controlled settings. What if a user could just upload their personal "OOTD" (Outfit Of The Day) photo collection and get a faithful avatar in return? The challenge is that such casual photo collections contain diverse poses, challenging viewpoints, cropped views, and occlusion (albeit with a consistent outfit, accessories and hairstyle). We address this novel "Album2Human" task by developing PuzzleAvatar, a novel model that generates a faithful 3D avatar (in a canonical pose) from a personal OOTD album, while bypassing the challenging estimation of body and camera pose. To this end, we fine-tune a foundational vision-language model (VLM) on such photos, encoding the appearance, identity, garments, hairstyles, and accessories of a person into (separate) learned tokens and instilling these cues into the VLM. In effect, we exploit the learned tokens as "puzzle pieces" from which we assemble a faithful, personalized 3D avatar. Importantly, we can customize avatars by simply inter-changing tokens. As a benchmark for this new task, we collect a new dataset, called PuzzleIOI, with 41 subjects in a total of nearly 1K OOTD configurations, in challenging partial photos with paired ground-truth 3D bodies. Evaluation shows that PuzzleAvatar not only has high reconstruction accuracy, outperforming TeCH and MVDreamBooth, but also a unique scalability to album photos, and strong robustness. Our model and data will be public.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# 訓練状態のLiDARセグメンテーションモデルに関する実証的研究

An Empirical Study of Training State-of-the-Art LiDAR Segmentation Models ( http://arxiv.org/abs/2405.14870v1 )

ライセンス: Link先を確認
Jiahao Sun, Xiang Xu, Lingdong Kong, Youquan Liu, Li Li, Chenming Zhu, Jingwei Zhang, Zeqi Xiao, Runnan Chen, Tai Wang, Wenwei Zhang, Kai Chen, Chunmei Qing, (参考訳) 自動運転の分野では、複雑な3D環境を理解するために、LiDARデータの正確なセグメンテーションが不可欠である。 従来のアプローチは、しばしば異なる独立したコードベースに依存しており、統一された進歩とモデル間の公正なベンチマークを妨げる。 これらの課題に対処するために,私たちは,最先端LiDARセグメンテーションモデルの効率的なトレーニングと評価を目的とした総合ツールボックスであるMMDetection3D-lidarsegを紹介した。 我々は、幅広いセグメンテーションモデルをサポートし、ロバストネスと一般化を強化するために高度なデータ拡張技術を統合する。 さらに、ツールボックスは複数の主要なスパース畳み込みバックエンドをサポートし、計算効率と性能を最適化する。 統一されたフレームワークを育むことで、MMDetection3D-lidarsegは開発とベンチマークを合理化し、研究とアプリケーションのための新しい標準を設定します。 広く使われているデータセットに対する大規模なベンチマーク実験は、ツールボックスの有効性を実証している。 コードベースとトレーニングされたモデルは公開されており、自動運転のためのLiDARセグメンテーションの分野におけるさらなる研究と革新を促進している。

In the rapidly evolving field of autonomous driving, precise segmentation of LiDAR data is crucial for understanding complex 3D environments. Traditional approaches often rely on disparate, standalone codebases, hindering unified advancements and fair benchmarking across models. To address these challenges, we introduce MMDetection3D-lidarseg, a comprehensive toolbox designed for the efficient training and evaluation of state-of-the-art LiDAR segmentation models. We support a wide range of segmentation models and integrate advanced data augmentation techniques to enhance robustness and generalization. Additionally, the toolbox provides support for multiple leading sparse convolution backends, optimizing computational efficiency and performance. By fostering a unified framework, MMDetection3D-lidarseg streamlines development and benchmarking, setting new standards for research and application. Our extensive benchmark experiments on widely-used datasets demonstrate the effectiveness of the toolbox. The codebase and trained models have been publicly available, promoting further research and innovation in the field of LiDAR segmentation for autonomous driving.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# NeRF-Casting:一貫した反射によるビュー依存外観の改善

NeRF-Casting: Improved View-Dependent Appearance with Consistent Reflections ( http://arxiv.org/abs/2405.14871v1 )

ライセンス: Link先を確認
Dor Verbin, Pratul P. Srinivasan, Peter Hedman, Ben Mildenhall, Benjamin Attal, Richard Szeliski, Jonathan T. Barron, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は一般的に、視界の変化とともにすぐに現れる、非常に特異な物体の再構成とレンダリングに苦慮している。 最近の研究は、遠方の環境照明の詳細な明細な外観を描画するNeRFの能力を改善しているが、近い内容の一貫した反射を合成することはできない。 さらに、これらの手法は、最適化とレンダリング速度を著しく制限する外界放射率をモデル化するために、大きな計算能力を持つニューラルネットワークに依存している。 我々は、これらの問題に、レイトレーシングに基づくアプローチで対処する: 各カメラ線に沿った点における視界依存放射率を求めるために高価なニューラルネットワークをクエリする代わりに、モデルがこれらの点からの反射線をキャストし、NeRF表現を通してそれらをトレースし、小さな安価なネットワークを使用して色にデコードされた特徴ベクトルを描画する。 本モデルは,光沢のあるオブジェクトを含むシーンのビュー合成において,先行した手法よりも優れており,実際のシーンにおける光リアルな外観や反射を合成できる唯一のNeRF法であり,現状のビュー合成モデルに匹敵する最適化時間を必要とすることを実証する。

Neural Radiance Fields (NeRFs) typically struggle to reconstruct and render highly specular objects, whose appearance varies quickly with changes in viewpoint. Recent works have improved NeRF's ability to render detailed specular appearance of distant environment illumination, but are unable to synthesize consistent reflections of closer content. Moreover, these techniques rely on large computationally-expensive neural networks to model outgoing radiance, which severely limits optimization and rendering speed. We address these issues with an approach based on ray tracing: instead of querying an expensive neural network for the outgoing view-dependent radiance at points along each camera ray, our model casts reflection rays from these points and traces them through the NeRF representation to render feature vectors which are decoded into color using a small inexpensive network. We demonstrate that our model outperforms prior methods for view synthesis of scenes containing shiny objects, and that it is the only existing NeRF method that can synthesize photorealistic specular appearance and reflections in real-world scenes, while requiring comparable optimization time to current state-of-the-art view synthesis models.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# ディープステレオのためのフェデレーションオンライン適応

Federated Online Adaptation for Deep Stereo ( http://arxiv.org/abs/2405.14873v1 )

ライセンス: Link先を確認
Matteo Poggi, Fabio Tosi, (参考訳) 本稿では,ディープステレオネットワークを協調的に適用するための新しいアプローチを提案する。 連合学習の原則の上に構築することで、異なる環境にデプロイされた多数のクライアントに最適化プロセスを要求できる分散フレームワークを開発する。 これにより、リソース制約されたデバイス上で動作するディープステレオネットワークにおいて、同じアーキテクチャの他のインスタンスによって実行される適応プロセスに乗じて、独自の適応を行えなくても、挑戦環境における精度を向上させることができる。 実験結果から,フェデレーション適応はデバイス上での適応と同等に動作し,課題のある環境に対処する上でさらに優れていることが示された。

We introduce a novel approach for adapting deep stereo networks in a collaborative manner. By building over principles of federated learning, we develop a distributed framework allowing for demanding the optimization process to a number of clients deployed in different environments. This makes it possible, for a deep stereo network running on resourced-constrained devices, to capitalize on the adaptation process carried out by other instances of the same architecture, and thus improve its accuracy in challenging environments even when it cannot carry out adaptation on its own. Experimental results show how federated adaptation performs equivalently to on-device adaptation, and even better when dealing with challenging environments.
翻訳日:2024-05-24 13:17:34 公開日:2024-05-23
# Deep Learning Fusion for Effective Malware Detection: Leveraging Visual Features

Deep Learning Fusion For Effective Malware Detection: Leveraging Visual Features ( http://arxiv.org/abs/2405.14311v1 )

ライセンス: Link先を確認
Jahez Abraham Johny, Vinod P., Asmitha K. A., G. Radhamani, Rafidha Rehiman K. A., Mauro Conti, (参考訳) マルウェアは、数や洗練度が指数関数的に増大しているため、実装が容易で、信頼性があり、効果的であるソリューションを持つことが必須であるため、恐ろしい脅威となっている。 最近の研究では、深層学習多機能融合アルゴリズムが導入されたが、適切な説明は得られていない。 本研究では,マルウェアの実行可能なさまざまなモードに基づいて学習した畳み込みニューラルネットワークモデルを融合する能力について検討する。 我々は,Grayscale Image,Entropy Graph,SimHash Imageの3種類の視覚的マルウェアの特徴を利用した,新しいマルチモーダル融合アルゴリズムを提案している。 提案した戦略は、与えられたデータセット内のマルウェアを識別する際の検出レート1.00(0-1)である。 t-SNEやGrad-CAMといった可視化技術を用いて,その解釈可能性について説明した。 実験の結果、モデルは高度に不均衡なデータセットでも機能することが示された。 また, 難読化マルウェアに対する提案手法の有効性を評価し, 最先端の結果を得た。 提案手法は,VGG16モデルがリアルタイムに数秒でマルウェアを検出・分類できることを示すため,信頼性が高い。

Malware has become a formidable threat as it has been growing exponentially in number and sophistication, thus, it is imperative to have a solution that is easy to implement, reliable, and effective. While recent research has introduced deep learning multi-feature fusion algorithms, they lack a proper explanation. In this work, we investigate the power of fusing Convolutional Neural Network models trained on different modalities of a malware executable. We are proposing a novel multimodal fusion algorithm, leveraging three different visual malware features: Grayscale Image, Entropy Graph, and SimHash Image, with which we conducted exhaustive experiments independently on each feature and combinations of all three of them using fusion operators such as average, maximum, add, and concatenate for effective malware detection and classification. The proposed strategy has a detection rate of 1.00 (on a scale of 0-1) in identifying malware in the given dataset. We explained its interpretability with visualization techniques such as t-SNE and Grad-CAM. Experimental results show the model works even for a highly imbalanced dataset. We also assessed the effectiveness of the proposed method on obfuscated malware and achieved state-of-the-art results. The proposed methodology is more reliable as our findings prove VGG16 model can detect and classify malware in a matter of seconds in real-time.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# Klein-Gordon発振器、RQMおよび量子時間

Klein-Gordon oscillators, RQM and quantum time ( http://arxiv.org/abs/2405.14349v1 )

ライセンス: Link先を確認
Alexander D. Popov, (参考訳) 相対論的スピンレス粒子と相対論的量子力学(RQM)の真空との相互作用をオンにすると、Klein-Gordon方程式とKlein-Gordon振動子方程式が置き換えられることを示す。 この場合、座標時間は演算子となり、自由相対論的粒子は仮想状態に入る。 古典的および量子的クライン・ゴルドン振動子に関連する幾何学と、自由粒子の記述の基礎となる幾何学との関係について論じる。

We show that turning on the interaction of relativistic spinless particles with the vacuum of relativistic quantum mechanics (RQM) leads to the replacement of the Klein-Gordon equation with the Klein-Gordon oscillator equation. In this case, coordinate time becomes an operator and free relativistic particles go into a virtual state. We discuss geometry associated with classical and quantum Klein-Gordon oscillators, and its relation to the geometry underlying the description of free particles.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# SolNet:世界中の太陽光発電電力予測のためのオープンソースのディープラーニングモデル

SolNet: Open-source deep learning models for photovoltaic power forecasting across the globe ( http://arxiv.org/abs/2405.14472v1 )

ライセンス: Link先を確認
Joris Depoortere, Johan Driesen, Johan Suykens, Hussain Syed Kazmi, (参考訳) 近年,太陽光発電(PV)予測分野において,ディープラーニングモデルの普及が進んでいる。 これらのモデルの欠点の1つは、優れたパフォーマンスを得るために多くの高品質なデータを必要とすることである。 これは、レガシーシステムにおける測定インフラの貧弱さと、世界中の新しい太陽系の急速な構築のため、実際には実現不可能であることが多い。 本稿では、PVGISから生成された豊富な合成データから移行学習を組み込んだ2段階予測パイプラインを用いて、観測データを微調整する新しい汎用多変量ソーラーパワー予測器であるSolNetを提案する。 オランダ、オーストラリア、ベルギーの数百のサイトからの実際の生産データを用いて、SolNetはデータスカース設定やベースラインモデルよりも予測性能を改善していることを示す。 限られた観測データしか利用できない場合、転送学習の利点が最強であることが分かっています。 同時に、気象データ、季節変動パターン、合成データの量、ソース位置の誤特定の可能性などが、結果に大きな影響を及ぼす可能性があることを示し、トランスファーラーニング実践者にいくつかのガイドラインと考察を行った。 この方法で作成されたSolNetモデルは、シミュレートされた観測データを組み合わせて予測能力を向上できる地球上の土地ベースの太陽太陽光発電システムに適用できる。

Deep learning models have gained increasing prominence in recent years in the field of solar pho-tovoltaic (PV) forecasting. One drawback of these models is that they require a lot of high-quality data to perform well. This is often infeasible in practice, due to poor measurement infrastructure in legacy systems and the rapid build-up of new solar systems across the world. This paper proposes SolNet: a novel, general-purpose, multivariate solar power forecaster, which addresses these challenges by using a two-step forecasting pipeline which incorporates transfer learning from abundant synthetic data generated from PVGIS, before fine-tuning on observational data. Using actual production data from hundreds of sites in the Netherlands, Australia and Belgium, we show that SolNet improves forecasting performance over data-scarce settings as well as baseline models. We find transfer learning benefits to be the strongest when only limited observational data is available. At the same time we provide several guidelines and considerations for transfer learning practitioners, as our results show that weather data, seasonal patterns, amount of synthetic data and possible mis-specification in source location, can have a major impact on the results. The SolNet models created in this way are applicable for any land-based solar photovoltaic system across the planet where simulated and observed data can be combined to obtain improved forecasting capabilities.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# サイバー防衛のための大規模言語モデル(LLM)の概要--可能性と方向性

A Comprehensive Overview of Large Language Models (LLMs) for Cyber Defences: Opportunities and Directions ( http://arxiv.org/abs/2405.14487v1 )

ライセンス: Link先を確認
Mohammed Hassanin, Nour Moustafa, (参考訳) 最近のLLM(Large Language Models)の進歩は、データ中心のアプリケーション分野で大きな成功を収めている。 大量のテキストデータセットに基づいてトレーニングされたLLMは、コンテキストだけでなく、下流のタスクに強力な理解を提供する能力も示す。 興味深いことに、Generative Pre-trained Transformersはこの能力を利用して、少なくともデータ中心のアプリケーションにおいて、AIが置き換えられている人間に一歩近づいた。 このようなパワーは、サイバー脅威の異常を特定し、インシデント対応を強化し、定期的なセキュリティ操作を自動化するために利用することができる。 サイバー防衛部門におけるLCMの最近の活動の概要と、脅威情報、脆弱性評価、ネットワークセキュリティ、プライバシ保護、意識とトレーニング、自動化、倫理ガイドラインなどのサイバー防衛部門における分類について概説する。 トランスフォーマー, 事前学習トランスフォーマー, GPTからのLCMの進行に関する基本的な概念を述べる。 次に、各セクションの最近の研究を、関連する強みと弱みで調査する。 サイバーセキュリティにおけるLLMの課題と方向性に関する特別セクションが提供される。 最後に,サイバーセキュリティにおけるLCMのメリットを活かすための今後の研究の方向性について論じる。

The recent progression of Large Language Models (LLMs) has witnessed great success in the fields of data-centric applications. LLMs trained on massive textual datasets showed ability to encode not only context but also ability to provide powerful comprehension to downstream tasks. Interestingly, Generative Pre-trained Transformers utilised this ability to bring AI a step closer to human being replacement in at least datacentric applications. Such power can be leveraged to identify anomalies of cyber threats, enhance incident response, and automate routine security operations. We provide an overview for the recent activities of LLMs in cyber defence sections, as well as categorization for the cyber defence sections such as threat intelligence, vulnerability assessment, network security, privacy preserving, awareness and training, automation, and ethical guidelines. Fundamental concepts of the progression of LLMs from Transformers, Pre-trained Transformers, and GPT is presented. Next, the recent works of each section is surveyed with the related strengths and weaknesses. A special section about the challenges and directions of LLMs in cyber security is provided. Finally, possible future research directions for benefiting from LLMs in cyber security is discussed.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# カーネル行列の低ランク近似に対する入射誤差境界

Entrywise error bounds for low-rank approximations of kernel matrices ( http://arxiv.org/abs/2405.14494v1 )

ライセンス: Link先を確認
Alexander Modell, (参考訳) 本稿では,truncated eigen-decomposition(あるいは特異値分解)を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。 この近似はスペクトルとフロベニウスのノルム誤差に関して最適であることが知られているが、個々のエントリの統計的挙動についてはほとんど知られていない。 私たちのエラーは、このギャップを埋める。 重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果であり、ランダム行列理論の分野から着想を得ている。 最後に、我々の理論を、合成および実世界のデータセットの集合に関する実証的研究で検証する。

In this paper, we derive entrywise error bounds for low-rank approximations of kernel matrices obtained using the truncated eigen-decomposition (or singular value decomposition). While this approximation is well-known to be optimal with respect to the spectral and Frobenius norm error, little is known about the statistical behaviour of individual entries. Our error bounds fill this gap. A key technical innovation is a delocalisation result for the eigenvectors of the kernel matrix corresponding to small eigenvalues, which takes inspiration from the field of Random Matrix Theory. Finally, we validate our theory with an empirical study of a collection of synthetic and real-world datasets.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# グラフェン被覆格子のカシミール・リフシッツ力

Casimir-Lifshitz force for graphene-covered gratings ( http://arxiv.org/abs/2405.14523v1 )

ライセンス: Link先を確認
Youssef Jeyar, Minggang Luo, Brahim Guizal, H. B. Chan, Mauro Antezza, (参考訳) 金板とグラフェン被覆誘電体格子のカシミール・リフシッツ力(CLF)について検討した。 フーリエモーダル法 (FMM) から導かれる散乱行列 (S-行列) 法を用いて, グラフェンを塗布した単なる誘電体スラブに比べて, 幅広い温度でCLFの顕著な増強が認められた。 さらに, CLFはグラフェンの化学的ポテンシャルに強く依存し, 低充填率で最大効果が観察された。 最後に、金球とグラフェン被覆誘電体格子の間のカシミール力勾配を分析し、実験的な測定のための潜在的な道筋を明らかにする。

We study the Casimir-Lifshitz force (CLF) between a gold plate and a graphene-covered dielectric grating. Using a scattering matrix (S-matrix) approach derived from the Fourier Modal Method (FMM), we find a significant enhancement in the CLF as compared to a mere dielectric slab coated with graphene, over a wide range of temperatures. Additionally, we demonstrate that the CLF depends strongly on the chemical potential of graphene, with maximal effects observed at lower filling fractions. Finally, we analyse the Casimir force gradient between a gold sphere and a graphene-coated dielectric grating, highlighting potential avenues for experimental measurements.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# プライバシ・アウェアとパーソナライズされた補助ロボットを目指して--ユーザ中心アプローチ

Towards Privacy-Aware and Personalised Assistive Robots: A User-Centred Approach ( http://arxiv.org/abs/2405.14528v1 )

ライセンス: Link先を確認
Fernando E. Casado, (参考訳) 高齢者の世界的な増加は、介護負担を軽減しつつ、脆弱な個人の生活の質を向上させるために革新的な長期医療ソリューションを必要としている。 機械学習の進歩を活用する支援ロボットは、有望なパーソナライズされたサポートを提供する。 しかし、彼らの日常生活への統合は、重要なプライバシー上の懸念を引き起こす。 ロボットオペレーティングシステム(ROS)のような広く使われているフレームワークは、歴史的に固有のプライバシーメカニズムを欠き、ロボット工学におけるデータ駆動アプローチを複雑にしている。 この研究は、Federated Learning (FL)のようなユーザー中心のプライバシーを意識したテクノロジーの先駆者であり、補助ロボティクスを推進している。 FLは機密データを共有せずに協調学習を可能にし、プライバシとスケーラビリティの問題に対処する。 この作業には、スマート車椅子アシストのためのソリューションの開発、ユーザの独立性の向上、幸福感の向上が含まれる。 非定常データや異種環境に関わる課題に対処することで、パーソナライゼーションとユーザエクスペリエンスの向上を目指す。 最終的には、高齢者や介護依存者の生活の質を高めるために、支援ロボットの社会への責任ある統合を導こうとしている。

The global increase in the elderly population necessitates innovative long-term care solutions to improve the quality of life for vulnerable individuals while reducing caregiver burdens. Assistive robots, leveraging advancements in Machine Learning, offer promising personalised support. However, their integration into daily life raises significant privacy concerns. Widely used frameworks like the Robot Operating System (ROS) historically lack inherent privacy mechanisms, complicating data-driven approaches in robotics. This research pioneers user-centric, privacy-aware technologies such as Federated Learning (FL) to advance assistive robotics. FL enables collaborative learning without sharing sensitive data, addressing privacy and scalability issues. This work includes developing solutions for smart wheelchair assistance, enhancing user independence and well-being. By tackling challenges related to non-stationary data and heterogeneous environments, the research aims to improve personalisation and user experience. Ultimately, it seeks to lead the responsible integration of assistive robots into society, enhancing the quality of life for elderly and care-dependent individuals.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# 薬物・標的相互作用予測のためのクロスフィールド融合戦略

A Cross-Field Fusion Strategy for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2405.14545v1 )

ライセンス: Link先を確認
Hongzhi Zhang, Xiuwen Gong, Shirui Pan, Jia Wu, Bo Du, Wenbin Hu, (参考訳) 薬物-標的相互作用(DTI)予測は、薬物発見プロセスの重要な構成要素である。 医薬品開発工学分野では、新しい医薬品と標的の相互作用を予測することが極めて重要であるが、既存の手法は既知の医薬品や薬物の標的を予測する上で高い精度を達成しているが、DTI予測の間、グローバルなタンパク質情報の利用には失敗している。 これにより、新規薬物と標的との相互作用を効果的に予測できない。 その結果、局所的およびグローバルなタンパク質情報を取得するために、クロスフィールド情報融合戦略が採用された。 そこで,3つのベンチマークデータセットを用いた実験により,SiamDTIが新規薬物や標的に対する他の最先端(SOTA)手法よりも高い精度を達成することを示すとともに,既知の薬物や標的に対するSiamDTIの性能はSOTAアプローチに匹敵することを示した。 コードはhttps://anonymous.4open.science/r/DDDTI-434Dで公開されている。

Drug-target interaction (DTI) prediction is a critical component of the drug discovery process. In the drug development engineering field, predicting novel drug-target interactions is extremely crucial.However, although existing methods have achieved high accuracy levels in predicting known drugs and drug targets, they fail to utilize global protein information during DTI prediction. This leads to an inability to effectively predict interaction the interactions between novel drugs and their targets. As a result, the cross-field information fusion strategy is employed to acquire local and global protein information. Thus, we propose the siamese drug-target interaction SiamDTI prediction method, which utilizes a double channel network structure for cross-field supervised learning.Experimental results on three benchmark datasets demonstrate that SiamDTI achieves higher accuracy levels than other state-of-the-art (SOTA) methods on novel drugs and targets.Additionally, SiamDTI's performance with known drugs and targets is comparable to that of SOTA approachs. The code is available at https://anonymous.4open.science/r/DDDTI-434D.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# 可逆散逸進化のためのラグランジアンニューラルネットワーク

Lagrangian Neural Networks for Reversible Dissipative Evolution ( http://arxiv.org/abs/2405.14645v1 )

ライセンス: Link先を確認
Veera Sundararaghavan, Megna N. Shah, Jeff P. Simmons, (参考訳) ラグランジアン力学とハミルトン力学をネットワークトレーニングで活用し、物理をネットワークに組み込むことに注目が集まっている。 最も一般的には、摩擦損失のない保守的なシステムがモデル化されているため、規則化を必要とせずに、システムは前後に進むことができる。 この研究は、進行進化で発生する散逸のために逆方向が悪くなるシステムに対処する。 その斬新さはモース=フェーシュバッハ・ラグランジアン(Morse-Feshbach Lagrangian)の使用であり、これは可観測系の散逸と相反するミラー潜在表現を生成するために系の次元を倍にすることで散逸力学をモデル化し、より広い空間に埋め込まれた保守的なシステムとなる。 我々は、ユーラー・ラグランジュ方程式の未知行列が観測可能量のみに関してラグランジュ方程式の部分微分として生じるような、新しい散逸的ラグランジュ方程式を再定義することによって、それらの形式的なアプローチから始める。 次に、物質科学で発生するフィック拡散のような散逸系のための模擬訓練データからネットワークを訓練する。 実験により、これらの系はモース=フェシュバッハ・ラグランジアンによって提供される以上の正規化をすることなく、前方方向と逆方向の両方で進化することができることが示されている。 フィック拡散のような散逸系の実験は、力学が逆転できる度合いを示す。

There is a growing attention given to utilizing Lagrangian and Hamiltonian mechanics with network training in order to incorporate physics into the network. Most commonly, conservative systems are modeled, in which there are no frictional losses, so the system may be run forward and backward in time without requiring regularization. This work addresses systems in which the reverse direction is ill-posed because of the dissipation that occurs in forward evolution. The novelty is the use of Morse-Feshbach Lagrangian, which models dissipative dynamics by doubling the number of dimensions of the system in order to create a mirror latent representation that would counterbalance the dissipation of the observable system, making it a conservative system, albeit embedded in a larger space. We start with their formal approach by redefining a new Dissipative Lagrangian, such that the unknown matrices in the Euler-Lagrange's equations arise as partial derivatives of the Lagrangian with respect to only the observables. We then train a network from simulated training data for dissipative systems such as Fickian diffusion that arise in materials sciences. It is shown by experiments that the systems can be evolved in both forward and reverse directions without regularization beyond that provided by the Morse-Feshbach Lagrangian. Experiments of dissipative systems, such as Fickian diffusion, demonstrate the degree to which dynamics can be reversed.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# エネルギーモデル学習における相転移のカスケード

Cascade of phase transitions in the training of Energy-based models ( http://arxiv.org/abs/2405.14689v1 )

ライセンス: Link先を確認
Dimitrios Bachtis, Giulio Biroli, Aurélien Decelle, Beatriz Seoane, (参考訳) 本稿では,原型エネルギーベース生成モデルであるRestricted Boltzmann Machine (RBM)の特徴符号化過程について検討する。 まず、単純化されたアーキテクチャとデータ構造を用いた分析研究から始め、実際のデータセット上での実際のトレーニングの数値解析で終わります。 本研究は, その特異値分解によるモデル重み行列の進化を追跡した結果, 経験的確率分布の主モードの漸進的学習に関連する一連の相転移が明らかになった。 モデルはまずモードの質量の中心を学習し、その後相転移のカスケードを通じて全てのモードを段階的に解決する。 まず、この過程を制御された設定で解析的に記述し、学習力学を解析的に研究することができる。 次に、実データ集合上でベルヌーイ・ベルヌーリ RBM を訓練することにより、理論的結果を検証する。 増大する次元のデータセットを用いることで,学習が高次元限界における急激な位相遷移をもたらすことを示す。 さらに、平均フィールド有限サイズスケーリング仮説を提案し、検証する。 これは、第1相転移が、我々が分析的に調べたものと同じ普遍性クラスであり、平均磁場の常磁性-強磁性相転移を連想させることを示している。

In this paper, we investigate the feature encoding process in a prototypical energy-based generative model, the Restricted Boltzmann Machine (RBM). We start with an analytical investigation using simplified architectures and data structures, and end with numerical analysis of real trainings on real datasets. Our study tracks the evolution of the model's weight matrix through its singular value decomposition, revealing a series of phase transitions associated to a progressive learning of the principal modes of the empirical probability distribution. The model first learns the center of mass of the modes and then progressively resolve all modes through a cascade of phase transitions. We first describe this process analytically in a controlled setup that allows us to study analytically the training dynamics. We then validate our theoretical results by training the Bernoulli-Bernoulli RBM on real data sets. By using data sets of increasing dimension, we show that learning indeed leads to sharp phase transitions in the high-dimensional limit. Moreover, we propose and test a mean-field finite-size scaling hypothesis. This shows that the first phase transition is in the same universality class of the one we studied analytically, and which is reminiscent of the mean-field paramagnetic-to-ferromagnetic phase transition.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# Baggingは、指数関数的に一般化を改善する

Bagging Improves Generalization Exponentially ( http://arxiv.org/abs/2405.14741v1 )

ライセンス: Link先を確認
Huaqian Jie, Donghao Ying, Henry Lam, Wotao Yin, (参考訳) Baggingは、機械学習モデルの精度を改善するための一般的なアンサンブルテクニックである。 これは、再サンプリングされたデータに基づいて繰り返し再訓練することで、集約されたモデルはより分散度が低く、安定性が高く、特に不連続な基礎学習者に対して高い安定性を示すという、確立された理論的根拠に基づいている。 出力レベルではなくパラメトリゼーションでベース学習者を適切に集約することにより、バッグングは分散低減よりもはるかに強力な強度である一般化性能を指数関数的に向上する。 より正確には、一般化誤差の緩やかな(多項式的に)減衰に苦しむ一般確率最適化問題に対して、バッグングはこれらの誤差を指数的減衰に効果的に還元することができることを示す。 さらに、このバッグングのパワーは、一般的な経験的リスク最小化、分布的に堅牢な最適化、および様々な正規化を含む、ソリューションスキームに依存しない。 本研究は,本質的な速度低下に苦しむ重み付きデータを含む多種多様な事例において,バッグングが一般化性能を大幅に向上することを示す。

Bagging is a popular ensemble technique to improve the accuracy of machine learning models. It hinges on the well-established rationale that, by repeatedly retraining on resampled data, the aggregated model exhibits lower variance and hence higher stability, especially for discontinuous base learners. In this paper, we provide a new perspective on bagging: By suitably aggregating the base learners at the parametrization instead of the output level, bagging improves generalization performances exponentially, a strength that is significantly more powerful than variance reduction. More precisely, we show that for general stochastic optimization problems that suffer from slowly (i.e., polynomially) decaying generalization errors, bagging can effectively reduce these errors to an exponential decay. Moreover, this power of bagging is agnostic to the solution schemes, including common empirical risk minimization, distributionally robust optimization, and various regularizations. We demonstrate how bagging can substantially improve generalization performances in a range of examples involving heavy-tailed data that suffer from intrinsically slow rates.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# 企業買収プロセスにおける異常検出への機械学習の適用

Applied Machine Learning to Anomaly Detection in Enterprise Purchase Processes ( http://arxiv.org/abs/2405.14754v1 )

ライセンス: Link先を確認
A. Herreros-Martínez, R. Magdalena-Benedicto, J. Vila-Francés, A. J. Serrano-López, S. Pérez-Díaz, (参考訳) プロセスの継続的なデジタル化という文脈において、組織はデータ量の増加に伴って不審な活動を明らかにするような異常を検出するという課題に対処しなければなりません。 この目標を達成するため、定期的に監査エンゲージメントが行われ、内部監査員や購入スペシャリストは、これらのプロセスを自動化するための新しい手法を常に探している。 本研究は、実データから2つの大きな購入データセットから検出された事例を優先的に調査する手法を提案する。 目的は、企業の管理努力の有効性に寄与し、その実施実績を高めることである。 異常検出に対処する教師なし機械学習技術を使用する前に、包括的探索データ分析を行う。 z-ScoreインデックスとDBSCANアルゴリズムを用いて一変量法を適用し、k-Means and isolated ForestアルゴリズムとSilhouetteインデックスを用いて多変量解析を行い、トランザクション候補の提案をレビューする。 候補者のアンサンブル優先順位付けは、企業専門家の理解を支援するための説明可能性手法(LIME, Shapley, SHAP)の提案と共同で行われる。

In a context of a continuous digitalisation of processes, organisations must deal with the challenge of detecting anomalies that can reveal suspicious activities upon an increasing volume of data. To pursue this goal, audit engagements are carried out regularly, and internal auditors and purchase specialists are constantly looking for new methods to automate these processes. This work proposes a methodology to prioritise the investigation of the cases detected in two large purchase datasets from real data. The goal is to contribute to the effectiveness of the companies' control efforts and to increase the performance of carrying out such tasks. A comprehensive Exploratory Data Analysis is carried out before using unsupervised Machine Learning techniques addressed to detect anomalies. A univariate approach has been applied through the z-Score index and the DBSCAN algorithm, while a multivariate analysis is implemented with the k-Means and Isolation Forest algorithms, and the Silhouette index, resulting in each method having a transaction candidates' proposal to be reviewed. An ensemble prioritisation of the candidates is provided jointly with a proposal of explicability methods (LIME, Shapley, SHAP) to help the company specialists in their understanding.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# 協調Jahn-Tellerモデルにおける軌道順序の速度論:機械学習が大規模シミュレーションを可能にした

Kinetics of orbital ordering in cooperative Jahn-Teller models: Machine-learning enabled large-scale simulations ( http://arxiv.org/abs/2405.14776v1 )

ライセンス: Link先を確認
Supriyo Ghosh, Sheng Zhang, Chen Cheng, Gia-Wei Chern, (参考訳) 本稿では,JTシステムの断熱力学に対するスケーラブル機械学習(ML)力場モデルを提案する。 JTモデルの大規模力学シミュレーションは、コロッサル磁気抵抗マンガナイトの軌道秩序力学にも光を当てた。 これらの材料におけるJT効果は、e_g$電子の軌道自由度への結合によって駆動される局所酸素オクタヘドラの歪みを記述する。 局所的なJTモード間の効果的な電子媒介相互作用は、構造遷移と低温における長距離軌道秩序の出現をもたらす。 局所性の原理を仮定すると、JTフォノンの動的進化を駆動する電子誘起力の正確かつ効率的に予測するディープラーニングニューラルネットワークモデルが開発されている。 グループ理論法を用いて、MLモデルに軌道対称性と格子対称性を組み合わせた記述子を開発する。 ML力場モデルにより実現された大規模ランゲヴィン動力学シミュレーションを行い, 熱クエンチ後の複合JT歪みと軌道秩序の粗大化ダイナミクスについて検討した。 軌道領域の後期の粗化は、領域構造の異常な形態に関係している可能性が高い凍結挙動を顕著に示している。 我々の研究は、相関電子系のマルチスケール力学モデリングのための有望な道のりを強調している。

We present a scalable machine learning (ML) force-field model for the adiabatic dynamics of cooperative Jahn-Teller (JT) systems. Large scale dynamical simulations of the JT model also shed light on the orbital ordering dynamics in colossal magnetoresistance manganites. The JT effect in these materials describes the distortion of local oxygen octahedra driven by a coupling to the orbital degrees of freedom of $e_g$ electrons. An effective electron-mediated interaction between the local JT modes leads to a structural transition and the emergence of long-range orbital order at low temperatures. Assuming the principle of locality, a deep-learning neural-network model is developed to accurately and efficiently predict the electron-induced forces that drive the dynamical evolution of JT phonons. A group-theoretical method is utilized to develop a descriptor that incorporates the combined orbital and lattice symmetry into the ML model. Large-scale Langevin dynamics simulations, enabled by the ML force-field models, are performed to investigate the coarsening dynamics of the composite JT distortion and orbital order after a thermal quench. The late-stage coarsening of orbital domains exhibits pronounced freezing behaviors which are likely related to the unusual morphology of the domain structures. Our work highlights a promising avenue for multi-scale dynamical modeling of correlated electron systems.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# キプレット系システムの非接触探傷技術に対する脆弱性評価

Evaluating Vulnerability of Chiplet-Based Systems to Contactless Probing Techniques ( http://arxiv.org/abs/2405.14821v1 )

ライセンス: Link先を確認
Aleksa Deric, Kyle Mitard, Shahin Tajik, Daniel Holcomb, (参考訳) チップ性能の向上と革新的な機能の導入の必要性により、多くの半導体企業がオールインクルーシブなSystem-on-Chip(SoC)アーキテクチャを選択している。 ムーアの法則はより複雑な論理学の需要に追随することができたが、大きなダイの製造は依然として課題となっている。 シリコン欠陥が製造収量に与える影響を最小限に抑えるために採用されるソリューションは、設計をチップレットと呼ばれる複数の小さな型に分割し、シリコンインターポーザにまとめることである。 このような統合を可能にする高度な2.5Dおよび3Dパッケージング技術は、電力効率の向上と異種統合の機会を約束する。 しかし、その利点にもかかわらず、チップレットには問題はない。 新しいパッケージング技術で生じる製造上の課題とは別に、設計を論理的に、物理的に分離したダイに分離することで、露出したデータラインの改ざんや探索など、新たな脅威がもたらされる。 本稿では,チップレットをベースとしたAMD/Xilinx VU9P FPGAにレーザ非接触型プローブ技術を適用することにより,チップレットのプローブへの露出を評価する。 まず、インターポーラワイヤドライバを識別し、マップし、内部ノードの探索に比べて探すのが簡単であることを示す。 最後に,レーザー探傷による遅延変化が,100\%のレーザーパワーでもわずか0.792psであり,物理的プローブから保護できる遅延型センサはレーザー探傷から保護するには不十分であることを示す。

Driven by a need for ever increasing chip performance and inclusion of innovative features, a growing number of semiconductor companies are opting for all-inclusive System-on-Chip (SoC) architectures. Although Moore's Law has been able to keep up with the demand for more complex logic, manufacturing large dies still poses a challenge. Increasingly the solution adopted to minimize the impact of silicon defects on manufacturing yield has been to split a design into multiple smaller dies called chiplets which are then brought together on a silicon interposer. Advanced 2.5D and 3D packaging techniques that enable this kind of integration also promise increased power efficiency and opportunities for heterogeneous integration. However, despite their advantages, chiplets are not without issues. Apart from manufacturing challenges that come with new packaging techniques, disaggregating a design into multiple logically and physically separate dies introduces new threats, including the possibility of tampering with and probing exposed data lines. In this paper we evaluate the exposure of chiplets to probing by applying laser contactless probing techniques to a chiplet-based AMD/Xilinx VU9P FPGA. First, we identify and map interposer wire drivers and show that probing them is easier compared to probing internal nodes. Lastly, we demonstrate that delay-based sensors, which can be used to protect against physical probes, are insufficient to protect against laser probing as the delay change due to laser probing is only 0.792ps even at 100\% laser power.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# 深層学習格子ゲージ理論

Deep learning lattice gauge theories ( http://arxiv.org/abs/2405.14830v1 )

ライセンス: Link先を確認
Anuj Apte, Anthony Ashmore, Clay Cordova, Tzu-Chen Huang, (参考訳) モンテカルロ法は格子ゲージ理論の強結合挙動に深い洞察をもたらし、ハドロン質量の第一原理計算のような顕著な結果を生み出した。 過去40年間に大きく進歩したにもかかわらず、サイン問題やリアルタイム力学をシミュレートできないといった根本的な課題が残っている。 ニューラルネットワーク量子状態は、これらの課題を克服するための代替手法として登場した。 本研究では、ゲージ不変なニューラルネットワーク量子状態を用いて、$\mathbb{Z}_N$格子ゲージ理論の基底状態を2+1$次元で正確に計算する。 移動学習を用いて,これらの理論の位相相と閉じ込め相転移について検討する。 $\mathbb{Z}_2$ に対して、連続遷移を同定し臨界指数を計算し、期待されるイジング普遍性クラスに対する既存の数値との優れた一致を見出す。 $\mathbb{Z}_3$の場合、弱い一階遷移を観察し、臨界結合を同定する。 この結果から,ニューラルネットワーク量子状態は格子ゲージ理論の高精度な研究方法として有望であることが示唆された。

Monte Carlo methods have led to profound insights into the strong-coupling behaviour of lattice gauge theories and produced remarkable results such as first-principles computations of hadron masses. Despite tremendous progress over the last four decades, fundamental challenges such as the sign problem and the inability to simulate real-time dynamics remain. Neural network quantum states have emerged as an alternative method that seeks to overcome these challenges. In this work, we use gauge-invariant neural network quantum states to accurately compute the ground state of $\mathbb{Z}_N$ lattice gauge theories in $2+1$ dimensions. Using transfer learning, we study the distinct topological phases and the confinement phase transition of these theories. For $\mathbb{Z}_2$, we identify a continuous transition and compute critical exponents, finding excellent agreement with existing numerics for the expected Ising universality class. In the $\mathbb{Z}_3$ case, we observe a weakly first-order transition and identify the critical coupling. Our findings suggest that neural network quantum states are a promising method for precise studies of lattice gauge theory.
翻訳日:2024-05-24 13:07:39 公開日:2024-05-23
# E2E-MFD:End-to-End同期マルチモーダル核融合検出に向けて

E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection ( http://arxiv.org/abs/2403.09323v3 )

ライセンス: Link先を確認
Jiaqing Zhang, Mingxiang Cao, Xue Yang, Weiying Xie, Jie Lei, Daixun Li, Wenbo Huang, Yunsong Li, (参考訳) マルチモーダル画像融合と物体検出は自動運転に不可欠である。 現在の手法ではテクスチャの詳細と意味情報の融合が進んでいるが、それらの複雑なトレーニングプロセスは幅広い応用を妨げる。 この課題に対処するために,マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを導入する。 E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。 個々のタスクに結びついた最適以下のソリューションを避けるために、コンポーネント間で同期的なジョイント最適化を採用している。 さらに、共有パラメータの勾配行列に包括的な最適化戦略を実装し、最適核融合検出構成への収束を確保する。 複数の公開データセットに対する大規模なテストでは、E2E-MFDの優れた機能を明らかにし、画像融合だけでなく、水平オブジェクト検出データセットM3FDとオブジェクト指向オブジェクト検出データセットDroneVehicleに対する3.9%と2.0%のmAP50の増加といった印象的な検出結果も示す。 コードはhttps://github.com/icey-zhang/E2E-MFDで公開されている。

Multimodal image fusion and object detection are crucial for autonomous driving. While current methods have advanced the fusion of texture details and semantic information, their complex training processes hinder broader applications. Addressing this challenge, we introduce E2E-MFD, a novel end-to-end algorithm for multimodal fusion detection. E2E-MFD streamlines the process, achieving high performance with a single training phase. It employs synchronous joint optimization across components to avoid suboptimal solutions tied to individual tasks. Furthermore, it implements a comprehensive optimization strategy in the gradient matrix for shared parameters, ensuring convergence to an optimal fusion detection configuration. Our extensive testing on multiple public datasets reveals E2E-MFD's superior capabilities, showcasing not only visually appealing image fusion but also impressive detection outcomes, such as a 3.9% and 2.0% mAP50 increase on horizontal object detection dataset M3FD and oriented object detection dataset DroneVehicle, respectively, compared to state-of-the-art approaches. The code is released at https://github.com/icey-zhang/E2E-MFD.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-23
# 自己教師付き学習における普遍性の明示的モデリング

Explicitly Modeling Universality into Self-Supervised Learning ( http://arxiv.org/abs/2405.01053v3 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Zeen Song, Lingyu Si, Jiangmeng Li, Changwen Zheng, Bing Su, (参考訳) 自己教師付き学習(SSL)における普遍性の目標は、ラベルのないデータから普遍的な表現を学習し、すべてのサンプルやタスクにおいて優れたパフォーマンスを達成することである。 しかし、これらの手法は学習目的における普遍性の明示的なモデリングを欠いているため、関連する理論的理解は限られている。 これにより、モデルはデータスカースな状況に過度に適合し、現実の生活であまり一般化しない可能性がある。 これらの問題に対処するため、SSLモデルの学習と評価の普遍性の両方を、識別可能性、転送可能性、一般化の観点から制約する、SSLにおける普遍性の理論的定義を提供する。 そこで我々は,あるSSLモデルの普遍性のスコアの定量化を支援するために,$\sigma$-measurementを提案する。 定義と測定に基づいて、汎用性をSSLに明示的にモデル化する、GeSSLと呼ばれる一般的なSSLフレームワークを提案する。 これは$\sigma$-measurementに基づく自己動機的ターゲットを導入し、モデルが普遍性に対する最適な更新方向を見つけることを可能にする。 広範囲な理論的および経験的評価は、GeSSLの優れた性能を示している。

The goal of universality in self-supervised learning (SSL) is to learn universal representations from unlabeled data and achieve excellent performance on all samples and tasks. However, these methods lack explicit modeling of the universality in the learning objective, and the related theoretical understanding remains limited. This may cause models to overfit in data-scarce situations and generalize poorly in real life. To address these issues, we provide a theoretical definition of universality in SSL, which constrains both the learning and evaluation universality of the SSL models from the perspective of discriminability, transferability, and generalization. Then, we propose a $\sigma$-measurement to help quantify the score of one SSL model's universality. Based on the definition and measurement, we propose a general SSL framework, called GeSSL, to explicitly model universality into SSL. It introduces a self-motivated target based on $\sigma$-measurement, which enables the model to find the optimal update direction towards universality. Extensive theoretical and empirical evaluations demonstrate the superior performance of GeSSL.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-23
# ベースレス予測から不十分な文脈と不確実なマルチモーダル状況の検出

Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions ( http://arxiv.org/abs/2405.11145v2 )

ライセンス: Link先を確認
Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas, Rui Sun, Shih-Fu Chang, Kai-Wei Chang, (参考訳) VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG、VisualCOMETなどのVLUベンチマークが広く採用されているにもかかわらず、我々の分析は、その完全性に影響を与える広範囲な問題を明らかにしている。 このようなデータのトレーニングモデルは、モデルが同様に不確実な仮定をする傾向があるため、バイアス付き学習と幻覚を促進する。 この問題に対処するために,各サンプルのコンテキストデータを収集し,エビデンスに基づくモデル予測を容易にするために,コンテキスト選択モジュールを訓練する。 複数のベンチマークによる強力な改善は、我々のアプローチの有効性を示しています。 さらに,十分なコンテキストを持たないサンプルを識別し,必要なコンテキストがない場合の応答を控えることによりモデル精度を向上させる汎用なコンテキスト・アワレ認識(CARA)検出器を開発した。 CARAは、トレーニングされていない新しいベンチマークを一般化し、サンプルを不適切なコンテキストで検出またはクリーニングする将来のVLUベンチマークの有用性を強調している。 最後に,コンテクスト・アンビグニティ・サフィシアンシー・アセスメント(CASE,Context Ambiguity and Sufficiency Evaluation, コンテキスト・アンビグニティ・アンド・サフィシアンシー・アセスメント)を用いて,不十分なコンテキスト・ディテクターの性能をベンチマークする。 全体として、我々の研究は、複雑な現実世界のシナリオにおいて、視覚言語モデルが信頼できるエビデンスベースのアウトプットを生成することを保証する重要な進歩を表している。

Despite the widespread adoption of Vision-Language Understanding (VLU) benchmarks such as VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, and VisualCOMET, our analysis reveals a pervasive issue affecting their integrity: these benchmarks contain samples where answers rely on assumptions unsupported by the provided context. Training models on such data foster biased learning and hallucinations as models tend to make similar unwarranted assumptions. To address this issue, we collect contextual data for each sample whenever available and train a context selection module to facilitate evidence-based model predictions. Strong improvements across multiple benchmarks demonstrate the effectiveness of our approach. Further, we develop a general-purpose Context-AwaRe Abstention (CARA) detector to identify samples lacking sufficient context and enhance model accuracy by abstaining from responding if the required context is absent. CARA exhibits generalization to new benchmarks it wasn't trained on, underscoring its utility for future VLU benchmarks in detecting or cleaning samples with inadequate context. Finally, we curate a Context Ambiguity and Sufficiency Evaluation (CASE) set to benchmark the performance of insufficient context detectors. Overall, our work represents a significant advancement in ensuring that vision-language models generate trustworthy and evidence-based outputs in complex real-world scenarios.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-23
# フーリエからニューラル ODE:複雑系のモデリングのためのフローマッチング

From Fourier to Neural ODEs: Flow Matching for Modeling Complex Systems ( http://arxiv.org/abs/2405.11542v2 )

ライセンス: Link先を確認
Xin Li, Jingdong Zhang, Qunxi Zhu, Chengli Zhao, Xue Zhang, Xiaojun Duan, Wei Lin, (参考訳) 標準的なニューラル常微分方程式(NODE)を用いた複雑なシステムのモデリングは、高い計算コストや局所最適性への感受性など、いくつかの重要な課題に直面している。 これらの課題に対処するために、フーリエ解析に基づいてターゲットベクトル場を直接マッチングすることにより、効果的にNODEを訓練するFourier NODEs (FNODEs) と呼ばれるシミュレーションフリーフレームワークを提案する。 具体的には、フーリエ解析を用いて、ノイズの多い観測データから時間的および潜在的高次空間勾配を推定する。 次に、推定空間勾配をニューラルネットワークへの追加入力として組み込む。 さらに、推定時間勾配をニューラルネットワークの出力の最適化目的として利用する。 その後、トレーニングされたニューラルネットワークは、計算グラフに参加せずにODEソルバを介してより多くのデータポイントを生成し、フーリエ解析に基づくより正確な勾配推定を容易にする。 これら2つのステップは肯定的なフィードバックループを形成し、フレームワーク内で正確な動的モデリングを可能にします。 その結果,本手法は,トレーニング時間,動的予測,堅牢性の観点から,最先端の手法よりも優れていた。 最後に、複数の代表的な複雑なシステムを用いて、フレームワークの優れた性能を実証する。

Modeling complex systems using standard neural ordinary differential equations (NODEs) often faces some essential challenges, including high computational costs and susceptibility to local optima. To address these challenges, we propose a simulation-free framework, called Fourier NODEs (FNODEs), that effectively trains NODEs by directly matching the target vector field based on Fourier analysis. Specifically, we employ the Fourier analysis to estimate temporal and potential high-order spatial gradients from noisy observational data. We then incorporate the estimated spatial gradients as additional inputs to a neural network. Furthermore, we utilize the estimated temporal gradient as the optimization objective for the output of the neural network. Later, the trained neural network generates more data points through an ODE solver without participating in the computational graph, facilitating more accurate estimations of gradients based on Fourier analysis. These two steps form a positive feedback loop, enabling accurate dynamics modeling in our framework. Consequently, our approach outperforms state-of-the-art methods in terms of training time, dynamics prediction, and robustness. Finally, we demonstrate the superior performance of our framework using a number of representative complex systems.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-23
# xFinder: 大規模言語モデルのためのロバストおよびピンポイントアンサー抽出

xFinder: Robust and Pinpoint Answer Extraction for Large Language Models ( http://arxiv.org/abs/2405.11874v2 )

ライセンス: Link先を確認
Qingchen Yu, Zifan Zheng, Shichao Song, Zhiyu Li, Feiyu Xiong, Bo Tang, Ding Chen, (参考訳) 大規模言語モデル(LLM)の継続的な進歩は、その性能を評価するための公平で信頼性の高い手法を開発するという重要な問題に注意を向けている。 特に、テストセットのリークやプロンプトフォーマットのオーバーフィットといった主観的または非客観的な不正現象の出現は、LCMの信頼性評価に重大な課題をもたらす。 評価フレームワークは、回答抽出に正規表現(RegEx)を利用することが多いため、RegExによって容易に抽出できる特定のフォーマットに適合するように応答を調整するモデルもある。 それにもかかわらず、RegExに基づくキー回答抽出モジュールは、しばしば抽出エラーに悩まされる。 本稿では,LLM評価チェーン全体の包括的解析を行い,鍵解答抽出モジュールの最適化により抽出精度が向上し,LLMが特定の解答形式に依存することが低減され,LLM評価の信頼性が向上することが実証された。 これらの問題に対処するために、キー回答抽出に特化して設計されたモデルであるxFinderを提案する。 このプロセスの一環として、効率的なモデルトレーニングと評価を保証するために、特別なデータセットであるKey Answer Finder (KAF)データセットを作成します。 実世界のシナリオにおける一般化テストと評価により、5億のパラメータしか持たない最小のxFinderモデルが平均解解抽出精度93.42%を達成することを示した。 対照的に、最高の評価フレームワークにおけるRegExの精度は74.38%である。 xFinderは、既存の評価フレームワークと比較して、強い堅牢性と高い精度を示している。

The continuous advancement of large language models (LLMs) has brought increasing attention to the critical issue of developing fair and reliable methods for evaluating their performance. Particularly, the emergence of subjective or non-subjective cheating phenomena, such as test set leakage and prompt format overfitting, poses significant challenges to the reliable evaluation of LLMs. Since evaluation frameworks often utilize Regular Expression (RegEx) for answer extraction, some models may adjust their responses to comply with specific formats that are easily extractable by RegEx. Nevertheless, the key answer extraction module based on RegEx frequently suffers from extraction errors. This paper conducts a comprehensive analysis of the entire LLM evaluation chain, demonstrating that optimizing the key answer extraction module can improve extraction accuracy, reduce LLMs' reliance on specific answer formats, and enhance the reliability of LLM evaluation. To address these issues, we propose xFinder, a model specifically designed for key answer extraction. As part of this process, we create a specialized dataset, the Key Answer Finder (KAF) dataset, to ensure effective model training and evaluation. Through generalization testing and evaluation in real-world scenarios, the results demonstrate that the smallest xFinder model with only 500 million parameters achieves an average answer extraction accuracy of 93.42%. In contrast, RegEx accuracy in the best evaluation framework is 74.38%. xFinder exhibits stronger robustness and higher accuracy compared to existing evaluation frameworks.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-23
# 説明可能性と一般化のマイニング:自己指導に基づく実例検証

Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction ( http://arxiv.org/abs/2405.12579v2 )

ライセンス: Link先を確認
Guangyao Lu, Yulin Liu, (参考訳) 商業LLMに基づくファクトチェックが主流となっている。 これらの手法は説明性が高いが、従来の微調整手法に比べて精度が低く、データセキュリティも重要な問題である。 本稿では,自己指導に基づくファクトチェックのための微調整手法を提案する。 提案手法はデータ拡張と改良DPO微調整からなる。 前者は、クレームエビデンスペアとラベルに基づいて肯定的な説明と否定的な説明の両方を生成するようモデルに指示し、その後、カスタマイズされた難易度基準に従ってデータセットをサンプリングする。 後者では、提案した改良DPOを用いて、生成されたサンプルを用いてモデルを微調整する。 最小スケールのLLaMA-7Bモデルを微調整し、難解な事実チェックデータセットFEVEROUSとHOVERで評価し、4つの微調整法と3つの数ショット学習法を用いて比較を行った。 実験により,本手法は従来の微調整法に匹敵する精度,あるいは超越した精度を保っているだけでなく,洗練された説明文を生成することがわかった。 また、高い一般化性能を示す。 本手法は,自己指導型学習をファクトチェックに活用する最初の方法であり,実験で示すように,コントラスト学習とDPOの改善を両立させる。

Fact-checking based on commercial LLMs has become mainstream. Although these methods offer high explainability, it falls short in accuracy compared to traditional fine-tuning approaches, and data security is also a significant concern. In this paper, we propose a self-instruction based fine-tuning approach for fact-checking that balances accuracy and explainability. Our method consists of Data Augmentation and Improved DPO fine-tuning. The former starts by instructing the model to generate both positive and negative explanations based on claim-evidence pairs and labels, then sampling the dataset according to our customized difficulty standards. The latter employs our proposed improved DPO to fine-tune the model using the generated samples. We fine-tune the smallest-scale LLaMA-7B model and evaluate it on the challenging fact-checking datasets FEVEROUS and HOVER, utilizing four fine-tuning methods and three few-shot learning methods for comparison. The experiments demonstrate that our approach not only retains accuracy comparable to, or even surpassing, traditional fine-tuning methods, but also generates fluent explanation text. Moreover, it also exhibit high generalization performance. Our method is the first to leverage self-supervised learning for fact-checking and innovatively combines contrastive learning and improved DPO in fine-tuning LLMs, as shown in the experiments.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-23
# マルチモーダル機械翻訳に関する調査:課題,方法,課題

A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges ( http://arxiv.org/abs/2405.12669v2 )

ライセンス: Link先を確認
Huangjun Shen, Liangying Shao, Wenbo Li, Zhibin Lan, Zhanyu Liu, Jinsong Su, (参考訳) 近年、マルチモーダル機械翻訳は、その優れた性能のために、学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。 本稿では、99の先行研究の概要を概観し、支配的なモデル、データセット、評価指標の観点から代表研究を包括的に要約することから始める。 その後,様々な要因がモデル性能に与える影響を分析し,今後の課題について検討する。 時間が経つにつれ、多モーダル機械翻訳は様々なニーズを満たすためにより多くのタイプを開発した。 マルチモーダル機械翻訳の初期段階に限られる以前の調査とは違い,本調査では,これらの新種をさまざまな側面から徹底的に結論付け,研究者に現状の理解を深めることを目的としている。

In recent years, multi-modal machine translation has attracted significant interest in both academia and industry due to its superior performance. It takes both textual and visual modalities as inputs, leveraging visual context to tackle the ambiguities in source texts. In this paper, we begin by offering an exhaustive overview of 99 prior works, comprehensively summarizing representative studies from the perspectives of dominant models, datasets, and evaluation metrics. Afterwards, we analyze the impact of various factors on model performance and finally discuss the possible research directions for this task in the future. Over time, multi-modal machine translation has developed more types to meet diverse needs. Unlike previous surveys confined to the early stage of multi-modal machine translation, our survey thoroughly concludes these emerging types from different aspects, so as to provide researchers with a better understanding of its current state.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-23