このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240311となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# InfiCoder-Eval: 大規模言語モデルの質問応答能力の体系的評価
InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models ( http://arxiv.org/abs/2404.07940v1 ) ライセンス: Link先を確認 | Linyi Li, Shijie Geng, Zhenwen Li, Yibo He, Hao Yu, Ziyue Hua, Guanghan Ning, Siwei Wang, Tao Xie, Hongxia Yang, | (参考訳) コードの理解と生成のための大規模な言語モデル(コードLLM)は、ここ数年で著しく進歩しています。
コードLLMの急速な開発に伴い、HumanEval、DS-1000、MBPPといった多くの評価ベンチマークが登場し、コードLLMのパフォーマンスをコード生成タスクに特化して測定している。
しかし、コード生成から様々なコーディング関連質問への回答まで、コードLLMの期待される機能の全範囲をカバーするには不十分です。
このギャップを埋めるために、我々は15のプログラミング言語にまたがる高品質なStack Overflow質問を慎重に選択した234のコードのための大規模フリーフォームQAベンチマークであるInfiCoder-Evalを提案する。
応答の正しさを評価するために、InfiCoder-Evalは4種類のモデルフリーメトリクスをサポートし、ドメインの専門家は各質問に対する基準を慎重に選択し、緩和する。
InfiCoder-Eval 上で 80 以上のコード LLM の体系的評価を行い,一連の知見を得た。
さらに,コードLLMのさらなる改善に向けた今後の方向性について,詳細な分析を行った。
InfiCoder-Eval は https://infi-coder.github.io/inficoder-eval/ で完全にオープンソースとして公開されている。
Large Language Models for understanding and generating code (code LLMs) have witnessed tremendous progress in recent years. With the rapid development of code LLMs, many popular evaluation benchmarks, such as HumanEval, DS-1000, and MBPP, have emerged to measure the performance of code LLMs with a particular focus on code generation tasks. However, they are insufficient to cover the full range of expected capabilities of code LLMs, which span beyond code generation to answering diverse coding-related questions. To fill this gap, we propose InfiCoder-Eval, a large-scale freeform question-answering (QA) benchmark for code, comprising 234 carefully selected high-quality Stack Overflow questions that span across 15 programming languages. To evaluate the response correctness, InfiCoder-Eval supports four types of model-free metrics and domain experts carefully choose and concretize the criterion for each question. We conduct a systematic evaluation for more than 80 code LLMs on InfiCoder-Eval, leading to a series of insightful findings. Furthermore, our detailed analyses showcase possible directions for further improvement of code LLMs. InfiCoder-Eval is fully open source at https://infi-coder.github.io/inficoder-eval/ and continuously maintaining and expanding to foster more scientific and systematic practices for evaluating code LLMs. | 翻訳日:2024-04-14 13:13:23 公開日:2024-03-11 |
# SiGNN: 動的グラフ表現学習のためのスパイク誘発グラフニューラルネットワーク
SiGNN: A Spike-induced Graph Neural Network for Dynamic Graph Representation Learning ( http://arxiv.org/abs/2404.07941v1 ) ライセンス: Link先を確認 | Dong Chen, Shuai Zheng, Muhao Xu, Zhenfeng Zhu, Yao Zhao, | (参考訳) 動的グラフ表現学習(DGRL)の分野では、実世界のネットワークにおける時間的進化の効率的かつ包括的なキャプチャが重要である。
スパイキングニューラルネットワーク(SNN)は、その時間的ダイナミクスと低消費電力特性として知られ、DGRLタスクにおける時間的処理の効率的なソリューションを提供する。
しかし、SNNのスパイクに基づく情報符号化機構により、既存のDGRL法ではSNNの表現能力に制限がある。
本稿では,動的グラフ上での時空間表現の強化を学習するための,スパイク誘発グラフニューラルネットワーク(SiGNN)という新しいフレームワークを提案する。
詳細は、SNNとGNNの調和した統合は、革新的な時間活性化(TA)機構によって達成される。
TA機構を利用して、SiGNNはSNNの時間的ダイナミクスを効果的に活用するだけでなく、スパイクのバイナリの性質によって課される表現的制約を積極的に回避する。
さらに、SNNの固有の適応性を活用し、複数の時間粒度にわたる動的グラフ内の進化パターンを詳細に分析する。
ノード分類タスクにおけるSiGNNの優れた性能を示す実世界の動的グラフデータセットの大規模な実験により,マルチスケールの時間ノード表現の取得が容易となる。
In the domain of dynamic graph representation learning (DGRL), the efficient and comprehensive capture of temporal evolution within real-world networks is crucial. Spiking Neural Networks (SNNs), known as their temporal dynamics and low-power characteristic, offer an efficient solution for temporal processing in DGRL task. However, owing to the spike-based information encoding mechanism of SNNs, existing DGRL methods employed SNNs face limitations in their representational capacity. Given this issue, we propose a novel framework named Spike-induced Graph Neural Network (SiGNN) for learning enhanced spatialtemporal representations on dynamic graphs. In detail, a harmonious integration of SNNs and GNNs is achieved through an innovative Temporal Activation (TA) mechanism. Benefiting from the TA mechanism, SiGNN not only effectively exploits the temporal dynamics of SNNs but also adeptly circumvents the representational constraints imposed by the binary nature of spikes. Furthermore, leveraging the inherent adaptability of SNNs, we explore an in-depth analysis of the evolutionary patterns within dynamic graphs across multiple time granularities. This approach facilitates the acquisition of a multiscale temporal node representation.Extensive experiments on various real-world dynamic graph datasets demonstrate the superior performance of SiGNN in the node classification task. | 翻訳日:2024-04-14 13:03:36 公開日:2024-03-11 |
# 人工知能の要素倫理:AIの価値連鎖の抵抗としての水
An Elemental Ethics for Artificial Intelligence: Water as Resistance Within AI's Value Chain ( http://arxiv.org/abs/2403.14677v1 ) ライセンス: Link先を確認 | Sebastian Lehuede, | (参考訳) 研究と行動主義は、人工知能(AI)を支えるインフラとバリューチェーンの、問題のある環境記録をますます非難している。
水集約型データセンタ、汚染鉱物抽出、e-wasteダンピングは、AIのフットプリントの不可避な部分である。
本稿では,AIによる環境被害の影響を受ける地域に目を向け,地域活動家からの抵抗倫理を「要素倫理」と呼ぶ。
要素的倫理は、世界を構成する要素とAIバリューチェーンの問題点を尋問し、自然に対する局所的・祖先的アプローチの弱体化を批判し、いわゆるインテリジェントシステムによってもたらされる生命的・引用的な害を明らかにする。
この倫理は草の根や先住民集団から生まれつつあるが、環境哲学からの近年の呼びかけを反映している。
本稿では,サンティアゴのGoogleデータセンタープロジェクトと,アタカマ砂漠のリッカン・アントアイ先住民領土のリチウム抽出(充電可能な電池に使用される)に抵抗するチリの集団について検討する。
私が示したように、要素的倫理は、AI倫理と持続可能なAIに対するトップダウン、実用的、定量的アプローチを補完するだけでなく、AIの絶滅に関する議論において、生きた経験と幸福な数えきれない質問を補完することができる。
Research and activism have increasingly denounced the problematic environmental record of the infrastructure and value chain underpinning Artificial Intelligence (AI). Water-intensive data centres, polluting mineral extraction and e-waste dumping are incontrovertibly part of AI's footprint. In this article, I turn to areas affected by AI-fuelled environmental harm and identify an ethics of resistance emerging from local activists, which I term 'elemental ethics'. Elemental ethics interrogates the AI value chain's problematic relationship with the elements that make up the world, critiques the undermining of local and ancestral approaches to nature and reveals the vital and quotidian harms engendered by so-called intelligent systems. While this ethics is emerging from grassroots and Indigenous groups, it echoes recent calls from environmental philosophy to reconnect with the environment via the elements. In empirical terms, this article looks at groups in Chile resisting a Google data centre project in Santiago and lithium extraction (used for rechargeable batteries) in Lickan Antay Indigenous territory, Atacama Desert. As I show, elemental ethics can complement top-down, utilitarian and quantitative approaches to AI ethics and sustainable AI as well as interrogate whose lived experience and well-being counts in debates on AI extinction. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-11 |
# 好熱グラフにおけるGNNの逆過程による周辺表現の識別
Distinguishing Neighborhood Representations Through Reverse Process of GNNs for Heterophilic Graphs ( http://arxiv.org/abs/2403.10543v1 ) ライセンス: Link先を確認 | MoonJeong Park, Jaeseung Heo, Dongwoo Kim, | (参考訳) グラフニューラルネットワーク(GNN)は拡散過程に似ており、多くの層を積み重ねる際の学習表現の過度な平滑化につながる。
したがって、メッセージパッシングの逆プロセスは、フォワードメッセージの伝搬を反転させることでノード表現を研ぐことができる。
シャープ化された表現は、異種グラフのような異なるラベルを持つ近隣ノードをよりよく区別するのに役立ちます。
本稿では, 逆過程の設計原理をGNNの3つの変種に適用する。
異種グラフデータに対する実験により, 隣接ノードは, 分類を成功させるために異なる表現を持つ必要があるため, 逆処理が多くの場合において予測性能を著しく向上することを示した。
さらなる分析により、逆のメカニズムが数百層にわたるオーバー・スムースを緩和できることが判明した。
Graph Neural Network (GNN) resembles the diffusion process, leading to the over-smoothing of learned representations when stacking many layers. Hence, the reverse process of message passing can sharpen the node representations by inverting the forward message propagation. The sharpened representations can help us to better distinguish neighboring nodes with different labels, such as in heterophilic graphs. In this work, we apply the design principle of the reverse process to the three variants of the GNNs. Through the experiments on heterophilic graph data, where adjacent nodes need to have different representations for successful classification, we show that the reverse process significantly improves the prediction performance in many cases. Additional analysis reveals that the reverse mechanism can mitigate the over-smoothing over hundreds of layers. | 翻訳日:2024-03-25 07:56:27 公開日:2024-03-11 |
# 心不全患者の治療経路のプロセス認識分析 : 症例的検討
Process-Aware Analysis of Treatment Paths in Heart Failure Patients: A Case Study ( http://arxiv.org/abs/2403.10544v1 ) ライセンス: Link先を確認 | Harry H. Beyel, Marlo Verket, Viki Peeva, Christian Rennert, Marco Pegoraro, Katharina Schütt, Wil M. P. van der Aalst, Nikolaus Marx, | (参考訳) 医療におけるプロセスマイニングは、医療領域内のさまざまなタイプのデータを扱う際に、さまざまな課題を提示します。
医療プロセスから収集されたさまざまなデータを考慮すると、クレームデータによる運用プロセス、手術中のイベントの収集、術前および術後のケアに関するデータ、および明らかなイベントのない定期的な乱視訪問に基づく高レベルのデータ収集など、多種多様である。
このケーススタディでは、最終カテゴリのデータセットを分析します。
本研究では,スパース心不全データにプロセスマイニング手法を適用し,いくつかの研究課題への情報提供が可能かどうかを検討する。
ここでは、利用可能なデータがイベントログ形式に変換され、プロセスの検出と適合性チェックが適用される。
さらに、患者は糖尿病や慢性腎臓病などの相同性に基づいて異なるコホートに分けられ、複数の統計値がコホート間で比較される。
結論として, 患者が循環器疾患を発症するかどうか, 患者が死亡するかどうかを判断するために, 決定マイニングを適用した。
Process mining in healthcare presents a range of challenges when working with different types of data within the healthcare domain. There is high diversity considering the variety of data collected from healthcare processes: operational processes given by claims data, a collection of events during surgery, data related to pre-operative and post-operative care, and high-level data collections based on regular ambulant visits with no apparent events. In this case study, a data set from the last category is analyzed. We apply process-mining techniques on sparse patient heart failure data and investigate whether an information gain towards several research questions is achievable. Here, available data are transformed into an event log format, and process discovery and conformance checking are applied. Additionally, patients are split into different cohorts based on comorbidities, such as diabetes and chronic kidney disease, and multiple statistics are compared between the cohorts. Conclusively, we apply decision mining to determine whether a patient will have a cardiovascular outcome and whether a patient will die. | 翻訳日:2024-03-25 07:56:27 公開日:2024-03-11 |
# 大規模言語モデルにおけるコード生成のプロンプト選択と拡張とロボット制御への応用
Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control ( http://arxiv.org/abs/2403.12999v1 ) ライセンス: Link先を確認 | On Tai Wu, Frodo Kin Sun Chan, Zunhao Zhang, Yan Nei Law, Benny Drescher, Edmond Shiao Bun Lai, | (参考訳) ステップバイステップのプロンプトとステップバイステップ推論は、コード生成を含む複雑なタスクに対処する際のLarge Language Models(LLM)の機能を強化した。
本稿では,数学的推論とロボットアーム操作の改善を目的とした,迅速な選択と拡張アルゴリズムを提案する。
提案手法では,多段階のサンプル拡張スキームとサンプル選択スキームを組み合わせる。
このアルゴリズムは,多様性を高め,冗長性を最小限に抑え,問題への関連性を高める一連の例を選択することにより,LCM性能を向上させる。
プログラム・オブ・ワットのプロンプトと組み合わせることで,GSM8KとSVAMPベンチマークのパフォーマンスが改善し,それぞれ0.3%,1.1%向上した。
さらに,シミュレーション表環境においては,タスク完了率の3.4%,使用例数の70%以上を達成し,Code-as-Policiesアプローチを超越した。
問題を解くのにほとんど貢献しない例を捨てる能力は、LLM駆動ロボットシステムの推論時間を短縮する。
このアルゴリズムはまた、開発とデプロイメントプロセスの合理化、手作業によるプログラミングの労力の削減、コードの再利用性の向上によって、産業プロセスの自動化に重要なメリットを提供する。
Few-shot prompting and step-by-step reasoning have enhanced the capabilities of Large Language Models (LLMs) in tackling complex tasks including code generation. In this paper, we introduce a prompt selection and augmentation algorithm aimed at improving mathematical reasoning and robot arm operations. Our approach incorporates a multi-stage example augmentation scheme combined with an example selection scheme. This algorithm improves LLM performance by selecting a set of examples that increase diversity, minimize redundancy, and increase relevance to the question. When combined with the Program-of-Thought prompting, our algorithm demonstrates an improvement in performance on the GSM8K and SVAMP benchmarks, with increases of 0.3% and 1.1% respectively. Furthermore, in simulated tabletop environments, our algorithm surpasses the Code-as-Policies approach by achieving a 3.4% increase in successful task completions and a decrease of over 70% in the number of examples used. Its ability to discard examples that contribute little to solving the problem reduces the inferencing time of an LLM-powered robotics system. This algorithm also offers important benefits for industrial process automation by streamlining the development and deployment process, reducing manual programming effort, and enhancing code reusability. | 翻訳日:2024-03-25 07:17:26 公開日:2024-03-11 |
# SMART: 処理コスト削減のための精度保証付き言語モデルの自動スケールダウン
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees ( http://arxiv.org/abs/2403.13835v1 ) ライセンス: Link先を確認 | Saehan Jo, Immanuel Trummer, | (参考訳) 大規模言語モデル(LLM)の進歩は自然言語処理(NLP)タスクの性能を大幅に向上させた。
しかし、高性能LCMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
これにより、最先端のLCMがエンドユーザにとってより高価なものになる。
OpenAIやAnthropicといったAIサービスプロバイダは、価格とパフォーマンスの異なる複数のバージョンのLLMを提供することが多い。
しかしながら、エンドユーザは、結果の品質とコストのバランスをとるタスクに対して、適切なLLMを選択することの課題に直面しています。
SMART(Scaling Models Adaptively for Reduced Token Fees)は,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保しつつ,新たなLLMフレームワークである。
ユーザは、最も強力なLCMの出力の等価性の観点から、精度の制約を指定できる。
SMART はこの LLM の出力から逸脱する結果を、ユーザ定義しきい値以下の確率で生成する。
SMARTは、ユーザ定義の精度レベルを満たすものを特定するために、複数のLCMの性能を評価するプロファイリングフェーズを採用している。
SMARTはプロファイリングオーバーヘッドとプロファイリングによるコスト削減とのトレードオフを最適化する。
さらに,LLMの混合を戦略的に活用することで,推論コストを大幅に削減する。
実世界の3つのデータセットに対する実験から,OpenAIモデルに基づくSMARTは,GPT-4と比較して最大25.6倍の大幅なコスト削減を実現していることがわかった。
The advancement of Large Language Models (LLMs) has significantly boosted performance in natural language processing (NLP) tasks. However, the deployment of high-performance LLMs incurs substantial costs, primarily due to the increased number of parameters aimed at enhancing model performance. This has made the use of state-of-the-art LLMs more expensive for end-users. AI service providers, such as OpenAI and Anthropic, often offer multiple versions of LLMs with varying prices and performance. However, end-users still face challenges in choosing the appropriate LLM for their tasks that balance result quality with cost. We introduce SMART, Scaling Models Adaptively for Reduced Token Fees, a novel LLM framework designed to minimize the inference costs of NLP tasks while ensuring sufficient result quality. It enables users to specify an accuracy constraint in terms of the equivalence of outputs to those of the most powerful LLM. SMART then generates results that deviate from the outputs of this LLM only with a probability below a user-defined threshold. SMART employs a profiling phase that evaluates the performance of multiple LLMs to identify those that meet the user-defined accuracy level. SMART optimizes the tradeoff between profiling overheads and the anticipated cost savings resulting from profiling. Moreover, our approach significantly reduces inference costs by strategically leveraging a mix of LLMs. Our experiments on three real-world datasets show that, based on OpenAI models, SMART achieves significant cost savings, up to 25.6x in comparison to GPT-4. | 翻訳日:2024-03-25 07:07:37 公開日:2024-03-11 |
# 質問応答のための知識注入型カリキュラム事前学習フレームワーク
A Knowledge-Injected Curriculum Pretraining Framework for Question Answering ( http://arxiv.org/abs/2403.09712v1 ) ライセンス: Link先を確認 | Xin Lin, Tianhuang Su, Zhenya Huang, Shangzi Xue, Haifeng Liu, Enhong Chen, | (参考訳) 知識に基づく質問応答(KBQA)は、NLP研究における重要な課題であり、Webデータと知識にアクセスするアプローチであり、推論には知識グラフ(KG)を活用する必要がある。
文献では、KBQAの有望な解決策の1つは、KG中心の事前学習コーパスを生成することで、事前学習言語モデル(LM)をKGに組み込むことである。
しかしながら、これらのメソッドは、動作すべき特定の技術やリソースに依存することが多いため、常に利用でき、そのアプリケーションを制限することはできないかもしれない。
さらに、既存の手法は、より重要な人間のような複雑な推論を無視しながら、KGによる言語理解の改善に重点を置いている。
本稿では、知識注入(KI)、知識適応(KA)、カリキュラム推論(CR)からなるKBQAタスクの総合的なKG学習と活用を実現するための一般知識注入カリキュラム事前学習フレームワーク(KICP)を提案する。
具体的には、KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、そのプロセスを3つの重要なステップに一般化する。
次に、KAモジュールは、アダプタを備えたLMを備えた生成コーパスから知識を学習し、生成コーパスと自然コーパスの差による負の影響を低減するために、元の自然言語理解能力を維持できる。
最後に、複雑な推論でLMを実現するために、CRモジュールは人間の推論パターンに従い、推論の難しさを増しながら3つのコーパスを構築する。
提案するKICPを4つの実単語データセット上で評価する。
その結果,我々のフレームワークは高い性能を達成できることがわかった。
Knowledge-based question answering (KBQA) is a key task in NLP research, and also an approach to access the web data and knowledge, which requires exploiting knowledge graphs (KGs) for reasoning. In the literature, one promising solution for KBQA is to incorporate the pretrained language model (LM) with KGs by generating KG-centered pretraining corpus, which has shown its superiority. However, these methods often depend on specific techniques and resources to work, which may not always be available and restrict its application. Moreover, existing methods focus more on improving language understanding with KGs, while neglect the more important human-like complex reasoning. To this end, in this paper, we propose a general Knowledge-Injected Curriculum Pretraining framework (KICP) to achieve comprehensive KG learning and exploitation for KBQA tasks, which is composed of knowledge injection (KI), knowledge adaptation (KA) and curriculum reasoning (CR). Specifically, the KI module first injects knowledge into the LM by generating KG-centered pretraining corpus, and generalizes the process into three key steps that could work with different implementations for flexible application. Next, the KA module learns knowledge from the generated corpus with LM equipped with an adapter as well as keeps its original natural language understanding ability to reduce the negative impacts of the difference between the generated and natural corpus. Last, to enable the LM with complex reasoning, the CR module follows human reasoning patterns to construct three corpora with increasing difficulties of reasoning, and further trains the LM from easy to hard in a curriculum manner. We provide an implementation of the general framework, and evaluate the proposed KICP on four real-word datasets. The results demonstrate that our framework can achieve higher performances. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-11 |
# argument Miningのためのハイブリッドインテリジェンス手法
A Hybrid Intelligence Method for Argument Mining ( http://arxiv.org/abs/2403.09713v1 ) ライセンス: Link先を確認 | Michiel van der Meer, Enrico Liscio, Catholijn M. Jonker, Aske Plaat, Piek Vossen, Pradeep K. Murukannaiah, | (参考訳) 大規模な調査ツールにより、意見コーパスにおける市民からのフィードバックの収集が可能になる。
大きくて騒々しい意見から重要な議論を抽出することは、意見の迅速かつ正確に理解するのに役立ちます。
完全に自動化された手法は引数を抽出することができるが、(1)大きなアノテーションコストを誘導するラベル付きデータセットが必要であり、(2)既知の視点ではうまく機能するが、新しい視点では機能しない。
我々は,自動処理の高速化と人間の理解と推論能力を組み合わせた,意見テキストから議論を抽出するハイブリッド(人間+AI)手法HyEnAを提案する。
市民フィードバックコーパスを用いたHyEnAの評価を行った。
一方HyEnAは、さまざまな意見の共通セットと比較して最先端の自動化手法よりも高いカバレッジと精度を実現し、人間の洞察の必要性を正当化する。
一方、HyEnAは人間の努力を少なくし、人間と人工知能を組み合わせる利点を実証し、(完全に手動で)専門家の分析と比べて品質を損なわない。
Large-scale survey tools enable the collection of citizen feedback in opinion corpora. Extracting the key arguments from a large and noisy set of opinions helps in understanding the opinions quickly and accurately. Fully automated methods can extract arguments but (1) require large labeled datasets that induce large annotation costs and (2) work well for known viewpoints, but not for novel points of view. We propose HyEnA, a hybrid (human + AI) method for extracting arguments from opinionated texts, combining the speed of automated processing with the understanding and reasoning capabilities of humans. We evaluate HyEnA on three citizen feedback corpora. We find that, on the one hand, HyEnA achieves higher coverage and precision than a state-of-the-art automated method when compared to a common set of diverse opinions, justifying the need for human insight. On the other hand, HyEnA requires less human effort and does not compromise quality compared to (fully manual) expert analysis, demonstrating the benefit of combining human and artificial intelligence. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-11 |
# 言語モデルからの言語構造誘導
Linguistic Structure Induction from Language Models ( http://arxiv.org/abs/2403.09714v1 ) ライセンス: Link先を確認 | Omar Momen, | (参考訳) 単語の線形配列は、文中の単語の合成を整理する階層構造によって、脳内で暗黙的に表現される。
言語学者はこの階層をモデル化するために異なるフレームワークを形式化する。
Constituencyは文をネストした句のグループとして表現し、Dependencyは単語間の関係を割り当てることによって文を表す。
近年、インテリジェントマシンの追求により、人間レベルの性能で多くの言語タスクを解くことができる言語モデル(LM)が生み出されている。
多くの研究は、LMが構文的階層を暗黙的に表すかどうかを疑問視している。
この論文は、教師なし環境でLMから選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,この分野における批判的手法を概観し,二乗選挙区木(Syntactic Distance)の数値表現を利用した研究の行に注目した。
本稿では,Shen et al ,2021 の StructFormer (SF) の詳細について述べる。
この分野の課題を解析・解決するための6つの実験を提示する。実験には、SFアーキテクチャ内のパーサネットワークの再配置の効果の調査、サブワードベース誘導木の評価、言語課題に関する論文実験で開発されたモデルのベンチマークなどが含まれる。
モデルベンチマークは、CoNLL 2023 (Momen et al , 2023)で発表されたBabyLMチャレンジに参加することで実施される。
この論文は, 様々な実験環境におけるSFの許容性能と, 構文構造誘導の進行に革新的な解決策を必要とする観測限界に支えられ, 変換器モデルの再適合の方向性をさらに発展させ, 構文構造を誘導するものである。
Linear sequences of words are implicitly represented in our brains by hierarchical structures that organize the composition of words in sentences. Linguists formalize different frameworks to model this hierarchy; two of the most common syntactic frameworks are Constituency and Dependency. Constituency represents sentences as nested groups of phrases, while dependency represents a sentence by assigning relations between its words. Recently, the pursuit of intelligent machines has produced Language Models (LMs) capable of solving many language tasks with a human-level performance. Many studies now question whether LMs implicitly represent syntactic hierarchies. This thesis focuses on producing constituency and dependency structures from LMs in an unsupervised setting. I review the critical methods in this field and highlight a line of work that utilizes a numerical representation for binary constituency trees (Syntactic Distance). I present a detailed study on StructFormer (SF) (Shen et al., 2021), which retrofits a transformer encoder architecture with a parser network to produce constituency and dependency structures. I present six experiments to analyze and address this field's challenges; experiments include investigating the effect of repositioning the parser network within the SF architecture, evaluating subword-based induced trees, and benchmarking the models developed in the thesis experiments on linguistic tasks. Models benchmarking is performed by participating in the BabyLM challenge, published at CoNLL 2023 (Momen et al., 2023). The results of this thesis encourage further development in the direction of retrofitting transformer-based models to induce syntactic structures, supported by the acceptable performance of SF in different experimental settings and the observed limitations that require innovative solutions to advance the state of syntactic structure induction. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-11 |
# 悪意のあるソフトウェアをレッドフラッグするエンドユーザーライセンス契約書のテキスト解析
Textual analysis of End User License Agreement for red-flagging potentially malicious software ( http://arxiv.org/abs/2403.09715v1 ) ライセンス: Link先を確認 | Behraj Khan, Tahir Syed, Zeshan Khan, Muhammad Rafi, | (参考訳) 新しいソフトウェアやアップデートは、エンドユーザによって毎日ダウンロードされます。
各ドーロードされたソフトウェアは、End Users License Agreements (EULA) に関連付けられているが、これはめったに読まれない。
EULAには、法的反感を避けるための情報が含まれている。
しかし、これはスパイウェアや、ターゲットシステムにおける望ましくない影響を生み出すような潜在的な問題を多数提案する。
エンドユーザは、ドキュメントの長さのため、これらのEULAを読むことができません。
テキスト要約は、この種の問題に対する関連する解決策の1つである。
これはEULAを要約し、EULAを"Benign"または"Malicious"に分類できるソリューションを必要とする。
我々は、EULAを要約し、EULAを「ベニグニ(Benign)」「マシシシ(Malicious)」と分類するソリューションを提案する。
異なるソフウェアのEULAテキストを抽出し、8つの異なる教師付き分類器を用いてテキストを分類する。
アンサンブル学習を用いて、EULAを5つの異なるテキスト要約手法を用いて、良心または悪意として分類する。
955.8$\%の精度は、提示されたアプローチの有効性を示している。
New software and updates are downloaded by end users every day. Each dowloaded software has associated with it an End Users License Agreements (EULA), but this is rarely read. An EULA includes information to avoid legal repercussions. However,this proposes a host of potential problems such as spyware or producing an unwanted affect in the target system. End users do not read these EULA's because of length of the document and users find it extremely difficult to understand. Text summarization is one of the relevant solution to these kind of problems. This require a solution which can summarize the EULA and classify the EULA as "Benign" or "Malicious". We propose a solution in which we have summarize the EULA and classify the EULA as "Benign" or "Malicious". We extract EULA text of different sofware's then we classify the text using eight different supervised classifiers. we use ensemble learning to classify the EULA as benign or malicious using five different text summarization methods. An accuracy of $95.8$\% shows the effectiveness of the presented approach. | 翻訳日:2024-03-18 21:54:39 公開日:2024-03-11 |
# CTUプラハ関係学習リポジトリ
The CTU Prague Relational Learning Repository ( http://arxiv.org/abs/1511.03086v2 ) ライセンス: Link先を確認 | Jan Motl, Oliver Schulte, | (参考訳) Prague Relational Learning Repositoryの目的は、マルチリレーショナルデータによる機械学習研究を支援することである。
現在、リポジトリには、公開MySQLサーバ上にホストされている148のSQLデータベースが、 \url{https://relational-data.org}にある。
サーバは、リレーショナル機械学習コミュニティ(\url{www.getml.com})をサポートするためにgetMLによって提供される。
検索可能なメタデータデータベースはメタデータを提供する(例えば、データベース内のテーブルの数、テーブル内の行数、列数、自己関係の数)。
The aim of the Prague Relational Learning Repository is to support machine learning research with multi-relational data. The repository currently contains 148 SQL databases hosted on a public MySQL server located at \url{https://relational-data.org}. The server is provided by getML to support the relational machine learning community (\url{www.getml.com}). A searchable meta-database provides metadata (e.g., the number of tables in the database, the number of rows and columns in the tables, the number of self-relationships). | 翻訳日:2024-03-17 17:28:01 公開日:2024-03-11 |
# 簡易線形回帰のための分別的シイルセン推定器の解析
Analyzing the Differentially Private Theil-Sen Estimator for Simple Linear Regression ( http://arxiv.org/abs/2207.13289v2 ) ライセンス: Link先を確認 | Jayshree Sarathy, Salil Vadhan, | (参考訳) 本稿では,単純な線形回帰に対する差分プライベート点と信頼区間推定器について検討する。
DPTheilSenは、頑健な統計に基づくアルゴリズムの強い経験的性能を強調した最近の研究によって、そのプライバシーと精度特性の厳密な有限サンプル分析を提供し、ハイパーパラメータの設定に関するガイダンスを提供し、その点推定に付随する微分プライベートな信頼区間を生成する方法を示している。
In this paper, we study differentially private point and confidence interval estimators for simple linear regression. Motivated by recent work that highlights the strong empirical performance of an algorithm based on robust statistics, DPTheilSen, we provide a rigorous, finite-sample analysis of its privacy and accuracy properties, offer guidance on setting hyperparameters, and show how to produce differentially private confidence intervals to accompany its point estimates. | 翻訳日:2024-03-17 17:20:31 公開日:2024-03-11 |
# DeepSec: セキュリティプロトコルの等価性の決定 -- 理論とプラクティスの改善
DeepSec: Deciding Equivalence Properties for Security Protocols -- Improved theory and practice ( http://arxiv.org/abs/2211.03225v2 ) ライセンス: Link先を確認 | Vincent Cheval, Steve Kremer, Itsaka Rakotonirina, | (参考訳) 自動検証は暗号プロトコルのセキュリティ評価において欠かせない部分となっている。
この文脈では、プライバシ型プロパティは、しばしばプロセス計算における振る舞いの等価性として表される不明瞭性ステートメントによってモデル化される。
本稿では,この検証問題の理論と実践に貢献する。
我々は,静的同値性,トレース同値性,ラベル付き二相性のための新しい複雑性結果を確立し,有界なプロトコルセッションの場合のこれらの同値性の決定手順を提供する。
我々の手順は、多種多様な暗号プリミティブに対して、トレース同値とラベル付き二相性を決定する最初の方法である。
また、新しいツールであるDeepSecにもプロシージャを実装しました。
我々は、他の類似ツールよりもはるかに効率的であると同時に、分析可能なプロトコルの範囲を高くすることを示した。
Automated verification has become an essential part in the security evaluation of cryptographic protocols. In this context privacy-type properties are often modelled by indistinguishability statements, expressed as behavioural equivalences in a process calculus. In this paper we contribute both to the theory and practice of this verification problem. We establish new complexity results for static equivalence, trace equivalence and labelled bisimilarity and provide a decision procedure for these equivalences in the case of a bounded number of protocol sessions. Our procedure is the first to decide trace equivalence and labelled bisimilarity exactly for a large variety of cryptographic primitives -- those that can be represented by a subterm convergent destructor rewrite system. We also implemented the procedure in a new tool, DeepSec. We showed through extensive experiments that it is significantly more efficient than other similar tools, while at the same time raises the scope of the protocols that can be analysed. | 翻訳日:2024-03-17 17:20:31 公開日:2024-03-11 |
# PaddingBackによる話者認識のブレークスルー
Breaking Speaker Recognition with PaddingBack ( http://arxiv.org/abs/2308.04179v2 ) ライセンス: Link先を確認 | Zhe Ye, Diqun Yan, Li Dong, Kailai Shen, | (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、ディープニューラルネットワーク(DNN)の進歩によって人気を博している。
しかし、信頼できないサードパーティプラットフォームは、AIセキュリティ、特にバックドア攻撃に対する懸念を提起している。
近年の研究では、音声バックドアは画像バックドアと同様に、変換をトリガーとして利用できることが示されている。
しかし、人間の耳は容易にこれらの変化に気づき、疑いを抱く。
本稿では,悪質な操作を利用して有害なサンプルを発生させ,それらをクリーンなものと区別することができないパディングバックを提案する。
外部摂動をトリガーとして使用する代わりに、広く使われている音声信号のパディングを利用して話者認識システムを破壊する。
その結果, 本手法の有効性を実証し, 良好な精度を維持しつつ, 良好な攻撃成功率を達成することができた。
さらに、PaddingBackは防御手法に抵抗し、人間の知覚に対するステルス性を維持する能力を示す。
Machine Learning as a Service (MLaaS) has gained popularity due to advancements in Deep Neural Networks (DNNs). However, untrusted third-party platforms have raised concerns about AI security, particularly in backdoor attacks. Recent research has shown that speech backdoors can utilize transformations as triggers, similar to image backdoors. However, human ears can easily be aware of these transformations, leading to suspicion. In this paper, we propose PaddingBack, an inaudible backdoor attack that utilizes malicious operations to generate poisoned samples, rendering them indistinguishable from clean ones. Instead of using external perturbations as triggers, we exploit the widely-used speech signal operation, padding, to break speaker recognition systems. Experimental results demonstrate the effectiveness of our method, achieving a significant attack success rate while retaining benign accuracy. Furthermore, PaddingBack demonstrates the ability to resist defense methods and maintain its stealthiness against human perception. | 翻訳日:2024-03-17 17:20:31 公開日:2024-03-11 |
# データ公開ハードウェアのためのスケーラブルな形式検証手法
A Scalable Formal Verification Methodology for Data-Oblivious Hardware ( http://arxiv.org/abs/2308.07757v2 ) ライセンス: Link先を確認 | Lucas Deutschmann, Johannes Mueller, Mohammad Rahmani Fadiheh, Dominik Stoffel, Wolfgang Kunz, | (参考訳) 近年,セキュリティクリティカルなアプリケーションにおける微構造的タイミング側チャネルの防止の重要性が高まっている。
一定時間プログラミングは、タイミングによる秘密情報の漏洩を防止するためのベストプラクティスとして登場した。
これは、特定の基本機械命令のタイミングがそれぞれの入力データとは独立であるという仮定に基づいている。
しかし、命令がデータに依存しないタイミング基準を満たすか否かは、個々のプロセッサマイクロアーキテクチャによって異なる。
本稿では,標準プロパティチェック手法を用いて,ハードウェアにおけるデータ公開動作を正式に検証する手法を提案する。
提案手法は,複雑なアウトオブオーダコアへの拡張性を実現する帰納的特性に基づく。
この帰納的特性の証明は,マイクロアーキテクチャレベルでのデータ公開性を徹底的に検証するのに十分であることを示す。
さらに,本論文では,検証プロセスを迅速かつ迅速にするためのいくつかの手法について論じる。
本稿では,いくつかのオープンソース設計のケーススタディを通じて提案手法の有効性を実証する。
あるケーススタディでは、広範囲に検証され、高度にセキュアなIBEX RISC-Vコアにおいて、データ依存のタイミング違反を発見した。
いくつかのハードウェアアクセラレータとインオーダープロセッサに加えて、我々の実験にはRISC-V BOOMという複雑なアウトオブオーダープロセッサが含まれており、このアプローチのスケーラビリティを強調しています。
The importance of preventing microarchitectural timing side channels in security-critical applications has surged in recent years. Constant-time programming has emerged as a best-practice technique for preventing the leakage of secret information through timing. It is based on the assumption that the timing of certain basic machine instructions is independent of their respective input data. However, whether or not an instruction satisfies this data-independent timing criterion varies between individual processor microarchitectures. In this paper, we propose a novel methodology to formally verify data-oblivious behavior in hardware using standard property checking techniques. The proposed methodology is based on an inductive property that enables scalability even to complex out-of-order cores. We show that proving this inductive property is sufficient to exhaustively verify data-obliviousness at the microarchitectural level. In addition, the paper discusses several techniques that can be used to make the verification process easier and faster. We demonstrate the feasibility of the proposed methodology through case studies on several open-source designs. One case study uncovered a data-dependent timing violation in the extensively verified and highly secure IBEX RISC-V core. In addition to several hardware accelerators and in-order processors, our experiments also include RISC-V BOOM, a complex out-of-order processor, highlighting the scalability of the approach. | 翻訳日:2024-03-17 17:20:31 公開日:2024-03-11 |
# DID:Ring: プライバシ認識のための分散識別子を用いたリング署名
DID:RING: Ring Signatures using Decentralised Identifiers For Privacy-Aware Identity ( http://arxiv.org/abs/2403.05271v2 ) ライセンス: Link先を確認 | Dimitrios Kasimatis, Sam Grierson, William J. Buchanan, Chris Eckl, Pavlos Papadopoulos, Nikolaos Pitropakis, Craig Thomson, Baraq Ghaleb, | (参考訳) 分散識別子はデジタルIDアーキテクチャの標準化された要素となり、欧州連合(EU)などの超国家組織は、それを統一されたヨーロッパのデジタルID台帳の重要な構成要素として採用している。
本稿では,リングシグネチャを代替検証手法として統合することにより,分散型識別子におけるセキュリティとプライバシの強化を図る。
これによってユーザーは、使用した公開鍵を明かさずに、デジタル署名を通じて身元を特定できる。
そこで本研究では,分散識別子に基づくアーキテクチャフレームワークで実証された分散ID手法を提案する。
さらに,本研究は,プライバシとセキュリティの面を中心に,本手法を検証プロセスに導入することの意義を評価する。
リングシグネチャは暗号プロトコルの確立された資産であるが,デジタルアイデンティティの進化領域において,その能力を活用することを目指す。
Decentralised identifiers have become a standardised element of digital identity architecture, with supra-national organisations such as the European Union adopting them as a key component for a unified European digital identity ledger. This paper delves into enhancing security and privacy features within decentralised identifiers by integrating ring signatures as an alternative verification method. This allows users to identify themselves through digital signatures without revealing which public key they used. To this end, the study proposed a novel decentralised identity method showcased in a decentralised identifier-based architectural framework. Additionally, the investigation assesses the repercussions of employing this new method in the verification process, focusing specifically on privacy and security aspects. Although ring signatures are an established asset of cryptographic protocols, this paper seeks to leverage their capabilities in the evolving domain of digital identities. | 翻訳日:2024-03-17 16:41:26 公開日:2024-03-11 |
# CPABEを基盤とした健康記録共有フレームワークの実用化
Practically adaptable CPABE based Health-Records sharing framework ( http://arxiv.org/abs/2403.06347v1 ) ライセンス: Link先を確認 | Raza Imam, Faisal Anwer, | (参考訳) ほぼすべての主要公共セクターにおけるクラウドサービスの最近の普及により、医療セクターは脆弱なセグメントとして現れ、特に機密性のある健康記録のデータ交換において、患者のプライバシーを危険にさらすことなく、患者の記録の保持、交換、効率的な利用を決定できる。
既存のクラウド-モバイルサービスのシナリオでは、単一のクラウドサービスプロデューサ内のデータのトラップや、重要な部分であるリソース管理の喪失など、いくつかの脆弱性が見つかる。
本研究では,CPABE と OAuth2.0 をベースとした,効率的なアクセス制御と認証のためのフレームワークを提案する。
実用性やデータの取り込み、リソース管理の損失といった問題を解決することに加えて、提案されたフレームワークは、クライアントアプリケーション自体の特定の操作と、繊細なEHRを求める機関、政府、組織へのデータの直接アクセスという、2つの重要な機能を同時に提供することを目的としています。
本研究は,CPABE ベースの EHR サービスにおける実用的欠陥を補うことを目的としており,本研究が近年の文献に多大な影響を及ぼす可能性があるため,提案フレームワークの実装と分析比較は,その可能性を示している。
With recent elevated adaptation of cloud services in almost every major public sector, the health sector emerges as a vulnerable segment, particularly in data exchange of sensitive Health records, as determining the retention, exchange, and efficient use of patient records without jeopardizing patient privacy, particularly on mobile-applications remains an area to expand. In the existing scenarios of cloud-mobile services, several vulnerabilities can be found including trapping of data within a single cloud-service-provider and loss of resource control being the significant ones. In this study, we have suggested a CPABE and OAuth2.0 based framework for efficient access-control and authorization respectively to improve the practicality of EHR sharing across a single client-application. In addition to solving issues like practicality, data entrapment, and resource control loss, the suggested framework also aims to provide two significant functionalities simultaneously, the specific operation of client application itself, and straightforward access of data to institutions, governments, and organizations seeking delicate EHRs. Our implementation of the suggested framework along with its analytical comparison signifies its potential in terms of efficient performance and minimal latency as this study would have a considerable impact on the recent literature as it intends to bridge the pragmatic deficit in CPABE-based EHR services. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-11 |
# Windows PE マルウェアファイル上での対向的侵入攻撃のためのシークエンスコードケーブインジェクション
Intra-Section Code Cave Injection for Adversarial Evasion Attacks on Windows PE Malware File ( http://arxiv.org/abs/2403.06428v1 ) ライセンス: Link先を確認 | Kshitiz Aryal, Maanak Gupta, Mahmoud Abdelsalam, Moustafa Saleh, | (参考訳) Windowsのマルウェアは、主にサイバースペースで利用でき、故意に敵対的攻撃の標的となっている。
研究者は敵のマルウェア攻撃の問題を調査しているが、多くの重要な疑問がまだ答えられていない。
(a) Windows Portable Executable (PE) のマルウェアファイルに敵の摂動を注入する既存の手法は、回避目的に十分な効果があるか?
;
b)攻撃プロセスはマルウェアの本来の挙動を保っているか?
;
(c)Windows PEマルウェアに対する敵対的回避攻撃の実行に使用可能な、探索されていないアプローチ/ロケーションは存在するか?
;そして
(d)PEファイルに著しい構造変化を伴わずにMLベースのマルウェア検出装置を回避するために最適な対向的摂動位置と大きさは何か。
これらの疑問に答えるために、この研究は、Windows PEのマルウェアファイルのセクション(つまり、セクション内)内にコード穴を注入して、敵の摂動の空間を作る新しいアプローチを提案する。
さらに、PEファイル内にコードローダーが注入され、実行中に敵のマルウェアを元の形式に戻し、マルウェアの機能と実行可能性を保存する。
アプローチの有効性を理解するため, 内臓に対向性摂動を注入した。
テキスト。
データと...
勾配降下法とFGSM(Fast Gradient Sign Method)を用いて生成されたrdataセクションは、人気のあるCNNベースのマルウェア検出器であるMalConvとMalConv2をターゲットにしている。
その結果,MalConvに対するFGSMが92.31%,FGSMが96.26%であった。
同様に、MalConv2を標的としたアプローチでは、勾配降下で97.93%、FGSMで94.34%という顕著な最大回避率を達成し、追加攻撃で観察された4.01%の回避率を大きく上回った。
Windows malware is predominantly available in cyberspace and is a prime target for deliberate adversarial evasion attacks. Although researchers have investigated the adversarial malware attack problem, a multitude of important questions remain unanswered, including (a) Are the existing techniques to inject adversarial perturbations in Windows Portable Executable (PE) malware files effective enough for evasion purposes?; (b) Does the attack process preserve the original behavior of malware?; (c) Are there unexplored approaches/locations that can be used to carry out adversarial evasion attacks on Windows PE malware?; and (d) What are the optimal locations and sizes of adversarial perturbations required to evade an ML-based malware detector without significant structural change in the PE file? To answer some of these questions, this work proposes a novel approach that injects a code cave within the section (i.e., intra-section) of Windows PE malware files to make space for adversarial perturbations. In addition, a code loader is also injected inside the PE file, which reverts adversarial malware to its original form during the execution, preserving the malware's functionality and executability. To understand the effectiveness of our approach, we injected adversarial perturbations inside the .text, .data and .rdata sections, generated using the gradient descent and Fast Gradient Sign Method (FGSM), to target the two popular CNN-based malware detectors, MalConv and MalConv2. Our experiments yielded notable results, achieving a 92.31% evasion rate with gradient descent and 96.26% with FGSM against MalConv, compared to the 16.17% evasion rate for append attacks. Similarly, when targeting MalConv2, our approach achieved a remarkable maximum evasion rate of 97.93% with gradient descent and 94.34% with FGSM, significantly surpassing the 4.01% evasion rate observed with append attacks. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-11 |
# DNNShield: ディープニューラルネットワークオーナシップ検証のための識別子の埋め込み
DNNShield: Embedding Identifiers for Deep Neural Network Ownership Verification ( http://arxiv.org/abs/2403.06581v1 ) ライセンス: Link先を確認 | Jasper Stang, Torsten Krauß, Alexandra Dmitrienko, | (参考訳) 機械学習(ML)の人気が高まり、Deep Neural Networks(DNN)のトレーニングに多大な投資をしている。
しかしながら、リソース集約的なトレーニングを必要とするこれらのモデルは、盗難や不正使用に対して脆弱である。
本稿では、DNN保護のための新しいアプローチであるDNNShieldを導入することで、この課題に対処する。
DNNShieldは、特別な保護レイヤを使用して、モデルアーキテクチャにユニークな識別子を埋め込む。
これらのレイヤはセキュアなトレーニングとデプロイメントを可能にし、微調整、プルーニング、適応的な敵攻撃など、さまざまな攻撃に対して高いレジリエンスを提供する。
特に、当社のアプローチは、パフォーマンスと計算オーバーヘッドを最小限に抑えながら、このセキュリティを実現する(ランタイムの5倍未満の増加)。
3つのデータセットと4つのモデルアーキテクチャにわたる広範囲な評価を通じて、DNNShieldの有効性と効率を検証した。
この実用的なソリューションにより、開発者はDNNと知的財産権を保護することができる。
The surge in popularity of machine learning (ML) has driven significant investments in training Deep Neural Networks (DNNs). However, these models that require resource-intensive training are vulnerable to theft and unauthorized use. This paper addresses this challenge by introducing DNNShield, a novel approach for DNN protection that integrates seamlessly before training. DNNShield embeds unique identifiers within the model architecture using specialized protection layers. These layers enable secure training and deployment while offering high resilience against various attacks, including fine-tuning, pruning, and adaptive adversarial attacks. Notably, our approach achieves this security with minimal performance and computational overhead (less than 5\% runtime increase). We validate the effectiveness and efficiency of DNNShield through extensive evaluations across three datasets and four model architectures. This practical solution empowers developers to protect their DNNs and intellectual property rights. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-11 |
# より正確で有用なデータ匿名性脆弱性対策に向けて
Towards more accurate and useful data anonymity vulnerability measures ( http://arxiv.org/abs/2403.06595v1 ) ライセンス: Link先を確認 | Paul Francis, David Wagner, | (参考訳) 構造化データの匿名化の目的は、データの統計特性を維持しながら、データの個人のプライバシーを保護することである。
匿名化の脆弱性を調べる大規模な作業があります。
本稿では, 強力な匿名化機構に着目し, 攻撃論文を多数検討し, いくつかの問題点を見出した。
第一に、いくつかの論文は正しい統計的推測基準(または全く)を確立することができず、誤った測定結果をもたらす。
特に、その開示方法の再設計に繋がったアメリカ合衆国国勢調査局の再建攻撃は、この間違いを犯した。
提案する非メンバフレームワークは,より正確な推論ベースラインの計算方法の改善であり,その操作例を示す。
第二に、いくつかの論文では、現実的な会員ベースレートを使用せず、正確さが報告された場合、誤った精度の計測に繋がる。
第3に、リスク評価が困難または不可能であるように、不必要に対策を報告する論文もある。
事実上、メンバーシップ推論攻撃に関する文献全体、数十の論文が、これらのエラーの1つまたは両方を犯している。
提案手法では, ベースレートの代表的な範囲を用いて, 精度/リコール値を報告する。
The purpose of anonymizing structured data is to protect the privacy of individuals in the data while retaining the statistical properties of the data. There is a large body of work that examines anonymization vulnerabilities. Focusing on strong anonymization mechanisms, this paper examines a number of prominent attack papers and finds several problems, all of which lead to overstating risk. First, some papers fail to establish a correct statistical inference baseline (or any at all), leading to incorrect measures. Notably, the reconstruction attack from the US Census Bureau that led to a redesign of its disclosure method made this mistake. We propose the non-member framework, an improved method for how to compute a more accurate inference baseline, and give examples of its operation. Second, some papers don't use a realistic membership base rate, leading to incorrect precision measures if precision is reported. Third, some papers unnecessarily report measures in such a way that it is difficult or impossible to assess risk. Virtually the entire literature on membership inference attacks, dozens of papers, make one or both of these errors. We propose that membership inference papers report precision/recall values using a representative range of base rates. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-11 |
# バックドアによるディープフェイク検出攻撃
Real is not True: Backdoor Attacks Against Deepfake Detection ( http://arxiv.org/abs/2403.06610v1 ) ライセンス: Link先を確認 | Hong Sun, Ziqiang Li, Lei Liu, Bin Li, | (参考訳) 悪意のあるディープフェイクアプリケーションの普及は、デジタルメディアの完全性に疑念を抱く世間の理解に火をつけている。
熟練したディープフェイク検出機構が開発されているにもかかわらず、一連の攻撃に対して明らかな脆弱性を持続的に示す。
既存のアタックのレパートリーが主に敵のサンプルアタックで構成されており、主にテストフェーズ中に現れている点が注目に値する。
本研究では,Bad-Deepfake(Bad-Deepfake)としてデノメートされた先駆的パラダイムを導入し,ディープフェイク検出器に対するバックドア攻撃の新たな展開を示す。
我々のアプローチは、訓練データの制限されたサブセットを戦略的に操作することで、訓練されたモデルの運用特性に対する不均等な影響を軽減できる。
この操作は、ディープフェイク検出器に固有の欠陥を活用し、トリガーを設計し、有毒なセットを構築する上で最も効果的なサンプルを司法的に選択する能力を与えてくれる。
これらの手法の相乗的アマルガメーションにより、広範囲に使用されているディープフェイク検出器に対する攻撃成功率(ASR)が著しく向上した。
The proliferation of malicious deepfake applications has ignited substantial public apprehension, casting a shadow of doubt upon the integrity of digital media. Despite the development of proficient deepfake detection mechanisms, they persistently demonstrate pronounced vulnerability to an array of attacks. It is noteworthy that the pre-existing repertoire of attacks predominantly comprises adversarial example attack, predominantly manifesting during the testing phase. In the present study, we introduce a pioneering paradigm denominated as Bad-Deepfake, which represents a novel foray into the realm of backdoor attacks levied against deepfake detectors. Our approach hinges upon the strategic manipulation of a delimited subset of the training data, enabling us to wield disproportionate influence over the operational characteristics of a trained model. This manipulation leverages inherent frailties inherent to deepfake detectors, affording us the capacity to engineer triggers and judiciously select the most efficacious samples for the construction of the poisoned set. Through the synergistic amalgamation of these sophisticated techniques, we achieve an remarkable performance-a 100% attack success rate (ASR) against extensively employed deepfake detectors. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# 電気自動車充電における自己主権のアイデンティティ
Self-Sovereign Identity for Electric Vehicle Charging ( http://arxiv.org/abs/2403.06632v1 ) ライセンス: Link先を確認 | Adrian Kailus, Dustin Kern, Christoph Krauß, | (参考訳) 電気自動車(EV)は、認証と認可のためのユーザーインタラクションをなくすISO 15118 規格のようなPlug-and-Charge(PnC)プロトコルを使用して、公共料金所(CP)でますます充電される。
現在、これはかなり複雑なPublic Key Infrastructure(PKI)を必要としており、含まれたユニークな識別子を介してドライバのトラッキングを可能にする。
本稿では、プライバシー問題と複雑な集中型PKIの問題を克服する、EV充電認証と認可のための信頼できる認証情報として、SSI(Self-Sovereign Identities)を使用するアプローチを提案する。
実装は、ISO 15118によるアプローチの実現可能性を示している。
提案手法のセキュリティとプライバシは,玉林証明器を用いて形式解析を行った。
Electric Vehicles (EVs) are more and more charged at public Charge Points (CPs) using Plug-and-Charge (PnC) protocols such as the ISO 15118 standard which eliminates user interaction for authentication and authorization. Currently, this requires a rather complex Public Key Infrastructure (PKI) and enables driver tracking via the included unique identifiers. In this paper, we propose an approach for using Self-Sovereign Identities (SSIs) as trusted credentials for EV charging authentication and authorization which overcomes the privacy problems and the issues of a complex centralized PKI. Our implementation shows the feasibility of our approach with ISO 15118. The security and privacy of the proposed approach is shown in a formal analysis using the Tamarin prover. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# 生産言語モデルの一部をステアリングする
Stealing Part of a Production Language Model ( http://arxiv.org/abs/2403.06634v1 ) ライセンス: Link先を確認 | Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr, | (参考訳) 我々は,OpenAIのChatGPTやGoogleのPaLM-2といったブラックボックス生産言語モデルから,正確な非自明な情報を抽出する最初のモデルステーリング攻撃を導入する。
具体的には、典型的なAPIアクセスを前提として、トランスモデルの埋め込みプロジェクション層(対称性まで)を回復する。
20ドル以下では,OpenAI の Ada および Babbage 言語モデル全体のプロジェクション行列を抽出する。
これにより、これらのブラックボックスモデルは、それぞれ1024と2048の隠れ次元を持つことを確認した。
また、gpt-3.5-turboモデルの正確な次元サイズを復元し、プロジェクション行列全体を復元するために2000ドル以下のクエリを見積もる。
我々は、潜在的防衛と緩和で締めくくり、我々の攻撃を拡大できる将来の仕事の可能性について論じる。
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under \$2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# 低層における危険を考慮した非保護4G/5G制御法
Unprotected 4G/5G Control Procedures at Low Layers Considered Dangerous ( http://arxiv.org/abs/2403.06717v1 ) ライセンス: Link先を確認 | Norbert Ludant, Marinos Vomvas, Guevara Noubir, | (参考訳) 長年にわたり、3GPP細胞システムにおけるいくつかのセキュリティ脆弱性が文献で実証されてきた。
ほとんどの研究は、暗号的に保護されているRCやNASのような細胞ラジオスタックの上位層に焦点を当てている。
しかしながら、PHYやMACのようなスタックの下位層は、暗号化や完全性は保護されていないにもかかわらず、十分に研究されていない。
さらに、5Gの最新リリースでは、低層制御メッセージやプロシージャの数が大幅に増加した。
セルラー標準の複雑さと高い層間操作により、セキュリティに関する推論は簡単ではなく、体系的な分析を必要とする。
本研究では,各物理チャネルが持つ制御手順について検討し,情報漏洩による新たな受動的攻撃やMACおよびPHYメッセージの注入によるアクティブアタックの影響について検討した。
例えば、ビームフォーミング情報漏洩は、指紋によるユーザーの位置特定と追跡を可能にする。
我々は、UEでRFフロントエンドを無効にすることでユーザのスループットを低下させるアクティブアタックを識別し、他の接続されたUEを妨害したり、アクティブなユーザを密かに切断したりすることで、ユーザ通信を妨害する。
我々は,COTS UEに対する攻撃を様々なシナリオで評価し,現行のオペレータの構成を3カ国で測定し,その実用性を実証した。
以上の結果から,攻撃者はユーザの96%の精度でユーザをローカライズし,90%の確率でユーザの移動経路を追跡し,スループットを2秒以内に95%以上削減できる(39ビットのDCIをスプーフすることで)。
Over the years, several security vulnerabilities in the 3GPP cellular systems have been demonstrated in the literature. Most studies focus on higher layers of the cellular radio stack, such as the RRC and NAS, which are cryptographically protected. However, lower layers of the stack, such as PHY and MAC, are not as thoroughly studied, even though they are neither encrypted nor integrity protected. Furthermore, the latest releases of 5G significantly increased the number of low-layer control messages and procedures. The complexity of the cellular standards and the high degree of cross-layer operations, makes reasoning about security non-trivial, and requires a systematic analysis. We study the control procedures carried by each physical channel, and find that current cellular systems are susceptible to several new passive attacks due to information leakage, and active attacks by injecting MAC and PHY messages. For instance, we find that beamforming information leakage enables fingerprinting-based localization and tracking of users. We identify active attacks that reduce the users' throughput by disabling RF front ends at the UE, disrupt user communications by tricking other connected UEs into acting as jammers, or stealthily disconnect an active user. We evaluate our attacks against COTS UEs in various scenarios and demonstrate their practicality by measuring current operators' configurations across three countries. Our results show that an attacker can, among other things, localize users with an accuracy of 20 meters 96% of the time, track users' moving paths with a probability of 90%, reduce throughput by more than 95% within 2 seconds (by spoofing a 39 bits DCI), and disconnect users. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# 高度な計測インフラのためのインシデント対応オーケストレーションと自動化に向けて
Towards Incident Response Orchestration and Automation for the Advanced Metering Infrastructure ( http://arxiv.org/abs/2403.06907v1 ) ライセンス: Link先を確認 | Alexios Lekidis, Vasileios Mavroeidis, Konstantinos Fysarakis, | (参考訳) 工業インフラの脅威の状況は、ここ数年で指数関数的に拡大してきた。
このようなインフラストラクチャには、リアルタイムの可用性を必要とするスマートメーターデータ交換のようなサービスが含まれる。
スマートメーターはAdvanced Metering Infrastructure(Advanced Metering Infrastructure)の主要なコンポーネントであり、その測定は、特定の領域におけるブラックアウトにつながる負荷ピークを避けるために、エネルギー需要を予測する歴史的なデータとしても使用される。
したがって、サイバー攻撃や運用上のエラーが発生した場合、高可用性を確保するため、総合的なインシデント対応計画が実施されなければならない。
現在、ユーティリティーオペレーターは、主に手動で、広範囲の時間、労力、ドメインの専門知識を必要とする。
本稿では,エネルギーセクターにおける特定のユースケースや攻撃シナリオを対象とした,組織的で高度に自動化されたインシデント対応計画を提案する。
特に、我々は、高度計測インフラのためのサイバーセキュリティ操作をサポートするために、高度に自動化可能なワークフローを定義するために、OASISコラボレーション自動化行動操作コース(CACAO)標準を使用します。
提案手法は、最も顕著なサイバー攻撃をエミュレートしたAdvanced Metering Infrastructureテストベッドを通じて検証され、脅威の封じ込めと根絶、スマートメーターデータ交換サービスにおけるビジネス継続性、インシデントレポート要求に対する迅速な対応を確保するために、プレイブックがインスタンス化される。
The threat landscape of industrial infrastructures has expanded exponentially over the last few years. Such infrastructures include services such as the smart meter data exchange that should have real-time availability. Smart meters constitute the main component of the Advanced Metering Infrastructure, and their measurements are also used as historical data for forecasting the energy demand to avoid load peaks that could lead to blackouts within specific areas. Hence, a comprehensive Incident Response plan must be in place to ensure high service availability in case of cyber-attacks or operational errors. Currently, utility operators execute such plans mostly manually, requiring extensive time, effort, and domain expertise, and they are prone to human errors. In this paper, we present a method to provide an orchestrated and highly automated Incident Response plan targeting specific use cases and attack scenarios in the energy sector, including steps for preparedness, detection and analysis, containment, eradication, recovery, and post-incident activity through the use of playbooks. In particular, we use the OASIS Collaborative Automated Course of Action Operations (CACAO) standard to define highly automatable workflows in support of cyber security operations for the Advanced Metering Infrastructure. The proposed method is validated through an Advanced Metering Infrastructure testbed where the most prominent cyber-attacks are emulated, and playbooks are instantiated to ensure rapid response for the containment and eradication of the threat, business continuity on the smart meter data exchange service, and compliance with incident reporting requirements. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# QPSO-LightGBMを用いたネットワークアセット脆弱性評価モデル
A Model for Assessing Network Asset Vulnerability Using QPSO-LightGBM ( http://arxiv.org/abs/2403.07029v1 ) ライセンス: Link先を確認 | Xinyu Li, Yu Gu, Chenwei Wang, Peng Zhao, | (参考訳) コンピュータ技術とネットワーク技術の継続的な発展により、ネットワークの規模は拡大し続け、ネットワーク空間は複雑になりがちであり、コンピュータやネットワークの応用は政治、軍事、金融、電気などの重要な分野に深く浸透してきた。
セキュリティイベントが発生しない場合、これらのリスクの高いネットワーク資産の脆弱性評価を積極的に行い、雨天に備え、セキュリティイベントによる損失を効果的に軽減することができる。
そこで本研究では,量子粒子群アルゴリズム-軽量勾配エレベータ(QPSO-LightGBM)に基づくネットワークアセット脆弱性の多分類予測モデルを提案する。
このモデルでは、データのバランスをとるためにSMOTE(Synthetic minority oversampling technique)を用い、量子粒子群最適化(QPSO)を自動パラメータ最適化に、LightGBMをモデリングに使用した。
ネットワークアセット脆弱性の多重分類予測を実現する。
モデルの合理性を検証するため,提案モデルと他のアルゴリズムによるモデルとの比較を行った。
その結果,様々な予測性能指標において,提案モデルの方が優れていることがわかった。
With the continuous development of computer technology and network technology, the scale of the network continues to expand, the network space tends to be complex, and the application of computers and networks has been deeply into politics, the military, finance, electricity, and other important fields. When security events do not occur, the vulnerability assessment of these high-risk network assets can be actively carried out to prepare for rainy days, to effectively reduce the loss caused by security events. Therefore, this paper proposes a multi-classification prediction model of network asset vulnerability based on quantum particle swarm algorithm-Lightweight Gradient Elevator (QPSO-LightGBM). In this model, based on using the Synthetic minority oversampling technique (SMOTE) to balance the data, quantum particle swarm optimization (QPSO) was used for automatic parameter optimization, and LightGBM was used for modeling. Realize multi-classification prediction of network asset vulnerability. To verify the rationality of the model, the proposed model is compared with the model constructed by other algorithms. The results show that the proposed model is better in various predictive performance indexes. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-11 |
# FeatAug:一対多の関係表から自動的に機能拡張
FeatAug: Automatic Feature Augmentation From One-to-Many Relationship Tables ( http://arxiv.org/abs/2403.06367v1 ) ライセンス: Link先を確認 | Danrui Qi, Weiling Zheng, Jiannan Wang, | (参考訳) 1対多の関係テーブルの機能強化は、MLモデル開発において重要な問題であるが、難しい問題である。
優れた機能を強化するためには、データサイエンティストが手動でSQLクエリを作成する必要がある。
Featuretools [1]はデータサイエンスコミュニティで広く使われているツールで、関連するテーブルから新機能を抽出してトレーニングデータを自動的に強化する。
各機能は、関連するテーブル上のSQLクエリをグループバイアグリゲーションとして表現し、これらのSQLクエリを自動的に生成できる。
しかし、これらのクエリには述語を含まないため、多くの実世界のシナリオにおいてアプリケーションを大幅に制限する。
この制限を克服するため,一対多の関係テーブルから述語対応SQLクエリを自動的に抽出する機能拡張フレームワークであるFEATAUGを提案する。
述語を考えると、候補クエリの数が指数関数的に増加するため、この拡張は簡単ではない。
結果として、全ての候補クエリを具体化するオリジナルのFeaturetoolsフレームワークは機能せず、再設計される必要がある。
我々はこの問題を公式に定義し、ハイパーパラメータ最適化問題としてモデル化する。
本稿では,ベイズ最適化の適用方法について論じるとともに,これを最適化するための新しいウォームアップ戦略を提案する。
また,提案アルゴリズムをより実用的なものにするために,述語に対する有望な属性の組み合わせを特定する方法についても検討する。
ビームサーチの考え方を部分的に解き、さらに最適化するためのいくつかの手法を提案する。
FeatAugはFeattoolsや他のベースラインと比較して,より効果的な特徴を抽出する。
コードはhttps://github.com/sfu-db/FeatAugで公開されている。
Feature augmentation from one-to-many relationship tables is a critical but challenging problem in ML model development. To augment good features, data scientists need to come up with SQL queries manually, which is time-consuming. Featuretools [1] is a widely used tool by the data science community to automatically augment the training data by extracting new features from relevant tables. It represents each feature as a group-by aggregation SQL query on relevant tables and can automatically generate these SQL queries. However, it does not include predicates in these queries, which significantly limits its application in many real-world scenarios. To overcome this limitation, we propose FEATAUG, a new feature augmentation framework that automatically extracts predicate-aware SQL queries from one-to-many relationship tables. This extension is not trivial because considering predicates will exponentially increase the number of candidate queries. As a result, the original Featuretools framework, which materializes all candidate queries, will not work and needs to be redesigned. We formally define the problem and model it as a hyperparameter optimization problem. We discuss how the Bayesian Optimization can be applied here and propose a novel warm-up strategy to optimize it. To make our algorithm more practical, we also study how to identify promising attribute combinations for predicates. We show that how the beam search idea can partially solve the problem and propose several techniques to further optimize it. Our experiments on four real-world datasets demonstrate that FeatAug extracts more effective features compared to Featuretools and other baselines. The code is open-sourced at https://github.com/sfu-db/FeatAug | 翻訳日:2024-03-16 01:11:34 公開日:2024-03-11 |
# LeOCLR: 視覚表現のコントラスト学習のためのオリジナルイメージの活用
LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2403.06813v1 ) ライセンス: Link先を確認 | Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong, | (参考訳) 対照的なインスタンス識別は、イメージ分類やオブジェクト検出といった下流タスクにおける教師あり学習よりも優れています。
しかし、この手法は表現学習におけるデータ拡張に大きく依存しており、適切に実装されていない場合、結果が劣る可能性がある。
乱作後の再サイズ化は、対照的な学習で使用されるデータ拡張の一般的な形式であるが、2つのランダムな作物が異なる意味的内容を含む場合、劣化した表現学習につながる可能性がある。
この問題に対処するために、新しいインスタンス識別アプローチと、正のペア間の共有領域が意味論的に正しいことを保証する適応型損失関数を用いたLeOCLR(Leveraging Original Images for Contrastive Learning of Visual Representations)を提案する。
実験結果から,本手法はベースラインモデルと比較して,異なるデータセット間の表現学習を一貫して改善することが示された。
例えば, 線形評価では ImageNet-1K で MoCo-v2 を5.1% 上回っている。
Contrastive instance discrimination outperforms supervised learning in downstream tasks like image classification and object detection. However, this approach heavily relies on data augmentation during representation learning, which may result in inferior results if not properly implemented. Random cropping followed by resizing is a common form of data augmentation used in contrastive learning, but it can lead to degraded representation learning if the two random crops contain distinct semantic content. To address this issue, this paper introduces LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a new instance discrimination approach and an adapted loss function that ensures the shared region between positive pairs is semantically correct. The experimental results show that our approach consistently improves representation learning across different datasets compared to baseline models. For example, our approach outperforms MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and several other methods on transfer learning tasks. | 翻訳日:2024-03-16 01:01:27 公開日:2024-03-11 |
# 人々は行動を説明するとき、自動運転車の目的に貢献する
People Attribute Purpose to Autonomous Vehicles When Explaining Their Behavior ( http://arxiv.org/abs/2403.08828v1 ) ライセンス: Link先を確認 | Balint Gyevnar, Stephanie Droop, Tadeg Quillien, | (参考訳) 優れたXAIシステムの目玉は、ユーザが理解し行動できる説明である。
多くの場合、これは理解不能な因果的または反事実的説明を提供するシステムを必要とする。
認知科学は、ユーザーがどのような説明を期待するか、どのフォーマットでこれらの説明をフレーム化するかを理解するのに役立ちます。
本稿では,特にテレロジーに関する認知科学から,その目的の観点から意思決定を説明する傾向について,関連文献を簡潔にレビューする。
次に、自動運転車の動作に関する説明を生成する方法と、これらの説明を評価する方法について、実証データを報告する。
最初の調査では、参加者(n=54)が道路シーンのビデオを見せられ、車両の行動に関する機械的、反事実的、遠隔的言葉の説明を生成するよう依頼された。
第2の調査では、異なる参加者(n=356)がこれらの説明を、品質、信頼性、説明モードがどの程度強調されたかなど、様々な指標に沿って評価した。
参加者は、機械的、遠隔的説明は反事実的説明よりもはるかに高い品質であるとみなした。
さらに、テレロジーは、品質と信頼性を知覚する最良の予測者であった。
テレロジーや品質評価は、説明されている車両が自動運転車であるか、または人が運転しているかによっても影響を受けなかった。
その結果,他者と自律走行車の両方の情報をテレロジカルな概念を用いて評価し,その「意図的スタンス」が便利な抽象化であることが示唆された。
我々は、注釈付きビデオ状況のデータセットを、Human Explanations for Autonomous Driving Decisions (HEADD)と呼ばれる説明とともに公開し、さらなる研究を期待する。
A hallmark of a good XAI system is explanations that users can understand and act on. In many cases, this requires a system to offer causal or counterfactual explanations that are intelligible. Cognitive science can help us understand what kinds of explanations users might expect, and in which format to frame these explanations. We briefly review relevant literature from the cognitive science of explanation, particularly as it concerns teleology, the tendency to explain a decision in terms of the purpose it was meant to achieve. We then report empirical data on how people generate explanations for the behavior of autonomous vehicles, and how they evaluate these explanations. In a first survey, participants (n=54) were shown videos of a road scene and asked to generate either mechanistic, counterfactual, or teleological verbal explanations for a vehicle's actions. In the second survey, a different set of participants (n=356) rated these explanations along various metrics including quality, trustworthiness, and how much each explanatory mode was emphasized in the explanation. Participants deemed mechanistic and teleological explanations as significantly higher quality than counterfactual explanations. In addition, perceived teleology was the best predictor of perceived quality and trustworthiness. Neither perceived teleology nor quality ratings were affected by whether the car whose actions were being explained was an autonomous vehicle or was being driven by a person. The results show people use and value teleological concepts to evaluate information about both other people and autonomous vehicles, indicating they find the 'intentional stance' a convenient abstraction. We make our dataset of annotated video situations with explanations, called Human Explanations for Autonomous Driving Decisions (HEADD), publicly available, which we hope will prompt further research. | 翻訳日:2024-03-16 00:51:27 公開日:2024-03-11 |
# 集団意思決定におけるバイアスの緩和:フェイクニュースにおけるパフォーマンス向上
Mitigating Biases in Collective Decision-Making: Enhancing Performance in the Face of Fake News ( http://arxiv.org/abs/2403.08829v1 ) ライセンス: Link先を確認 | Axel Abels, Elias Fernandez Domingos, Ann Nowé, Tom Lenaerts, | (参考訳) 個人的・社会的偏見は、保護されたグループを損なう可能性のある判断誤差を誘導することによって、人間の助言者の有効性を損なう。
本稿では,これらのバイアスが偽ニュースの広範的問題に与える影響を,偽ニュースを識別する人的参加者の能力を評価することによって検討する。
センシティブな特徴を含む見出しに焦点を合わせることで、人間の反応がバイアスによってどのように形作られるかを探るため、包括的なデータセットを集めます。
分析の結果、個々のバイアスとその浸透が集団的決定に繰り返し現れることが明らかとなった。
人口統計学的要因,見出しカテゴリー,情報の提示方法が人的判断の誤りに大きく影響していることを示す。
次に、収集したデータをベンチマーク問題として使用し、適応的アグリゲーションアルゴリズムの有効性を評価する。
精度の向上に加えて, 集団知能の出現と偏見の緩和との相互作用が強調された。
Individual and social biases undermine the effectiveness of human advisers by inducing judgment errors which can disadvantage protected groups. In this paper, we study the influence these biases can have in the pervasive problem of fake news by evaluating human participants' capacity to identify false headlines. By focusing on headlines involving sensitive characteristics, we gather a comprehensive dataset to explore how human responses are shaped by their biases. Our analysis reveals recurring individual biases and their permeation into collective decisions. We show that demographic factors, headline categories, and the manner in which information is presented significantly influence errors in human judgment. We then use our collected data as a benchmark problem on which we evaluate the efficacy of adaptive aggregation algorithms. In addition to their improved accuracy, our results highlight the interactions between the emergence of collective intelligence and the mitigation of participant biases. | 翻訳日:2024-03-16 00:51:27 公開日:2024-03-11 |
# RaTrack: 4Dレーダポイントクラウドによるオブジェクト検出と追跡の移動
RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v7 ) ライセンス: Link先を確認 | Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu | (参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。
3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。
現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。
4Dレーダデータにおけるレーダノイズと点間隔による課題を認識し、レーダベースのトラッキングに適した革新的なソリューションであるRaTrackを紹介する。
特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。
View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、最先端のパフォーマンスを大きく上回っている。
コードとモデルはhttps://github.com/LJacksonPan/RaTrack.comでリリースしています。
Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art. We release our code and model at https://github.com/LJacksonPan/RaTrack. | 翻訳日:2024-03-14 18:27:44 公開日:2024-03-11 |
# アルゴリズムベイズ的認識論
Algorithmic Bayesian Epistemology ( http://arxiv.org/abs/2403.07949v1 ) ライセンス: Link先を確認 | Eric Neyman | (参考訳) 理論計算機科学におけるアルゴリズムレンズの1つの側面は、そのような制約を最適に無視する解とは対照的に、現実の制約に順応する満足できる解に焦点を当てた他の科学分野についての見解である。
アルゴリズムレンズは、分子生物学、生態学、神経科学、量子物理学、経済学、社会科学など、多くの学術分野においてユニークかつ重要な視点を提供してきた。
この論文は、アルゴリズムレンズをベイズ認識学に適用する。
伝統的なベイズ観念論は、個人の信念が新しい情報を受け取る際にどのように進化するかの包括的な枠組みを提供する。
しかしながら、これらの手法は典型的には、異なる証拠間の相関構造を含む、そのような情報の網羅的なモデルを想定している。
実際には、個人にはそのような徹底的なモデルがないかもしれないが、信念を形成する必要がある。
このような情報的制約を超えて、個人は限られた計算、情報にアクセス可能なエージェントとの限られた通信、あるいはそのようなエージェントの戦略的行動によって拘束されることがある。
これらの制限が*完璧に*正確な信念の形成を妨げるとしても、*合理的に*正確な信念にたどり着くことは不可欠である。
本論では, 様々な制約の下での信念形成に関する根本的な可能性と不可解な結果を確立し, さらなる探究の土台を築いた。
One aspect of the algorithmic lens in theoretical computer science is a view on other scientific disciplines that focuses on satisfactory solutions that adhere to real-world constraints, as opposed to solutions that would be optimal ignoring such constraints. The algorithmic lens has provided a unique and important perspective on many academic fields, including molecular biology, ecology, neuroscience, quantum physics, economics, and social science. This thesis applies the algorithmic lens to Bayesian epistemology. Traditional Bayesian epistemology provides a comprehensive framework for how an individual's beliefs should evolve upon receiving new information. However, these methods typically assume an exhaustive model of such information, including the correlation structure between different pieces of evidence. In reality, individuals might lack such an exhaustive model, while still needing to form beliefs. Beyond such informational constraints, an individual may be bounded by limited computation, or by limited communication with agents that have access to information, or by the strategic behavior of such agents. Even when these restrictions prevent the formation of a *perfectly* accurate belief, arriving at a *reasonably* accurate belief remains crucial. In this thesis, we establish fundamental possibility and impossibility results about belief formation under a variety of restrictions, and lay the groundwork for further exploration. | 翻訳日:2024-03-14 17:27:52 公開日:2024-03-11 |
# コードスイッチト・セペディ英語自動音声の評価
認識システム
The evaluation of a code-switched Sepedi-English automatic speech recognition system ( http://arxiv.org/abs/2403.07947v1 ) ライセンス: Link先を確認 | Amanda Phaladi and Thipe Modipa | (参考訳) 音声技術は、自動音声認識(ASR)や音声対話システムなど、機械が音声と対話できるようにするための様々な技術やツールを含む分野であり、デバイスは人間の話者からマイクを通して音声をキャプチャすることができる。
Connectionist Temporal Classification (CTC) や attention-based method といったエンドツーエンドのアプローチは、ASRシステムの開発に最もよく使われている。
しかし、これらの手法は、訓練と評価のために大量の音声データを持つ多くの高リソース言語の研究と開発に一般的に用いられ、低リソース言語は比較的未開発のままである。
CTC法は他の言語でうまく使われているが、セペディ語の有効性は未だ不明である。
本研究では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
NCHLT Sepedi test corpus と Sepedi Prompted Code Switching corpus を用いて評価を行った。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
Speech technology is a field that encompasses various techniques and tools used to enable machines to interact with speech, such as automatic speech recognition (ASR), spoken dialog systems, and others, allowing a device to capture spoken words through a microphone from a human speaker. End-to-end approaches such as Connectionist Temporal Classification (CTC) and attention-based methods are the most used for the development of ASR systems. However, these techniques were commonly used for research and development for many high-resourced languages with large amounts of speech data for training and evaluation, leaving low-resource languages relatively underdeveloped. While the CTC method has been successfully used for other languages, its effectiveness for the Sepedi language remains uncertain. In this study, we present the evaluation of the Sepedi-English code-switched automatic speech recognition system. This end-to-end system was developed using the Sepedi Prompted Code Switching corpus and the CTC approach. The performance of the system was evaluated using both the NCHLT Sepedi test corpus and the Sepedi Prompted Code Switching corpus. The model produced the lowest WER of 41.9%, however, the model faced challenges in recognizing the Sepedi only text. | 翻訳日:2024-03-14 17:27:51 公開日:2024-03-11 |
# 認知のセキュリティ問題のための数学的枠組み
神経工学
A Mathematical Framework for the Problem of Security for Cognition in Neurotechnology ( http://arxiv.org/abs/2403.07945v1 ) ライセンス: Link先を確認 | Bryce Allen Bagley | (参考訳) 近年の神経テクノロジーの急速な進歩は、神経テクノロジーとセキュリティの間に新たな重要な共通点を生み出している。
インプラント可能なデバイス、非侵襲的なモニタリング、非侵襲的な治療はすべて、個人の認知のプライバシーと自律性を侵害する可能性を持っている。
多くの科学者や医師が、認知的セキュリティ(Cognitive Security)と呼ばれるこの問題に対処するよう呼びかけてきたが、適用努力は限られている。
認知セキュリティに対処するための科学と工学の努力を妨げる大きな障壁は、関連する問題を記述し分析する明確な手段がないことである。
本稿では,複数の分野からメソッドや結果を描くことによって,そのような記述と分析を可能にする数学的フレームワークであるCognitive Securityを開発する。
認知的セキュリティに重要な意味を持つ統計特性を実証し、プライバシーや自律性を侵害しようとする攻撃者が直面するアルゴリズム上の問題と、そのような試みを阻止しようとする守備者の説明を示す。
The rapid advancement in neurotechnology in recent years has created an emerging critical intersection between neurotechnology and security. Implantable devices, non-invasive monitoring, and non-invasive therapies all carry with them the prospect of violating the privacy and autonomy of individuals' cognition. A growing number of scientists and physicians have made calls to address this issue -- which we term Cognitive Security -- but applied efforts have been limited. A major barrier hampering scientific and engineering efforts to address Cognitive Security is the lack of a clear means of describing and analyzing relevant problems. In this paper we develop Cognitive Security, a mathematical framework which enables such description and analysis by drawing on methods and results from multiple fields. We demonstrate certain statistical properties which have significant implications for Cognitive Security, and then present descriptions of the algorithmic problems faced by attackers attempting to violate privacy and autonomy, and defenders attempting to obstruct such attempts. | 翻訳日:2024-03-14 17:27:51 公開日:2024-03-11 |
# DiPrompT: 多重潜在ドメインのためのアンタングル型プロンプトチューニング
フェデレートラーニングにおける一般化
DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain Generalization in Federated Learning ( http://arxiv.org/abs/2403.08506v1 ) ライセンス: Link先を確認 | Sikai Bai, Jie Zhang, Shuaicheng Li, Song Guo, Jingcai Guo, Jun Hou, Tao Han, and Xiaocheng Lu | (参考訳) フェデレーテッド・ラーニング(FL)は分散化されたデータから学習するための強力なパラダイムとして現れており、フェデレーテッド・ドメインの一般化はさらに、テストデータセット(ターゲット・ドメイン)が分散化されたトレーニングデータ(ソース・ドメイン)から欠落していると考えている。
しかしながら、既存のFLメソッドの多くは、トレーニング中にドメインラベルが提供されると仮定し、それらの評価は、クライアントの数に厳密に一致するように、ドメインの数に明示的な制約を課している。
多くのエッジデバイスが未使用であり、現実世界でクロスクライアントなドメインアノテーションが追加されているため、そのような制限は実用的ではなく、潜在的なプライバシー漏洩を伴う可能性がある。
本稿では,ドメイン一般化のための適応的プロンプトを分散的に学習することにより,上記の制約に対処するDistangled Prompt Tuning(DiPrompT)という,効率的で斬新な手法を提案する。
具体的には、まず、グローバルプロンプト(グローバルプロンプト)という2つのタイプのプロンプトを設計し、すべてのクライアントにまたがる一般的な知識をキャプチャし、ドメイン固有の知識をキャプチャするドメインプロンプトを設計する。
ソースドメインとローカルクライアント間の1対1マッピングの制限を取り除く。
さらに、各サンプルに対して適切なドメインラベルを自動的に検索する動的クエリメトリックを導入し、労働集約アノテーションを使わずにプロンプトチューニングに基づく2段階のテキストイメージアライメントを含む。
複数のデータセットに対する大規模な実験により、ドメインラベルが提供されていない場合、我々のDiPrompTは最先端のFLメソッドよりも優れたドメイン一般化性能を達成でき、ドメインラベルを用いた多くの集中学習方法よりも優れています。
Federated learning (FL) has emerged as a powerful paradigm for learning from decentralized data, and federated domain generalization further considers the test dataset (target domain) is absent from the decentralized training data (source domains). However, most existing FL methods assume that domain labels are provided during training, and their evaluation imposes explicit constraints on the number of domains, which must strictly match the number of clients. Because of the underutilization of numerous edge devices and additional cross-client domain annotations in the real world, such restrictions may be impractical and involve potential privacy leaks. In this paper, we propose an efficient and novel approach, called Disentangled Prompt Tuning (DiPrompT), a method that tackles the above restrictions by learning adaptive prompts for domain generalization in a distributed manner. Specifically, we first design two types of prompts, i.e., global prompt to capture general knowledge across all clients and domain prompts to capture domain-specific knowledge. They eliminate the restriction on the one-to-one mapping between source domains and local clients. Furthermore, a dynamic query metric is introduced to automatically search the suitable domain label for each sample, which includes two-substep text-image alignments based on prompt tuning without labor-intensive annotation. Extensive experiments on multiple datasets demonstrate that our DiPrompT achieves superior domain generalization performance over state-of-the-art FL methods when domain labels are not provided, and even outperforms many centralized learning methods using domain labels. | 翻訳日:2024-03-14 14:10:54 公開日:2024-03-11 |
# データによる学習と意思決定:最適な定式化と相転移 Learning and Decision-Making with Data: Optimal Formulations and Phase Transitions ( http://arxiv.org/abs/2109.06911v3 ) ライセンス: Link先を確認 | Amine Bennouna and Bart P.G. Van Parys | (参考訳) 歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。
以前の作業は通常、データ駆動の特定のクラスにコミットし、その後、サンプル外のパフォーマンス保証を確立しようとします。
ここでは反対のアプローチを取ります。
まず、任意のデータ駆動定式化の品質を測定するための賢明なヤードスティックを定義し、その上で最適な定式化を探します。
非公式に、任意のデータ駆動型定式化は、推定コストと実際のコストの近接の尺度をバランスさせながら、サンプル性能のレベルを保証できる。
サンプル外性能の許容レベルを考慮すれば、同じサンプル外性能を享受する他のどの定式化よりも、真のコストに均一に近いデータ駆動型定式化を明示的に構築する。
最適データ駆動型定式化の性質が相転移を経験する3つの異なるアウト・オブ・サンプル・パフォーマンス・レジーム(超指数的レジーム、指数的レジーム、サブ指数的レジーム)の存在を示す。
最適なデータ駆動定式化は、超指数レジームにおける古典的ロバストな定式化、指数レジームにおけるエントロピーな分布的ロバストな定式化、最終的に準指数レジームにおける分散ペナライズド定式化と解釈することができる。
この最後の観測では、これらの3つの間に驚くべき関係が明らかとなり、一見無関係に見えるデータ駆動の定式化が現在まで秘められている。 We study the problem of designing optimal learning and decision-making formulations when only historical data is available. Prior work typically commits to a particular class of data-driven formulation and subsequently tries to establish out-of-sample performance guarantees. We take here the opposite approach. We define first a sensible yard stick with which to measure the quality of any data-driven formulation and subsequently seek to find an optimal such formulation. Informally, any data-driven formulation can be seen to balance a measure of proximity of the estimated cost to the actual cost while guaranteeing a level of out-of-sample performance. Given an acceptable level of out-of-sample performance, we construct explicitly a data-driven formulation that is uniformly closer to the true cost than any other formulation enjoying the same out-of-sample performance. We show the existence of three distinct out-of-sample performance regimes (a superexponential regime, an exponential regime and a subexponential regime) between which the nature of the optimal data-driven formulation experiences a phase transition. The optimal data-driven formulations can be interpreted as a classically robust formulation in the superexponential regime, an entropic distributionally robust formulation in the exponential regime and finally a variance penalized formulation in the subexponential regime. This final observation unveils a surprising connection between these three, at first glance seemingly unrelated, data-driven formulations which until now remained hidden. | 翻訳日:2024-03-14 02:57:34 公開日:2024-03-11 |
# ディープDNAストレージ:コーディング理論とディープラーニングによるスケーラブルでロバストなDNAストレージ Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and Deep Learning ( http://arxiv.org/abs/2109.00031v3 ) ライセンス: Link先を確認 | Daniella Bar-Lev, Itai Orr, Omer Sabary, Tuvi Etzion, Eitan Yaakobi | (参考訳) DNAベースのストレージは、デジタル情報をDNA分子にアーカイブできる新しい技術である。
この手法は、優れた情報密度、データ耐久性の向上、データの完全性を維持するために無視できる電力消費など、磁気および光ストレージソリューションよりも大きな利点を享受する。
データにアクセスするには、情報検索プロセスを使用し、主なボトルネックはスケーラビリティと正確性であり、両者の間に自然なトレードオフがある。
本稿では,シミュレーションデータに基づく深層ニューラルネットワーク(dnn),テンソル生成(tp)に基づく誤り訂正符号(ecc),安全マージン機構をひとつのコヒーレントパイプラインに結合した,モジュラーで総合的なアプローチを示す。
我々は2つの異なるシークエンシング技術を用いて3.1MBの情報を実演した。
我々の研究は, 最大で x3200 の速度向上, 40%の精度向上により, 現在の指導的ソリューションの改善を実現し, 高雑音下では1ベースあたり1.6ビットのコードレートを提供する。
より広い意味では、我々の研究は、現在の情報検索プロセスによって妨げられる商用のDNAストレージソリューションへの有効な道を示す。 DNA-based storage is an emerging technology that enables digital information to be archived in DNA molecules. This method enjoys major advantages over magnetic and optical storage solutions such as exceptional information density, enhanced data durability, and negligible power consumption to maintain data integrity. To access the data, an information retrieval process is employed, where some of the main bottlenecks are the scalability and accuracy, which have a natural tradeoff between the two. Here we show a modular and holistic approach that combines Deep Neural Networks (DNN) trained on simulated data, Tensor-Product (TP) based Error-Correcting Codes (ECC), and a safety margin mechanism into a single coherent pipeline. We demonstrated our solution on 3.1MB of information using two different sequencing technologies. Our work improves upon the current leading solutions by up to x3200 increase in speed, 40% improvement in accuracy, and offers a code rate of 1.6 bits per base in a high noise regime. In a broader sense, our work shows a viable path to commercial DNA storage solutions hindered by current information retrieval processes. | 翻訳日:2024-03-14 02:57:03 公開日:2024-03-11 |
# CSC-Unet: セマンティックセグメンテーションのための新しい畳み込みスパース符号化戦略に基づくニューラルネットワーク CSC-Unet: A Novel Convolutional Sparse Coding Strategy Based Neural Network for Semantic Segmentation ( http://arxiv.org/abs/2108.00408v2 ) ライセンス: Link先を確認 | Haitong Tang, Shuang He, Mengduo Yang, Xia Lu, Qin Yu, Kaiyue Liu, Hongjie Yan and Nizhuan Wang | (参考訳) 実写シーンの複雑さのため,セマンティックセグメンテーションを正確に行うことは難しい課題である。
従来の深層学習に基づく多くのセマンティックセグメンテーション手法では画像のセマンティックな情報や外観が不十分であり、様々な場面においてその汎用性と堅牢性に限界が生じた。
本稿では, 一般的な畳み込み操作を多層畳み込み符号化ブロックに再構成し, 上記の欠陥を緩和する新しい戦略を提案する。
この戦略は、畳み込み操作を含むセマンティックセグメンテーションモデルのセグメンテーション性能を著しく改善するために使用することができる。
提案手法の有効性を証明するため,実証目的で広く使用されているU-Netモデルを選択し,U-Netに基づくCSC-Unetモデルシリーズを設計した。
広汎な解析と実験により,多層畳み込みスパース符号化ブロックはセマンティックセグメンテーションモデルをより高速に収束させ,画像のより微細なセマンティックおよび外観情報を抽出し,空間的詳細情報を復元する能力を向上させることができることを示す。
最高のCSC-Unetモデルは、異なるシナリオを持つ3つのパブリックデータセット、すなわちDeepCrackデータセットで87.14%対84.71%、Nucleiデータセットで68.91%対67.09%、CamVidデータセットで53.68%対48.82%の3つの公開データセットで、元のU-Netの結果を大きく上回っている。 It is a challenging task to accurately perform semantic segmentation due to the complexity of real picture scenes. Many semantic segmentation methods based on traditional deep learning insufficiently captured the semantic and appearance information of images, which put limit on their generality and robustness for various application scenes. In this paper, we proposed a novel strategy that reformulated the popularly-used convolution operation to multi-layer convolutional sparse coding block to ease the aforementioned deficiency. This strategy can be possibly used to significantly improve the segmentation performance of any semantic segmentation model that involves convolutional operations. To prove the effectiveness of our idea, we chose the widely-used U-Net model for the demonstration purpose, and we designed CSC-Unet model series based on U-Net. Through extensive analysis and experiments, we provided credible evidence showing that the multi-layer convolutional sparse coding block enables semantic segmentation model to converge faster, can extract finer semantic and appearance information of images, and improve the ability to recover spatial detail information. The best CSC-Unet model significantly outperforms the results of the original U-Net on three public datasets with different scenarios, i.e., 87.14% vs. 84.71% on DeepCrack dataset, 68.91% vs. 67.09% on Nuclei dataset, and 53.68% vs. 48.82% on CamVid dataset, respectively. | 翻訳日:2024-03-14 02:56:42 公開日:2024-03-11 |
# ai障害の理解と回避 - 実践的ガイド Understanding and Avoiding AI Failures: A Practical Guide ( http://arxiv.org/abs/2104.12582v4 ) ライセンス: Link先を確認 | Heather M. Williams, Roman V. Yampolskiy | (参考訳) AI技術の能力とユビキティが向上するにつれ、AI事故はますます一般的になりつつある。
通常の事故理論、高信頼性理論、オープンシステム理論に基づいて、aiアプリケーションに関連するリスクを理解するためのフレームワークを構築します。
さらに、AIの安全性原則を使用して、AIのインテリジェンスと人間のような品質のユニークなリスクを定量化しています。
これら2つのフィールドは、現代のAIのリスクをより完全に表現している。
事故の根本原因を求めるのではなく,事故近傍のシステム特性に注目することで,現行のaiシステムの安全性に注意を払うべき場所を特定する。 As AI technologies increase in capability and ubiquity, AI accidents are becoming more common. Based on normal accident theory, high reliability theory, and open systems theory, we create a framework for understanding the risks associated with AI applications. In addition, we also use AI safety principles to quantify the unique risks of increased intelligence and human-like qualities in AI. Together, these two fields give a more complete picture of the risks of contemporary AI. By focusing on system properties near accidents instead of seeking a root cause of accidents, we identify where attention should be paid to safety for current generation AI systems. | 翻訳日:2024-03-14 02:55:24 公開日:2024-03-11 |
# wise-srnet: 特徴地図の空間分解能学習による画像分類強化のための新しいアーキテクチャ Wise-SrNet: A Novel Architecture for Enhancing Image Classification by Learning Spatial Resolution of Feature Maps ( http://arxiv.org/abs/2104.12294v3 ) ライセンス: Link先を確認 | Mohammad Rahimzadeh, AmirAli Askari, Soroush Parvin, Elnaz Safi, Mohammad Reza Mohammadi | (参考訳) 畳み込みニューラルネットワークの進歩以降の主な課題の1つは、抽出された特徴マップを最終分類層に接続する方法である。
VGGモデルはアーキテクチャの分類に2つの完全に接続された層を使用し、モデルの重みを著しく増やした。
ResNetと次の深層畳み込みモデルでは、Global Average Pooling(GAP)レイヤを使用してフィーチャーマップを圧縮し、それを分類層に供給する。
GAPレイヤを使用すると計算コストが削減されるが、特徴マップの空間分解能が低下し、学習効率が低下する。
本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。
深遠な畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。
我々は、Intel Image Classification Challenge、MIT Indoors Scenes、ImageNetデータセットの一部の3つの異なるデータセットを用いて手法を評価した。
我々は,インセプション,ResNet,DenseNetファミリーの各モデルにおけるアーキテクチャの実装について検討した。
アーキテクチャを適用することで、収束速度と精度が向上することが明らかになりました。
224*224解像度の画像に対する実験は、データセットやモデルでTop-1の精度を2%から8%向上させた。
MIT Indoors Scenesデータセットの512*512解像度画像上でモデルを実行すると、Top-1の精度が3%から26%向上した。
また,入力画像が大きく,クラス数が少ない場合にGAP層の欠点を示す。
この状況下では,提案アーキテクチャは分類結果の強化に大いに役立てることができる。
コードはhttps://github.com/mr7495/image-classification-spatialで共有される。 One of the main challenges since the advancement of convolutional neural networks is how to connect the extracted feature map to the final classification layer. VGG models used two sets of fully connected layers for the classification part of their architectures, which significantly increased the number of models' weights. ResNet and the next deep convolutional models used the Global Average Pooling (GAP) layer to compress the feature map and feed it to the classification layer. Although using the GAP layer reduces the computational cost, but also causes losing spatial resolution of the feature map, which results in decreasing learning efficiency. In this paper, we aim to tackle this problem by replacing the GAP layer with a new architecture called Wise-SrNet. It is inspired by the depthwise convolutional idea and is designed for processing spatial resolution while not increasing computational cost. We have evaluated our method using three different datasets: Intel Image Classification Challenge, MIT Indoors Scenes, and a part of the ImageNet dataset. We investigated the implementation of our architecture on several models of the Inception, ResNet, and DenseNet families. Applying our architecture has revealed a significant effect on increasing convergence speed and accuracy. Our Experiments on images with 224*224 resolution increased the Top-1 accuracy between 2% to 8% on different datasets and models. Running our models on 512*512 resolution images of the MIT Indoors Scenes dataset showed a notable result of improving the Top-1 accuracy within 3% to 26%. We will also demonstrate the GAP layer's disadvantage when the input images are large and the number of classes is not few. In this circumstance, our proposed architecture can do a great help in enhancing classification results. The code is shared at https://github.com/mr7495/image-classification-spatial. | 翻訳日:2024-03-14 02:55:15 公開日:2024-03-11 |
# 単調変分不等式を用いたニューラルネットワークの訓練方法 An alternative approach to train neural networks using monotone variational inequality ( http://arxiv.org/abs/2202.08876v4 ) ライセンス: Link先を確認 | Chen Xu, Xiuyuan Cheng, Yao Xie | (参考訳) Juditsky & Nemirovsky, 2019) は、もともと一般化線形モデル (GLM) のパラメータ推定問題を、元の非凸問題を単調変動不等式 (VI) を解く凸問題に還元することで解くために開発された。
この手法は,単一層ニューラルネットワークのトレーニングや事前学習したモデルの最後のレイヤの微調整など,いくつかの特別なケースにおいて高速に収束し,保証を提供する計算効率の高い手順をもたらす。
提案手法は,大規模言語モデル(LLM)などの機械学習モデルをデプロイするための重要なステップである底層を凍結しながら,事前学習したモデルのより効率的な微調整に利用できる。
我々は,完全連結(FC)ニューラルネットワーク,グラフニューラルネットワーク(GNN),畳み込みニューラルネットワーク(CNN)のトレーニングへの適用性を実証し,様々なパフォーマンス指標に関する,合成および実ネットワークデータ予測タスクにおける確率的勾配降下法と比較して,我々のアプローチの競争力あるいは優れた性能を示す。 We propose an alternative approach to neural network training using the monotone vector field, an idea inspired by the seminal work of Juditsky and Nemirovski [Juditsky & Nemirovsky, 2019] developed originally to solve parameter estimation problems for generalized linear models (GLM) by reducing the original non-convex problem to a convex problem of solving a monotone variational inequality (VI). Our approach leads to computationally efficient procedures that converge fast and offer guarantee in some special cases, such as training a single-layer neural network or fine-tuning the last layer of the pre-trained model. Our approach can be used for more efficient fine-tuning of a pre-trained model while freezing the bottom layers, an essential step for deploying many machine learning models such as large language models (LLM). We demonstrate its applicability in training fully-connected (FC) neural networks, graph neural networks (GNN), and convolutional neural networks (CNN) and show the competitive or better performance of our approach compared to stochastic gradient descent methods on both synthetic and real network data prediction tasks regarding various performance metrics. | 翻訳日:2024-03-14 02:45:35 公開日:2024-03-11 |
# 広範ハミルトンの等尺テンソルネットワーク最適化は不毛高原を含まない Isometric tensor network optimization for extensive Hamiltonians is free of barren plateaus ( http://arxiv.org/abs/2304.14320v2 ) ライセンス: Link先を確認 | Qiang Miao, Thomas Barthel | (参考訳) 等尺テンソルネットワーク状態(TNS)のエネルギー最適化には、例えば凝縮物質物理学において典型的な有限範囲相互作用を持つハミルトン多様体に対するバレンプラトーが存在しないことを説明し、数値的に確認する。
具体的には、開境界条件を持つ行列積状態(MPS)、ツリーテンソルネットワーク状態(TTNS)、およびマルチスケールエンタングルメント再正規化アンサッツ(MERA)を考える。
MERAは構成上等尺であり、MPSとTTNSではテンソルネットワークゲージの自由度により、すべてのテンソルを部分等距離として選択することができる。
エネルギー勾配のばらつきは、tnsテンソル上のハール平均値を用いて評価され、ボンド次元のパワー則に従って、システムサイズ独立項が主要なものとなり、減少する。
分岐比が$b$の階層的 TNS (TTNS and MERA) の場合、層内のテンソルに対する勾配の分散は$(b\eta)^\tau$ となる。
等方性 TNS のバレンプラトーが存在しないことは、強い相関関係の量子物質の効率的な量子計算に基づく研究にとって有望な経路である。
勾配振幅のスケーリング特性は、効率的なTNS初期化手順に影響を及ぼす。 We explain why and numerically confirm that there are no barren plateaus in the energy optimization of isometric tensor network states (TNS) for extensive Hamiltonians with finite-range interactions which are, for example, typical in condensed matter physics. Specifically, we consider matrix product states (MPS) with open boundary conditions, tree tensor network states (TTNS), and the multiscale entanglement renormalization ansatz (MERA). MERA are isometric by construction and, for the MPS and TTNS, the tensor network gauge freedom allows us to choose all tensors as partial isometries. The variance of the energy gradient, evaluated by taking the Haar average over the TNS tensors, has a leading system-size independent term and decreases according to a power law in the bond dimension. For a hierarchical TNS (TTNS and MERA) with branching ratio $b$, the variance of the gradient with respect to a tensor in layer $\tau$ scales as $(b\eta)^\tau$, where $\eta$ is the second largest eigenvalue of a Haar-average doubled layer-transition channel and decreases algebraically with increasing bond dimension. The absence of barren plateaus substantiates that isometric TNS are a promising route for an efficient quantum-computation-based investigation of strongly-correlated quantum matter. The observed scaling properties of the gradient amplitudes bear implications for efficient TNS initialization procedures. | 翻訳日:2024-03-14 02:27:37 公開日:2024-03-11 |
# オーバーラップギャッププロパティからの Combinatorial NLTS Combinatorial NLTS From the Overlap Gap Property ( http://arxiv.org/abs/2304.00643v3 ) ライセンス: Link先を確認 | Eric R. Anschuetz and David Gamarnik and Bobak Kiani | (参考訳) 最近の重要な発展の中で、Anshu, Breuckmann, and Nirkhe [ABN22] は、フリードマンとヘイスティングスによるいわゆるNo Low-Energy Trivial State (NLTS)予想を肯定的に解決した。
この予想は、浅い(sublogarithmic depth)回路でニアグラウンド状態が作成できないn量子ビット系上の線形サイズの局所ハミルトニアンの存在を仮定した。
ABN22]の構成は、最近開発された良い量子符号に基づいている。
この方向の初期の結果には、nltsの弱いバージョンであるいわゆる組合せnltsの構成も含まれており、ハミルトニアン項 [ab22] の消失分数に少なくとも違反した場合、状態は低エネルギーであると定義されている。
これらの構造は暗号にも基づいていた。
本稿では、Y Combinatorial NLTSを満たすハミルトン群の「非コード」構成を提供する。
この構成は [AB22] に着想を得たものであるが、我々の証明はコードの性質ではなくランダム K-SAT の複素解空間幾何を用いる。
具体的には、ある節から変数への密度を超えると、ランダムな k-sat の割り当てを満足する集合は重複ギャップ特性を示し、これは各集合を指数関数的に多数のクラスターに分割することができることを意味する。
我々は、このクラスタリング特性のある種の頑健なバージョンを確立し、我々の構築したハミルトニアンの任意の組合せ的近傍状態が、この集合によって支持されるほぼ一様分布を誘導することを示す。
標準引数は、そのような分布は深さo(log n)の量子回路では作成できないことを示すために用いられる。
クラスタリング特性は、適切な色付けや最大カットを含む多くのランダムな構造で示されるので、これらのモデルにも我々のアプローチが拡張可能であることを期待する。 In an important recent development, Anshu, Breuckmann, and Nirkhe [ABN22] resolved positively the so-called No Low-Energy Trivial State (NLTS) conjecture by Freedman and Hastings. The conjecture postulated the existence of linear-size local Hamiltonians on n qubit systems for which no near-ground state can be prepared by a shallow (sublogarithmic depth) circuit. The construction in [ABN22] is based on recently developed good quantum codes. Earlier results in this direction included the constructions of the so-called Combinatorial NLTS -- a weaker version of NLTS -- where a state is defined to have low energy if it violates at most a vanishing fraction of the Hamiltonian terms [AB22]. These constructions were also based on codes. In this paper we provide a "non-code" construction of a class of Hamiltonians satisfying the Combinatorial NLTS. The construction is inspired by one in [AB22], but our proof uses the complex solution space geometry of random K-SAT instead of properties of codes. Specifically, it is known that above a certain clause-to-variables density the set of satisfying assignments of random K-SAT exhibits an overlap gap property, which implies that it can be partitioned into exponentially many clusters each constituting at most an exponentially small fraction of the total set of satisfying solutions. We establish a certain robust version of this clustering property for the space of near-satisfying assignments and show that for our constructed Hamiltonians every combinatorial near-ground state induces a near-uniform distribution supported by this set. Standard arguments then are used to show that such distributions cannot be prepared by quantum circuits with depth o(log n). Since the clustering property is exhibited by many random structures, including proper coloring and maximum cut, we anticipate that our approach is extendable to these models as well. | 翻訳日:2024-03-14 02:26:37 公開日:2024-03-11 |
# 順序回帰のための解釈可能なニューラルネットワークに基づく非確率オッズモデル An interpretable neural network-based non-proportional odds model for ordinal regression ( http://arxiv.org/abs/2303.17823v4 ) ライセンス: Link先を確認 | Akifumi Okuno, Kazuharu Harada | (参考訳) 本研究では,順序回帰のための解釈可能なニューラルネットワークに基づく非確率オッズモデル(n$^3$pom)を提案する。
N$^3$POM is different from conventional approaches to ordinal regression with non-proportional models in several ways: (1) N$^3$POM is defined for both continuous and discrete responses, whereas standard methods typically treat the ordered continuous variables as if they are discrete, (2) instead of estimating response-dependent finite-dimensional coefficients of linear models from discrete responses as is done in conventional approaches, we train a non-linear neural network to serve as a coefficient function.
ニューラルネットワークのおかげで、N$^3$POMは従来の順序回帰の解釈可能性を維持しながら柔軟性を提供する。
予測条件累積確率が共変量空間におけるユーザ特定領域上の単調性制約を局所的に満足する十分条件を確立する。
さらに、ニューラルネットワークを効果的に訓練するための単調性保存確率(MPS)アルゴリズムを提供する。
いくつかの実世界のデータセットにN$^3$POMを適用する。 This study proposes an interpretable neural network-based non-proportional odds model (N$^3$POM) for ordinal regression. N$^3$POM is different from conventional approaches to ordinal regression with non-proportional models in several ways: (1) N$^3$POM is defined for both continuous and discrete responses, whereas standard methods typically treat the ordered continuous variables as if they are discrete, (2) instead of estimating response-dependent finite-dimensional coefficients of linear models from discrete responses as is done in conventional approaches, we train a non-linear neural network to serve as a coefficient function. Thanks to the neural network, N$^3$POM offers flexibility while preserving the interpretability of conventional ordinal regression. We establish a sufficient condition under which the predicted conditional cumulative probability locally satisfies the monotonicity constraint over a user-specified region in the covariate space. Additionally, we provide a monotonicity-preserving stochastic (MPS) algorithm for effectively training the neural network. We apply N$^3$POM to several real-world datasets. | 翻訳日:2024-03-14 02:26:00 公開日:2024-03-11 |
# 強化学習を加速するヒューマンインスパイアフレームワーク Human-Inspired Framework to Accelerate Reinforcement Learning ( http://arxiv.org/abs/2303.08115v3 ) ライセンス: Link先を確認 | Ali Beikmohammadi and Sindri Magn\'usson | (参考訳) データサイエンスの意思決定には強化学習(rl)が不可欠であるが、特に高価な物理的相互作用を伴う実世界のシナリオではサンプル非効率に苦しむ。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
最初は学習エージェントをより単純なタスクに公開し、複雑さを徐々に増やし、最終的にメインタスクへと繋がる。
この方法は事前トレーニングを必要とせず、1回のイテレーションで単純なタスクを学習する。
結果として得られる知識は、計算の複雑さを増すことなく、価値や政策の伝達といった様々なトランスファー学習アプローチを促進することができる。
これは、値ベース、ポリシーベース、表、深層RLメソッドを含む、さまざまな目標、環境、RLアルゴリズムに適用できる。
実験的な評価は、単純なランダムウォークと制約を伴うより複雑な最適制御問題の両方を通して、サンプル効率を高めるためのフレームワークの有効性を示す。 Reinforcement learning (RL) is crucial for data science decision-making but suffers from sample inefficiency, particularly in real-world scenarios with costly physical interactions. This paper introduces a novel human-inspired framework to enhance RL algorithm sample efficiency. It achieves this by initially exposing the learning agent to simpler tasks that progressively increase in complexity, ultimately leading to the main task. This method requires no pre-training and involves learning simpler tasks for just one iteration. The resulting knowledge can facilitate various transfer learning approaches, such as value and policy transfer, without increasing computational complexity. It can be applied across different goals, environments, and RL algorithms, including value-based, policy-based, tabular, and deep RL methods. Experimental evaluations demonstrate the framework's effectiveness in enhancing sample efficiency, especially in challenging main tasks, demonstrated through both a simple Random Walk and more complex optimal control problems with constraints. | 翻訳日:2024-03-14 02:24:44 公開日:2024-03-11 |
# 超伝導量子ビットにおける準粒子の非平衡密度と平衡エネルギー分布の共存 Coexistence of nonequilibrium density and equilibrium energy distribution of quasiparticles in a superconducting qubit ( http://arxiv.org/abs/2302.12330v4 ) ライセンス: Link先を確認 | Thomas Connolly, Pavel D. Kurilovich, Spencer Diamond, Heekun Nho, Charlotte G. L. B{\o}ttcher, Leonid I. Glazman, Valla Fatemi, Michel H. Devoret | (参考訳) 超伝導量子ビットで典型的に観測される準粒子の密度は、平衡で期待される値を超える。
この平衡外準粒子密度は、フォノン浴と平衡のエネルギー分布を持つことができるか?
ここでは, ジョセフソン接合の両面の超伝導ギャップに差があるトランスモン量子ビットにおける電荷パリティスイッチングの熱的活性化を測定することにより, この疑問に肯定的に答える。
次に、デバイス間のギャップ非対称性を利用してパリティを操作する方法を示す。 The density of quasiparticles typically observed in superconducting qubits exceeds the value expected in equilibrium by many orders of magnitude. Can this out-of-equilibrium quasiparticle density still possess an energy distribution in equilibrium with the phonon bath? Here, we answer this question affirmatively by measuring the thermal activation of charge-parity switching in a transmon qubit with a difference in superconducting gap on the two sides of the Josephson junction. We then demonstrate how the gap asymmetry of the device can be exploited to manipulate its parity. | 翻訳日:2024-03-14 02:24:26 公開日:2024-03-11 |
# TAP: ラベルなしモダリティからのクロスモーダルな知識伝達のための注意パッチ TAP: The Attention Patch for Cross-Modal Knowledge Transfer from Unlabeled Modality ( http://arxiv.org/abs/2302.02224v2 ) ライセンス: Link先を確認 | Yinsong Wang, Shahin Shahrampour | (参考訳) 本稿では,教師付き2次モダリティを用いた一次モダリティにおける教師付き学習の性能向上を目的とした,クロスモーダル学習フレームワークについて述べる。
情報推定の確率論的手法を用いて、二次モダリティに含まれる余分な情報をNadaraya-Watson(NW)カーネルレグレッションによって推定できることを示し、さらに、(線形変換の下で)カーネル化されたクロスアテンションモジュールとして表現することができる。
我々の研究結果は、ラベルなしのモダリティからデータレベルの知識を転送できるシンプルなニューラルネットワークアドオンであるThe Attention Patch (TAP)の導入の基礎を築いた。
4つの実世界のデータセットを用いて広範な数値シミュレーションを行い、TAPが異なるドメインと異なるニューラルネットワークアーキテクチャをまたいだ一般化を統計的に有意に改善できることを示す。 This paper addresses a cross-modal learning framework, where the objective is to enhance the performance of supervised learning in the primary modality using an unlabeled, unpaired secondary modality. Taking a probabilistic approach for missing information estimation, we show that the extra information contained in the secondary modality can be estimated via Nadaraya-Watson (NW) kernel regression, which can further be expressed as a kernelized cross-attention module (under linear transformation). Our results lay the foundations for introducing The Attention Patch (TAP), a simple neural network add-on that allows data-level knowledge transfer from the unlabeled modality. We provide extensive numerical simulations using four real-world datasets to show that TAP can provide statistically significant improvement in generalization across different domains and different neural network architectures, making use of seemingly unusable unlabeled cross-modal data. | 翻訳日:2024-03-14 02:23:55 公開日:2024-03-11 |
# qlabgrad: ディープラーニングのためのハイパーパラメータフリー・コンバージェンスガランテドスキーム QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning ( http://arxiv.org/abs/2302.00252v2 ) ライセンス: Link先を確認 | Minghan Fu, Fang-Xiang Wu | (参考訳) 学習速度は、学習コース中にモデルパラメータが更新される範囲を決定するため、ディープラーニングタスクにとって重要なハイパーパラメータである。
しかし、学習率の選択は一般的に経験的判断に依存するため、集中的な試行錯誤実験がなければ十分な結果が得られない可能性がある。
本研究では,qlabgradと呼ばれる新しい学習率適応方式を提案する。
ユーザが指定したハイパーパラメータがなければ、QLABGradは、任意の勾配降下方向に対して、擬似ロス近似(QLAB)関数を最適化することにより、学習率を自動的に決定する。
QLABGradの損失関数に対する滑らかなリプシッツ条件による収束を理論的に証明する。
MNIST、CIFAR10、ImageNetデータセット上のMLP、CNN、ResNetなどの複数のアーキテクチャの実験結果は、QLABGradがディープラーニングのためのさまざまな競合するスキームより優れていることを実証している。 The learning rate is a critical hyperparameter for deep learning tasks since it determines the extent to which the model parameters are updated during the learning course. However, the choice of learning rates typically depends on empirical judgment, which may not result in satisfactory outcomes without intensive try-and-error experiments. In this study, we propose a novel learning rate adaptation scheme called QLABGrad. Without any user-specified hyperparameter, QLABGrad automatically determines the learning rate by optimizing the Quadratic Loss Approximation-Based (QLAB) function for a given gradient descent direction, where only one extra forward propagation is required. We theoretically prove the convergence of QLABGrad with a smooth Lipschitz condition on the loss function. Experiment results on multiple architectures, including MLP, CNN, and ResNet, on MNIST, CIFAR10, and ImageNet datasets, demonstrate that QLABGrad outperforms various competing schemes for deep learning. | 翻訳日:2024-03-14 02:23:35 公開日:2024-03-11 |
# Str2Str:ゼロショットタンパク質コンフォーメーションサンプリングのためのスコアベースのフレームワーク Str2Str: A Score-based Framework for Zero-shot Protein Conformation Sampling ( http://arxiv.org/abs/2306.03117v3 ) ライセンス: Link先を確認 | Jiarui Lu, Bozitao Zhong, Zuobai Zhang, Jian Tang | (参考訳) タンパク質の動的性質はそれらの生物学的機能や性質を決定するために不可欠であり、モンテカルロ (MC) と分子動力学 (MD) のシミュレーションはそのような現象を研究する主要なツールである。
経験的に導出された力場を利用することで、mcまたはmdシミュレーションはマルコフ連鎖あるいはニュートン力学を通じて系を数値的に発展させることで配座空間を探索する。
しかし、力場の高エネルギー障壁は、希少な出来事による両方の方法の探索を妨げることができ、結果として、徹底的な走行をせずに十分なサンプルアンサンブルが得られない。
既存の学習ベースのアプローチは直接サンプリングを行うが、高いデータ取得コストと一般性に苦しむトレーニングのターゲット固有のシミュレーションデータに大きく依存している。
シミュレーションアニーリングにインスパイアされたStr2Strは,ロト変換同変特性を持つゼロショットコンフォーメーションサンプリングが可能な新しい構造から構造への変換フレームワークである。
本手法は,一般的な結晶構造をトレーニング対象とし,トレーニングと推論の双方においてシミュレーションデータに依存しないアモータイズデノナイジングスコアマッチングを利用する。
いくつかのベンチマークタンパク質システムにおける実験結果は、str2strが以前の最先端生成構造予測モデルよりも優れており、長いmdシミュレーションよりも桁違いに速いことを示している。
私たちのオープンソース実装はhttps://github.com/lujiarui/str2strで利用可能です。 The dynamic nature of proteins is crucial for determining their biological functions and properties, for which Monte Carlo (MC) and molecular dynamics (MD) simulations stand as predominant tools to study such phenomena. By utilizing empirically derived force fields, MC or MD simulations explore the conformational space through numerically evolving the system via Markov chain or Newtonian mechanics. However, the high-energy barrier of the force fields can hamper the exploration of both methods by the rare event, resulting in inadequately sampled ensemble without exhaustive running. Existing learning-based approaches perform direct sampling yet heavily rely on target-specific simulation data for training, which suffers from high data acquisition cost and poor generalizability. Inspired by simulated annealing, we propose Str2Str, a novel structure-to-structure translation framework capable of zero-shot conformation sampling with roto-translation equivariant property. Our method leverages an amortized denoising score matching objective trained on general crystal structures and has no reliance on simulation data during both training and inference. Experimental results across several benchmarking protein systems demonstrate that Str2Str outperforms previous state-of-the-art generative structure prediction models and can be orders of magnitude faster compared to long MD simulations. Our open-source implementation is available at https://github.com/lujiarui/Str2Str | 翻訳日:2024-03-14 02:16:28 公開日:2024-03-11 |
# ニューラルネットワークのニューラルネットワークカーネルサロゲートモデルによる忠実かつ効率的な説明 Faithful and Efficient Explanations for Neural Networks via Neural Tangent Kernel Surrogate Models ( http://arxiv.org/abs/2305.14585v5 ) ライセンス: Link先を確認 | Andrew Engel, Zhichao Wang, Natalie S. Frank, Ioana Dumitriu, Sutanay Choudhury, Anand Sarwate, Tony Chiang | (参考訳) 説明可能なAI研究の最近のトレンドは、ニューラルネットワークをカーネルマシンのような単純なMLアルゴリズムとして近似する代理モデリングに焦点を当てている。
第2の傾向は、カーネル関数を様々な説明やデータ属性タスクで利用することである。
本研究では、これらの2つのトレンドを組み合わせて、データ属性に近似した経験的ニューラルネットワークカーネル(eNTK)を解析する。
近似は、eNTKを計算するのに高い計算コストのため、eNTK分析に不可欠である。
我々は、新しい近似eNTKを定義し、結果のカーネルマシンサロゲートモデルと基盤となるニューラルネットワークとの相関性について、新しい分析を行う。
本稿では,計算の時間とメモリの複雑さをユーザが調整できる近似entkの2つの新しいランダム投影方式を提案する。
ニューラルネットワークカーネルをカーネル関数として用いたカーネルマシンは実効的なサロゲートモデルであり,提案したトレースNTKが最も一貫した性能を示す。
PyTorchフレームワークのカーネル関数を効率的に計算できるオープンソースソフトウェアが利用可能である(https://github.com/pnnl/projection\_ntk)。 A recent trend in explainable AI research has focused on surrogate modeling, where neural networks are approximated as simpler ML algorithms such as kernel machines. A second trend has been to utilize kernel functions in various explain-by-example or data attribution tasks. In this work, we combine these two trends to analyze approximate empirical neural tangent kernels (eNTK) for data attribution. Approximation is critical for eNTK analysis due to the high computational cost to compute the eNTK. We define new approximate eNTK and perform novel analysis on how well the resulting kernel machine surrogate models correlate with the underlying neural network. We introduce two new random projection variants of approximate eNTK which allow users to tune the time and memory complexity of their calculation. We conclude that kernel machines using approximate neural tangent kernel as the kernel function are effective surrogate models, with the introduced trace NTK the most consistent performer. Open source software allowing users to efficiently calculate kernel functions in the PyTorch framework is available (https://github.com/pnnl/projection\_ntk). | 翻訳日:2024-03-14 02:16:04 公開日:2024-03-11 |
# オフライン強化学習に意思決定トランスフォーマーをいつ使うべきか? When should we prefer Decision Transformers for Offline Reinforcement Learning? ( http://arxiv.org/abs/2305.14550v3 ) ライセンス: Link先を確認 | Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani, Amy Zhang | (参考訳) オフライン強化学習(RL)により、エージェントは静的データセットから効率よく、戻り値の最大化ポリシーを学習できる。
オフラインRLのための3つの一般的なアルゴリズムは、それぞれQ-Learning(CQL)、Behavior Cloning(BC)、Decision Transformer(DT)であり、それぞれQ-Learning(QL)、Imitation Learning(Imitation Learning)、Sequence Modeling(シーケンスモデリング)のクラスである。
鍵となる疑問は、どのアルゴリズムがどの条件で推奨されるかである。
本稿では,D4RL と Robomimic ベンチマークを用いて,これらのアルゴリズムの性能を実証的に検討する。
我々は,データ準最適性,タスク複雑性,確率性に関する行動を理解するために,対象とする実験を設計する。
主な発見は,(1) DT は競争政策を学ぶために CQL よりも多くのデータを必要とするが,より堅牢である,(2) DT はスパース・リワードと低品質のデータ設定において CQL と BC のどちらよりもはるかに優れた選択である,(3) DT と BC はタスク・ホライズメントの増加,あるいはヒトのデモンストレータからのデータ取得,(4) CQL は高い確率と低品質の組み合わせによって特徴づけられる状況において優れている,といったものだ。
また,atari と d4rl 上で dt のアーキテクチャ選択とスケーリングトレンドを調査し,設計/スケーリングの推奨を行う。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。 Offline reinforcement learning (RL) allows agents to learn effective, return-maximizing policies from a static dataset. Three popular algorithms for offline RL are Conservative Q-Learning (CQL), Behavior Cloning (BC), and Decision Transformer (DT), from the class of Q-Learning, Imitation Learning, and Sequence Modeling respectively. A key open question is: which algorithm is preferred under what conditions? We study this question empirically by exploring the performance of these algorithms across the commonly used D4RL and Robomimic benchmarks. We design targeted experiments to understand their behavior concerning data suboptimality, task complexity, and stochasticity. Our key findings are: (1) DT requires more data than CQL to learn competitive policies but is more robust; (2) DT is a substantially better choice than both CQL and BC in sparse-reward and low-quality data settings; (3) DT and BC are preferable as task horizon increases, or when data is obtained from human demonstrators; and (4) CQL excels in situations characterized by the combination of high stochasticity and low data quality. We also investigate architectural choices and scaling trends for DT on Atari and D4RL and make design/scaling recommendations. We find that scaling the amount of data for DT by 5x gives a 2.5x average score improvement on Atari. | 翻訳日:2024-03-14 02:15:44 公開日:2024-03-11 |
# P-NOC: 弱教師付きセマンティックセグメンテーションにおけるCAM生成ネットワークの逆トレーニング P-NOC: adversarial training of CAM generating networks for robust weakly supervised semantic segmentation priors ( http://arxiv.org/abs/2305.12522v3 ) ライセンス: Link先を確認 | Lucas David, Helio Pedrini, and Zanoni Dias | (参考訳) Wakly Supervised Semantic Segmentation (WSSS) 技術は、クラスアクティベーションマップ(CAM)を洗練するための個別の正規化戦略を探索する。
本稿では、まず、文献における相補的なWSSS技術、そのセグメンテーション特性、そしてそれらが最も効果的である条件について分析する。
これらの知見に基づき,P-NOCとCCAM-Hの2つの新しい手法を考案した。
まず,2つの対向カム生成ネットワークの結合学習を促進する。ジェネレータは,クラス固有の特徴を含む領域を徐々に消去することを学び,識別器は,新たなクラス識別機能に徐々に注目を移すように改良する。
後者では,p-noc が生成する高品質の疑似セグメンテーションプリエントを用いて,教師の弱い方法での学習から給与情報への誘導を行う。
最後に,ランダムウォーク手順において疑似セグメンテーション優先と疑似サリエンシー提案の両方を用い,より高品質な疑似セグメンテーションマスクを作製し,その技術と競合する結果を得る。 Weakly Supervised Semantic Segmentation (WSSS) techniques explore individual regularization strategies to refine Class Activation Maps (CAMs). In this work, we first analyze complementary WSSS techniques in the literature, their segmentation properties, and the conditions in which they are most effective. Based on these findings, we devise two new techniques: P-NOC and CCAM-H. In the first, we promote the conjoint training of two adversarial CAM generating networks: the generator, which progressively learns to erase regions containing class-specific features, and a discriminator, which is refined to gradually shift its attention to new class discriminant features. In the latter, we employ the high quality pseudo-segmentation priors produced by P-NOC to guide the learning to saliency information in a weakly supervised fashion. Finally, we employ both pseudo-segmentation priors and pseudo-saliency proposals in the random walk procedure, resulting in higher quality pseudo-semantic segmentation masks, and competitive results with the state of the art. | 翻訳日:2024-03-14 02:14:34 公開日:2024-03-11 |
# 量子ダーウィン主義-エンコード遷移の解法モデル A Solvable Model of Quantum Darwinism-Encoding Transitions ( http://arxiv.org/abs/2305.03694v3 ) ライセンス: Link先を確認 | Beno\^it Fert\'e, Xiangyu Cao | (参考訳) 量子ダーウィン論の解法モデルとして,一元的力学の下での多体系における量子情報の拡散の急激な変化について述べる。
我々は、入力キュービットが参照に絡み合う拡大木上のランダムなクリフォード回路を考える。
このモデルには量子ダーウィン主義フェーズがあり、出力キュービットの任意の小さな分数から参照に関する1つの古典的な情報を取り出すことができ、そのような検索が不可能な符号化フェーズがある。
2つの相は混合相と2つの連続遷移によって分離される。
正確な結果を2レプリカ計算と比較する。
後者は同様の '<annealed'' 位相図を生成し、これはハールランダムなユニタリを持つモデルにも適用される。
提案手法は,エンコードシステム上で環境が盗聴する修正モデルを解くことで,位相遷移(mipts)を計測する手法である。
鋭いMIPTを持ち、環境への完全なアクセスしかできない。 We propose a solvable model of Quantum Darwinism to encoding transitions -- abrupt changes in how quantum information spreads in a many-body system under unitary dynamics. We consider a random Clifford circuit on an expanding tree, whose input qubit is entangled with a reference. The model has a Quantum Darwinism phase, where one classical bit of information about the reference can be retrieved from an arbitrarily small fraction of the output qubits, and an encoding phase where such retrieval is impossible. The two phases are separated by a mixed phase and two continuous transitions. We compare the exact result to a two-replica calculation. The latter yields a similar ``annealed'' phase diagram, which applies also to a model with Haar random unitaries. We relate our approach to measurement induced phase transitions (MIPTs), by solving a modified model where an environment eavesdrops on an encoding system. It has a sharp MIPT only with full access to the environment. | 翻訳日:2024-03-14 02:13:30 公開日:2024-03-11 |
# 量子制御マシン:量子プログラミングにおける制御フローの限界 Quantum Control Machine: The Limits of Control Flow in Quantum Programming ( http://arxiv.org/abs/2304.15000v4 ) ライセンス: Link先を確認 | Charles Yuan, Agnes Villanyi, Michael Carbin | (参考訳) 因子化、探索、シミュレーションなどのタスクの量子アルゴリズムは、重ね合わせにおけるデータの値に依存する分岐や反復のような制御フローに依存している。
スイッチ、ループ、高階関数などの制御フローのための高レベルプログラミング抽象化は、古典言語においてユビキタスである。
対照的に、多くの量子言語は重ね合わせにおける制御フローの高レベルな抽象化を提供しておらず、そのような制御フローを実装するためにハードウェアレベルの論理ゲートを使用する必要がある。
このギャップの理由は、古典的なコンピュータがデータに依存するプログラムカウンタを使用して制御フローをサポートするのに対して、量子コンピュータの典型的なアーキテクチャは重ね合わせのデータに依存するプログラムカウンタを提供しないからである。
その結果、量子コンピュータ上で正しく実現可能な制御フロー抽象化の完全なセットはまだ確立されていない。
本研究では,量子コンピュータ上で正しく実現可能な制御フロー抽象化の特性について,完全な評価を行う。
まず,プログラムカウンタが重ね合わせにある量子コンピュータ上でも,古典的な条件付きジャンプ命令を重ね合わせで動作させることで,量子アルゴリズムの制御フローを正しく実現できないことを証明する。
この定理は、古典プログラミングから量子プログラミングへの$\lambda$-calculusのような制御フローの一般的な抽象化を直接持ち上げる能力を否定している。
これに対し、制御フローが量子コンピュータ上で正しく実現可能な必要かつ十分な条件を提示する。
本稿では,これらの条件を満たすために制限された条件ジャンプを含む命令セットアーキテクチャである量子制御機を紹介する。
この設計により、開発者は論理ゲートの代わりにプログラムカウンタを使用して量子アルゴリズムの制御フローを正しく表現できることを示す。 Quantum algorithms for tasks such as factorization, search, and simulation rely on control flow such as branching and iteration that depends on the value of data in superposition. High-level programming abstractions for control flow, such as switches, loops, and higher-order functions, are ubiquitous in classical languages. By contrast, many quantum languages do not provide high-level abstractions for control flow in superposition, and instead require the use of hardware-level logic gates to implement such control flow. The reason for this gap is that whereas a classical computer supports control flow using a program counter that can depend on data, the typical architecture of a quantum computer does not provide a program counter that can depend on data in superposition. As a result, the complete set of control flow abstractions that can be correctly realized on a quantum computer has not yet been established. In this work, we provide a complete characterization of the properties of control flow abstractions that are correctly realizable on a quantum computer. First, we prove that even on a quantum computer whose program counter exists in superposition, one cannot correctly realize control flow in quantum algorithms by lifting the classical conditional jump instruction to work in superposition. This theorem denies the ability to directly lift general abstractions for control flow such as the $\lambda$-calculus from classical to quantum programming. In response, we present the necessary and sufficient conditions for control flow to be correctly realizable on a quantum computer. We introduce the quantum control machine, an instruction set architecture featuring a conditional jump that is restricted to satisfy these conditions. We show how this design enables a developer to correctly express control flow in quantum algorithms using a program counter in place of logic gates. | 翻訳日:2024-03-14 02:13:00 公開日:2024-03-11 |
# 古典領域と量子領域における学習と制御の枠組み Framework for Learning and Control in the Classical and Quantum Domains ( http://arxiv.org/abs/2307.04256v2 ) ライセンス: Link先を確認 | Seyed Shakib Vedaie, Archismita Dalal, Eduardo J. P\'aez, Barry C. Sanders | (参考訳) 制御と学習は古典的領域と量子的領域の両方において技術進歩の鍵であるが、古典的および量子的定義と学習の間の相互関係は文学において不十分である。
我々は,古典的および量子的に,学習と制御を形式的に関連付ける枠組みを構築し,学習が制御にどのように役立つかを示す。
さらに,本フレームワークは,古典的および量子的制御と学習のネクサスにおける興味深い未解決問題を識別し,問題解決ツールの選択を支援する。
利用例として,適応型量子エンハンス型干渉位相推定法を,実現可能な制御方針を考案するための教師あり学習問題とした。
これらの分野の統合は、既存の知識をエレガントに要約し、知識ギャップを露呈する知識の状態を図式的に表現することに依存します。 Control and learning are key to technological advancement, both in the classical and quantum domains, yet their interrelationship is insufficiently clear in the literature, especially between classical and quantum definitions of control and learning. We construct a framework that formally relates learning and control, both classical and quantum, to each other, with this formalism showing how learning can aid control. Furthermore, our framework helps to identify interesting unsolved problems in the nexus of classical and quantum control and learning and help in choosing tools to solve problems. As a use case, we cast the well-studied problem of adaptive quantum-enhanced interferometric-phase estimation as a supervised learning problem for devising feasible control policies. Our unification of these fields relies on diagrammatically representing the state of knowledge, which elegantly summarizes existing knowledge and exposes knowledge gaps. | 翻訳日:2024-03-14 02:05:50 公開日:2024-03-11 |
# 部分オンライン状態情報を用いたRLにおけるPMDPの理論的硬さとトラクタビリティ Theoretical Hardness and Tractability of POMDPs in RL with Partial Online State Information ( http://arxiv.org/abs/2306.08762v3 ) ライセンス: Link先を確認 | Ming Shi, Yingbin Liang, and Ness Shroff | (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、様々な現実世界の応用に広く応用されている。
しかし,PMDPの学習は,潜伏状態情報の欠如が主な課題である最悪の場合,難易度が高いことが示唆されている。
オンライン状態情報(OSI)がトラクタビリティを実現するのにどの程度の量が必要か?
完全なOSIがなければ,POMDPに対する$\epsilon$-Optimal Policy Solutionを得るには,指数関数的にスケールするサンプルの複雑さが必要である。
しかしながら、低バウンド設計の洞察に触発されて、部分OSIのみであっても、POMDPの重要な抽出可能なサブクラスを特定した。
特に、部分 OSI を持つ POMDP の2つのサブクラスに対して、新しい後悔の上と下の境界を確立することで、ほぼ最適であることが証明された新しいアルゴリズムを提供する。
我々のアルゴリズム設計と後悔分析は、osiクエリとアクション制御の非自明な開発を伴う。 Partially observable Markov decision processes (POMDPs) have been widely applied in various real-world applications. However, existing theoretical results have shown that learning in POMDPs is intractable in the worst case, where the main challenge lies in the lack of latent state information. A key fundamental question here is: how much online state information (OSI) is sufficient to achieve tractability? In this paper, we establish a lower bound that reveals a surprising hardness result: unless we have full OSI, we need an exponentially scaling sample complexity to obtain an $\epsilon$-optimal policy solution for POMDPs. Nonetheless, inspired by the insights in our lower-bound design, we identify important tractable subclasses of POMDPs, even with only partial OSI. In particular, for two subclasses of POMDPs with partial OSI, we provide new algorithms that are proved to be near-optimal by establishing new regret upper and lower bounds. Both our algorithm design and regret analysis involve non-trivial developments for joint OSI query and action control. | 翻訳日:2024-03-14 02:04:07 公開日:2024-03-11 |
# 単一OoD画像による安全かつロバストな透かし注入 Safe and Robust Watermark Injection with a Single OoD Image ( http://arxiv.org/abs/2309.01786v2 ) ライセンス: Link先を確認 | Shuyang Yu, Junyuan Hong, Haobo Zhang, Haotao Wang, Zhangyang Wang and Jiayu Zhou | (参考訳) 高性能なディープニューラルネットワークのトレーニングには大量のデータと計算リソースが必要である。
深層モデルの知的財産権(IP)と商業的所有権を保護することは、ますます重要になっている。
ウォーターマーキング戦略の大きな流れは、トレーニングサンプルを毒殺することで検証可能なバックドアトリガーを注入するが、データプライバシや安全上の懸念から非現実的なものが多く、微調整などのマイナーなモデル変更に弱い。
これらの課題を克服するために,IP検証の秘密鍵となる単一分布(OoD)画像からの多様な知識を活用する,安全で堅牢なバックドアベースの透かし注入手法を提案する。
トレーニングデータの独立性は、サードパーティのIPセキュリティの約束を無視する。
注水時のモデルパラメータのランダムな摂動によりロバスト性を誘導し, 微調整, 刈り取り, モデル抽出など, 一般的なウォーターマーク除去攻撃に対して防御する。
実験の結果,提案手法はトレーニングデータなしでの時間的およびサンプル効率だけでなく,上述の透かし除去攻撃に対して堅牢であることがわかった。 Training a high-performance deep neural network requires large amounts of data and computational resources. Protecting the intellectual property (IP) and commercial ownership of a deep model is challenging yet increasingly crucial. A major stream of watermarking strategies implants verifiable backdoor triggers by poisoning training samples, but these are often unrealistic due to data privacy and safety concerns and are vulnerable to minor model changes such as fine-tuning. To overcome these challenges, we propose a safe and robust backdoor-based watermark injection technique that leverages the diverse knowledge from a single out-of-distribution (OoD) image, which serves as a secret key for IP verification. The independence of training data makes it agnostic to third-party promises of IP security. We induce robustness via random perturbation of model parameters during watermark injection to defend against common watermark removal attacks, including fine-tuning, pruning, and model extraction. Our experimental results demonstrate that the proposed watermarking approach is not only time- and sample-efficient without training data, but also robust against the watermark removal attacks above. | 翻訳日:2024-03-14 01:56:57 公開日:2024-03-11 |
# 安全リニアバンドの指向性最適化 Directional Optimism for Safe Linear Bandits ( http://arxiv.org/abs/2308.15006v2 ) ライセンス: Link先を確認 | Spencer Hutchinson, Berkay Turan, Mahnoosh Alizadeh | (参考訳) 安全線形バンドイット問題は、学習者の行動が全てのラウンドにおいて不確実な制約を満たす必要がある古典的確率線形バンドイット問題のバージョンである。
多くの実世界の環境に適用できるため、近年ではこの問題が注目されている。
方向性楽観主義と呼ばれる新しいアプローチを活用することで、よく分離された問題インスタンスと有限星凸集合である作用集合の両方に対する改善された後悔保証を達成することができる。
さらに,既存のアルゴリズムを経験的性能の面で改良し,後悔の保証の一致を享受する新たなアルゴリズムを提案する。
最後に,制約が凸である安全な線形バンディット設定の一般化を導入し,新しい凸解析に基づくアプローチを用いて,アルゴリズムと解析をこの設定に適用する。 The safe linear bandit problem is a version of the classical stochastic linear bandit problem where the learner's actions must satisfy an uncertain constraint at all rounds. Due its applicability to many real-world settings, this problem has received considerable attention in recent years. By leveraging a novel approach that we call directional optimism, we find that it is possible to achieve improved regret guarantees for both well-separated problem instances and action sets that are finite star convex sets. Furthermore, we propose a novel algorithm for this setting that improves on existing algorithms in terms of empirical performance, while enjoying matching regret guarantees. Lastly, we introduce a generalization of the safe linear bandit setting where the constraints are convex and adapt our algorithms and analyses to this setting by leveraging a novel convex-analysis based approach. | 翻訳日:2024-03-14 01:56:07 公開日:2024-03-11 |
# MICCAI KiTS23 Challengeにおける追加データを用いたドメインシフトの分析 Analyzing domain shift when using additional data for the MICCAI KiTS23 Challenge ( http://arxiv.org/abs/2309.02001v2 ) ライセンス: Link先を確認 | George Stoica, Mihaela Breaban and Vlad Barbu | (参考訳) 追加のトレーニングデータを使用することで結果を改善することが知られており、特にトレーニング材料が不足している医用画像の3Dセグメンテーションでは、利用可能なデータが少ないことからモデルを十分に一般化する必要がある。
しかし、新しいデータが他の機器で取得され、前処理されたため、その分布は元のトレーニングデータと大きく異なる。
そこで,本研究では,トレーニング中のドメインシフトを改善する手法について検討した。
以上の結果から,ヒストグラムマッチングによる追加データの変換は,単純な正規化よりも良好な結果が得られた。 Using additional training data is known to improve the results, especially for medical image 3D segmentation where there is a lack of training material and the model needs to generalize well from few available data. However, the new data could have been acquired using other instruments and preprocessed such its distribution is significantly different from the original training data. Therefore, we study techniques which ameliorate domain shift during training so that the additional data becomes better usable for preprocessing and training together with the original data. Our results show that transforming the additional data using histogram matching has better results than using simple normalization. | 翻訳日:2024-03-14 01:41:56 公開日:2024-03-11 |
# 微分可能挿入/削除メトリック認識正規化器を用いた説明ベーストレーニング Explanation-based Training with Differentiable Insertion/Deletion Metric-aware Regularizers ( http://arxiv.org/abs/2310.12553v3 ) ライセンス: Link先を確認 | Yuya Yoshikawa, Tomoharu Iwata | (参考訳) 複雑な機械学習予測器による予測に対する説明の質は、しばしば挿入と削除のメトリクスを用いて測定され、説明の忠実さ、すなわち、その説明が予測器の振る舞いを正確に反映しているかを評価する。
そこで本研究では, 予測精度を維持しつつ, 説明文の挿入・削除スコアを改善するために, 微分可能な予測器を最適化する挿入/削除量認識説明ベース最適化(id-expo)を提案する。
元の挿入と削除のメトリクスは説明に関して微分不可能であり、勾配に基づく最適化では直接利用できないので、それらを微分可能とし、挿入と削除を基準とした正規化を形式化する。
画像と表のデータセットによる実験結果から,ID-ExpOを用いて微調整したディープニューラルネットワークベースの予測器は,高い予測精度を維持しつつ,より忠実で理解しやすい説明文を生成することができることがわかった。
コードはhttps://github.com/yuyay/idexpoで入手できる。 The quality of explanations for the predictions made by complex machine learning predictors is often measured using insertion and deletion metrics, which assess the faithfulness of the explanations, i.e., how accurately the explanations reflect the predictor's behavior. To improve the faithfulness, we propose insertion/deletion metric-aware explanation-based optimization (ID-ExpO), which optimizes differentiable predictors to improve both the insertion and deletion scores of the explanations while maintaining their predictive accuracy. Because the original insertion and deletion metrics are non-differentiable with respect to the explanations and directly unavailable for gradient-based optimization, we extend the metrics so that they are differentiable and use them to formalize insertion and deletion metric-based regularizers. Our experimental results on image and tabular datasets show that the deep neural network-based predictors that are fine-tuned using ID-ExpO enable popular post-hoc explainers to produce more faithful and easier-to-interpret explanations while maintaining high predictive accuracy. The code is available at https://github.com/yuyay/idexpo. | 翻訳日:2024-03-14 01:36:31 公開日:2024-03-11 |
# 超伝導空洞を用いたQRAMアーキテクチャ QRAM architectures using superconducting cavities ( http://arxiv.org/abs/2310.08288v2 ) ライセンス: Link先を確認 | D. K. Weiss and Shruti Puri and S. M. Girvin | (参考訳) 量子ランダムアクセスメモリ(QRAM)は、量子化学、ウィンドウ付き量子演算、非構造化探索、機械学習、量子暗号など、多くの提案されたアルゴリズムのための一般的なアーキテクチャリソースである。
本稿では,高コヒーレンス超伝導共振器をベースとした2つのバケットブリガドQRAMアーキテクチャを提案する。
第一に、制御された$\mathsf{SWAP}$$$\textsf{CSWAP}$)演算を直接構成し、第二に、巨大一方向性エミッタ(GUE)の特性を利用する。
どちらのアーキテクチャにおいても,bosonic qubitのシングルレールおよびデュアルレール実装を解析する。
シングルレールエンコーディングでは1次アンシラエラーを検出できるが、デュアルレールエンコーディングでは光子損失の検出も可能になっている。
利害関係のパラメータについて、二重レールアーキテクチャにおけるQRAMクエリのポストセレクト不完全性は、単一レールアーキテクチャにおける対応するクエリの桁違いである。
これらの結果から, 耐故障性以前のQRAMデバイスのアーキテクチャとして, デュアルレール符号化が特に魅力的であることが示唆された。 Quantum random access memory (QRAM) is a common architecture resource for algorithms with many proposed applications, including quantum chemistry, windowed quantum arithmetic, unstructured search, machine learning, and quantum cryptography. Here we propose two bucket-brigade QRAM architectures based on high-coherence superconducting resonators, which differ in their realizations of the conditional-routing operations. In the first, we directly construct controlled-$\mathsf{SWAP}$ ($\textsf{CSWAP}$) operations, while in the second we utilize the properties of giant-unidirectional emitters (GUEs). For both architectures we analyze single-rail and dual-rail implementations of a bosonic qubit. In the single-rail encoding we can detect first-order ancilla errors, while the dual-rail encoding additionally allows for the detection of photon losses. For parameter regimes of interest the post-selected infidelity of a QRAM query in a dual-rail architecture is nearly an order of magnitude below that of a corresponding query in a single-rail architecture. These findings suggest that dual-rail encodings are particularly attractive as architectures for QRAM devices in the era before fault tolerance. | 翻訳日:2024-03-14 01:35:46 公開日:2024-03-11 |
# ブロックチェーンによるセキュアな分散学習 Secure Decentralized Learning with Blockchain ( http://arxiv.org/abs/2310.07079v2 ) ライセンス: Link先を確認 | Xiaoxue Zhang, Yifan Hua and Chen Qian | (参考訳) Federated Learning(FL)は、データプライバシを保持し、通信効率を最適化する、モバイルおよびIoTデバイス上での分散機械学習のよく知られたパラダイムである。
FLにおける単一障害点を回避するため、分散パーソナルデバイス上での機械学習タスクの魅力的なソリューションと考えられるモデル集約にピアツーピア通信を使用するために分散フェデレーションラーニング(DFL)が提案されている。
しかし、このプロセスは、偽のモデルとデータを共有する攻撃者には弱い。
悪意のあるクライアントのグループが存在する場合、悪質な攻撃を行うことでモデルの性能を害する可能性がある。
加えて、dflでは、クライアントはモデルトレーニングを行うためのコンピューティング能力に貢献するインセンティブを欠くことが多い。
本稿では,分散モデル検証と監査にブロックチェーンを利用するブロックチェーンベースの分散連合学習(bdfl)を提案する。
bdflには、モデル検証のための監査委員会、クライアントの参加を促すインセンティブメカニズム、クライアントの信頼性を評価する評価モデル、動的ネットワーク更新のためのプロトコルスイートが含まれている。
評価の結果,システム内に悪意のあるクライアントが30~%存在しても,評価機構により,bdflは高速なモデル収束と実データセットの高精度を実現することがわかった。 Federated Learning (FL) is a well-known paradigm of distributed machine learning on mobile and IoT devices, which preserves data privacy and optimizes communication efficiency. To avoid the single point of failure problem in FL, decentralized federated learning (DFL) has been proposed to use peer-to-peer communication for model aggregation, which has been considered an attractive solution for machine learning tasks on distributed personal devices. However, this process is vulnerable to attackers who share false models and data. If there exists a group of malicious clients, they might harm the performance of the model by carrying out a poisoning attack. In addition, in DFL, clients often lack the incentives to contribute their computing powers to do model training. In this paper, we proposed Blockchain-based Decentralized Federated Learning (BDFL), which leverages a blockchain for decentralized model verification and auditing. BDFL includes an auditor committee for model verification, an incentive mechanism to encourage the participation of clients, a reputation model to evaluate the trustworthiness of clients, and a protocol suite for dynamic network updates. Evaluation results show that, with the reputation mechanism, BDFL achieves fast model convergence and high accuracy on real datasets even if there exist 30\% malicious clients in the system. | 翻訳日:2024-03-14 01:34:48 公開日:2024-03-11 |
# 層間変換平滑化による分布外検出 Out-of-Distribution Detection by Leveraging Between-Layer Transformation Smoothness ( http://arxiv.org/abs/2310.02832v2 ) ライセンス: Link先を確認 | Fran Jeleni\'c, Josip Juki\'c, Martin Tutek, Mate Puljiz, Jan \v{S}najder | (参考訳) 信頼性の高い機械学習モデルでは、効果的な分散(ood)検出が重要であるが、トレーニングデータへのアクセスやトレーニングへの介入といった要件のため、現在の方法のほとんどは実用的に制限されている。
本稿では,トレーニングデータにアクセスせずに事前学習したモデルに適用可能なネットワーク(ブラッド)の中間層間の変換平滑性に基づいて,トランスフォーマのoodデータを検出する新しい手法を提案する。
bloodは、in-distribution (id)データの層間表現変換の傾向を利用して、oodデータの対応する変換よりも滑らかになるようにしています。
トランスフォーマーネットワークを用いた複数のテキスト分類タスクにおける血行評価を行い,同等のリソース要件を満たした手法よりも優れていることを示す。
また,より単純なタスクを学ぶ場合,oodデータ変換は元のシャープネスを維持し,シャープネスはより複雑なタスクで増加することが示唆された。 Effective out-of-distribution (OOD) detection is crucial for reliable machine learning models, yet most current methods are limited in practical use due to requirements like access to training data or intervention in training. We present a novel method for detecting OOD data in Transformers based on transformation smoothness between intermediate layers of a network (BLOOD), which is applicable to pre-trained models without access to training data. BLOOD utilizes the tendency of between-layer representation transformations of in-distribution (ID) data to be smoother than the corresponding transformations of OOD data, a property that we also demonstrate empirically. We evaluate BLOOD on several text classification tasks with Transformer networks and demonstrate that it outperforms methods with comparable resource requirements. Our analysis also suggests that when learning simpler tasks, OOD data transformations maintain their original sharpness, whereas sharpness increases with more complex tasks. | 翻訳日:2024-03-14 01:32:41 公開日:2024-03-11 |
# 量子開始スコア Quantum Inception Score ( http://arxiv.org/abs/2311.12163v2 ) ライセンス: Link先を確認 | Akira Sone and Akira Tanji and Naoki Yamamoto | (参考訳) 機械学習における古典的生成モデルの成功に触発されて、量子バージョンの熱心な探索が最近始まった。
この旅に出発するためには、量子生成モデルの質を評価するための関連する計量を開発することが重要である。
本稿では,与えられたデータセットを分類する量子チャネルのホールボ情報と品質を関連付ける量子インセプションスコアを提案する。
この方法では、量子生成モデルは、非対称性の資源理論と絡み合いによって特徴づけられる量子コヒーレンスの存在により、古典的モデルよりも優れた品質をもたらすことが証明される。
さらに、量子ゆらぎ定理を利用して、量子生成モデルの品質の物理的制限を特徴づける。
最後に,量子インセプションスコアを用いて1次元スピンチェーンモデルの品質を量子生成モデルとして評価し,量子畳み込みニューラルネットワークを量子分類器として,量子多体物理学における位相分類問題に適用する。 Motivated by the great success of classical generative models in machine learning, enthusiastic exploration of their quantum version has recently started. To depart on this journey, it is important to develop a relevant metric to evaluate the quality of quantum generative models; in the classical case, one such example is the inception score. In this paper, we propose the quantum inception score, which relates the quality to the Holevo information of the quantum channel that classifies a given dataset. We prove that, under this proposed measure, the quantum generative models provide better quality than their classical counterparts because of the presence of quantum coherence, characterized by the resource theory of asymmetry, and entanglement. Furthermore, we harness the quantum fluctuation theorem to characterize the physical limitation of the quality of quantum generative models. Finally, we apply the quantum inception score to assess the quality of the one-dimensional spin chain model as a quantum generative model, with the quantum convolutional neural network as a quantum classifier, for the phase classification problem in the quantum many-body physics. | 翻訳日:2024-03-14 01:26:56 公開日:2024-03-11 |
# 形状と変形を優先したガーメント回収 Garment Recovery with Shape and Deformation Priors ( http://arxiv.org/abs/2311.10356v2 ) ライセンス: Link先を確認 | Ren Li, Corentin Dumery, Beno\^it Guillard, Pascal Fua | (参考訳) タイトフィットの服を着ている人をモデル化することは近年大きな進歩を遂げている一方、ゆるやかなフィット服は依然として課題である。
本研究では,実際の画像からリアルな衣料品モデルを提供する手法を提案する。
そこで本研究では, 合成データから得られた形状および変形先行情報を用いて, 衣服の形状や変形を正確に把握するフィッティング手法を提案する。
我々のアプローチは服の幾何学を正しく復元するだけでなく、アニメーションやシミュレーションのような下流アプリケーションで直接使用できるモデルも生み出す。 While modeling people wearing tight-fitting clothing has made great strides in recent years, loose-fitting clothing remains a challenge. We propose a method that delivers realistic garment models from real-world images, regardless of garment shape or deformation. To this end, we introduce a fitting approach that utilizes shape and deformation priors learned from synthetic data to accurately capture garment shapes and deformations, including large ones. Not only does our approach recover the garment geometry accurately, it also yields models that can be directly used by downstream applications such as animation and simulation. | 翻訳日:2024-03-14 01:25:38 公開日:2024-03-11 |
# 機械学習画像分割を用いた3次元組織培養の非破壊的定量的生存率解析 Nondestructive, quantitative viability analysis of 3D tissue cultures using machine learning image segmentation ( http://arxiv.org/abs/2311.09354v3 ) ライセンス: Link先を確認 | Kylie J. Trettner, Jeremy Hsieh, Weikun Xiao, Jerry S.H. Lee, Andrea M. Armani | (参考訳) 異なる細胞培養条件下での細胞の集団生存率の確認は、通常、平均測色指標に依存しており、単純な二分読み出しでしばしば報告される。
近年の研究では、セル特性のキャラクタリゼーションを自動化するために、画像に基づくディープラーニングモデルと有効性評価技術を組み合わせている。
しかし,細胞培養条件における細胞状態の持続性と摂動応答を評価するための生存可能性測定のさらなる発展が必要である。
本研究では,3次元培養における細胞生存率の定量化のための画像処理アルゴリズムについて述べる。
提案アルゴリズムは,1対の人的専門家に対して,数日にわたる全体像と培養マトリクスの合成を行う。
膵癌スフェロイドに対する既知の治療の効果を縦断的に検討した。
ハイコンテントイメージングシステムで撮影された画像を用いて、アルゴリズムは個々のスフェロイドおよび全ウェルレベルでの生存率を追跡することに成功した。
提案手法は,専門家と比較して分析時間を97%削減する。
本手法は、使用する顕微鏡やイメージングシステムとは無関係であるため、生物学的・臨床的研究における3次元培養解析の堅牢性と再現性を向上させるための基礎となる。 Ascertaining the collective viability of cells in different cell culture conditions has typically relied on averaging colorimetric indicators and is often reported out in simple binary readouts. Recent research has combined viability assessment techniques with image-based deep-learning models to automate the characterization of cellular properties. However, further development of viability measurements to assess the continuity of possible cellular states and responses to perturbation across cell culture conditions is needed. In this work, we demonstrate an image processing algorithm for quantifying cellular viability in 3D cultures without the need for assay-based indicators. We show that our algorithm performs similarly to a pair of human experts in whole-well images over a range of days and culture matrix compositions. To demonstrate potential utility, we perform a longitudinal study investigating the impact of a known therapeutic on pancreatic cancer spheroids. Using images taken with a high content imaging system, the algorithm successfully tracks viability at the individual spheroid and whole-well level. The method we propose reduces analysis time by 97% in comparison to the experts. Because the method is independent of the microscope or imaging system used, this approach lays the foundation for accelerating progress in and for improving the robustness and reproducibility of 3D culture analysis across biological and clinical research. | 翻訳日:2024-03-14 01:25:12 公開日:2024-03-11 |
# 関連性測定のためのベイズ的枠組みとそのWeb談話における感情動態への応用 A Bayesian framework for measuring association and its application to emotional dynamics in Web discourse ( http://arxiv.org/abs/2311.05330v2 ) ライセンス: Link先を確認 | Henrique S. Xavier, Diogo Cortiz, Mateus Silvestrin, Ana Lu\'isa Freitas, Let\'icia Yumi Nakao Morello, Fernanda Naomi Pantale\~ao, Gabriel Gaudencio do R\^ego | (参考訳) 本稿では,分類的確率変数の関連度を測定するためのベイズ的枠組みを提案する。
この方法は変数独立性の形式的定義に基礎を置き、マルコフ連鎖モンテカルロ(mcmc)技術を用いて実装されている。
規則学習における一般的な手法とは異なり、このアプローチは信頼区間の明確かつ正確な推定と、測定された関係度の統計的意義を可能にする。
ポルトガル語で書かれた4,613ツイートの注釈者によって識別された非排他的感情にこの手法を適用した。
この分析により、相互に対立する関係を示す感情のペアが明らかになった。
さらに,データに観察される特徴であるカテゴリ間の階層的関係を識別し,感情を基本レベルグループに分類する。 This paper introduces a Bayesian framework designed to measure the degree of association between categorical random variables. The method is grounded in the formal definition of variable independence and is implemented using Markov Chain Monte Carlo (MCMC) techniques. Unlike commonly employed techniques in Association Rule Learning, this approach enables a clear and precise estimation of confidence intervals and the statistical significance of the measured degree of association. We applied the method to non-exclusive emotions identified by annotators in 4,613 tweets written in Portuguese. This analysis revealed pairs of emotions that exhibit associations and mutually opposed pairs. Moreover, the method identifies hierarchical relations between categories, a feature observed in our data, and is utilized to cluster emotions into basic-level groups. | 翻訳日:2024-03-14 01:23:46 公開日:2024-03-11 |
# 低次元学習ダイナミクスによる過パラメータ深層モデルの効率的な圧縮 Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics ( http://arxiv.org/abs/2311.05061v2 ) ライセンス: Link先を確認 | Soo Min Kwon, Zekai Zhang, Dogyoon Song, Laura Balzano, Qing Qu | (参考訳) オーバーパラメータモデルは、さまざまな機械学習タスクを解決する強力なツールであることが証明されている。
しかし、過パラメータ化はしばしば計算とメモリのコストを大幅に増加させ、訓練には膨大なリソースを必要とする。
本稿では,その学習ダイナミクスを解析し,超パラメータモデル圧縮のための新しい手法を提案する。
多くの深層モデルにおいて、重み行列の更新は低次元不変部分空間内で起こることを観測する。
深層線形モデルでは, 主成分が小さな部分空間内に漸進的に収まることを実証し, これらの知見を用いて, 中間層幅の減少を伴う深部線形ネットワークの圧縮アルゴリズムを提案する。
行列回復問題に対する圧縮手法の有効性を実証的に評価した。
問題の構造を利用する初期化を用いて、圧縮されたネットワークが元のネットワークよりも高速に収束し、回復エラーが一貫して小さくなるのを観察する。
我々は、深層行列分解に焦点をあてた理論を発展させることで、この観察を実証する。
最後に,我々の圧縮モデルが深い非線形モデルの有用性を改善する可能性を実証する。
全体として,アルゴリズムは一般化を損なうことなく,トレーニング効率を2倍以上向上させる。 Overparameterized models have proven to be powerful tools for solving various machine learning tasks. However, overparameterization often leads to a substantial increase in computational and memory costs, which in turn requires extensive resources to train. In this work, we present a novel approach for compressing overparameterized models, developed through studying their learning dynamics. We observe that for many deep models, updates to the weight matrices occur within a low-dimensional invariant subspace. For deep linear models, we demonstrate that their principal components are fitted incrementally within a small subspace, and use these insights to propose a compression algorithm for deep linear networks that involve decreasing the width of their intermediate layers. We empirically evaluate the effectiveness of our compression technique on matrix recovery problems. Remarkably, by using an initialization that exploits the structure of the problem, we observe that our compressed network converges faster than the original network, consistently yielding smaller recovery errors. We substantiate this observation by developing a theory focused on deep matrix factorization. Finally, we empirically demonstrate how our compressed model has the potential to improve the utility of deep nonlinear models. Overall, our algorithm improves the training efficiency by more than 2x, without compromising generalization. | 翻訳日:2024-03-14 01:23:32 公開日:2024-03-11 |
# AI/ML加速器の評価:IPU、RDU、NVIDIA/AMD GPU Evaluating Emerging AI/ML Accelerators: IPU, RDU, and NVIDIA/AMD GPUs ( http://arxiv.org/abs/2311.04417v2 ) ライセンス: Link先を確認 | Hongwu Peng and Caiwen Ding and Tong Geng and Sutanay Choudhury and Kevin Barker and Ang Li | (参考訳) 人工知能(AI)と機械学習(ML)のアプリケーションは、複雑さと計算要求の増大に対処できる特別なハードウェアアクセラレータの開発を必要としている。
von Neumannモデルに基づく従来のコンピューティングアーキテクチャは、現代のAI/MLアルゴリズムの要求に圧倒され、Graphcore Intelligence Processing Unit (IPU)、Sambanova Reconfigurable Dataflow Unit (RDU)、GPUプラットフォームなどのアクセラレータの開発が急増している。
これらのハードウェアアクセラレータは、革新的なデータフローアーキテクチャと、AI/MLタスクのパフォーマンスとエネルギー効率の向上を約束するその他の設計最適化によって特徴付けられる。
この研究は、これらの商用AI/MLアクセラレータの予備的な評価と比較を提供し、その強みとユニークな能力を識別するために、ハードウェアおよびソフトウェア設計機能について検討する。
一般的なDNN演算子や他のAI/MLワークロードに対する一連のベンチマーク評価を行うことで、従来のプロセッサ設計よりもデータフローアーキテクチャの利点を明確化し、各プラットフォームのパフォーマンストレードオフに関する洞察を提供することを目指している。
この研究から得られた知見は、研究プロトタイプの設計と性能の期待に対する貴重な基準となり、AI/MLアプリケーションの進化を続ける状況に合わせた次世代ハードウェアアクセラレータの開発が促進される。
この分析を通じて、私たちは、現在の加速器技術のより広範な理解に貢献し、この分野における将来のイノベーションのためのガイダンスを提供することを目指しています。 The relentless advancement of artificial intelligence (AI) and machine learning (ML) applications necessitates the development of specialized hardware accelerators capable of handling the increasing complexity and computational demands. Traditional computing architectures, based on the von Neumann model, are being outstripped by the requirements of contemporary AI/ML algorithms, leading to a surge in the creation of accelerators like the Graphcore Intelligence Processing Unit (IPU), Sambanova Reconfigurable Dataflow Unit (RDU), and enhanced GPU platforms. These hardware accelerators are characterized by their innovative data-flow architectures and other design optimizations that promise to deliver superior performance and energy efficiency for AI/ML tasks. This research provides a preliminary evaluation and comparison of these commercial AI/ML accelerators, delving into their hardware and software design features to discern their strengths and unique capabilities. By conducting a series of benchmark evaluations on common DNN operators and other AI/ML workloads, we aim to illuminate the advantages of data-flow architectures over conventional processor designs and offer insights into the performance trade-offs of each platform. The findings from our study will serve as a valuable reference for the design and performance expectations of research prototypes, thereby facilitating the development of next-generation hardware accelerators tailored for the ever-evolving landscape of AI/ML applications. Through this analysis, we aspire to contribute to the broader understanding of current accelerator technologies and to provide guidance for future innovations in the field. | 翻訳日:2024-03-14 01:23:14 公開日:2024-03-11 |
# グローバルに最適化された磁場を有するスピン$1/2$ハイゼンベルク鎖における完全グラフ状態の生成 Generation of complete graph states in a spin-$1/2$ Heisenberg chain with a globally optimized magnetic field ( http://arxiv.org/abs/2401.01986v3 ) ライセンス: Link先を確認 | X. X. Li, D. X. Li, X. Q. Shao | (参考訳) グラフ状態は測定ベースの量子計算において重要な実用的価値を持ち、完全なグラフ状態は量子力学において例外的な性能を示す。
本研究では,時間変化磁場を受けるスピン=1/2$ハイゼンベルク$XX$チェーンを用いて,多粒子完全グラフ状態を生成する手法を提案する。
本手法は, 量子最適制御理論によって促進されるリアルタイム磁場形成により, 原子間の近接-近接相互作用にのみ依存する。
我々は特に中性原子系に注目し、$N=3\sim6$の多粒子完全グラフ状態は$0.25~\mu{\rm s}$以下で達成でき、${J}/{(2\pi)} = -2.443~{\rm MHz}$のホッピング振幅を利用する。
これは、双極子相互作用 rydberg 状態によってエンコードされる全てのスピン状態の等しい重み付けによって与えられる初期状態を仮定する。
さらに, 種々の実験的欠陥に徹底的に対処し, 原子振動, パルス振幅の変動, およびリドベルク状態の自然放出に対する我々のアプローチの堅牢性を示す。
ニュートラル原子系の実験装置における乱れの一般的な発生を考えると、このようなグラフ状態を達成するための一段階の戦略は、制御Zゲートに基づく技術よりも経験的に有効な代替手段として現れる。 Graph states possess significant practical value in measurement-based quantum computation, with complete graph states that exhibit exceptional performance in quantum metrology. In this work, we introduce a method for generating multiparticle complete graph states using a spin-$1/2$ Heisenberg $XX$ chain subjected to a time-varying magnetic field, which applies to a wide range of systems. Our scheme relies exclusively on nearest-neighbor interactions between atoms, with real-time magnetic field formation facilitated by quantum optimal control theory. We focus specifically on neutral-atom systems, finding that multiparticle complete graph states with $N=3\sim6$ can be achieved in less than $0.25~\mu{\rm s}$, utilizing a hopping amplitude of ${J}/{(2\pi)} = -2.443~{\rm MHz}$. This assumes an initial state provided by an equal-weight superposition of all spin states that are encoded by the dipolar interacting Rydberg states. Additionally, we thoroughly address various experimental imperfections and showcase the robustness of our approach against atomic vibrations, fluctuations in pulse amplitude, and spontaneous emission of Rydberg states. Considering the common occurrence of disturbances in experimental setups of neutral-atom systems, our one-step strategy for achieving such graph states emerges as a more empirically viable alternative to techniques based on controlled-Z gates. | 翻訳日:2024-03-14 01:06:56 公開日:2024-03-11 |
# すべてを制御するための1次元アダプタ:概念、拡散モデル、消去アプリケーション One-Dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications ( http://arxiv.org/abs/2312.16145v2 ) ライセンス: Link先を確認 | Mengyao Lyu, Yuhong Yang, Haiwen Hong, Hui Chen, Xuan Jin, Yuan He, Hui Xue, Jungong Han, Guiguang Ding | (参考訳) テキスト・ツー・イメージ生成における商用およびオープンソース拡散モデル(DM)の利用は、望ましくない行動を防ぐためのリスク軽減を促す。
既存の学界における概念消去手法は、すべて完全なパラメータや仕様に基づく微調整に基づいており、そこから次の課題を観察する。
1) 侵食に対する変化の発生: 標的除去時のパラメータドリフトは,すべての世代にわたって変化や潜在的な変形を引き起こし,さらに,他の概念を様々な程度に浸食する。
2) 転送不能性とデプロイメント非効率性: 以前のモデル固有の消去は、概念の柔軟な組み合わせと、他のモデルへのトレーニング不要な移行を妨げ、デプロイメントシナリオが増加するにつれて、線形コストの増大をもたらします。
非侵襲的で、精密で、カスタマイズ可能で、転送可能な除去を実現するため、我々は、一次元のアダプタ上に消去フレームワークを構築し、多くのDMから複数の概念を一度に消去する。
コンセプトセミ透過性構造を膜(SPM)として任意のDMに注入して目的の消去を学習し、一方、改質・侵食現象は、新しい遅延アンチョリング微調整戦略によって効果的に緩和される。
一度得られれば、SPMは柔軟に組み合わされ、特定の再調整なしに他のDMに対してプラグ&プレイでき、多様なシナリオにタイムリーかつ効率的に適応できる。
生成過程において,各spmの透過性を動的に制御し,異なる入力プロンプトに応答し,他の概念への影響を最小化する。
約40の概念,7つのDMおよび4つの消去応用の定量的および定性的な結果から,SPMの優れた消去効果が示された。
私たちのコードと調整済みのspmは、プロジェクトページhttps://lyumengyao.github.io/projects/spmで利用可能です。 The prevalent use of commercial and open-source diffusion models (DMs) for text-to-image generation prompts risk mitigation to prevent undesired behaviors. Existing concept erasing methods in academia are all based on full parameter or specification-based fine-tuning, from which we observe the following issues: 1) Generation alternation towards erosion: Parameter drift during target elimination causes alternations and potential deformations across all generations, even eroding other concepts at varying degrees, which is more evident with multi-concept erased; 2) Transfer inability & deployment inefficiency: Previous model-specific erasure impedes the flexible combination of concepts and the training-free transfer towards other models, resulting in linear cost growth as the deployment scenarios increase. To achieve non-invasive, precise, customizable, and transferable elimination, we ground our erasing framework on one-dimensional adapters to erase multiple concepts from most DMs at once across versatile erasing applications. The concept-SemiPermeable structure is injected as a Membrane (SPM) into any DM to learn targeted erasing, and meantime the alteration and erosion phenomenon is effectively mitigated via a novel Latent Anchoring fine-tuning strategy. Once obtained, SPMs can be flexibly combined and plug-and-play for other DMs without specific re-tuning, enabling timely and efficient adaptation to diverse scenarios. During generation, our Facilitated Transport mechanism dynamically regulates the permeability of each SPM to respond to different input prompts, further minimizing the impact on other concepts. Quantitative and qualitative results across ~40 concepts, 7 DMs and 4 erasing applications have demonstrated the superior erasing of SPM. Our code and pre-tuned SPMs are available on the project page https://lyumengyao.github.io/projects/spm. | 翻訳日:2024-03-14 01:06:11 公開日:2024-03-11 |
# eyepreserve: アイデンティティ保存虹彩合成 EyePreserve: Identity-Preserving Iris Synthesis ( http://arxiv.org/abs/2312.12028v3 ) ライセンス: Link先を確認 | Siamul Karim Khan, Patrick Tinsley, Mahsa Mitcheff, Patrick Flynn, Kevin W. Bowyer, Adam Czajka | (参考訳) 瞳孔サイズの広い範囲にまたがる同一性を維持しつつ、既存および非既存の同一性のための同一の生体認証虹彩画像の合成は、複雑な虹彩筋収縮機構のために複雑であり、合成パイプラインに埋め込まれる虹彩非線型テクスチャ変形の正確なモデルを必要とする。
本稿では, iris画像の完全データ駆動, アイデンティティ保存, 瞳孔サイズ可変合成の最初の方法を提案する。
本手法は,対象虹彩画像のセグメンテーションマスクが与えられた既存被写体の虹彩画像のテクスチャを非線形に変形させるとともに,既存被写体を表す瞳孔の大きさの異なるアイライズ像を合成することができる。
iris認識実験により,提案する変形モデルは,瞳孔サイズ変更時の同一性を保持するだけでなく,瞳孔サイズに有意な差がある同一同一性虹彩試料間の類似性が向上することが示唆された。
提案手法の直接的な応用は次の2つである。
イ アイリスセンサで取得したものを模倣して、アイリス認識のための既存の生体計測データセットの合成又は強化
(b)瞳孔拡張に有意な差がある虹彩画像対を調べるための法医学的人間専門家の支援。
ソースコードとモデルの重みは、この論文で利用可能である。 Synthesis of same-identity biometric iris images, both for existing and non-existing identities while preserving the identity across a wide range of pupil sizes, is complex due to intricate iris muscle constriction mechanism, requiring a precise model of iris non-linear texture deformations to be embedded into the synthesis pipeline. This paper presents the first method of fully data-driven, identity-preserving, pupil size-varying s ynthesis of iris images. This approach is capable of synthesizing images of irises with different pupil sizes representing non-existing identities as well as non-linearly deforming the texture of iris images of existing subjects given the segmentation mask of the target iris image. Iris recognition experiments suggest that the proposed deformation model not only preserves the identity when changing the pupil size but offers better similarity between same-identity iris samples with significant differences in pupil size, compared to state-of-the-art linear and non-linear (bio-mechanical-based) iris deformation models. Two immediate applications of the proposed approach are: (a) synthesis of, or enhancement of the existing biometric datasets for iris recognition, mimicking those acquired with iris sensors, and (b) helping forensic human experts in examining iris image pairs with significant differences in pupil dilation. Source codes and weights of the models are made available with the paper. | 翻訳日:2024-03-14 01:04:21 公開日:2024-03-11 |
# 非局所スピン鎖に対するクリロフ複雑性 Krylov complexity for non-local spin chains ( http://arxiv.org/abs/2312.11677v2 ) ライセンス: Link先を確認 | Aranya Bhattacharya, Pingal Pratyush Nath, Himanshu Sahu | (参考訳) 非局所相互作用を持つスピン系における最近の研究に基づいて、Isingモデルの異なる非局所バージョンにおけるクリロフ複雑性を用いた作用素成長を研究する。
我々は、非局所性がオペレーターをすべてのサイトへより高速にスクランブルする結果をもたらすことを見出した。
局所可積分理論と局所カオス理論のクリロフ複雑性の飽和値はかなりのマージンで異なるが、この差は両政権で非局所項が導入されたときに大きく抑制される。
この結果、非局所性の存在下で情報のスクランブルが速くなる。
さらに,量子カオスのプローブとしてのレベル統計とスペクトル形状因子の挙動を調べ,非局所的相互作用による可積分性の破れの研究を行った。
我々の数値は、非局所の場合、クリロフ複雑性の後期飽和は異なる基礎理論を区別し、初期の複雑性の増大は異なる非局所性の程度を区別することを示している。 Building upon recent research in spin systems with non-local interactions, this study investigates operator growth using the Krylov complexity in different non-local versions of the Ising model. We find that the non-locality results in a faster scrambling of the operator to all sites. While the saturation value of Krylov complexity of local integrable and local chaotic theories differ by a significant margin, this difference is much suppressed when non-local terms are introduced in both regimes. This results from the faster scrambling of information in the presence of non-locality. In addition, we investigate the behavior of level statistics and spectral form factor as probes of quantum chaos to study the integrability breaking due to non-local interactions. Our numerics indicate that in the non-local case, late time saturation of Krylov complexity distinguishes between different underlying theories, while the early time complexity growth distinguishes different degrees of non-locality. | 翻訳日:2024-03-14 01:03:56 公開日:2024-03-11 |
# acpo:aiによるコンパイラ駆動プログラム最適化 ACPO: AI-Enabled Compiler-Driven Program Optimization ( http://arxiv.org/abs/2312.09982v2 ) ライセンス: Link先を確認 | Amir H. Ashouri, Muhammad Asif Manzoor, Duc Minh Vu, Raymond Zhang, Ziwen Wang, Angel Zhang, Bryan Chan, Tomasz S. Czajkowski and Yaoqing Gao | (参考訳) プログラムのパフォーマンス最適化の鍵は、ある変換がコンパイラによって適用されるタイミングを正確に決定することだ。
これは、チューニングプロセスを高速化するために機械学習モデルを適用する理想的な機会である。この実現は90年代後半からあるが、MLの最近の進歩によって、エンドツーエンドフレームワークとしてのコンパイラへのMLの実践的な適用が可能になった。
本稿では、ACPO: \textbf{\underline{A}}I-Enabled \textbf{\underline{C}}ompiler-driven \textbf{\underline{P}}rogram \textbf{\underline{O}}ptimization; LLVMをシンプルで包括的なツールで提供し、異なる最適化パスにMLモデルを使うことの恩恵を受ける新しいフレームワークについて述べる。
本稿では、まず、ACPOの高レベルなビュー、クラス階層、機能を示し、次に、MLでLoop UnrollとFunctionをインライン化することでACPOのいくつかのユースケースを示し、ACPOが他のパスをどのように活用して最適化できるかを説明する。
実験結果から,Loop UnrollのACPOモデルでは,Polybenchにデプロイした場合のLLVMのO3最適化に比べて平均4倍の精度が得られることがわかった。
さらに、Inlinerモデルを追加することで、ACPOはLLVMのO3最適化と比較して、PolybenchとCbenchで最大4.5\%と2.4\%を提供することができる。 The key to performance optimization of a program is to decide correctly when a certain transformation should be applied by a compiler. This is an ideal opportunity to apply machine-learning models to speed up the tuning process; while this realization has been around since the late 90s, only recent advancements in ML enabled a practical application of ML to compilers as an end-to-end framework. This paper presents ACPO: \textbf{\underline{A}}I-Enabled \textbf{\underline{C}}ompiler-driven \textbf{\underline{P}}rogram \textbf{\underline{O}}ptimization; a novel framework to provide LLVM with simple and comprehensive tools to benefit from employing ML models for different optimization passes. We first showcase the high-level view, class hierarchy, and functionalities of ACPO and subsequently, demonstrate a couple of use cases of ACPO by ML-enabling the Loop Unroll and Function Inlining passes and describe how ACPO can be leveraged to optimize other passes. Experimental results reveal that ACPO model for Loop Unroll is able to gain on average 4\% compared to LLVM's O3 optimization when deployed on Polybench. Furthermore, by adding the Inliner model as well, ACPO is able to provide up to 4.5\% and 2.4\% on Polybench and Cbench compared with LLVM's O3 optimization, respectively. | 翻訳日:2024-03-14 01:03:41 公開日:2024-03-11 |
# API後ジレンマ検索エンジンの検索結果をナビゲートするページはソーシャルメディアデータのバイザードビューを表示する Navigating the Post-API Dilemma Search Engine Results Pages Present a Biased View of Social Media Data ( http://arxiv.org/abs/2401.15479v2 ) ライセンス: Link先を確認 | Amrit Poudel, Tim Weninger | (参考訳) ソーシャルメディアAPIへのアクセスを中止するという最近の決定は、インターネット研究や計算社会科学全般に有害な影響を与えている。
このデータへのアクセスの欠如は、インターネット研究のポストAPI時代と呼ばれる。
幸いなことに、人気のある検索エンジンは、適切な検索クエリを提供した場合、検索結果ページ(SERP)上でソーシャルメディアデータをクロール、キャプチャ、サーフェスする手段を持ち、このジレンマの解決策を提供するかもしれない。
SERPはソーシャルメディアデータの完全かつ偏見のないサンプルを提供していますか?
SERPは直接APIアクセスの代替になり得るか?
これらの質問に答えるために、(Google) SERP結果とRedditとTwitter/Xの非サンプルデータの比較分析を行った。
SERPの結果は、政治的、ポルノ的、下品なポストに対する人気ポストに非常に偏りがあり、彼らの感情においてより肯定的であり、大きな話題のギャップがある。
全体として、SERPはソーシャルメディアAPIアクセスの代替となるものではないと結論付けている。 Recent decisions to discontinue access to social media APIs are having detrimental effects on Internet research and the field of computational social science as a whole. This lack of access to data has been dubbed the Post-API era of Internet research. Fortunately, popular search engines have the means to crawl, capture, and surface social media data on their Search Engine Results Pages (SERP) if provided the proper search query, and may provide a solution to this dilemma. In the present work we ask: does SERP provide a complete and unbiased sample of social media data? Is SERP a viable alternative to direct API-access? To answer these questions, we perform a comparative analysis between (Google) SERP results and nonsampled data from Reddit and Twitter/X. We find that SERP results are highly biased in favor of popular posts; against political, pornographic, and vulgar posts; are more positive in their sentiment; and have large topical gaps. Overall, we conclude that SERP is not a viable alternative to social media API access. | 翻訳日:2024-03-14 00:57:26 公開日:2024-03-11 |
# アンサンブルによる表面符号の効率的な近似復号 Efficient near-optimal decoding of the surface code through ensembling ( http://arxiv.org/abs/2401.12434v2 ) ライセンス: Link先を確認 | Noah Shutty, Michael Newman, Benjamin Villalonga | (参考訳) 我々は,複数のノイズの多いデコーダを組み合わせて高精度なデコード予測を生成するアンサンブル手法であるハーモニゼーションを導入する。
MWPMデコーダの高調波アンサンブルは、繰り返しおよび表面コードベンチマークにおいて個々のアンサンブルよりも低い論理誤差率を達成し、大きなアンサンブルサイズで最大値の精度に近づく。
我々は,アンサンブル間のコンセンサス度を階層化復号化スキームの信頼度尺度として用いることができ,小アンサンブルはより大きく,より正確なアンサンブルで高リスクケースをチェックできる。
この階層化方式は,計算オーバーヘッドの一定要素が比較的小さい大規模アンサンブルの精度向上を実現する。
我々は、調和は高度に正確なリアルタイムデコードへの有効な経路を提供すると結論付けた。 We introduce harmonization, an ensembling method that combines several "noisy" decoders to generate highly accurate decoding predictions. Harmonized ensembles of MWPM-based decoders achieve lower logical error rates than their individual counterparts on repetition and surface code benchmarks, approaching maximum-likelihood accuracy at large ensemble sizes. We can use the degree of consensus among the ensemble as a confidence measure for a layered decoding scheme, in which a small ensemble flags high-risk cases to be checked by a larger, more accurate ensemble. This layered scheme can realize the accuracy improvements of large ensembles with a relatively small constant factor of computational overhead. We conclude that harmonization provides a viable path towards highly accurate real-time decoding. | 翻訳日:2024-03-14 00:55:40 公開日:2024-03-11 |
# 3次元ディフューザ・アクター:3次元シーン表現による政策拡散 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations ( http://arxiv.org/abs/2402.10885v2 ) ライセンス: Link先を確認 | Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki | (参考訳) ロボット操作のための拡散ポリシーと3次元シーン表現を融合する。
拡散ポリシーは、条件拡散モデルを用いてロボットに条件づけられた行動分布と環境状態を学ぶ。
彼らは最近、決定論的および代替的な状態条件付きアクション分散学習方法の両方よりも優れることを示した。
3dロボットのポリシーは、1つまたは複数のカメラビューから収集された3dシーンの特徴表現を使用する。
彼らは、カメラの観点で2dよりも優れた一般化が示されている。
ロボットのエンドエフェクタの3D回転と翻訳を反復的に認知するために、言語命令を与えられたニューラルネットワークアーキテクチャであるDiffuser Actorを、視覚シーンと条件の3D表現として構築する。
本モデルでは,3次元の視覚的および言語的トークンに対する3次元の相対的注意を生かして3次元の翻訳・回転誤差を予測し,各繰り返しを3次元のシーントークンとして推定する。
3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも16.3%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。
CALVINベンチマークでは、0ショットのシーンの一般化の設定で現在のSOTAを上回り、0.2以上のタスクを実行し、7%の相対的な増加を実現している。
また、いくつかのデモから現実世界でも動作する。
我々は,3Dシーンの演出や3D相対的な注意など,我々のモデルの設計選択を緩和し,それらすべてが一般化に役立つことを示す。
その結果,3次元シーン表現と強力な生成モデルが,実演から効率的なロボット学習の鍵であることが示唆された。 We marry diffusion policies and 3D scene representations for robot manipulation. Diffusion policies learn the action distribution conditioned on the robot and environment state using conditional diffusion models. They have recently shown to outperform both deterministic and alternative state-conditioned action distribution learning methods. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy architecture that, given a language instruction, builds a 3D representation of the visual scene and conditions on it to iteratively denoise 3D rotations and translations for the robot's end-effector. At each denoising iteration, our model represents end-effector pose estimates as 3D scene tokens and predicts the 3D translation and rotation error for each of them, by featurizing them using 3D relative attention to other 3D visual and language tokens. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 16.3% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it outperforms the current SOTA in the setting of zero-shot unseen scene generalization by being able to successfully run 0.2 more tasks, a 7% relative increase. It also works in the real world from a handful of demonstrations. We ablate our model's architectural design choices, such as 3D scene featurization and 3D relative attentions, and show they all help generalization. Our results suggest that 3D scene representations and powerful generative modeling are keys to efficient robot learning from demonstrations. | 翻訳日:2024-03-14 00:47:34 公開日:2024-03-11 |
# Fusing Neural and Physical: Augment Protein Conformation Smpling with Tractable Simulations Fusing Neural and Physical: Augment Protein Conformation Sampling with Tractable Simulations ( http://arxiv.org/abs/2402.10433v2 ) ライセンス: Link先を確認 | Jiarui Lu, Zuobai Zhang, Bozitao Zhong, Chence Shi, Jian Tang | (参考訳) タンパク質の動力学は生物学的機能や性質に共通して重要であり、シリコにおける時間消費分子動力学(md)のシミュレーションが一般的である。
近年、生成モデルは、シミュレーションデータ(ゼロショット推論)を必要とせず、桁違いに高速なコンフォーメーションアンサンブルを得るために、サロゲートサンプリングとして活用されている。
しかし、基礎となるエネルギー環境を知らないため、そのような生成モデルの精度は依然として限られている。
本研究では,MDシミュレーションを抽出可能な方法で組み込んだ,事前学習型ジェネレーティブ・サンプリング器の少数ショット設定について検討する。
具体的には, 目的タンパク質が与えられた場合, まず, 予め訓練したサンプルからシードコンフォメーションを取得し, 次いで, これらのシードから始まる複数の物理シミュレーションを行った。
次に、上記のシミュレーショントラジェクトリを用いて生成モデルを微調整し、ターゲット固有標本化を行う。
実験により, 抽出可能な計算コストにおいて, マイクロショットコンフォメーションサンプリング器の優れた性能を示した。 The protein dynamics are common and important for their biological functions and properties, the study of which usually involves time-consuming molecular dynamics (MD) simulations in silico. Recently, generative models has been leveraged as a surrogate sampler to obtain conformation ensembles with orders of magnitude faster and without requiring any simulation data (a "zero-shot" inference). However, being agnostic of the underlying energy landscape, the accuracy of such generative model may still be limited. In this work, we explore the few-shot setting of such pre-trained generative sampler which incorporates MD simulations in a tractable manner. Specifically, given a target protein of interest, we first acquire some seeding conformations from the pre-trained sampler followed by a number of physical simulations in parallel starting from these seeding samples. Then we fine-tuned the generative model using the simulation trajectories above to become a target-specific sampler. Experimental results demonstrated the superior performance of such few-shot conformation sampler at a tractable computational cost. | 翻訳日:2024-03-14 00:47:02 公開日:2024-03-11 |
# TikTokActions:人間の行動認識のためのビデオデータセットTikTok TikTokActions: A TikTok-Derived Video Dataset for Human Action Recognition ( http://arxiv.org/abs/2402.08875v2 ) ライセンス: Link先を確認 | Yang Qian, Yinan Sun, Ali Kargarandehkordi, Onur Cezmi Mutlu, Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter Washington | (参考訳) TikTokのようなプラットフォーム上でのタグ付きマルチメディアコンテンツの多様性と量の増加は、コンピュータビジョンモデリングを前進させる機会を提供する。
現代人の行動に関連する386個のハッシュタグに分類した283,582本のユニークなビデオクリップを収集した。
我々は、このデータセットを、アクション認識などのヒューマンムーブメントモデリングタスクのためのドメイン固有の基礎モデルを構築するための貴重なリソースとしてリリースする。
このデータセットを検証するために、TikTokActionsという2つの実験を行った。
まず、TikTokActionsサブセット上のVTベースバックボーンで最先端のVideoMAEv2を事前トレーニングし、次いで微調整を行い、UCF101やHMDB51のような一般的なデータセットで評価する。
Tik-Tokデータセットを使用して事前トレーニングされたモデルの性能は、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する(UCF101では95.3%、HMDB51では53.24%)。
さらに,事前学習データセットのサイズと微調整性能の関係について検討した結果,一定の閾値を超えると,より大きなトレーニングセットの漸進的なメリットが減少することがわかった。
この研究は、tiktokビデオデータセットを一般向けに提供し、ビデオベースの基礎モデルの事前トレーニングデータセットサイズを増加させる限界的なメリットについての洞察を提供する。 The increasing variety and quantity of tagged multimedia content on platforms such as TikTok provides an opportunity to advance computer vision modeling. We have curated a distinctive dataset of 283,582 unique video clips categorized under 386 hashtags relating to modern human actions. We release this dataset as a valuable resource for building domain-specific foundation models for human movement modeling tasks such as action recognition. To validate this dataset, which we name TikTokActions, we perform two sets of experiments. First, we pretrain the state-of-the-art VideoMAEv2 with a ViT-base backbone on TikTokActions subset, and then fine-tune and evaluate on popular datasets such as UCF101 and the HMDB51. We find that the performance of the model pre-trained using our Tik-Tok dataset is comparable to models trained on larger action recognition datasets (95.3% on UCF101 and 53.24% on HMDB51). Furthermore, our investigation into the relationship between pre-training dataset size and fine-tuning performance reveals that beyond a certain threshold, the incremental benefit of larger training sets diminishes. This work introduces a useful TikTok video dataset that is available for public use and provides insights into the marginal benefit of increasing pre-training dataset sizes for video-based foundation models. | 翻訳日:2024-03-14 00:45:24 公開日:2024-03-11 |
# 電力系統における効率的な量子線形解法のためのフレキシブルフレームワークの早期探索 Early Exploration of a Flexible Framework for Efficient Quantum Linear Solvers in Power Systems ( http://arxiv.org/abs/2402.08136v2 ) ライセンス: Link先を確認 | Muqing Zheng, Yousu Chen, Xiu Yang and Ang Li | (参考訳) 再生可能エネルギー資源の急速な統合は電力グリッド管理における重大な課題をもたらす。
高度なコンピューティングと機械学習技術はグリッドモデリングとシミュレーションを高速化するいくつかのソリューションを提供するが、古典的なコンピュータでは効果的に対処できない複雑な問題が存在する。
量子コンピューティングは有望な技術であり、特に再生可能エネルギー源の比率が高いシナリオにおいて、電力システムの管理方法を根本的に変える可能性がある。
hhlアルゴリズムがよく知られた量子解であるパワーフロー解析のような電力系統応用に欠かせない大規模な線形方程式系を解くことが重要な側面である。
しかし、HHL量子回路はしばしば過剰な深さを示し、現在のノイズ中間スケール量子(NISQ)デバイスでは実用的ではない。
本稿では,電力システムアプリケーションとQiskitで利用可能な量子線形解器のギャップを埋める,NWQSimを利用した汎用フレームワークを提案する。
この枠組みにより研究者は量子線形解法を用いて効率よく電力系統を探索できる。
革新的なゲート融合戦略,回路深度低減,GPUアクセラレーションにより,シミュレータは資源効率を大幅に向上させる。
電力流のケーススタディでは、Qiskit Aerと比較して8倍のスピードアップが実証されている。 The rapid integration of renewable energy resources presents formidable challenges in managing power grids. While advanced computing and machine learning techniques offer some solutions for accelerating grid modeling and simulation, there remain complex problems that classical computers cannot effectively address. Quantum computing, a promising technology, has the potential to fundamentally transform how we manage power systems, especially in scenarios with a higher proportion of renewable energy sources. One critical aspect is solving large-scale linear systems of equations, crucial for power system applications like power flow analysis, for which the Harrow-Hassidim-Lloyd (HHL) algorithm is a well-known quantum solution. However, HHL quantum circuits often exhibit excessive depth, making them impractical for current Noisy-Intermediate-Scale-Quantum (NISQ) devices. In this paper, we introduce a versatile framework, powered by NWQSim, that bridges the gap between power system applications and quantum linear solvers available in Qiskit. This framework empowers researchers to efficiently explore power system applications using quantum linear solvers. Through innovative gate fusion strategies, reduced circuit depth, and GPU acceleration, our simulator significantly enhances resource efficiency. Power flow case studies have demonstrated up to a eight-fold speedup compared to Qiskit Aer, all while maintaining comparable levels of accuracy. | 翻訳日:2024-03-14 00:44:42 公開日:2024-03-11 |
# NetInfoF Framework: ネットワーク使用情報の測定と爆発 NetInfoF Framework: Measuring and Exploiting Network Usable Information ( http://arxiv.org/abs/2402.07999v2 ) ライセンス: Link先を確認 | Meng-Chieh Lee, Haiyang Yu, Jian Zhang, Vassilis N. Ioannidis, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos | (参考訳) ノード分散グラフとグラフタスク(リンク予測やノード分類)が与えられたら、グラフニューラルネットワーク(GNN)がうまく機能するかどうかを判断できますか?
より具体的に言うと、グラフ構造とノード機能は、タスクに十分な有用な情報を運ぶか?
目的は,(1)グラフ構造やノード機能にどの程度の情報があるかを測定するための高速ツールを開発すること,(2)タスクが十分であればその情報を活用すること,である。
本稿では,netinfof_probe と netinfof_act を含むフレームワークである netinfof を提案する。
グラフデータを与えると、netinfof_probeはモデルトレーニングなしでnuiを測定し、netinfof_actはリンク予測とノード分類を解決し、2つのモジュールは同じバックボーンを共有する。
要約すると、NetInfoFは以下の顕著な利点を持っている。
(a)リンク予測とノード分類の両方を扱う一般
b) 原理的,理論的保証及び閉形式の解決
(c) ノード類似性に対する調整の提案により、有効である。
(d) スケーラブルで、入力サイズと線形にスケーリングする。
注意深く設計された合成データセットでは、netinfofはnuiの基礎的真理を正確に識別し、すべてのグラフシナリオにロバストな唯一の方法です。
実世界のデータセットに適用されるNetInfoFは、一般的なGNNベースラインと比較して、リンク予測で12回中11回勝利している。 Given a node-attributed graph, and a graph task (link prediction or node classification), can we tell if a graph neural network (GNN) will perform well? More specifically, do the graph structure and the node features carry enough usable information for the task? Our goals are (1) to develop a fast tool to measure how much information is in the graph structure and in the node features, and (2) to exploit the information to solve the task, if there is enough. We propose NetInfoF, a framework including NetInfoF_Probe and NetInfoF_Act, for the measurement and the exploitation of network usable information (NUI), respectively. Given a graph data, NetInfoF_Probe measures NUI without any model training, and NetInfoF_Act solves link prediction and node classification, while two modules share the same backbone. In summary, NetInfoF has following notable advantages: (a) General, handling both link prediction and node classification; (b) Principled, with theoretical guarantee and closed-form solution; (c) Effective, thanks to the proposed adjustment to node similarity; (d) Scalable, scaling linearly with the input size. In our carefully designed synthetic datasets, NetInfoF correctly identifies the ground truth of NUI and is the only method being robust to all graph scenarios. Applied on real-world datasets, NetInfoF wins in 11 out of 12 times on link prediction compared to general GNN baselines. | 翻訳日:2024-03-14 00:44:19 公開日:2024-03-11 |
# 問題解決のための分割探索プログラムによる大規模言語モデルの指導 Guiding Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving ( http://arxiv.org/abs/2402.05359v2 ) ライセンス: Link先を確認 | Yizhou Zhang, Lun Du, Defu Cao, Qiang Fu, Yan Liu | (参考訳) 大規模言語モデル(llm)のような基礎モデルは、その多数のアプリケーションのために多くの関心を集めている。
既存の研究は、Chain-of-Thoughtsのような適切なプロンプト設計が、様々な分野でLLMの強力な能力を解き放つことを示している。
しかし、反復的なサブタスクや算術計算や記事レベルの偽ニュース検出といった偽コンテンツを含むタスクを扱う場合、既存のプロンプト戦略は表現力の不足や幻覚によって引き起こされる中間的エラーに苦しむ。
このような中間誤差に対してLLMをより明瞭にするために,Divide-and-Conquerプログラムを用いてLCMを誘導し,優れた表現力を確保し,タスクの分解,サブタスクの分解,分解処理を分離する手法を提案する。
理論解析により, 固定深度変圧器の表現力を拡張するために LLM を誘導できることが判明した。
提案手法は,重大整数乗算,幻覚検出,誤情報検出など,中間誤差や誤読内容に悩むタスクにおいて,典型的なプロンシング戦略よりも優れた性能が得られることを示す。 Foundation models, such as Large language Models (LLMs), have attracted significant amount of interest due to their large number of applications. Existing works show that appropriate prompt design, such as Chain-of-Thoughts, can unlock LLM's powerful capacity in diverse areas. However, when handling tasks involving repetitive sub-tasks and/or deceptive contents, such as arithmetic calculation and article-level fake news detection, existing prompting strategies either suffers from insufficient expressive power or intermediate errors triggered by hallucination. To make LLM more discerning to such intermediate errors, we propose to guide LLM with a Divide-and-Conquer program that simultaneously ensures superior expressive power and disentangles task decomposition, sub-task resolution, and resolution assembly process. Theoretic analysis reveals that our strategy can guide LLM to extend the expressive power of fixed-depth Transformer. Experiments indicate that our proposed method can achieve better performance than typical prompting strategies in tasks bothered by intermediate errors and deceptive contents, such as large integer multiplication, hallucination detection and misinformation detection. | 翻訳日:2024-03-14 00:43:29 公開日:2024-03-11 |
# Finer:大規模視覚言語モデルにおける細粒度視覚概念認識の探索と強化 Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models ( http://arxiv.org/abs/2402.16315v2 ) ライセンス: Link先を確認 | Jeonghwan Kim and Heng Ji | (参考訳) 命令調整型大型視覚言語モデル(lvlms)の最近の進歩は、高レベルで画像に基づく説明を容易に生成できるモデルに影響を与えている。
このような機能は、Large Language Models (LLMs)に含まれる豊富な世界の知識に大きく影響されているが、我々の研究は、6つの異なるベンチマーク設定において、きめ細かい視覚分類(FGVC)の欠点を明らかにしている。
近年のLLaVa-1.5、InstructBLIP、GPT-4Vのような最先端のLVLMは、分類性能の点で深刻な劣化を経験しているだけでなく、LLaVA-1.5用のStanford Dogsでは平均65.58 in EMが低下している。
In-depth Analysisによると、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示し、画像モダリティがLLM内の豊富なパラメトリック知識を活用するのを防ぐ。
この方向へのコミュニティの取り組みをさらに進めるため,LVLMの細粒度視覚理解能力を評価するための基盤を確立することを目的として,多粒度属性中心評価ベンチマークであるFinerを提案する。 Recent advances in instruction-tuned Large Vision-Language Models (LVLMs) have imbued the models with the ability to generate high-level, image-grounded explanations with ease. While such capability is largely attributed to the rich world knowledge contained within the Large Language Models (LLMs), our work reveals their shortcomings in fine-grained visual categorization (FGVC) across six different benchmark settings. Most recent state-of-the-art LVLMs like LLaVa-1.5, InstructBLIP and GPT-4V not only severely deteriorate in terms of classification performance, e.g., average drop of 65.58 in EM for Stanford Dogs for LLaVA-1.5, but also struggle to generate an accurate explanation with detailed attributes based on the concept that appears within an input image despite their capability to generate holistic image-level descriptions. In-depth analyses show that instruction-tuned LVLMs exhibit modality gap, showing discrepancy when given textual and visual inputs that correspond to the same concept, preventing the image modality from leveraging the rich parametric knowledge within the LLMs. In an effort to further the community's endeavor in this direction, we propose a multiple granularity attribute-centric evaluation benchmark, Finer, which aims to establish a ground to evaluate LVLMs' fine-grained visual comprehension ability and provide significantly improved explainability. | 翻訳日:2024-03-14 00:34:41 公開日:2024-03-11 |
# プロトタイプマッチングによる典型的な故障信号の解釈 Interpreting What Typical Fault Signals Look Like via Prototype-matching ( http://arxiv.org/abs/2403.07033v1 ) ライセンス: Link先を確認 | Qian Chen and Xingjian Dong and Zhike Peng | (参考訳) 強力な非線形マッピングと分類能力を持つニューラルネットワークは、安全性を確保するために機械的故障診断に広く応用されている。
しかし、一般的なブラックボックスモデルであるため、そのアプリケーションは信頼性の高いシナリオに限られる。
分類論理を理解し, 典型的な故障信号がどのようなものかを説明するために, プロトタイプマッチングネットワーク(PMN)を提案する。
PMNはAE抽出された特徴を各プロトタイプと一致させ、予測結果として最も類似したプロトタイプを選択する。
分類ロジック、フォールトプロトタイプ、コントリビュートマッチングに関する3つの解釈パスがある。
従来の診断および領域一般化実験は、その競合診断性能と表現学習における顕著な優位性を示す。
さらに、学習された典型的な断層信号(すなわちサンプルレベルのプロトタイプ)は、専門家が捉えにくいと思われる微妙な重要な特徴を識別し抽出する能力を示している。
この能力は人間の理解を広げ、解釈可能性の研究から科学のためのAIまで有望なソリューションを提供する。 Neural networks, with powerful nonlinear mapping and classification capabilities, are widely applied in mechanical fault diagnosis to ensure safety. However, being typical black-box models, their application is limited in high-reliability-required scenarios. To understand the classification logic and explain what typical fault signals look like, the prototype matching network (PMN) is proposed by combining the human-inherent prototype-matching with autoencoder (AE). The PMN matches AE-extracted feature with each prototype and selects the most similar prototype as the prediction result. It has three interpreting paths on classification logic, fault prototypes, and matching contributions. Conventional diagnosis and domain generalization experiments demonstrate its competitive diagnostic performance and distinguished advantages in representation learning. Besides, the learned typical fault signals (i.e., sample-level prototypes) showcase the ability for denoising and extracting subtle key features that experts find challenging to capture. This ability broadens human understanding and provides a promising solution from interpretability research to AI-for-Science. | 翻訳日:2024-03-14 00:15:23 公開日:2024-03-11 |
# STARFlow:現実世界のシーンフローに対する注意学習による時空間的特徴の再埋め込み STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow ( http://arxiv.org/abs/2403.07032v1 ) ライセンス: Link先を確認 | Zhiyang Lu and Qinghan Chen and Ming Cheng | (参考訳) シーンフロー予測は、基本的な動作情報を提供するため、動的シーンを理解する上で重要なタスクである。
しかし、現代のシーンフロー手法は3つの大きな課題に直面する。
第一に、局所受容場のみに基づくフロー推定は、点対の長依存性マッチングを欠いている。
この問題に対処するため,我々は,特徴空間とユークリッド空間の両方のすべての点対に一致する大域的注意フロー埋め込みを提案し,局所的な細分化の前に大域的初期化を提供する。
第二に、反りの後に非剛体物体に存在する変形があり、連続するフレーム間の時空間的関係のばらつきをもたらす。
残留流れをより正確に推定するために、変形後のシーケンス特徴を取得するために時空間特徴再埋め込みモジュールを考案した。
さらに,従来手法では,合成データとlidarスキャンデータとの領域ギャップが大きいため,一般化が不十分であった。
我々は,合成から実世界への動き推論のギャップを効果的に橋渡しするために,新たな領域適応損失を利用する。
実験により, 実世界のLiDARスキャンデータセットにおいて, 特に顕著な結果が得られた。
私たちのコードはhttps://github.com/o-vigia/starflowで利用可能です。 Scene flow prediction is a crucial underlying task in understanding dynamic scenes as it offers fundamental motion information. However, contemporary scene flow methods encounter three major challenges. Firstly, flow estimation solely based on local receptive fields lacks long-dependency matching of point pairs. To address this issue, we propose global attentive flow embedding to match all-to-all point pairs in both feature space and Euclidean space, providing global initialization before local refinement. Secondly, there are deformations existing in non-rigid objects after warping, which leads to variations in the spatiotemporal relation between the consecutive frames. For a more precise estimation of residual flow, a spatial temporal feature re-embedding module is devised to acquire the sequence features after deformation. Furthermore, previous methods perform poor generalization due to the significant domain gap between the synthesized and LiDAR-scanned datasets. We leverage novel domain adaptive losses to effectively bridge the gap of motion inference from synthetic to real-world. Experiments demonstrate that our approach achieves state-of-the-art performance across various datasets, with particularly outstanding results on real-world LiDAR-scanned datasets. Our code is available at https://github.com/O-VIGIA/StarFlow. | 翻訳日:2024-03-14 00:15:10 公開日:2024-03-11 |
# 効率的な同時学習と評価のためのクローズ法 The Cram Method for Efficient Simultaneous Learning and Evaluation ( http://arxiv.org/abs/2403.07031v1 ) ライセンス: Link先を確認 | Zeyang Jia, Kosuke Imai, Michael Lingzhi Li | (参考訳) 本稿では,汎用機械学習(ml)アルゴリズムを用いた同時学習と評価のための汎用的かつ効率的な手法であるcram法を提案する。
バッチデータの1パスで、提案手法は繰り返しMLアルゴリズムを訓練し、その経験的性能をテストする。
サンプル全体を学習と評価の両方に利用するため、クラミングはサンプル分割よりもはるかにデータ効率が高い。
cramメソッドは自然にオンライン学習アルゴリズムに対応し、その実装を計算効率良くする。
クラム法の有効性を示すために,同一データにクラミングを適用して個別化処理ルール(ITR)を策定し,学習したITRをデプロイした場合に生じる平均結果を推定する,標準的な政策学習環境を検討する。
最小の仮定の下では、結果として得られるクローズド評価推定器は一貫性があり漸近的に正常であることを示す。
我々の漸近的結果はMLアルゴリズムの比較的弱い安定化条件を必要とするが、この条件を満たすために任意のポリシー学習アルゴリズムで使用できる単純で汎用的な手法を開発する。
本研究は, サンプル分割法と比較して, クラミングは学習ポリシーの性能を向上しつつ, 標準誤差を40%以上低減することを示した。
また, ランダム化臨床試験にクラム法を適用し, 実世界問題への適用性を示す。
最後に,他の学習および評価設定に対するcram法の今後の拡張について述べる。 We introduce the "cram" method, a general and efficient approach to simultaneous learning and evaluation using a generic machine learning (ML) algorithm. In a single pass of batched data, the proposed method repeatedly trains an ML algorithm and tests its empirical performance. Because it utilizes the entire sample for both learning and evaluation, cramming is significantly more data-efficient than sample-splitting. The cram method also naturally accommodates online learning algorithms, making its implementation computationally efficient. To demonstrate the power of the cram method, we consider the standard policy learning setting where cramming is applied to the same data to both develop an individualized treatment rule (ITR) and estimate the average outcome that would result if the learned ITR were to be deployed. We show that under a minimal set of assumptions, the resulting crammed evaluation estimator is consistent and asymptotically normal. While our asymptotic results require a relatively weak stabilization condition of ML algorithm, we develop a simple, generic method that can be used with any policy learning algorithm to satisfy this condition. Our extensive simulation studies show that, when compared to sample-splitting, cramming reduces the evaluation standard error by more than 40% while improving the performance of learned policy. We also apply the cram method to a randomized clinical trial to demonstrate its applicability to real-world problems. Finally, we briefly discuss future extensions of the cram method to other learning and evaluation settings. | 翻訳日:2024-03-14 00:14:50 公開日:2024-03-11 |
# AuG-KD: 外部知識蒸留のためのアンカーベース混合生成 AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation ( http://arxiv.org/abs/2403.07030v1 ) ライセンス: Link先を確認 | Zihao Tang, Zheqi Lv, Shengyu Zhang, Yifan Zhou, Xinyu Duan, Fei Wu, Kun Kuang | (参考訳) プライバシや特許に関する懸念から、トレーニングデータへのアクセスを許可せずに多数の大規模モデルがリリースされ、知識の転送が非効率で問題となる。
これに対し,Data-Free Knowledge Distillation (DFKD) 法が直接解法として登場した。
しかし,教師の訓練データと実世界のシナリオ(学生ドメイン)の相違により,dfkdから派生したモデルを実世界のアプリケーションに適用するだけで性能が著しく低下する。
この劣化は、学生ドメインに適用できない教師の知識の一部に起因している。
彼らは教師のドメインに特有であり、生徒のパフォーマンスを損なうことになる。
そのため,dfkdでは,教師の適切な知識を選択的に伝達することが課題となっている。
本研究では,AuG-KDの簡易かつ効果的な手法を提案する。
不確実性とサンプル固有のアンカーを用いて、学生ドメインデータを教師ドメインに整列させ、OOD知識蒸留と混合学習によるドメイン固有の情報学習との学習プロセスを段階的にトレードオフする生成手法を活用する。
3つのデータセットと8つの設定での広範な実験は、我々のアプローチの安定性と優位性を示しています。
コードはhttps://github.com/IshiKura-a/AuG-KDで公開されている。 Due to privacy or patent concerns, a growing number of large models are released without granting access to their training data, making transferring their knowledge inefficient and problematic. In response, Data-Free Knowledge Distillation (DFKD) methods have emerged as direct solutions. However, simply adopting models derived from DFKD for real-world applications suffers significant performance degradation, due to the discrepancy between teachers' training data and real-world scenarios (student domain). The degradation stems from the portions of teachers' knowledge that are not applicable to the student domain. They are specific to the teacher domain and would undermine students' performance. Hence, selectively transferring teachers' appropriate knowledge becomes the primary challenge in DFKD. In this work, we propose a simple but effective method AuG-KD. It utilizes an uncertainty-guided and sample-specific anchor to align student-domain data with the teacher domain and leverages a generative method to progressively trade off the learning process between OOD knowledge distillation and domain-specific information learning via mixup learning. Extensive experiments in 3 datasets and 8 settings demonstrate the stability and superiority of our approach. Code available at https://github.com/IshiKura-a/AuG-KD . | 翻訳日:2024-03-14 00:14:29 公開日:2024-03-11 |
# 容量アークルーティング問題に対するメタヒューリスティックスに匹敵する効率的な学習型解法 An Efficient Learning-based Solver Comparable to Metaheuristics for the Capacitated Arc Routing Problem ( http://arxiv.org/abs/2403.07028v1 ) ライセンス: Link先を確認 | Runze Guo, Feng Xue, Anlong Ming, Nicu Sebe | (参考訳) 近年、ニューラルネットワーク(NN)は組合せ最適化において大きな進歩を遂げている。
しかし、キャパシティ制約内にあるグラフ上のすべてのエッジをカバーする最小コストのツアーを見つけるために、キャパシタ付きアークルーティング問題(CARP)を解く際の課題に直面している。
CARPに取り組む場合、NNベースのアプローチは、複雑なCARPに適した直接アークモデリングと効率的な学習方法が欠如しているため、高度なメタヒューリスティックスよりも遅れやすい。
本稿では,高度メタヒューリスティックスとのギャップを大幅に狭めるとともに,優れた効率性を示すNNベースの解法を提案する。
まず,方向認識型注意モデル(DaAM)を提案する。
第2に,教師付きプレトレーニングを含む教師付き強化学習方式を設計し,その後の強化微調整のための堅牢な初期方針を確立する。
ノードルーティング問題(NRP)よりも複雑であるCARPの解決には特に有用である。
最後に,DAAM が生成した経路内のデポ位置を調整する経路最適化手法を提案する。
実験により、我々のアプローチはヒューリスティックスを超え、優れた効率を維持しながら、最先端のメタヒューリスティックスに匹敵する意思決定品質を初めて達成したことを示す。 Recently, neural networks (NN) have made great strides in combinatorial optimization. However, they face challenges when solving the capacitated arc routing problem (CARP) which is to find the minimum-cost tour covering all required edges on a graph, while within capacity constraints. In tackling CARP, NN-based approaches tend to lag behind advanced metaheuristics, since they lack directed arc modeling and efficient learning methods tailored for complex CARP. In this paper, we introduce an NN-based solver to significantly narrow the gap with advanced metaheuristics while exhibiting superior efficiency. First, we propose the direction-aware attention model (DaAM) to incorporate directionality into the embedding process, facilitating more effective one-stage decision-making. Second, we design a supervised reinforcement learning scheme that involves supervised pre-training to establish a robust initial policy for subsequent reinforcement fine-tuning. It proves particularly valuable for solving CARP that has a higher complexity than the node routing problems (NRPs). Finally, a path optimization method is proposed to adjust the depot return positions within the path generated by DaAM. Experiments illustrate that our approach surpasses heuristics and achieves decision quality comparable to state-of-the-art metaheuristics for the first time while maintaining superior efficiency. | 翻訳日:2024-03-14 00:14:11 公開日:2024-03-11 |
# LISO:ライダー専用の3Dオブジェクト検出 LISO: Lidar-only Self-Supervised 3D Object Detection ( http://arxiv.org/abs/2403.07071v1 ) ライセンス: Link先を確認 | Stefan Baur, Frank Moosmann, Andreas Geiger | (参考訳) 3Dオブジェクト検出は、どの自動運転スタックでも最も重要なコンポーネントの1つであるが、現在の最先端(SOTA)ライダーオブジェクト検出器は、3Dバウンディングボックスの高コストで遅い手動アノテーションを必要とする。
近年、人間の監督なしに疑似地上真理を生成する手法がいくつか登場したが、これらの手法には様々な欠点があり、一部は補助光学フローエンジンによって補われ、完全なカメラカバーと正確なキャリブレーションを備えたセンサーリグを必要とする。
複数のドライブで消えたオブジェクトを見つけるには、高価な高精度のローカライズが必要となる。
我々は, ライダー点雲のラベルなしシーケンスのみで動作するSOTAライダーオブジェクト検出ネットワークを, トラジェクタ正規化自己学習と呼ぶ, 新たな自己教師方式を提案する。
ボンネット下のSOTA自監督ライダーシーンフローネットワークを利用して、疑似地上真実を生成し、追跡し、反復的に洗練する。
複数の実世界のデータセットをまたいだ複数のSOTAオブジェクト検出ネットワークに対するアプローチの有効性を示す。
コードはリリースされる。 3D object detection is one of the most important components in any Self-Driving stack, but current state-of-the-art (SOTA) lidar object detectors require costly & slow manual annotation of 3D bounding boxes to perform well. Recently, several methods emerged to generate pseudo ground truth without human supervision, however, all of these methods have various drawbacks: Some methods require sensor rigs with full camera coverage and accurate calibration, partly supplemented by an auxiliary optical flow engine. Others require expensive high-precision localization to find objects that disappeared over multiple drives. We introduce a novel self-supervised method to train SOTA lidar object detection networks which works on unlabeled sequences of lidar point clouds only, which we call trajectory-regularized self-training. It utilizes a SOTA self-supervised lidar scene flow network under the hood to generate, track, and iteratively refine pseudo ground truth. We demonstrate the effectiveness of our approach for multiple SOTA object detection networks across multiple real-world datasets. Code will be released. | 翻訳日:2024-03-14 00:04:54 公開日:2024-03-11 |
# 中央銀行デジタル通貨のリテール:モチベーション、オポチュニティ、ミス Retail Central Bank Digital Currency: Motivations, Opportunities, and Mistakes ( http://arxiv.org/abs/2403.07070v1 ) ライセンス: Link先を確認 | Geoffrey Goodell, Hazem Danny Al-Nakib, Tomaso Aste | (参考訳) 世界中の国々が、現金や中央銀行準備金と共に中央銀行が発行する新たなデジタル通貨である中央銀行デジタル通貨(cbdc)の設計について調査している。
CBDCは個人や企業によって通常の商取引に適した金として使われる。
小売CBDCの発展における重要な動機は、小売購入のための中央銀行マネーの人気の低下と、そのような目的のために民間が生み出したデジタルマネーの利用の増加である。
小売cbdcがどのように設計され、実装されるかについての議論は、多くの提案を導いており、ビジネスモデル、規制枠組み、そして一般の社会技術的役割についてかなりの議論を巻き起こした。
本稿では,既存の提案について批判的な分析を行う。
モチベーションやテーマ、基礎となる前提について検討する。
私たちはまた、小売業のcbdcが代表する機会を反映し、公共の利益をさらに前進させる方法を提案しています。 Nations around the world are conducting research into the design of central bank digital currency (CBDC), a new, digital form of money that would be issued by central banks alongside cash and central bank reserves. Retail CBDC would be used by individuals and businesses as form of money suitable for routine commerce. An important motivating factor in the development of retail CBDC is the decline of the popularity of central bank money for retail purchases and the increasing use of digital money created by the private sector for such purposes. The debate about how retail CBDC would be designed and implemented has led to many proposals, which have sparked considerable debate about business models, regulatory frameworks, and the socio-technical role of money in general. Here, we present a critical analysis of the existing proposals. We examine their motivations and themes, as well as their underlying assumptions. We also offer a reflection of the opportunity that retail CBDC represents and suggest a way forward in furtherance of the public interest. | 翻訳日:2024-03-14 00:04:36 公開日:2024-03-11 |
# 重力と慣性の影響下での量子ホール効果--統一的アプローチ The quantum Hall effect under the influence of gravity and inertia: A unified approach ( http://arxiv.org/abs/2403.07069v1 ) ライセンス: Link先を確認 | Alexandre Landry, Fay\c{c}al Hammad and Reza Saadati | (参考訳) 重力と慣性の影響下での量子ホール効果は統一的に研究される。
我々は解析的アプローチとは対照的に代数的アプローチを利用する。
積分と分数量子ホール効果の両方が、統一ハミルトニアンを用いて重力と慣性の影響によってどのように振る舞うかを検討する。
その目的のために, 純粋に代数的手法を用いて, 定磁場および一様磁場に垂直な面内を移動する荷電粒子のエネルギースペクトルを再導出する。
(i)非線形重力ポテンシャルの影響下、又は
(ii) 一定の回転の影響下で。
ホール試料の電子に対する重力、回転、慣性の組合せ効果を記述するための一般ハミルトニアンが構築され、固有状態が得られる。
このような組み合わせの中で、親しみやすい分数量子ホール効果をもたらす電子相互クーロン相互作用についても論じる。 The quantum Hall effect under the influence of gravity and inertia is studied in a unified way. We make use of an algebraic approach, as opposed to an analytic approach. We examine how both the integer and the fractional quantum Hall effects behave under a combined influence of gravity and inertia using a unified Hamiltonian. For that purpose, we first re-derive, using the purely algebraic method, the energy spectrum of charged particles moving in a plane perpendicular to a constant and uniform magnetic field either (i) under the influence of a nonlinear gravitational potential or (ii) under the influence of a constant rotation. The general Hamiltonian for describing the combined effect of gravity, rotation and inertia on the electrons of a Hall sample is then built and the eigenstates are obtained. The electrons mutual Coulomb interaction that gives rise to the familiar fractional quantum Hall effect is also discussed within a such a combination. | 翻訳日:2024-03-14 00:04:20 公開日:2024-03-11 |
# マルチセットトモグラフィ:観測可能な多重集合の分割による量子計測の最適化 Multiset tomography: Optimizing quantum measurements by partitioning multisets of observables ( http://arxiv.org/abs/2403.07068v1 ) ライセンス: Link先を確認 | Otto Veltheim, Esko Keski-Vakkuri | (参考訳) 量子トモグラフィーのアプローチでは一般的に、観測したい観測対象の集合を考慮し、観測対象を計測し、必要な回数の計測を繰り返す計測手法を設計する。
観測可能量の単純な集合のみを考慮する代わりに、測定回数を最小限に抑えるために、必要な繰り返しを考慮して観測可能量の多重集合を考える必要がある。
これはグラフ理論の多色化問題につながる。
マルチセットトモグラフィーは2次的に改善できるが,実現可能である。
さらに、np-hard最適彩色問題にもかかわらず、グリーディ彩色アルゴリズムを用いたマルチセットアプローチは、テストケースにおいて漸近的に二次的な改善をもたらす。 Quantum tomography approaches typically consider a set of observables which we wish to measure, design a measurement scheme which measures each of the observables and then repeats the measurements as many times as necessary. We show that instead of considering only the simple set of observables, one should consider a multiset of the observables taking into account the required repetitions, to minimize the number of measurements. This leads to a graph theoretic multicolouring problem. We show that multiset tomography offers at most quadratic improvement but it is achievable. Furthermore, despite the NP-hard optimal colouring problem, the multiset approach with greedy colouring algorithms already offers asymptotically quadratic improvement in test cases. | 翻訳日:2024-03-14 00:04:06 公開日:2024-03-11 |
# プレトレーニング基礎モデルのための再シミュレーションに基づく自己教師付き学習 Re-Simulation-based Self-Supervised Learning for Pre-Training Foundation Models ( http://arxiv.org/abs/2403.07066v1 ) ライセンス: Link先を確認 | Philip Harris, Michael Kagan, Jeffrey Krupa, Benedikt Maier, Nathaniel Woodward | (参考訳) 自己監視学習(SSL)は、現代の大規模機械学習モデルのトレーニングの中心であり、さまざまな下流タスクで使用できる強力な表現を学習するためのスキームを提供する。
しかしSSL戦略は、必要なトレーニングデータや下流タスクの種類に適応する必要がある。
本稿では,データ拡張を促進させるために再シミュレーション手法を用いた新しいシミュレーションベースのSSL戦略であるRS3Lを提案する。
シミュレーションプロセスの途中に介入し、介入の下流でシミュレーションコンポーネントを再実行することにより、イベントの多重実現を生成し、シミュレータで利用可能なすべての物理駆動の変動をカバーする一連の拡張を生成する。
本稿では,高エネルギー物理学の実験を用いて,r3sl事前学習が下流タスクにおいて,様々な物体の識別や不確実性緩和といった強力なパフォーマンスを実現する方法を示す。
結果に加えて、SSL戦略を改善するためのさらなる研究のために、RS3Lデータセットを公開しています。 Self-Supervised Learning (SSL) is at the core of training modern large machine learning models, providing a scheme for learning powerful representations that can be used in a variety of downstream tasks. However, SSL strategies must be adapted to the type of training data and downstream tasks required. We propose RS3L, a novel simulation-based SSL strategy that employs a method of re-simulation to drive data augmentation for contrastive learning. By intervening in the middle of the simulation process and re-running simulation components downstream of the intervention, we generate multiple realizations of an event, thus producing a set of augmentations covering all physics-driven variations available in the simulator. Using experiments from high-energy physics, we explore how this strategy may enable the development of a foundation model; we show how R3SL pre-training enables powerful performance in downstream tasks such as discrimination of a variety of objects and uncertainty mitigation. In addition to our results, we make the RS3L dataset publicly available for further studies on how to improve SSL strategies. | 翻訳日:2024-03-14 00:03:54 公開日:2024-03-11 |
# スピン量子シミュレータにおける中間子散乱のシミュレーション Simulating Meson Scattering on Spin Quantum Simulators ( http://arxiv.org/abs/2403.07061v1 ) ライセンス: Link先を確認 | Elizabeth R. Bennewitz, Brayden Ware, Alexander Schuckert, Alessio Lerose, Federica M. Surace, Ron Belyansky, William Morong, De Luo, Arinjoy De, Kate S. Collins, Or Katz, Christopher Monroe, Zohreh Davoudi, Alexey V. Gorhskov | (参考訳) ハドロンや核のような複合粒子の高エネルギー衝突の研究は、量子シミュレーターの優れた目標である。
しかし、ハドロンの複雑さと波のパケットの正確な構造のため、ハドロン波のパケットの合成は大きな課題となっている。
これは量子シミュレーターにおけるハドロン散乱の限られた実証である。
量子スピン系の閉じ込めと複合励起の観測は、スピンモデルにおける散乱力学を探求する可能性を開く。
本稿では,イジングスピンハミルトニアンのアナログ量子シミュレータにおいて,複合粒子の波束に対応する絡み合ったスピン状態を生成する2つの方法を開発する。
1つの波束形成法は、アレスト近傍のイジングスピン相互作用によって実現された遮断効果を用いる。
他の方法は、閉じ込められたイオン配列のネイティブスピンフォノンカップリングのような量子バスによる交換を利用する。
トラップイオンシミュレータに焦点をあてて,両手法を数値的にベンチマークし,近距離実験で高忠実な波束を実現できることを示す。
我々は,Isingモデルにおける実験実現可能なパラメータに対するウェーブパケットの散乱を数値的に研究し,散乱イベントにおける粒子生成に対応する非弾性散乱規則を,顕著で実験的な信号で発見する。
そこで本提案では, 短期量子シミュレータにおける非弾性散乱の観測の可能性を示す。 Studying high-energy collisions of composite particles, such as hadrons and nuclei, is an outstanding goal for quantum simulators. However, preparation of hadronic wave packets has posed a significant challenge, due to the complexity of hadrons and the precise structure of wave packets. This has limited demonstrations of hadron scattering on quantum simulators to date. Observations of confinement and composite excitations in quantum spin systems have opened up the possibility to explore scattering dynamics in spin models. In this article, we develop two methods to create entangled spin states corresponding to wave packets of composite particles in analog quantum simulators of Ising spin Hamiltonians. One wave-packet preparation method uses the blockade effect enabled by beyond-nearest-neighbor Ising spin interactions. The other method utilizes a quantum-bus-mediated exchange, such as the native spin-phonon coupling in trapped-ion arrays. With a focus on trapped-ion simulators, we numerically benchmark both methods and show that high-fidelity wave packets can be achieved in near-term experiments. We numerically study scattering of wave packets for experimentally realizable parameters in the Ising model and find inelastic-scattering regimes, corresponding to particle production in the scattering event, with prominent and distinct experimental signals. Our proposal, therefore, demonstrates the potential of observing inelastic scattering in near-term quantum simulators. | 翻訳日:2024-03-14 00:03:36 公開日:2024-03-11 |
# 古典よりマシか?
量子機械学習モデルの微妙なベンチマーク技術 Better than classical? The subtle art of benchmarking quantum machine learning models ( http://arxiv.org/abs/2403.07059v1 ) ライセンス: Link先を確認 | Joseph Bowles, Shahnawaz Ahmed, Maria Schuld | (参考訳) 古典シミュレーションによるベンチマークモデルは、ノイズフリーハードウェアが利用可能になる前に量子機械学習におけるアイデアを判断する主要な方法の1つである。
しかし、実験設計が結果に与えた大きな影響、今日の小規模のスケール、量子技術の商業化の影響による物語は、堅牢な洞察を得ることを困難にしている。
より良い意思決定を容易にするために、PennyLaneソフトウェアフレームワークに基づいたオープンソースパッケージを開発し、160個の個別データセットを作成するために使用される6つのバイナリ分類タスクに対して、12の一般的な量子機械学習モデルを体系的にテストする大規模な研究を実施する。
古典的機械学習のモデルが量子分類器を上回っていることがわかっています。
さらに、量子モデルから絡み合いを取り除くことは、しばしば良いあるいは良いパフォーマンスをもたらすので、ここで考慮される小さな学習タスクにとって「量子性」が重要な要素ではないことを示唆している。
我々のベンチマークはまた、単純なリーダーボードの比較以上の調査を解き放ち、結果に続く量子モデル設計の重要な5つの質問を特定します。 Benchmarking models via classical simulations is one of the main ways to judge ideas in quantum machine learning before noise-free hardware is available. However, the huge impact of the experimental design on the results, the small scales within reach today, as well as narratives influenced by the commercialisation of quantum technologies make it difficult to gain robust insights. To facilitate better decision-making we develop an open-source package based on the PennyLane software framework and use it to conduct a large-scale study that systematically tests 12 popular quantum machine learning models on 6 binary classification tasks used to create 160 individual datasets. We find that overall, out-of-the-box classical machine learning models outperform the quantum classifiers. Moreover, removing entanglement from a quantum model often results in as good or better performance, suggesting that "quantumness" may not be the crucial ingredient for the small learning tasks considered here. Our benchmarks also unlock investigations beyond simplistic leaderboard comparisons, and we identify five important questions for quantum model design that follow from our results. | 翻訳日:2024-03-14 00:03:17 公開日:2024-03-11 |
# 重力の逆反応は魔法のホログラフィック双対である Gravitational back-reaction is the Holographic Dual of Magic ( http://arxiv.org/abs/2403.07056v1 ) ライセンス: Link先を確認 | ChunJun Cao, Gong Cheng, Alioscia Hamma, Lorenzo Leone, William Munizzi, Savatore F.E. Oliviero | (参考訳) 量子多体系における魔法と絡み合いの相互作用を研究する。
量子相関によって支持される非局所魔法は、エンタングルメントスペクトルの平坦性によって境界が低く、系のエンタングルメントの量によって上限が上限となることを示す。
そして、非局所魔法の滑らかなバージョンは、非圧縮状態の古典的シミュレーションの硬さを束縛していると論じる。
共形場の理論では、状態の近似が許されるとき、非局所魔法は絡み合いのエントロピーと線形にスケールするべきであると推測する。
我々は,一元蒸留とIsing CFTの数値データに基づく解析的議論を用いて,この予想を支持する。
CFT がホログラフ双対を持つなら、非局所的な魔法は重力バック反応がない場合にのみ消えることを示す。
さらに,非局所魔法は,バルク内の宇宙ブレーンの張力の変化に応じて,最小表面積の変化率とほぼ等しいことを示す。 We study interplay between magic and entanglement in quantum many-body systems. We show that non-local magic which is supported by the quantum correlations is lower bounded by the flatness of entanglement spectrum and upper bounded by the amount of entanglement in the system. We then argue that a smoothed version of non-local magic bounds the hardness of classical simulations for incompressible states. In conformal field theories, we conjecture that the non-local magic should scale linearly with entanglement entropy but sublinearly when an approximation of the state is allowed. We support the conjectures using both analytical arguments based on unitary distillation and numerical data from an Ising CFT. If the CFT has a holographic dual, then we prove that the non-local magic vanishes if and only if there is no gravitational back-reaction. Furthermore, we show that non-local magic approximately equals the rate of change of minimal surface area in response to the change of the tension of cosmic branes in the bulk. | 翻訳日:2024-03-14 00:02:58 公開日:2024-03-11 |
# 有限次元量子電磁力学のスーパーコンピュータモデル Supercomputer model of finite-dimensional quantum electrodynamics applications ( http://arxiv.org/abs/2403.07042v1 ) ライセンス: Link先を確認 | Wanshun Li, Hui-hui Miao, Yuri Igorevich Ozhigov | (参考訳) 量子プロセスのスーパーコンピュータシミュレーションは、Jaynes-Cummings-HubbardモデルやTavis-Cummings-Hubbardモデルなど、有限次元空洞量子力学モデルの様々な修正によって説明される。
2つの例は水素結合の近似モデルと2次元平面上の光子運動のモデルである。 A general scheme is given for supercomputer simulation of quantum processes, which are described by various modifications of finite-dimensional cavity quantum electrodynamics models, including Jaynes-Cummings-Hubbard model and Tavis-Cummings-Hubbard model. Conclusions and recommendations are illustrated using two examples: approximate model of hydrogen bonding and model of photon motion on a two-dimensional plane. | 翻訳日:2024-03-14 00:02:40 公開日:2024-03-11 |
# 組合せ最適化のためのGFlowNetsによるAnt Colonyサンプリング Ant Colony Sampling with GFlowNets for Combinatorial Optimization ( http://arxiv.org/abs/2403.07041v1 ) ライセンス: Link先を確認 | Minsu Kim, Sanghyeok Choi, Jiwoo Son, Hyeonah Kim, Jinkyoo Park, Yoshua Bengio | (参考訳) 本稿では,組合せ最適化のためのニューラルガイド型メタヒューリスティックアルゴリズムであるジェネレイティブフロー ant colony sampler (gfacs)について述べる。
GFACSは生成フローネットワーク(GFlowNets)とアリコロニー最適化(ACO)手法を統合している。
GFlowNetsは、組合せ空間で構築ポリシーを学ぶ生成モデルであり、入力グラフインスタンスに条件付き決定変数のインフォームド事前分布を提供することでACOを強化する。
さらに, GFACSを改善するために, 探索誘導局所探査, エネルギー正規化, エネルギー整形など, 新たな訓練手法の組み合わせを導入する。
実験の結果、GFACSは7つのCOタスクにおいてベースラインACOアルゴリズムよりも優れており、車両ルーティング問題に対する問題固有ヒューリスティックと競合することが示された。
ソースコードは \url{https://github.com/ai4co/gfacs} で入手できる。 This paper introduces the Generative Flow Ant Colony Sampler (GFACS), a novel neural-guided meta-heuristic algorithm for combinatorial optimization. GFACS integrates generative flow networks (GFlowNets) with the ant colony optimization (ACO) methodology. GFlowNets, a generative model that learns a constructive policy in combinatorial spaces, enhance ACO by providing an informed prior distribution of decision variables conditioned on input graph instances. Furthermore, we introduce a novel combination of training tricks, including search-guided local exploration, energy normalization, and energy shaping to improve GFACS. Our experimental results demonstrate that GFACS outperforms baseline ACO algorithms in seven CO tasks and is competitive with problem-specific heuristics for vehicle routing problems. The source code is available at \url{https://github.com/ai4co/gfacs}. | 翻訳日:2024-03-14 00:02:32 公開日:2024-03-11 |
# グラフニューラルネットワークのためのマルチタスクプロンプト(拡張抽象) All in One: Multi-Task Prompting for Graph Neural Networks (Extended Abstract) ( http://arxiv.org/abs/2403.07040v1 ) ライセンス: Link先を確認 | Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan | (参考訳) この論文は、KDD23で発表された最初の論文の要約であり、私たちは最高の研究論文賞(Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan)を受賞しました。ひとつは、グラフニューラルネットワークのマルチタスクプロンプト(multi-task prompting for graph neural network)です。
グラフタスク(ノードレベル,エッジレベル,グラフレベル)で事前学習したモデルを整列させることで,負の転送や性能の低下につながる問題を認識し,グラフのマルチタスクプロンプト手法を提案する。
この方法は、グラフと言語プロンプトフォーマットを統一し、nlpのプロンプト戦略をグラフタスクに適用可能にする。
グラフアプリケーションのタスク空間を解析することにより、グラフレベルのタスクに適合するように問題を再構成し、メタラーニングを適用し、複数のタスクの迅速な初期化を改善する。
実験により,様々なグラフタスクにおけるモデル性能の向上効果を示す。
オリジナルの作業以外にも、この拡張された抽象化では、グラフプロンプトをより大きな図からさらに議論し、この領域に向けた最新の作業をいくつか提供します。 This paper is an extended abstract of our original work published in KDD23, where we won the best research paper award (Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, and Jihong Guan. All in one: Multi-task prompting for graph neural networks. KDD 23) The paper introduces a novel approach to bridging the gap between pre-trained graph models and the diverse tasks they're applied to, inspired by the success of prompt learning in NLP. Recognizing the challenge of aligning pre-trained models with varied graph tasks (node level, edge level, and graph level), which can lead to negative transfer and poor performance, we propose a multi-task prompting method for graphs. This method involves unifying graph and language prompt formats, enabling NLP's prompting strategies to be adapted for graph tasks. By analyzing the task space of graph applications, we reformulate problems to fit graph-level tasks and apply meta-learning to improve prompt initialization for multiple tasks. Experiments show our method's effectiveness in enhancing model performance across different graph tasks. Beyond the original work, in this extended abstract, we further discuss the graph prompt from a bigger picture and provide some of the latest work toward this area. | 翻訳日:2024-03-14 00:02:17 公開日:2024-03-11 |
# 英語からASICへ:大規模言語モデルによるハードウェア実装 From English to ASIC: Hardware Implementation with Large Language Model ( http://arxiv.org/abs/2403.07039v1 ) ライセンス: Link先を確認 | Emil Goh, Maoyang Xiang, I-Chyn Wey, T. Hui Teo | (参考訳) asic工学の領域では、現在のデジタル回路の複雑さの増加と並行して、llmの急速な発展によって風景は大幅に再構成されている。
この複雑さはHDLコーディングの要求を増大させ、高い精度と高度化を必要としている。
しかし、ハードウェア記述コードの生成におけるモダン言語モデルの最適性能の低下と、それに対応する高品質なコードデータセットの不足によりさらに悪化した状況により、課題に直面している。
これらの課題は、デジタル回路設計に革命を起こすllmの可能性と、ハードウェア仕様の正確な解釈と実装における現在の能力とのギャップを強調している。
これらの課題に対処するため、最先端の自然言語モデルの微調整とHDLコードデータセットの再シャッフルに焦点を当てた戦略が開発されている。
この微調整は、精密で効率的なASIC設計を生成するためのモデルの習熟度を高めることを目的としており、データセットの再シャッフルは、トレーニング材料の範囲を広げ、品質を向上させることを目的としている。
このモデルはベースモデルと比較して大幅に改善され、pass@1メトリックの幅広い温度で10%から20%の精度が向上した。
このアプローチは、複雑な回路設計のためのシンプルで効率的なLCM支援フレームワークを促進し、HDLコーディングの洗練された要求を満たすためにそれらの能力を活用し、ASIC開発プロセスを合理化する。 In the realm of ASIC engineering, the landscape has been significantly reshaped by the rapid development of LLM, paralleled by an increase in the complexity of modern digital circuits. This complexity has escalated the requirements for HDL coding, necessitating a higher degree of precision and sophistication. However, challenges have been faced due to the less-than-optimal performance of modern language models in generating hardware description code, a situation further exacerbated by the scarcity of the corresponding high-quality code datasets. These challenges have highlighted the gap between the potential of LLMs to revolutionize digital circuit design and their current capabilities in accurately interpreting and implementing hardware specifications. To address these challenges, a strategy focusing on the fine-tuning of the leading-edge nature language model and the reshuffling of the HDL code dataset has been developed. The fine-tuning aims to enhance models' proficiency in generating precise and efficient ASIC design, while the dataset reshuffling is intended to broaden the scope and improve the quality of training material. The model demonstrated significant improvements compared to the base model, with approximately 10% to 20% increase in accuracy across a wide range of temperature for the pass@1 metric. This approach is expected to facilitate a simplified and more efficient LLM-assisted framework for complex circuit design, leveraging their capabilities to meet the sophisticated demands of HDL coding and thus streamlining the ASIC development process. | 翻訳日:2024-03-14 00:01:48 公開日:2024-03-11 |
# 患者自動トリアージ支援のためのグラフニューラルネットワークの活用 Leveraging graph neural networks for supporting Automatic Triage of Patients ( http://arxiv.org/abs/2403.07038v1 ) ライセンス: Link先を確認 | Annamaria Defilippo and Pierangelo Veltri and Pietro Lio' and Pietro Hiram Guzzi | (参考訳) 患者トリアージは救急部門において重要な役割を担い、患者状態の緊急度合いを正しく評価し、タイムリーかつ適切なケアを確保する。
典型的には、患者管理プロセスから収集した経験と情報に基づいて、人間の操作者がトリアージを行う。
したがって、緊急レベルアソシエーションにおいてエラーを発生させることができるプロセスである。
近年,従来のトリアージ法は,主観的かつ誤りやすい人間の判断に大きく依存している。
近年,患者トリアージ処理における情報収集と誤りの最小化が可能なアルゴリズムの開発に人工知能(AI)を活用することへの関心が高まっている。
救急部門における緊急コード割り当てを管理するためのAIベースのモジュールを定義し,実装する。
救急省の履歴データを使って医療判断プロセスを訓練する。
バイタルサイン、症状、医療歴などの関連する患者情報を含むデータは、患者をトリアージカテゴリに正確に分類するために使用される。
実験の結果,提案手法は従来のトリアージ法よりも精度が高かった。
提案手法を用いることで,医療専門家は患者管理処理と資源配分を指導するために重症度指数を予測できると主張している。 Patient triage plays a crucial role in emergency departments, ensuring timely and appropriate care based on correctly evaluating the emergency grade of patient conditions. Triage methods are generally performed by human operator based on her own experience and information that are gathered from the patient management process. Thus, it is a process that can generate errors in emergency level associations. Recently, Traditional triage methods heavily rely on human decisions, which can be subjective and prone to errors. Recently, a growing interest has been focused on leveraging artificial intelligence (AI) to develop algorithms able to maximize information gathering and minimize errors in patient triage processing. We define and implement an AI based module to manage patients emergency code assignments in emergency departments. It uses emergency department historical data to train the medical decision process. Data containing relevant patient information, such as vital signs, symptoms, and medical history, are used to accurately classify patients into triage categories. Experimental results demonstrate that the proposed algorithm achieved high accuracy outperforming traditional triage methods. By using the proposed method we claim that healthcare professionals can predict severity index to guide patient management processing and resource allocation. | 翻訳日:2024-03-14 00:01:26 公開日:2024-03-11 |
# エッジにおける低レイテンシ・エネルギー効率DNN推論への変換オートエンコーダ A Converting Autoencoder Toward Low-latency and Energy-efficient DNN Inference at the Edge ( http://arxiv.org/abs/2403.07036v1 ) ライセンス: Link先を確認 | Hasanul Mahmud, Peng Kang, Kevin Desai, Palden Lama, Sushil Prasad | (参考訳) 予測精度を維持しながら推論時間とエネルギー使用量を削減することは、リソース制約エッジデバイスに対するディープニューラルネットワーク(DNN)推論において重要な関心事となっている。
この問題に対処するため、「変換」オートエンコーダと軽量DNNに基づく新しい手法を提案する。
これにより、早期発行フレームワークやDNNパーティショニングといった最近の作業が改善される。
初期のフレームワークは、複雑さに応じて異なる入力データに対して異なる量の計算能力を使う。
しかし、多くのハードイメージサンプルを扱う現実世界のシナリオでは非効率である。
一方で、クラウドとエッジデバイスの両方の計算能力を利用するdnnパーティショニングアルゴリズムは、クラウドとエッジ間のネットワーク遅延と断続的な接続によって影響を受ける可能性がある。
エッジデバイスに適した低レイテンシかつエネルギー効率のDNN推論フレームワークCBNetを提案する。
変換」オートエンコーダを使用して、ハード画像を効率的に簡単に変換し、その後、軽量DNNによって推論処理を行う。
我々の知る限りでは、そのようなオートエンコーダは以前から提案されていない。
Raspberry Pi 4、Google Cloudインスタンス、Nvidia Tesla K80 GPUインスタンスの3つの一般的な画像分類データセットを用いた実験の結果、CBNetは推論遅延の4.8倍のスピードアップと79%のエネルギー使用量の削減を実現し、類似または高い精度を維持しながら競合技術と比較した。 Reducing inference time and energy usage while maintaining prediction accuracy has become a significant concern for deep neural networks (DNN) inference on resource-constrained edge devices. To address this problem, we propose a novel approach based on "converting" autoencoder and lightweight DNNs. This improves upon recent work such as early-exiting framework and DNN partitioning. Early-exiting frameworks spend different amounts of computation power for different input data depending upon their complexity. However, they can be inefficient in real-world scenarios that deal with many hard image samples. On the other hand, DNN partitioning algorithms that utilize the computation power of both the cloud and edge devices can be affected by network delays and intermittent connections between the cloud and the edge. We present CBNet, a low-latency and energy-efficient DNN inference framework tailored for edge devices. It utilizes a "converting" autoencoder to efficiently transform hard images into easy ones, which are subsequently processed by a lightweight DNN for inference. To the best of our knowledge, such autoencoder has not been proposed earlier. Our experimental results using three popular image-classification datasets on a Raspberry Pi 4, a Google Cloud instance, and an instance with Nvidia Tesla K80 GPU show that CBNet achieves up to 4.8x speedup in inference latency and 79% reduction in energy usage compared to competing techniques while maintaining similar or higher accuracy. | 翻訳日:2024-03-14 00:01:08 公開日:2024-03-11 |
# 多集団交代進化型ニューラルアーキテクチャサーチ Multiple Population Alternate Evolution Neural Architecture Search ( http://arxiv.org/abs/2403.07035v1 ) ライセンス: Link先を確認 | Juan Zou, Han Chu, Yizhang Xia, Junwen Xu, Yuan Liu, Zhanglu Hou | (参考訳) 進化的ニューラルネットワーク探索(ENAS)の有効性は,探索空間の設計の影響を受けている。
それでも、グローバル検索空間、スケーラブル検索空間、階層検索空間などの一般的な方法には、一定の制限がある。
具体的には、グローバルな検索空間には膨大な計算資源と時間が必要であり、スケーラブルな検索空間はネットワーク構造の多様性を犠牲にし、階層的な検索空間はネットワークの多様性と引き換えに検索コストを増大させる。
そこで本研究では,ニューラルネットワークアーキテクチャを探索する新しいパラダイムを提案し,より少ない探索コストでモジュールの多様性を実現する多集団交互進化型ニューラルネットワーク検索 (mpae) を設計する。
MPAEは、探索空間をL相互接続単位に変換し、連続的にユニットを探索し、上記のネットワーク全体の探索を数回繰り返して、その後のユニットへの影響を減らす。
また,人口移動の過程を加速するために,人口移動機構が優れた人口移動アーカイブを確立し,人口移動アーカイブにおける優れた知識と経験を新しい人口に伝達する。
提案手法では,cifarデータセット上でニューラルネットワークを探索するには0.3gpu日しかかからず,最先端の結果が得られる。 The effectiveness of Evolutionary Neural Architecture Search (ENAS) is influenced by the design of the search space. Nevertheless, common methods including the global search space, scalable search space and hierarchical search space have certain limitations. Specifically, the global search space requires a significant amount of computational resources and time, the scalable search space sacrifices the diversity of network structures and the hierarchical search space increases the search cost in exchange for network diversity. To address above limitation, we propose a novel paradigm of searching neural network architectures and design the Multiple Population Alternate Evolution Neural Architecture Search (MPAE), which can achieve module diversity with a smaller search cost. MPAE converts the search space into L interconnected units and sequentially searches the units, then the above search of the entire network be cycled several times to reduce the impact of previous units on subsequent units. To accelerate the population evolution process, we also propose the the population migration mechanism establishes an excellent migration archive and transfers the excellent knowledge and experience in the migration archive to new populations. The proposed method requires only 0.3 GPU days to search a neural network on the CIFAR dataset and achieves the state-of-the-art results. | 翻訳日:2024-03-14 00:00:43 公開日:2024-03-11 |
# 非マルコフ導波路qedのマルチモードキャビティ画像 Multimode-cavity picture of non-Markovian waveguide QED ( http://arxiv.org/abs/2403.07110v1 ) ライセンス: Link先を確認 | Dario Cilluffo, Luca Ferialdi, G. Massimo Palma, Giuseppe Calaj\`o, and Francesco Ciccarello | (参考訳) 長光遅延時間における非マルコフ系における導波路-QED問題の記述と解釈を図り、コヒーレントフィードバックを遅延させる。
このフレームワークは、導波管のブロックへの直感的な空間分解に基づいている。
これらのうち、原子に直接結合されたブロックは、導波管の残りに漏れる効果的な多モードキャビティを具現化し、効果的にホワイトノイズ浴を具現化する。
力学は有限数の空洞モードを保ちながら時間遅れとともに最終的に成長することで近似することができる。
この記述は、放出過程と散乱過程の両方において、多くの励起であっても、原子と場のダイナミクスを捉えている。
応用として,最近同定された非マルコフ定常状態は,空洞モードを1つだけ保持することで理解可能であることを示す。 We introduce a picture to describe and intrepret waveguide-QED problems in the non-Markovian regime of long photonic retardation times resulting in delayed coherent feedback. The framework is based on an intuitive spatial decomposition of the waveguide into blocks. Among these, the block directly coupled to the atoms embodies an effective lossy multimode cavity leaking into the rest of the waveguide, in turn embodying an effective white-noise bath. The dynamics can be approximated by retaining only a finite number of cavity modes that yet eventually grows with the time delay. This description captures the atomic as well as the field's dynamics, even with many excitations, in both emission and scattering processes. As an application, we show that the recently identified non-Markovian steady states can be understood by retaining very few or even only one cavity modes. | 翻訳日:2024-03-13 23:55:54 公開日:2024-03-11 |
# 次元問題:多パラメータ量子推定モデルにおける精度と非互換性 Dimension matters: precision and incompatibility in multi-parameter quantum estimation models ( http://arxiv.org/abs/2403.07106v1 ) ライセンス: Link先を確認 | Alessandro Candeloro, Zahra Pazhotan, Matteo G.A. Paris | (参考訳) マルチパラメータ量子推定問題における精度の境界と非互換性のレベルを決定する上でのプローブ次元の役割について検討する。
特に、$\mathfrak{su}(2)$によって生成されるユニタリエンコーディングのパラダイム的ケースに注目し、異なる次元の表現で同じパラメータを推定する際の精度と非互換性を比較する。
2パラメータと3パラメータのユニタリモデルに対して、プローブの次元がパラメータの数より小さい場合、同時推定は不可能である(量子フィッシャー行列は特異である)。
次元がパラメータの数に等しい場合、推定は可能であるが、モデルは最大(漸近的な)非互換を示す。
しかし、より大きい次元では、常に非可換性が消え、対称クラム・ラオ境界が達成可能である状態が存在する。
また,Holevo-Cram\'er-Rao境界とSLD(Symmetric Logarithmic Derivative)境界との差を特徴付けるいわゆる漸近的不整合(AI)の性能についても批判的に検討し,このギャップを適切に定量化できない可能性があることを示した。
QFIM(Quantum Fisher Information Matrix)の決定因子を評価することは、モデルの性質を正確に評価するために重要である。
それにもかかわらず、ai測度は、行列形式(すなわちウルマン曲率)ではなく1つのスカラー量にモデルの非古典性をカプセル化するので、いまだに重要な役割を果たす。 We study the role of probe dimension in determining the bounds of precision and the level of incompatibility in multi-parameter quantum estimation problems. In particular, we focus on the paradigmatic case of unitary encoding generated by $\mathfrak{su}(2)$ and compare precision and incompatibility in the estimation of the same parameters across representations of different dimensions. For two- and three-parameter unitary models, we prove that if the dimension of the probe is smaller than the number of parameters, then simultaneous estimation is not possible (the quantum Fisher matrix is singular). If the dimension is equal to the number of parameters, estimation is possible but the model exhibits maximal (asymptotic) incompatibility. However, for larger dimensions, there is always a state for which the incompatibility vanishes, and the symmetric Cram\'er-Rao bound is achievable. We also critically examine the performance of the so-called asymptotic incompatibility (AI) in characterizing the difference between the Holevo-Cram\'er-Rao bound and the Symmetric Logarithmic Derivative (SLD) one, showing that the AI measure alone may fail to adequately quantify this gap. Assessing the determinant of the Quantum Fisher Information Matrix (QFIM) is crucial for a precise characterization of the model's nature. Nonetheless, the AI measure still plays a relevant role since it encapsulates the non-classicality of the model in one scalar quantity rather than in a matrix form (i.e., the Uhlmann curvature). | 翻訳日:2024-03-13 23:55:39 公開日:2024-03-11 |
# 多中心リンパ腫データセットからの軸方向PET/CTスライスの自動分類のためのスライス分類ニューラルネットワーク A slice classification neural network for automated classification of axial PET/CT slices from a multi-centric lymphoma dataset ( http://arxiv.org/abs/2403.07105v1 ) ライセンス: Link先を確認 | Shadab Ahamed, Yixi Xu, Ingrid Bloise, Joo H. O, Carlos F. Uribe, Rahul Dodhia, Juan L. Ferres, and Arman Rahmim | (参考訳) 自動スライス分類は医用画像セグメンテーションワークフローに組み込むことができ、腫瘍を含む確率が高いスライスにフラグを付ける前処理ステップとして組み込むことができ、医師に重要なスライスに注意を向ける。
本研究では,3次元画像中の腫瘍(陽性スライス)をスライスしたか,あるいはスライスしなかったか(陰性スライス)によって,PET/CT画像の軸スライスを分類するResNet-18ネットワークを訓練する。
ネットワークの様々なインスタンスは、異なる方法で作成された2d軸性データセットで訓練された。
(i)スライスレベル分割
(ii)患者レベルの分割;異なるタイプの入力を使用する。
(i)ペットスライスのみ及び
(ii)petスライスとctスライスを連結し,異なる訓練戦略を採った。
(i)センターアウェア(CAW)及び
(ii)センター非依存(cag)。
モデル性能は,受信者動作特性曲線 (auroc) 下の領域と精度再呼曲線 (auprc) 下の領域,および各種バイナリ分類指標を用いて比較した。
患者レベルの分断訓練と比較して,スライスレベルの分断の場合のパフォーマンスの過大評価を観察し,記述する。
CAGトレーニング体制におけるPETスライスのみを含むネットワーク入力を用いた患者レベルのスプリットデータを用いてトレーニングしたモデルは、ほとんどの指標で最高のパフォーマンス/一般化モデルであった。
また,各テストセットの正のスライスに対する感度指標を用いて,さらに精度を比較検討した。 Automated slice classification is clinically relevant since it can be incorporated into medical image segmentation workflows as a preprocessing step that would flag slices with a higher probability of containing tumors, thereby directing physicians attention to the important slices. In this work, we train a ResNet-18 network to classify axial slices of lymphoma PET/CT images (collected from two institutions) depending on whether the slice intercepted a tumor (positive slice) in the 3D image or if the slice did not (negative slice). Various instances of the network were trained on 2D axial datasets created in different ways: (i) slice-level split and (ii) patient-level split; inputs of different types were used: (i) only PET slices and (ii) concatenated PET and CT slices; and different training strategies were employed: (i) center-aware (CAW) and (ii) center-agnostic (CAG). Model performances were compared using the area under the receiver operating characteristic curve (AUROC) and the area under the precision-recall curve (AUPRC), and various binary classification metrics. We observe and describe a performance overestimation in the case of slice-level split as compared to the patient-level split training. The model trained using patient-level split data with the network input containing only PET slices in the CAG training regime was the best performing/generalizing model on a majority of metrics. Our models were additionally more closely compared using the sensitivity metric on the positive slices from their respective test sets. | 翻訳日:2024-03-13 23:55:08 公開日:2024-03-11 |
# エネルギー準位交差による相転移検出のための等価変分量子固有解法 Equivariant Variational Quantum Eigensolver to detect Phase Transitions through Energy Level Crossings ( http://arxiv.org/abs/2403.07100v1 ) ライセンス: Link先を確認 | Giulio Crognaletti, Giovanni Di Bartolomeo, Michele Vischi and Luciano Loris Viteritti | (参考訳) レベル分光は、異なる量子相を示す遷移点を特定するための強力な方法である。
各量子相は励起状態の特徴的な配列を示すため、低い励起状態の間のエネルギー準位の交差は相転移点を推定する信頼できる平均を与える。
変分量子固有解法のような手法は、量子コンピューティングを用いた相互作用系の基底状態の近似に有用であるが、低エネルギー励起の捕獲は依然として困難である。
本研究では,鎖上の一重項励起状態と三重項励起状態を正確に記述するために,全スピンと変換対称性を保持する同変量子回路を導入する。
さらに,ノイズが変動状態に与える影響を評価し,ゼロノイズ補間などの従来の緩和手法が物理的特性を確実に回復することを示す。 Level spectroscopy stands as a powerful method for identifying the transition point that delineates distinct quantum phases. Since each quantum phase exhibits a characteristic sequence of excited states, the crossing of energy levels between low-lying excited states offers a reliable mean to estimate the phase transition point. While approaches like the Variational Quantum Eigensolver are useful for approximating ground states of interacting systems using quantum computing, capturing low-energy excitations remains challenging. In our study, we introduce an equivariant quantum circuit that preserves the total spin and the translational symmetry to accurately describe singlet and triplet excited states in the $J_1$-$J_2$ Heisenberg model on a chain, which are crucial for characterizing its transition point. Additionally, we assess the impact of noise on the variational state, showing that conventional mitigation techniques like Zero Noise Extrapolation reliably restore its physical properties. | 翻訳日:2024-03-13 23:54:41 公開日:2024-03-11 |
# ガウス平滑化による認定教育のパラドックスの克服 Overcoming the Paradox of Certified Training with Gaussian Smoothing ( http://arxiv.org/abs/2403.07095v1 ) ライセンス: Link先を確認 | Stefan Balauca, Mark Niklas M\"uller, Yuhao Mao, Maximilian Baader, Marc Fischer, Martin Vechev | (参考訳) 敵の例に対して高い精度でニューラルネットワークを訓練することは、大きな努力にもかかわらず未解決の問題である。
証明手法は境界計算に密接な凸緩和を効果的に活用することができるが、訓練においてはより緩やかな緩和よりも悪い結果が得られる。
先行研究は、これらより密着な緩和によって引き起こされる損失面の不連続性と摂動感度によって引き起こされると仮定した。
本研究では,ガウスロス平滑化がこれらの問題を緩和できることを示す。
我々は,滑らかな損失の勾配を計算し,凸緩和の異なるアルゴリズムであるpgpeを組み合わせることで,経験的検証を行う。
このトレーニング手法を使用すると、より厳密な境界が、同じネットワーク上で最先端の手法よりはるかに優れたネットワークをもたらすことが分かる。
計算コストが高いため,pgpeベースのトレーニングのスケールアップは依然として困難であるが,本研究の結果から,頑健なニューラルネットワークをトレーニングするためのガウス損失平滑化が期待できることが明らかである。 Training neural networks with high certified accuracy against adversarial examples remains an open problem despite significant efforts. While certification methods can effectively leverage tight convex relaxations for bound computation, in training, these methods perform worse than looser relaxations. Prior work hypothesized that this is caused by the discontinuity and perturbation sensitivity of the loss surface induced by these tighter relaxations. In this work, we show theoretically that Gaussian Loss Smoothing can alleviate both of these issues. We confirm this empirically by proposing a certified training method combining PGPE, an algorithm computing gradients of a smoothed loss, with different convex relaxations. When using this training method, we observe that tighter bounds indeed lead to strictly better networks that can outperform state-of-the-art methods on the same network. While scaling PGPE-based training remains challenging due to high computational cost, our results clearly demonstrate the promise of Gaussian Loss Smoothing for training certifiably robust neural networks. | 翻訳日:2024-03-13 23:54:24 公開日:2024-03-11 |
# FALCON: ニューラルネットワークプルーニングのためのFLOP対応組合せ最適化 FALCON: FLOP-Aware Combinatorial Optimization for Neural Network Pruning ( http://arxiv.org/abs/2403.07094v1 ) ライセンス: Link先を確認 | Xiang Meng, Wenyu Chen, Riade Benbaki, Rahul Mazumder | (参考訳) 現代のニューラルネットワークの計算要求の増加は、リソース制約されたデバイスへのデプロイメントの課題を提示している。
ネットワークプルーニングは、パフォーマンスを維持しながらモデルサイズと計算コストを削減するソリューションを提供する。
しかし、現在のプルーニング手法のほとんどは、浮動小数点演算(FLOP)の数と密接に関連している推論時間などの他のデプロイメントコストを無視して、非ゼロパラメータの数を減らし、空間性を改善することに重点を置いている。
本稿では,FALCONを提案する。FALCONは,モデル精度(忠実度),FLOP,スペーサ性制約を考慮した,ネットワークプルーニングのための新しい組合せ最適化フレームワークである。
我々のアプローチの主な構成要素は、FLOPとスパーシティ制約を同時に扱う整数線形プログラム(ILP)である。
ILPを大まかに解くための新しいアルゴリズムを提案する。
本稿では, ilpソルバを用いた最適化フレームワークのための新しい一階法を提案する。
問題構造(例えば、約ヘッセンの低ランク構造)を使うことで、数百万のパラメータを持つインスタンスに対処できる。
実験の結果,FALCONは固定FLOP予算内での他のプルーニング手法と比較して精度が高いことがわかった。
例えば、全FLOPの20%が保持されているResNet50では、我々の手法は最先端と比較して精度を48%向上させる。
さらに,フロープとスパーシティの制約を組み込んだネットワークプルーニングの意義を強調し,プルーニングステップ間の再トレーニングを伴う段階的なプルーニング設定において,既存のプルーニング手法を上回った。 The increasing computational demands of modern neural networks present deployment challenges on resource-constrained devices. Network pruning offers a solution to reduce model size and computational cost while maintaining performance. However, most current pruning methods focus primarily on improving sparsity by reducing the number of nonzero parameters, often neglecting other deployment costs such as inference time, which are closely related to the number of floating-point operations (FLOPs). In this paper, we propose FALCON, a novel combinatorial-optimization-based framework for network pruning that jointly takes into account model accuracy (fidelity), FLOPs, and sparsity constraints. A main building block of our approach is an integer linear program (ILP) that simultaneously handles FLOP and sparsity constraints. We present a novel algorithm to approximately solve the ILP. We propose a novel first-order method for our optimization framework which makes use of our ILP solver. Using problem structure (e.g., the low-rank structure of approx. Hessian), we can address instances with millions of parameters. Our experiments demonstrate that FALCON achieves superior accuracy compared to other pruning approaches within a fixed FLOP budget. For instance, for ResNet50 with 20% of the total FLOPs retained, our approach improves the accuracy by 48% relative to state-of-the-art. Furthermore, in gradual pruning settings with re-training between pruning steps, our framework outperforms existing pruning methods, emphasizing the significance of incorporating both FLOP and sparsity constraints for effective network pruning. | 翻訳日:2024-03-13 23:54:04 公開日:2024-03-11 |
# びまん性大細胞型B細胞リンパ腫のPET画像診断における腫瘍自動検出とセグメンテーションのためのディープネットワーク A cascaded deep network for automated tumor detection and segmentation in clinical PET imaging of diffuse large B-cell lymphoma ( http://arxiv.org/abs/2403.07092v1 ) ライセンス: Link先を確認 | Shadab Ahamed, Natalia Dubljevic, Ingrid Bloise, Claire Gowdy, Patrick Martineau, Don Wilson, Carlos F. Uribe, Arman Rahmim, and Fereshteh Yousefirizi | (参考訳) PET画像からのびまん性大細胞型B細胞リンパ腫(DLBCL)の正確な検出とセグメンテーションは,全代謝性腫瘍容積の推定,放射線解析,外科的治療,放射線治療に重要な意味を持つ。
全身pet画像中の腫瘍の手動分割は、時間消費、労働集約、オペレータ依存である。
本研究では,PET画像からDLBCL腫瘍を自動的に検出・分節する高速で効率的な3段階の深層学習モデルを開発した。
PET画像全体における腫瘍のセグメンテーションのための1つのエンドツーエンドネットワークと比較すると,各モジュール,すなわちスライス分類器,腫瘍検出器,腫瘍セグメンタのそれぞれが,全体セグメンテーションに最適性能を持つ単一ネットワークではなく,特定のタスクを実行するための高度なスキルに独立して訓練できるため,我々の3ステップモデルの方が効果的である(58.9%から78.1%)。 Accurate detection and segmentation of diffuse large B-cell lymphoma (DLBCL) from PET images has important implications for estimation of total metabolic tumor volume, radiomics analysis, surgical intervention and radiotherapy. Manual segmentation of tumors in whole-body PET images is time-consuming, labor-intensive and operator-dependent. In this work, we develop and validate a fast and efficient three-step cascaded deep learning model for automated detection and segmentation of DLBCL tumors from PET images. As compared to a single end-to-end network for segmentation of tumors in whole-body PET images, our three-step model is more effective (improves 3D Dice score from 58.9% to 78.1%) since each of its specialized modules, namely the slice classifier, the tumor detector and the tumor segmentor, can be trained independently to a high degree of skill to carry out a specific task, rather than a single network with suboptimal performance on overall segmentation. | 翻訳日:2024-03-13 23:53:34 公開日:2024-03-11 |
# 複雑なソーシャルメディアデータストリームに反映される重要な社会イベントの時系列分析 Time Series Analysis of Key Societal Events as Reflected in Complex Social Media Data Streams ( http://arxiv.org/abs/2403.07090v1 ) ライセンス: Link先を確認 | Andy Skumanich, Han Kyul Kim | (参考訳) ソーシャルメディアプラットフォームは貴重な洞察を持っているが、重要な情報を抽出することは難しい。
従来のトップダウンアプローチは、急速に変化するイベントにおいて重要なシグナルを捉えるのに苦労する。
グローバルイベントが急速に進化するにつれて、偽情報を含むソーシャルメディアの物語は重要な洞察の源泉となる。
インダクティブ戦略の必要性に対処するため,ニッチなソーシャルメディアプラットフォームであるGABと,確立されたメッセージングサービスであるTelegramを探索し,より広範に適用可能な方法論を開発した。
本研究は,定量的コーパスに基づく談話分析手法を用いて,これらのプラットフォーム上での物語進化について検討する。
我々のアプローチは、複数のソーシャルメディアドメインを学習して、他の方法では見えない重要な情報を排除し、有用で実用的な洞察を可能にする新しい方法である。
本論文は,キーネス(ログ比)メトリクス分析のためのgabおよびtelegramデータの収集と処理に関する技術的および方法論的側面を詳述し,より深い探索のために重要な名詞と動詞を特定する。
実験的に、この手法は、世界的に影響を及ぼすよく定義された事象のケーススタディ(2023年ワグナー・ミューティニー)に適用される。
1) 時間線を分解して, より良い解釈を可能にする有用なデータ特徴を提供すること, (2) 一般化の基盤を提供する方法論を適用すること。
重要な貢献はアプローチであり、時には、信頼性を高めながら、時間の経過とともに動的ナラティブシフトをキャプチャする機能を提供する。
このアプローチは、重要な社会運動のほぼリアルタイムな評価を強化し、インフォームドガバナンスの選択を可能にする。
この研究は、ポジティブなソーシャルエンゲージメントのための積極的なモードを可能にする時系列関連情報収集に有用な方法論を編み出すため、重要である。 Social media platforms hold valuable insights, yet extracting essential information can be challenging. Traditional top-down approaches often struggle to capture critical signals in rapidly changing events. As global events evolve swiftly, social media narratives, including instances of disinformation, become significant sources of insights. To address the need for an inductive strategy, we explore a niche social media platform GAB and an established messaging service Telegram, to develop methodologies applicable on a broader scale. This study investigates narrative evolution on these platforms using quantitative corpus-based discourse analysis techniques. Our approach is a novel mode to study multiple social media domains to distil key information which may be obscured otherwise, allowing for useful and actionable insights. The paper details the technical and methodological aspects of gathering and preprocessing GAB and Telegram data for a keyness (Log Ratio) metric analysis, identifying crucial nouns and verbs for deeper exploration. Empirically, this approach is applied to a case study of a well defined event that had global impact: the 2023 Wagner mutiny. The main findings are: (1) the time line can be deconstructed to provide useful data features allowing for improved interpretation; (2) a methodology is applied which provides a basis for generalization. The key contribution is an approach, that in some cases, provides the ability to capture the dynamic narrative shifts over time with elevated confidence. The approach can augment near-real-time assessment of key social movements, allowing for informed governance choices. This research is important because it lays out a useful methodology for time series relevant info-culling, which can enable proactive modes for positive social engagement. | 翻訳日:2024-03-13 23:53:13 公開日:2024-03-11 |
# SPA: 計算フレンドリなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズ生成を目指す SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation ( http://arxiv.org/abs/2403.07088v1 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu, Mingbang Wang | (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LSMは高い計算コストと大きなメモリコストを必要とする。
同時に、LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシー漏洩を引き起こす可能性がある。
本稿では,デバイス上での厳密な計算とメモリ制約の制約を考慮し,デバイス上での高速推論とプライバシ保持のための軽量アーキテクチャであるspa(side plugin adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,事前学習されたLLMとデバイス上の付加パラメータの相互作用を確立し,事前学習されたLLMとプライベートな個人的特徴の両方に関する知識を提供する。さらに,SPAは,高次計算装置の一般情報を含むパラメータを残しつつ,プライベートな保証された低い計算装置上の特徴ベースパラメータを保持するためのフレームワークを提供する。 Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require high computation cost and large memory cost. At the same time, LLMs may cause privacy leakage when training or prediction procedure contains sensitive information. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference and privacy retaining on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and private personal feature.Further more, SPA provides a framework to keep feature-base parameters on private guaranteed but low computational devices while leave the parameters containing general information on the high computational devices. | 翻訳日:2024-03-13 23:52:45 公開日:2024-03-11 |
# LSTMに基づくテキスト生成:歴史的データセットに関する研究 LSTM-Based Text Generation: A Study on Historical Datasets ( http://arxiv.org/abs/2403.07087v1 ) ライセンス: Link先を確認 | Mustafa Abbas Hussein Hussein, Serkan Sava\c{s} | (参考訳) 本稿では,シェークスピアとニーチェの歴史的データセットの利用に着目し,テキスト生成領域におけるLong Short-Term Memory(LSTM)ネットワークの探索を行う。
LSTMはシーケンシャルデータ処理の有効性で知られており、歴史的テキストに固有の複雑な言語パターンや構造をモデル化するために用いられる。
この研究は、LSTMベースのモデルが歴史的データセットに基づいて訓練されると、言語的にリッチで文脈的に関係のあるテキストを生成するだけでなく、時間とともに言語パターンの進化に関する洞察を与えることができることを示した。
この発見は、低損失値と100イテレーションのトレーニング時間を持つニーチェの作品からテキストを予測するのに非常に正確で効率的なモデルを示す。
モデルの精度は0.9521であり、高い精度を示している。
このモデルの損失は 0.2518 であり、その効果を示している。
シェイクスピアの作品からテキストを予測するモデルの精度は0.9125であり、エラー率が低いことを示している。
モデルのトレーニング時間は100であり、ニーチェデータセットの効率を反映している。
この効率性は、特に複雑な文学テキストを扱う場合、モデル設計および訓練手法の有効性を示す。
本研究は,テキスト生成におけるLSTMネットワークの汎用性を示し,歴史言語学などにおける今後の探索の道筋を示すことによって,自然言語処理の分野に貢献する。 This paper presents an exploration of Long Short-Term Memory (LSTM) networks in the realm of text generation, focusing on the utilization of historical datasets for Shakespeare and Nietzsche. LSTMs, known for their effectiveness in handling sequential data, are applied here to model complex language patterns and structures inherent in historical texts. The study demonstrates that LSTM-based models, when trained on historical datasets, can not only generate text that is linguistically rich and contextually relevant but also provide insights into the evolution of language patterns over time. The finding presents models that are highly accurate and efficient in predicting text from works of Nietzsche, with low loss values and a training time of 100 iterations. The accuracy of the model is 0.9521, indicating high accuracy. The loss of the model is 0.2518, indicating its effectiveness. The accuracy of the model in predicting text from the work of Shakespeare is 0.9125, indicating a low error rate. The training time of the model is 100, mirroring the efficiency of the Nietzsche dataset. This efficiency demonstrates the effectiveness of the model design and training methodology, especially when handling complex literary texts. This research contributes to the field of natural language processing by showcasing the versatility of LSTM networks in text generation and offering a pathway for future explorations in historical linguistics and beyond. | 翻訳日:2024-03-13 23:52:29 公開日:2024-03-11 |
# 効果的な潜在能力はダイナミクスに有効か? Is the effective potential, effective for dynamics? ( http://arxiv.org/abs/2403.07084v1 ) ライセンス: Link先を確認 | Nathan Herring, Shuyang Cao, Daniel Boyanovsky | (参考訳) 我々は動的状況における有効ポテンシャルの適用性について批判的に検討し,その答えが負であることを見出す。
運動の力学方程式における有効ポテンシャルの使用の重要な注意事項は、エネルギー保存の明白な違反である。
一貫した準静電近似において, 効果ポテンシャルのemph{adiabatic}を導入し, その限定的妥当性について論じる。
平均場を振動させる場合のパラメトリック増幅と、自発対称性の破れに関連するスピノーダル不安定性(英語版)という、断熱的有効ポテンシャルが動的に有効でない2つのユビキタスな例を詳細に研究する。
どちらの場合も、粒子生成は動力学を記述する効果的なポテンシャルの失敗に直接関連している。
本稿では,数値化に適応した,一貫性のあるエネルギー保存動的枠組みを提案する。
エネルギー保存は、動的進化から漸近的に励起され、絡み合った定常状態が出現する。
結論として、断熱的に密度行列をデフォーカスすることでデコヒーレンスは、エントロピー(エントロピー)と正式に等価な創発的エントロピーをもたらすと論じられている。
その結果,次数パラメータ対エネルギー密度による漸近平衡状態の新たなキャラクタリゼーションが示唆された。 We critically examine the applicability of the effective potential within dynamical situations and find, in short, that the answer is negative. An important caveat of the use of an effective potential in dynamical equations of motion is an explicit violation of energy conservation. An \emph{adiabatic} effective potential is introduced in a consistent quasi-static approximation, and its narrow regime of validity is discussed. Two ubiquitous instances in which even the adiabatic effective potential is not valid in dynamics are studied in detail: parametric amplification in the case of oscillating mean fields, and spinodal instabilities associated with spontaneous symmetry breaking. In both cases profuse particle production is directly linked to the failure of the effective potential to describe the dynamics. We introduce a consistent, renormalized, energy conserving dynamical framework that is amenable to numerical implementation. Energy conservation leads to the emergence of asymptotic highly excited, entangled stationary states from the dynamical evolution. As a corollary, decoherence via dephasing of the density matrix in the adiabatic basis is argued to lead to an emergent entropy, formally equivalent to the entanglement entropy. The results suggest novel characterization of asymptotic equilibrium states in terms of order parameter vs. energy density. | 翻訳日:2024-03-13 23:52:06 公開日:2024-03-11 |
# コンピュータ支援型協調学習におけるChatGPTの学生インタラクションへの影響を探る Exploring the Impact of ChatGPT on Student Interactions in Computer-Supported Collaborative Learning ( http://arxiv.org/abs/2403.07082v1 ) ライセンス: Link先を確認 | Han Kyul Kim, Shriniwas Nayak, Aleyeh Roknaldin, Xiaoci Zhang, Marlon Twyman, Stephen Lu | (参考訳) 生成的AI、特にChatGPTの普及は、教育実践者や研究者の間で熱意と注意を喚起している。
教育的文脈におけるChatGPTの潜在能力を効果的に活用するためには、その影響と異なる教育目的に対する適合性を分析することが重要である。
本稿では,コンピュータ支援協調学習(CSCL)環境におけるChatGPTの適用性について検討する。
統計的分析を用いて,非同期グループブレインストーミングセッションにおける学生のインタラクションの変化を,ChatGPTを即時質問応答エージェントとして導入することで検証する。 The growing popularity of generative AI, particularly ChatGPT, has sparked both enthusiasm and caution among practitioners and researchers in education. To effectively harness the full potential of ChatGPT in educational contexts, it is crucial to analyze its impact and suitability for different educational purposes. This paper takes an initial step in exploring the applicability of ChatGPT in a computer-supported collaborative learning (CSCL) environment. Using statistical analysis, we validate the shifts in student interactions during an asynchronous group brainstorming session by introducing ChatGPT as an instantaneous question-answering agent. | 翻訳日:2024-03-13 23:51:46 公開日:2024-03-11 |
# 事前知識と認知モデルによる深層学習の改善: 説明可能性、対向的堅牢性、ゼロショット学習の強化に関する調査 Improving deep learning with prior knowledge and cognitive models: A survey on enhancing explainability, adversarial robustness and zero-shot learning ( http://arxiv.org/abs/2403.07078v1 ) ライセンス: Link先を確認 | Fuseinin Mumuni and Alhassan Mumuni | (参考訳) 我々は、敵防衛、eXplainable Artificial Intelligence(XAI)、ゼロショットまたは少数ショート学習を実現するための、現在および新興の知識インフォームドおよび脳にインスパイアされた認知システムについてレビューする。
データ駆動のディープラーニングモデルは優れたパフォーマンスを達成し、多くのアプリケーションで人間の専門家を超える能力を示した。
しかし、ドメイン知識を活用できないため、実用アプリケーションでは重大なパフォーマンス上の制限が生じる。
特に、ディープラーニングシステムは敵対的な攻撃にさらされており、それを騙して不正確な判断を下す可能性がある。
さらに、複雑なデータ駆動モデルは一般的に解釈可能性や説明可能性に欠ける。
さらに、モデルは通常、クローズドワールド仮定で標準データセットでトレーニングされる。
したがって、実際のオープンワールド環境では、推論中に見当たらないケースに一般化するのに苦労し、ゼロまたは少数ショットの一般化問題を引き起こす。
従来のソリューションは数多く存在するが、明示的なドメイン知識、脳に触発されたニューラルネットワーク、認知アーキテクチャはこれらの問題を緩和するための強力な新しい次元を提供する。
事前知識は適切な形式で表現され、パフォーマンスを改善するためにディープラーニングフレームワークに組み込まれる。
脳に触発された認知法は、人間の心を模倣する計算モデルを用いて、人工知能や自律ロボットの知的な行動を強化する。
究極的には、これらのモデルはより良い説明可能性、高い敵対的堅牢性、そしてデータ効率の学習を実現し、その結果として認知科学と神経科学の洞察を与えることができる。 We review current and emerging knowledge-informed and brain-inspired cognitive systems for realizing adversarial defenses, eXplainable Artificial Intelligence (XAI), and zero-shot or few-short learning. Data-driven deep learning models have achieved remarkable performance and demonstrated capabilities surpassing human experts in many applications. Yet, their inability to exploit domain knowledge leads to serious performance limitations in practical applications. In particular, deep learning systems are exposed to adversarial attacks, which can trick them into making glaringly incorrect decisions. Moreover, complex data-driven models typically lack interpretability or explainability, i.e., their decisions cannot be understood by human subjects. Furthermore, models are usually trained on standard datasets with a closed-world assumption. Hence, they struggle to generalize to unseen cases during inference in practical open-world environments, thus, raising the zero- or few-shot generalization problem. Although many conventional solutions exist, explicit domain knowledge, brain-inspired neural network and cognitive architectures offer powerful new dimensions towards alleviating these problems. Prior knowledge is represented in appropriate forms and incorporated in deep learning frameworks to improve performance. Brain-inspired cognition methods use computational models that mimic the human mind to enhance intelligent behavior in artificial agents and autonomous robots. Ultimately, these models achieve better explainability, higher adversarial robustness and data-efficient learning, and can, in turn, provide insights for cognitive science and neuroscience-that is, to deepen human understanding on how the brain works in general, and how it handles these problems. | 翻訳日:2024-03-13 23:51:35 公開日:2024-03-11 |
# 物体認識のない屋内環境における高レベルセマンティック領域のマッピング Mapping High-level Semantic Regions in Indoor Environments without Object Recognition ( http://arxiv.org/abs/2403.07076v1 ) ライセンス: Link先を確認 | Roberto Bigazzi, Lorenzo Baraldi, Shreyas Kousik, Rita Cucchiara, Marco Pavone | (参考訳) ロボットは環境のセマンティックな理解を必要とし、人間の環境で効率的に説明可能な方法で操作する。
文献では、オブジェクトのラベル付けと徹底的なシーングラフ生成に焦点が当てられ、大きな意味領域を純粋に識別しマッピングするタスクに、より少ない労力が注がれている。
本研究では,屋内環境における具体化ナビゲーションによる意味領域マッピング手法を提案し,エージェントの知識の高レベル表現を生成する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルフレームにエゴセントリックなシーン理解を投影することにより,提案手法は各位置の可能な領域ラベル上の分布として意味マップを生成する。
このマッピング手順は、訓練されたナビゲーションポリシーと組み合わせて、自律的なマップ生成を可能にする。
提案手法は,フォトリアリスティックシミュレータの実験において,オブジェクトベースシステムや事前学習シーン分類器など,さまざまなベースラインを著しく上回る。 Robots require a semantic understanding of their surroundings to operate in an efficient and explainable way in human environments. In the literature, there has been an extensive focus on object labeling and exhaustive scene graph generation; less effort has been focused on the task of purely identifying and mapping large semantic regions. The present work proposes a method for semantic region mapping via embodied navigation in indoor environments, generating a high-level representation of the knowledge of the agent. To enable region identification, the method uses a vision-to-language model to provide scene information for mapping. By projecting egocentric scene understanding into the global frame, the proposed method generates a semantic map as a distribution over possible region labels at each location. This mapping procedure is paired with a trained navigation policy to enable autonomous map generation. The proposed method significantly outperforms a variety of baselines, including an object-based system and a pretrained scene classifier, in experiments in a photorealistic simulator. | 翻訳日:2024-03-13 23:51:07 公開日:2024-03-11 |
# ガウス過程による説明可能な学習 Explainable Learning with Gaussian Processes ( http://arxiv.org/abs/2403.07072v1 ) ライセンス: Link先を確認 | Kurt Butler, Guanchao Feng, Petar M. Djuric | (参考訳) 説明可能な人工知能(XAI)の分野は、複雑な機械学習手法の予測方法に関する洞察を提供する方法の開発を試みる。
多くの説明方法は、各入力特徴に対応する個々の貢献にモデルの予測を分解する特徴帰属の概念に焦点を当てている。
本稿では,ガウス過程回帰(GPR)の文脈における特徴属性の問題について考察する。
モデルの不確実性の下で帰属を定義するための原則的なアプローチを取り、既存の文献を拡張している。
GPRは非常に柔軟で非パラメトリックなアプローチであるが、特徴属性に対する解釈可能でクローズドな表現を導出できることを示す。
統合勾配を帰属法として用いる場合, gprモデルの帰属はガウス過程分布にも従うことを示し, モデルの不確実性に起因する帰属の不確かさを定量化する。
我々は理論と実験の両方を通して、このアプローチの汎用性と堅牢性を示す。
また,適用すれば,gprの帰属に関する正確な表現は,現在使われている近似式よりも正確で計算コストが低いことも示している。
このプロジェクトのソースコードはMITライセンスでhttps://github.com/KurtButler/2024_attributions_paperで無償公開されている。 The field of explainable artificial intelligence (XAI) attempts to develop methods that provide insight into how complicated machine learning methods make predictions. Many methods of explanation have focused on the concept of feature attribution, a decomposition of the model's prediction into individual contributions corresponding to each input feature. In this work, we explore the problem of feature attribution in the context of Gaussian process regression (GPR). We take a principled approach to defining attributions under model uncertainty, extending the existing literature. We show that although GPR is a highly flexible and non-parametric approach, we can derive interpretable, closed-form expressions for the feature attributions. When using integrated gradients as an attribution method, we show that the attributions of a GPR model also follow a Gaussian process distribution, which quantifies the uncertainty in attribution arising from uncertainty in the model. We demonstrate, both through theory and experimentation, the versatility and robustness of this approach. We also show that, when applicable, the exact expressions for GPR attributions are both more accurate and less computationally expensive than the approximations currently used in practice. The source code for this project is freely available under MIT license at https://github.com/KurtButler/2024_attributions_paper. | 翻訳日:2024-03-13 23:50:50 公開日:2024-03-11 |
# 思考グラフ:生物学的推論のための思考プロセスの生成 Thought Graph: Generating Thought Process for Biological Reasoning ( http://arxiv.org/abs/2403.07144v1 ) ライセンス: Link先を確認 | Chi-Yang Hsu, Kyle Cox, Jiawei Xu, Zhen Tan, Tianhua Zhai, Mengzhou Hu, Dexter Pratt, Tianlong Chen, Ziniu Hu, Ying Ding | (参考訳) 本稿では,複雑な推論を支援する新しい枠組みとして思考グラフを提示し,生物学的プロセス間の意味的関係を明らかにするための例として遺伝子集合分析を用いた。
我々のフレームワークは、遺伝子セットをより深く理解し、GSEAを40.28%、LLMのベースラインを5.38%、人間のアノテーションとコサインの類似性に基づいて大幅に上回っている。
さらに, バイオインフォマティクスおよび精密医療における生物学的プロセス命名の今後の方向性について考察した。 We present the Thought Graph as a novel framework to support complex reasoning and use gene set analysis as an example to uncover semantic relationships between biological processes. Our framework stands out for its ability to provide a deeper understanding of gene sets, significantly surpassing GSEA by 40.28% and LLM baselines by 5.38% based on cosine similarity to human annotations. Our analysis further provides insights into future directions of biological processes naming, and implications for bioinformatics and precision medicine. | 翻訳日:2024-03-13 23:46:03 公開日:2024-03-11 |
# オンラインコントラクト設計の新しい視点:不均一、均一、非心筋エージェントとチーム生産 New Perspectives in Online Contract Design: Heterogeneous, Homogeneous, Non-myopic Agents and Team Production ( http://arxiv.org/abs/2403.07143v1 ) ライセンス: Link先を確認 | Shiliang Zuo | (参考訳) 本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。
プリンシパルのゴールは、エージェントのタイプ(すなわちエージェントのコストと生産機能)を事前に知ることなく、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学習することである。
私は、$\textit{single}$エージェントとのプリンシパルコントラクトがラウンド毎に3つの異なる設定を研究する。
1.その剤は異質である。
2) 薬剤は均質である。
3. プリンシパルは同一のエージェントと相互作用し、そのエージェントは非ミオピックである。
各設定で学習アルゴリズムを設計するための異なる手法と手法を提案する。
不均一なエージェントタイプに対しては、問題を直接リプシッツ・バンディットに還元できる条件を特定します。
同一エージェントに対して,逆ゲーム理論に基づく最適契約を学習するための多項式サンプル複雑性スキームを与える。
戦略的非筋電的エージェントに対しては、低戦略的反応機構を設計する。
また, 線形契約とポストプライスオークションの関連性を同定し, 両契約を互いに還元できることを示すとともに, この観測に基づいて最適線形契約を学習する上で, 後悔の少ない制約を与える。
また、$\textit{team production}$ modelも研究しています。
主旨の学習問題を凸プログラムのファミリーの解決として再構成できる条件を特定し、最適な契約を効果的に示すことができる。 This work studies the repeated principal-agent problem from an online learning perspective. The principal's goal is to learn the optimal contract that maximizes her utility through repeated interactions, without prior knowledge of the agent's type (i.e., the agent's cost and production functions). I study three different settings when the principal contracts with a $\textit{single}$ agent each round: 1. The agents are heterogeneous; 2. the agents are homogenous; 3. the principal interacts with the same agent and the agent is non-myopic. I present different approaches and techniques for designing learning algorithms in each setting. For heterogeneous agent types, I identify a condition that allows the problem to be reduced to Lipschitz bandits directly. For identical agents, I give a polynomial sample complexity scheme to learn the optimal contract based on inverse game theory. For strategic non-myopic agents, I design a low strategic-regret mechanism. Also, I identify a connection between linear contracts and posted-price auctions, showing the two can be reduced to one another, and give a regret lower bound on learning the optimal linear contract based on this observation. I also study a $\textit{team production}$ model. I identify a condition under which the principal's learning problem can be reformulated as solving a family of convex programs, thereby showing the optimal contract can be found efficiently. | 翻訳日:2024-03-13 23:45:52 公開日:2024-03-11 |
# 1つのカテゴリー:拡散モデルを用いたデータセット蒸留 One Category One Prompt: Dataset Distillation using Diffusion Models ( http://arxiv.org/abs/2403.07142v1 ) ライセンス: Link先を確認 | Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash, Soheil Kolouri | (参考訳) ディープニューラルネットワークのトレーニングに必要な膨大なデータは、ストレージと送信フロントに重大な課題をもたらす。
データセット蒸留は、膨大なデータセットの情報をはるかに小さいが代表的な合成サンプルに集約する有望な技術として登場した。
しかし、従来のデータセット蒸留手法は、2レベル最適化の限界のため、高解像度の画像やより複雑なアーキテクチャで効果的にスケールするのに苦労することが多い。
近年, データセット蒸留をスケールアップするための非結合最適化手法による知識蒸留の活用が提案されている。
これらの手法はスケーラビリティの問題を効果的に解決するが、拡張画像のソフトラベルの保存を必要とする広範な画像拡張に依存している。
本稿では,データセット蒸留の新たなパラダイムとして拡散モデル(D3M)を用いたデータセット蒸留を導入する。
本手法では,テキストから画像への生成モデルの微調整手法であるtextual inversionを用いて,大規模データセットのための簡潔で情報的な表現を作成する。
これらの学習テキストプロンプトを使用することで、固定メモリ予算内でデータ可変性を導入するために、新しいサンプルを効率的に保存し、推論することができる。
メモリ予算の異なる様々なコンピュータビジョンベンチマークデータセットを対象とした広範囲な実験により,本手法の有効性を示す。 The extensive amounts of data required for training deep neural networks pose significant challenges on storage and transmission fronts. Dataset distillation has emerged as a promising technique to condense the information of massive datasets into a much smaller yet representative set of synthetic samples. However, traditional dataset distillation approaches often struggle to scale effectively with high-resolution images and more complex architectures due to the limitations in bi-level optimization. Recently, several works have proposed exploiting knowledge distillation with decoupled optimization schemes to scale up dataset distillation. Although these methods effectively address the scalability issue, they rely on extensive image augmentations requiring the storage of soft labels for augmented images. In this paper, we introduce Dataset Distillation using Diffusion Models (D3M) as a novel paradigm for dataset distillation, leveraging recent advancements in generative text-to-image foundation models. Our approach utilizes textual inversion, a technique for fine-tuning text-to-image generative models, to create concise and informative representations for large datasets. By employing these learned text prompts, we can efficiently store and infer new samples for introducing data variability within a fixed memory budget. We show the effectiveness of our method through extensive experiments across various computer vision benchmark datasets with different memory budgets. | 翻訳日:2024-03-13 23:45:29 公開日:2024-03-11 |
# Nelore Cattle Visual Score Attributionにおけるクラスタ分析の探索 Exploring Cluster Analysis in Nelore Cattle Visual Score Attribution ( http://arxiv.org/abs/2403.07137v1 ) ライセンス: Link先を確認 | Alexandre de Oliveira Bezerra, Rodrigo Goncalves Mateus, Vanessa Ap. de Moraes Weber, Fabricio de Lima Weber, Yasmin Alves de Arruda, Rodrigo da Costa Gomes, Gabriel Toshio Hirokawa Higa, Hemerson Pistori | (参考訳) ヒトの視覚検査によって牛の生物型を評価することは、精密な牛の育種において非常に一般的で重要な実践である。
本稿では,ヒトのネロア牛用スコアと,画像や他の機器から得られるさまざまな測定値との相関分析結果について述べる。
また、k-meansアルゴリズムを用いて、動物の体重や視力と相関する測定値を用いて、牛の群れをクラスタリングする新しい方法を生成する研究も発表した。 Assessing the biotype of cattle through human visual inspection is a very common and important practice in precision cattle breeding. This paper presents the results of a correlation analysis between scores produced by humans for Nelore cattle and a variety of measurements that can be derived from images or other instruments. It also presents a study using the k-means algorithm to generate new ways of clustering a batch of cattle using the measurements that most correlate with the animal's body weight and visual scores. | 翻訳日:2024-03-13 23:45:11 公開日:2024-03-11 |
# 値関数の限定表現力とその統計的(In)効率との関係について On the Limited Representational Power of Value Functions and its Links to Statistical (In)Efficiency ( http://arxiv.org/abs/2403.07136v1 ) ライセンス: Link先を確認 | David Cheikhi, Daniel Russo | (参考訳) モデルベース手法とモデルフリー手法のトレードオフを特定することは、強化学習における中心的な課題である。
値ベースの手法は、かなりの計算上の利点をもたらし、しばしばモデルベースの方法と同じくらい統計的に効率的である。
しかし,政策評価の核となる問題に着目して,遷移ダイナミクスに関する情報を価値関数の空間で表現することは不可能であることを示す。
我々は、多くの重要な問題で発生する構造に焦点をあてた一連のケーススタディを通してこれを探求する。
いくつかは、情報損失はなく、値に基づく手法は、モデルに基づく手法と同じくらい統計的に効率的である。
他の近縁な例では、情報損失は深刻であり、価値に基づく手法は著しく優れています。
より深い調査は、アルゴリズム設計の失敗とは対照的に、非効率性のドライバとしての表現力の限界を指摘している。 Identifying the trade-offs between model-based and model-free methods is a central question in reinforcement learning. Value-based methods offer substantial computational advantages and are sometimes just as statistically efficient as model-based methods. However, focusing on the core problem of policy evaluation, we show information about the transition dynamics may be impossible to represent in the space of value functions. We explore this through a series of case studies focused on structures that arises in many important problems. In several, there is no information loss and value-based methods are as statistically efficient as model based ones. In other closely-related examples, information loss is severe and value-based methods are severely outperformed. A deeper investigation points to the limitations of the representational power as the driver of the inefficiency, as opposed to failure in algorithm design. | 翻訳日:2024-03-13 23:45:02 公開日:2024-03-11 |
# COMQ:ポストトレーニング量子化のためのバックプロパゲーションフリーアルゴリズム COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization ( http://arxiv.org/abs/2403.07134v1 ) ライセンス: Link先を確認 | Aozhong Zhang, Zi Yang, Naigang Wang, Yingyong Qin, Jack Xin, Xin Li, Penghang Yin | (参考訳) トレーニング後の量子化(ptq)は、大規模ニューラルネットワークを圧縮する実用的なアプローチとして登場し、デプロイに非常に効率的である。
しかし、これらのモデルを元の精度を損なうことなく、効果的にロービットモデルに還元することは重要な課題である。
本稿では,階層的再構成誤りの座標最小化を逐次行う,COMQと呼ばれる革新的なPTQアルゴリズムを提案する。
広く使われている整数量子化では、全ての量子化重量を共有浮動小数点スカラーと整数ビットコードに分解することができる。
固定層内では、COMQはすべてのスケーリング係数とビットコードを再構成エラーの変数として扱います。
各イテレーションは、他のすべての変数を一定に保ちながら、単一の座標に沿ってこのエラーを改善する。
COMQは使いやすく、ハイパーパラメータチューニングを必要としない。
ドット製品と丸め操作のみを対象とする。
我々はこれらの変数を慎重に設計したグリード順に更新し、精度を大幅に向上させる。
COMQは、4ビットビジョン変換器を量子化し、Top-1の精度で1%未満の損失を負う。
畳み込みニューラルネットワークの4ビットINT量子化では、COMQはTop-1の精度がわずか0.3%の最小値で、ほぼロスレスの精度を維持している。 Post-training quantization (PTQ) has emerged as a practical approach to compress large neural networks, making them highly efficient for deployment. However, effectively reducing these models to their low-bit counterparts without compromising the original accuracy remains a key challenge. In this paper, we propose an innovative PTQ algorithm termed COMQ, which sequentially conducts coordinate-wise minimization of the layer-wise reconstruction errors. We consider the widely used integer quantization, where every quantized weight can be decomposed into a shared floating-point scalar and an integer bit-code. Within a fixed layer, COMQ treats all the scaling factor(s) and bit-codes as the variables of the reconstruction error. Every iteration improves this error along a single coordinate while keeping all other variables constant. COMQ is easy to use and requires no hyper-parameter tuning. It instead involves only dot products and rounding operations. We update these variables in a carefully designed greedy order, significantly enhancing the accuracy. COMQ achieves remarkable results in quantizing 4-bit Vision Transformers, with a negligible loss of less than 1% in Top-1 accuracy. In 4-bit INT quantization of convolutional neural networks, COMQ maintains near-lossless accuracy with a minimal drop of merely 0.3% in Top-1 accuracy. | 翻訳日:2024-03-13 23:44:50 公開日:2024-03-11 |
# 狭窄度分類のためのbulldog nostril画像の新しい機械学習データセット A New Machine Learning Dataset of Bulldog Nostril Images for Stenosis Degree Classification ( http://arxiv.org/abs/2403.07132v1 ) ライセンス: Link先を確認 | Gabriel Toshio Hirokawa Higa, Joyce Katiuccia Medeiros Ramos Carvalho, Paolo Brito Pascoalini Zanoni, Gisele Braziliano de Andrade, Hemerson Pistori | (参考訳) いくつかの犬種のコンフォーメーション特性であるブラキ脳症は、様々な症状を持つ犬の健康と福祉に影響を与える呼吸障害であるBOASを引き起こす。
本稿では,ブルドッグの鼻孔の190枚の画像からなる新しい注釈付きデータセットを提案する。
3度の狭窄がデータセットでほぼ等しく表現されている:軽度、中等度、重度の狭窄である。
データセットはまた、少量の非狭窄性鼻腔像を含む。
私たちの知る限りでは、この問題に対処する最初のイメージデータセットです。
さらに,nostril画像を用いて狭窄度を自動的に推定する方法として深層学習について検討した。
本研究では、resnet50, mobilenetv3, densenet201, swinv2, maxvitなどのニューラルネットワークをテストした。
この評価では,まず3段階の分類問題(軽度,中等度,重度),2段階の分類問題,重度狭窄を対象とする2段階の分類問題としてモデル化した。
マルチクラス分類では、mobilenetv3 によって最大中央値 f-score 53.77\% が達成された。
バイナリ分類では、72.08\%の最大中央値f-scoreがresnet50によって達成されており、この問題は困難であるがおそらく扱いやすいことを示している。 Brachycephaly, a conformation trait in some dog breeds, causes BOAS, a respiratory disorder that affects the health and welfare of the dogs with various symptoms. In this paper, a new annotated dataset composed of 190 images of bulldogs' nostrils is presented. Three degrees of stenosis are approximately equally represented in the dataset: mild, moderate and severe stenosis. The dataset also comprises a small quantity of non stenotic nostril images. To the best of our knowledge, this is the first image dataset addressing this problem. Furthermore, deep learning is investigated as an alternative to automatically infer stenosis degree using nostril images. In this work, several neural networks were tested: ResNet50, MobileNetV3, DenseNet201, SwinV2 and MaxViT. For this evaluation, the problem was modeled in two different ways: first, as a three-class classification problem (mild or open, moderate, and severe); second, as a binary classification problem, with severe stenosis as target. For the multiclass classification, a maximum median f-score of 53.77\% was achieved by the MobileNetV3. For binary classification, a maximum median f-score of 72.08\% has been reached by ResNet50, indicating that the problem is challenging but possibly tractable. | 翻訳日:2024-03-13 23:44:32 公開日:2024-03-11 |
# マルチロボットタスクアロケーションのための学習インセンティブ関数を重み付けしたBigraph Matching Bigraph Matching Weighted with Learnt Incentive Function for Multi-Robot Task Allocation ( http://arxiv.org/abs/2403.07131v1 ) ライセンス: Link先を確認 | Steve Paul, Nathan Maurer, Souma Chowdhury | (参考訳) MRTA(Multi-Robot Task Allocation)問題の多くは高速かつ効率的な意思決定を必要としており、遺伝的アルゴリズムやオークションベースの手法、二部グラフマッチング法といったヒューリスティックな手法を用いてしばしば達成される。
これらの手法は、mtaのエンドツーエンド(learnt)ニューラルネットワークベースのポリシーと比較して、より説明しやすい形態をとることが多い。
しかし、適切なヒューリスティックを導出することは退屈でリスクがあり、問題が非常に複雑すぎる場合、実用的でない場合もある。
これらのヒューリスティックは学べるのか?
そこで本稿では,MRTAに対する二部グラフマッチング手法のヒューリスティックやインセンティブを学習するためのグラフ強化学習(GRL)フレームワークについて述べる。
具体的には、タスクセットとロボットセットを接続する2部グラフでタスク/ロボットペアリング(エッジ)を重み付けする方法を学ぶためにカプセル注意ポリシーモデルが使用される。
オリジナルのカプセルアテンションネットワークアーキテクチャは、ロボットの状態グラフのエンコーディングと、2つのマルチヘッドアテンションベースのデコーダを加えて、正の複グラフ重みを描画できるLogNormal分布行列を構築することによって、根本的に変更されている。
GRL由来のインセンティブを付加したこの新しいバイグラフマッチング手法の性能は、専門家が特定したヒューリスティックスを用いたオリジナルのバイグラフマッチング手法と同等であり、前者は顕著な堅牢性をもたらす。
トレーニング中、学習されたインセンティブポリシーは、最初は専門家が特定したインセンティブに近づき、その後、そのトレンドからわずかに逸脱する。 Most real-world Multi-Robot Task Allocation (MRTA) problems require fast and efficient decision-making, which is often achieved using heuristics-aided methods such as genetic algorithms, auction-based methods, and bipartite graph matching methods. These methods often assume a form that lends better explainability compared to an end-to-end (learnt) neural network based policy for MRTA. However, deriving suitable heuristics can be tedious, risky and in some cases impractical if problems are too complex. This raises the question: can these heuristics be learned? To this end, this paper particularly develops a Graph Reinforcement Learning (GRL) framework to learn the heuristics or incentives for a bipartite graph matching approach to MRTA. Specifically a Capsule Attention policy model is used to learn how to weight task/robot pairings (edges) in the bipartite graph that connects the set of tasks to the set of robots. The original capsule attention network architecture is fundamentally modified by adding encoding of robots' state graph, and two Multihead Attention based decoders whose output are used to construct a LogNormal distribution matrix from which positive bigraph weights can be drawn. The performance of this new bigraph matching approach augmented with a GRL-derived incentive is found to be at par with the original bigraph matching approach that used expert-specified heuristics, with the former offering notable robustness benefits. During training, the learned incentive policy is found to get initially closer to the expert-specified incentive and then slightly deviate from its trend. | 翻訳日:2024-03-13 23:44:11 公開日:2024-03-11 |
# FAX:JAXにおけるスケーラブルで差別化可能なフェデレーションプリミティブ FAX: Scalable and Differentiable Federated Primitives in JAX ( http://arxiv.org/abs/2403.07128v1 ) ライセンス: Link先を確認 | Keith Rush, Zachary Charles, Zachary Garrett | (参考訳) 本稿では,大規模分散処理とフェデレーション処理をサポートする JAX ベースのライブラリである FAX について述べる。
FAXはJAXのシャーディングメカニズムを利用して、TPUとPathwaysを含む最先端のJAXランタイムのネイティブターゲティングを可能にする。
FAX は JAX のプリミティブとしてフェデレートされた計算のためのビルディングブロックを埋め込んでいる。
これには3つの大きな利点がある。
まず、FAX計算をXLA HLOに変換する。
第二に、faxはフェデレーション自動微分の完全な実装を提供し、フェデレーション計算の表現を大幅に単純化する。
最後に、FAX計算を既存のデバイス間フェデレーション計算システムに解釈することができる。
FAXは、データセンターにおけるフェデレーション計算のための、プログラムが容易で、パフォーマンスが高く、スケーラブルなフレームワークを提供する。
FAXはhttps://github.com/google-research/google-research/tree/master/faxで入手できる。 We present FAX, a JAX-based library designed to support large-scale distributed and federated computations in both data center and cross-device applications. FAX leverages JAX's sharding mechanisms to enable native targeting of TPUs and state-of-the-art JAX runtimes, including Pathways. FAX embeds building blocks for federated computations as primitives in JAX. This enables three key benefits. First, FAX computations can be translated to XLA HLO. Second, FAX provides a full implementation of federated automatic differentiation, greatly simplifying the expression of federated computations. Last, FAX computations can be interpreted out to existing production cross-device federated compute systems. We show that FAX provides an easily programmable, performant, and scalable framework for federated computations in the data center. FAX is available at https://github.com/google-research/google-research/tree/master/fax . | 翻訳日:2024-03-13 23:43:40 公開日:2024-03-11 |
# 分布データ解析を用いた不均一画像分類 Heterogeneous Image-based Classification Using Distributional Data Analysis ( http://arxiv.org/abs/2403.07126v1 ) ライセンス: Link先を確認 | Alec Reinhardt, Newsha Nikzad, Raven J. Hollis, Galia Jacobson, Millicent A. Roach, Mohamed Badawy, Peter Chul Park, Laura Beretta, Prasun K Jalal, David T. Fuentes, Eugene J. Koay, and Suprateek Kundu | (参考訳) がんを含む様々な疾患の早期発見と診断のためのバイオマーカーとして、診断イメージングが注目されている。
しかし、既存の手法は画像の不均一性などの様々な要因から生じる課題に日常的に直面している。
我々は,画素レベルの特徴の確率分布を共変量として組み込んだ新しい画像ベース分布データ解析(DDA)手法を開発した。
提案手法では,スカラーオンファンクショナル量子化回帰モデルにおいて,(適切な基底表現による)滑らかな量子化分布を関数予測器として用いる。
提案されたアプローチの特徴は以下のとおりである。
(i)画像内の不均一性の説明
二 分布全体を網羅する粒状情報を組み込んだもの
(iii)がん応用における未登録画像に対する画像サイズの変化に取り組みます。
本研究の目的は, 肝の術前拡張パターンマッピング(EPM)画像を用いて, 診断後来院時の悪性度変化を予測し, 肝細胞癌のリスク予測を行うことである。
その過程では、ケース対コントロール診断とリスク階層化の目的に対して、提案したDDAアプローチが使用される。
解析の結果,対応するT1-MRIスキャンから得られた地球規模の構造ラジオミクス特性と組み合わせることで,画像の不均一性を考慮しない定期的に使用される要約尺度に基づく分類と対照的に,EPM画像から得られたスムーズな量子化分布は感度と同等の特異性を著しく改善したことがわかった。
癌における異種画像に基づく予測モデリング手法が限られていることから,提案手法は画像に基づく早期検出とリスク予測においてかなりの利点を期待できる。 Diagnostic imaging has gained prominence as potential biomarkers for early detection and diagnosis in a diverse array of disorders including cancer. However, existing methods routinely face challenges arising from various factors such as image heterogeneity. We develop a novel imaging-based distributional data analysis (DDA) approach that incorporates the probability (quantile) distribution of the pixel-level features as covariates. The proposed approach uses a smoothed quantile distribution (via a suitable basis representation) as functional predictors in a scalar-on-functional quantile regression model. Some distinctive features of the proposed approach include the ability to: (i) account for heterogeneity within the image; (ii) incorporate granular information spanning the entire distribution; and (iii) tackle variability in image sizes for unregistered images in cancer applications. Our primary goal is risk prediction in Hepatocellular carcinoma that is achieved via predicting the change in tumor grades at post-diagnostic visits using pre-diagnostic enhancement pattern mapping (EPM) images of the liver. Along the way, the proposed DDA approach is also used for case versus control diagnosis and risk stratification objectives. Our analysis reveals that when coupled with global structural radiomics features derived from the corresponding T1-MRI scans, the proposed smoothed quantile distributions derived from EPM images showed considerable improvements in sensitivity and comparable specificity in contrast to classification based on routinely used summary measures that do not account for image heterogeneity. Given that there are limited predictive modeling approaches based on heterogeneous images in cancer, the proposed method is expected to provide considerable advantages in image-based early detection and risk prediction. | 翻訳日:2024-03-13 23:43:26 公開日:2024-03-11 |
# 大規模言語モデルによる因果グラフのナレーション Narrating Causal Graphs with Large Language Models ( http://arxiv.org/abs/2403.07118v1 ) ライセンス: Link先を確認 | Atharva Phatak, Vijay K. Mago, Ameeta Agrawal, Aravind Inbasekaran, Philippe J. Giabbanelli | (参考訳) グラフからテキスト記述を作成するための生成AIの使用は、主に知識グラフに焦点を当てており、事実を使って概念を結びつける。
本研究では,有意な概念がノードとして表現され,因果性が有向型エッジを通じて表現される,因果グラフからテキストを生成するための,事前学習された大規模言語モデルの能力について検討する。
これらのグラフにエンコードされた因果推論は、医療やマーケティングのような多様なアプリケーションをサポートすることができる。
利用可能な2つの因果グラフデータセットを用いて、4つのGPT-3モデルの性能を実験的に検討した。
以上の結果から, 学習データによる因果テキスト記述は, ファクトベースグラフと比較して改善するが, ゼロショット設定では生成が困難であることが示された。
結果として、生成型aiのユーザは、大規模なキュレートされたデータセットによる微調整と比較して、ほんの数例のモデルトレーニングで同様のパフォーマンスが得られるため、将来のアプリケーションをより早くデプロイできることが示唆される。 The use of generative AI to create text descriptions from graphs has mostly focused on knowledge graphs, which connect concepts using facts. In this work we explore the capability of large pretrained language models to generate text from causal graphs, where salient concepts are represented as nodes and causality is represented via directed, typed edges. The causal reasoning encoded in these graphs can support applications as diverse as healthcare or marketing. Using two publicly available causal graph datasets, we empirically investigate the performance of four GPT-3 models under various settings. Our results indicate that while causal text descriptions improve with training data, compared to fact-based graphs, they are harder to generate under zero-shot settings. Results further suggest that users of generative AI can deploy future applications faster since similar performances are obtained when training a model with only a few examples as compared to fine-tuning via a large curated dataset. | 翻訳日:2024-03-13 23:43:01 公開日:2024-03-11 |
# 脳3次元OCTA画像における血管のシミュレーションによるセグメンテーション Simulation-Based Segmentation of Blood Vessels in Cerebral 3D OCTA Images ( http://arxiv.org/abs/2403.07116v1 ) ライセンス: Link先を確認 | Bastian Wittmann, Lukas Glandorf, Johannes C. Paetzold, Tamaz Amiranashvili, Thomas W\"alchli, Daniel Razansky, Bjoern Menze | (参考訳) マウス脳3D OCTA画像における血管の分画は、脳卒中やアルツハイマー病などの神経血管障害が血管ネットワークに与える影響をin vivoで定量的に解析するための基礎となる。
しかし、血管を最先端の深層学習法で正確に分類するには、大量のボクセルレベルのアノテーションが必要である。
脳の3D OCTA画像は一般的にアーティファクトに悩まされ、信号と雑音の比率が低いため、手作業によるアノテーションの取得は特に面倒で時間を要する作業となる。
手動アノテーションの必要性を軽減するため,合成データを用いてセグメント化アルゴリズムを監督する手法を提案する。
そこで我々は, 血管グラフからパッチを抽出し, 最も支配的な3D OCTAアーティファクトをシミュレートして, 一致した地上の真実ラベルと組み合わせた合成脳3D OCTA画像に変換する。
脳3D OCTA画像における無アノテーション血管分画を可能にするため,本手法が競争力を発揮することを実証した。 Segmentation of blood vessels in murine cerebral 3D OCTA images is foundational for in vivo quantitative analysis of the effects of neurovascular disorders, such as stroke or Alzheimer's, on the vascular network. However, to accurately segment blood vessels with state-of-the-art deep learning methods, a vast amount of voxel-level annotations is required. Since cerebral 3D OCTA images are typically plagued by artifacts and generally have a low signal-to-noise ratio, acquiring manual annotations poses an especially cumbersome and time-consuming task. To alleviate the need for manual annotations, we propose utilizing synthetic data to supervise segmentation algorithms. To this end, we extract patches from vessel graphs and transform them into synthetic cerebral 3D OCTA images paired with their matching ground truth labels by simulating the most dominant 3D OCTA artifacts. In extensive experiments, we demonstrate that our approach achieves competitive results, enabling annotation-free blood vessel segmentation in cerebral 3D OCTA images. | 翻訳日:2024-03-13 23:42:44 公開日:2024-03-11 |
# Lindbladian SYKにおけるオペレータサイズの成長 Operator size growth in Lindbladian SYK ( http://arxiv.org/abs/2403.07115v1 ) ライセンス: Link先を確認 | Jiasheng Liu, Rene Meyer, Zhuo-Yu Xian | (参考訳) q$-体相互作用項と有限散逸強度の線形ジャンプ項を持つリンドブラジアンsykモデルにおける演算子サイズの成長について検討した。
演算子のサイズと分布を有限の$q$で計算し、解析的に大きめの$q$で計算する。
散逸的な(生産的な)ジャンプ項では、サイズはマヨラナフェルミオンの数の半分よりも小さい(大きい)値に収束する。
弱散逸では、演算子サイズの進化は二次指数プラトーの挙動を示す。
プラトー値は、大きな$q$制限における相互作用の結合と線形ジャンプ項の比によって決定される。
演算子のサイズ分布は、単体の場合と対照的に、遅くとも有限サイズ領域で局所化されている。
さらに, 有限散逸時に ``operator size concentration'' を示す演算子展開の時間非依存直交基底も導出した。
最後に、演算子サイズの成長の不確実性関係は、大きなq$で飽和しており、散逸を伴う演算子サイズの成長の古典力学に繋がる。 We investigate the growth of operator size in the Lindbladian SYK model with $q$-body interaction terms and linear jump terms at finite dissipation strength. We compute the operator size as well as its distribution numerically at finite $q$ and analytically at large $q$. With dissipative (productive) jump terms, the size converges to a value smaller (larger) than half the number of Majorana fermions. At weak dissipation, the evolution of operator size displays a quadratic-exponential-plateau behavior. The plateau value is determined by the ratios between the coupling of the interaction and the linear jump term in the large $q$ limit. The operator size distribution remains localized in the finite size region even at late times, contrasting with the unitary case. Moreover, we also derived the time-independent orthogonal basis for operator expansion which exhibits the ``operator size concentration'' at finite dissipation. Finally, we observe that the uncertainty relation for operator size growth is saturated at large $q$, leading to a classical dynamics of the operator size growth with dissipation. | 翻訳日:2024-03-13 23:42:24 公開日:2024-03-11 |
# 物体検出におけるクラス不均衡:実験的診断と緩和戦略の検討 Class Imbalance in Object Detection: An Experimental Diagnosis and Study of Mitigation Strategies ( http://arxiv.org/abs/2403.07113v1 ) ライセンス: Link先を確認 | Nieves Crasto | (参考訳) コンピュータビジョンにおける重要なタスクであるオブジェクト検出は、データセットの不均衡、特に前景と前景のクラス不均衡の問題によってしばしば妨げられる。
この前地上階級の不均衡への注意の欠如は、単段検出器の文脈でさらに顕著になる。
本研究では, YOLOv5単段検出器を用いた地表面不均衡問題に対するベンチマークフレームワークを提案する。
我々はCOCOデータセットから,COCO-ZIPFと呼ばれる新しい10クラスの長い尾を持つデータセットを構築した。
このような背景から,サンプリング,損失重み付け,データ拡張という3つの確立した手法を精査した。
比較分析により,COCO-ZIPFデータセット上でのYOLOv5の性能向上に有効なサンプリングと損失リウィーリング法が有用であることが示された。
一方、データ拡張手法、特にモザイクとミックスアップは、トレーニングデータによりばらつきと複雑さを導入することで、モデルの平均精度(map)を大幅に向上させる。
(コードはhttps://github.com/craston/object_detection_cib) Object detection, a pivotal task in computer vision, is frequently hindered by dataset imbalances, particularly the under-explored issue of foreground-foreground class imbalance. This lack of attention to foreground-foreground class imbalance becomes even more pronounced in the context of single-stage detectors. This study introduces a benchmarking framework utilizing the YOLOv5 single-stage detector to address the problem of foreground-foreground class imbalance. We crafted a novel 10-class long-tailed dataset from the COCO dataset, termed COCO-ZIPF, tailored to reflect common real-world detection scenarios with a limited number of object classes. Against this backdrop, we scrutinized three established techniques: sampling, loss weighing, and data augmentation. Our comparative analysis reveals that sampling and loss reweighing methods, while shown to be beneficial in two-stage detector settings, do not translate as effectively in improving YOLOv5's performance on the COCO-ZIPF dataset. On the other hand, data augmentation methods, specifically mosaic and mixup, significantly enhance the model's mean Average Precision (mAP), by introducing more variability and complexity into the training data. (Code available: https://github.com/craston/object_detection_cib) | 翻訳日:2024-03-13 23:42:07 公開日:2024-03-11 |
# 古典コンピューティング時代における多体局在 Many-Body Localization in the Age of Classical Computing ( http://arxiv.org/abs/2403.07111v1 ) ライセンス: Link先を確認 | Piotr Sierant, Maciej Lewenstein, Antonello Scardicchio, Lev Vidmar, Jakub Zakrzewski | (参考訳) 統計力学は、システムの状態を決定するために、少数のマクロパラメータを使用して、大規模で複雑な多体系の物理を記述するためのフレームワークを提供する。
孤立量子多体系では、そのような記述は、熱化、エルゴード性、量子カオス挙動を関連付ける固有状態熱化仮説(eth)によって達成される。
しかし、有限系サイズと進化時間では、強い障害下で相互作用する多体系の力学で数値的および実験的に発見された頑健な多体局在(MBL)系では熱化傾向は観察されない。
MBL体制の現象学は確立されているが、中心的な疑問は未解決のままであり、MBL体制は、無限のシステムサイズと進化時間の漸近的限界においてさえ熱化が起こらないMBLフェーズをどのような条件で生ずるのか?
本論は,mbl相の状態を明らかにすることを目的とした最近の数値的研究に焦点をあて,無秩序多体系のダイナミクスに関する批判的な疑問を提起する。
持続的な有限次元ドリフトは、無秩序多体系のスペクトル特性において一貫して現れ、単純単パラメータスケーリング仮説を除外し、mbl相の状態の理解を妨げている。
ドリフトは、強い障害においても多体系の力学で観察される熱化と非破壊輸送の傾向と関連している。
これらの現象は、ETH-MBLクロスオーバーにおける顕微鏡プロセスの理解を妨げる。
それでも、障害強度の増大に伴う急激なダイナミクスの減速は、MBL相の近接を示唆している。
本総説では, 不規則多体系における熱化とその故障に関する疑問は, さらなる探査のために開放された捕食領域のままである。 Statistical mechanics provides a framework for describing the physics of large, complex many-body systems using only a few macroscopic parameters to determine the state of the system. For isolated quantum many-body systems, such a description is achieved via the eigenstate thermalization hypothesis (ETH), which links thermalization, ergodicity and quantum chaotic behavior. However, tendency towards thermalization is not observed at finite system sizes and evolution times in a robust many-body localization (MBL) regime found numerically and experimentally in the dynamics of interacting many-body systems at strong disorder. Although the phenomenology of the MBL regime is well-established, the central question remains unanswered: under what conditions does the MBL regime give rise to an MBL phase in which the thermalization does not occur even in the asymptotic limit of infinite system size and evolution time? This review focuses on recent numerical investigations aiming to clarify the status of the MBL phase, and it establishes the critical open questions about the dynamics of disordered many-body systems. Persistent finite size drifts towards ergodicity consistently emerge in spectral properties of disordered many-body systems, excluding naive single-parameter scaling hypothesis and preventing comprehension of the status of the MBL phase. The drifts are related to tendencies towards thermalization and non-vanishing transport observed in the dynamics of many-body systems, even at strong disorder. These phenomena impede understanding of microscopic processes at the ETH-MBL crossover. Nevertheless, the abrupt slowdown of dynamics with increasing disorder strength suggests the proximity of the MBL phase. This review concludes that the questions about thermalization and its failure in disordered many-body systems remain a captivating area open for further explorations. | 翻訳日:2024-03-13 23:41:46 公開日:2024-03-11 |
# $\mathbf{(N,K)}$-Puzzle: 生成言語モデルにおける強化学習アルゴリズムのベンチマークのための費用効率の良いテストベッド $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking Reinforcement Learning Algorithms in Generative Language Model ( http://arxiv.org/abs/2403.07191v1 ) ライセンス: Link先を確認 | Yufeng Zhang, Liyu Chen, Boyi Liu, Yingxiang Yang, Qiwen Cui, Yunzhe Tao, Hongxia Yang | (参考訳) 近年の強化学習(RL)アルゴリズムは,大規模言語モデルの性能向上を目的としている。
しかし、これらのアルゴリズムの評価と比較に合わせたコスト効率と標準化されたテストベッドがないことは明らかである。
このギャップを埋めるために、24-Puzzleの一般化版を提示する: $(N,K)$-Puzzle。
本稿では,PPO (Proximal Policy Optimization) などの確立されたRLアルゴリズムの有効性を,IPO (Identity Policy Optimization) やDPO (Direct Policy Optimization) といった新しいアプローチとともに評価する。 Recent advances in reinforcement learning (RL) algorithms aim to enhance the performance of language models at scale. Yet, there is a noticeable absence of a cost-effective and standardized testbed tailored to evaluating and comparing these algorithms. To bridge this gap, we present a generalized version of the 24-Puzzle: the $(N,K)$-Puzzle, which challenges language models to reach a target value $K$ with $N$ integers. We evaluate the effectiveness of established RL algorithms such as Proximal Policy Optimization (PPO), alongside novel approaches like Identity Policy Optimization (IPO) and Direct Policy Optimization (DPO). | 翻訳日:2024-03-13 23:34:50 公開日:2024-03-11 |
# 対称および混合スピン対称性におけるスピン軌道カップリング Spin-orbit coupling in symmetric and mixed spin-symmetry ( http://arxiv.org/abs/2403.07188v1 ) ライセンス: Link先を確認 | Ayaka Usui, Abel Rojo-Franc\`as, James Schloss, Bruno Juli\'a-D\'iaz | (参考訳) コールド原子における合成スピン軌道結合は擬似スピンと空間自由度を結合するので、系の固有スピン対称性は重要な役割を果たす。
2つの擬スピン次数の系では、2つの粒子は対称状態と反対称状態を構成するが、スピン対称性はより多くの粒子に対して混合することができる。
スピン軌道カップリングの存在下での混合スピン対称性の役割を考察し、調和ポテンシャルに閉じ込められた2つの超微細状態を持つ3つのボソン系を考える。
正確な対角化を行うことで、基底状態とエネルギースペクトルを調べる。
反整合擬似スピン間のスピン軌道カップリングと反発相互作用の相互作用は、基底状態における非整合スピン成分の集団を増大させる。
混合スピン対称状態の出現は相互作用エネルギーの上昇を補う。
配向相互作用により、基底状態と第1励起状態の間の回避された交差は、小さな相互作用のためにのみ観察され、スピン集団の形状変化を引き起こす。
さらに, 相対的な接触相互作用においても, 基底状態の対相関はトンクス・ジラルドーガスと類似しており, スピン軌道結合により強い相互作用特性が向上することがわかった。 Synthetically spin-orbit coupling in cold atoms couples the pseudo-spin and spatial degrees of freedom, and therefore the inherent spin symmetry of the system plays an important role. In systems of two pseudo-spin degrees, two particles configure symmetric states and anti-symmetric states, but the spin symmetry can be mixed for more particles. We study the role of mixed spin symmetry in the presence of spin-orbit coupling and consider the system of three bosons with two hyper-fine states trapped in a harmonic potential. We investigate the ground state and the energy spectrum by implementing exact diagonalization. It is found that the interplay between spin-orbit coupling and repulsive interactions between anti-aligned pseudo-spins increases the population of the unaligned spin components in the ground state. The emergence of the mixed spin symmetric states compensates for the rise of the interaction energy. With the aligned interaction on, the avoided crossing between the ground state and the first excited state is observed only for small interaction, and this causes shape changes in the spin populations. Furthermore, we find that the pair correlation of the ground state shows similarly to that of Tonks-Girardeau gas even for relatively small contact interactions and such strong interaction feature is enhanced by the spin-orbit coupling. | 翻訳日:2024-03-13 23:34:35 公開日:2024-03-11 |
# UPS: クロスモーダル適応によるPDE問題解決のための基礎モデル UPS: Towards Foundation Models for PDE Solving via Cross-Modal Adaptation ( http://arxiv.org/abs/2403.07187v1 ) ライセンス: Link先を確認 | Junhong Shen, Tanya Marwah, Ameet Talwalkar | (参考訳) UPS(Unified PDE Solver)は、様々な領域、次元、解像度で定義された多様な時空間PDEを効果的かつデータ効率で解決する手法である。
UPSは異なるPDEを一貫した表現空間に統一し、LLMとドメイン固有のニューラル演算子を組み合わせた統一ネットワークアーキテクチャを用いてPDEデータの多様なコレクションを処理する。
ネットワークを2段階のクロスモーダル適応プロセスでトレーニングし、モーダルアライメントとマルチタスク学習のアイデアを活用する。
事前学習されたllmから適応し、テキスト形式のメタ情報を利用することにより、強い経験的結果を得ながら、以前の方法よりもはるかに少ないトレーニングサンプルを使用できる。
UPSはPDEBenchの1Dおよび2Dデータセットの幅広い範囲において、しばしば大きなマージンで既存のベースラインを上回り、考慮された10タスクのうち8タスクで最先端の結果を得る。
一方、異なるPDEファミリー、係数、解像度への数発の転送が可能である。 We introduce UPS (Unified PDE Solver), an effective and data-efficient approach to solve diverse spatiotemporal PDEs defined over various domains, dimensions, and resolutions. UPS unifies different PDEs into a consistent representation space and processes diverse collections of PDE data using a unified network architecture that combines LLMs with domain-specific neural operators. We train the network via a two-stage cross-modal adaptation process, leveraging ideas of modality alignment and multi-task learning. By adapting from pretrained LLMs and exploiting text-form meta information, we are able to use considerably fewer training samples than previous methods while obtaining strong empirical results. UPS outperforms existing baselines, often by a large margin, on a wide range of 1D and 2D datasets in PDEBench, achieving state-of-the-art results on 8 of 10 tasks considered. Meanwhile, it is capable of few-shot transfer to different PDE families, coefficients, and resolutions. | 翻訳日:2024-03-13 23:34:12 公開日:2024-03-11 |
# グラフニューラルネットワークの不確実性に関する調査 Uncertainty in Graph Neural Networks: A Survey ( http://arxiv.org/abs/2403.07185v1 ) ライセンス: Link先を確認 | Fangxin Wang, Yuqing Liu, Kay Liu, Yibo Wang, Sourav Medya, Philip S. Yu | (参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで広く使われている。
しかし、GNNの予測の不確実性は、データ固有のランダム性やモデルトレーニングエラーなど様々な情報源から生じるため、不安定で誤った予測につながる可能性がある。
したがって,下流タスクのモデルの性能向上とgnn予測の信頼性向上には,不確かさの同定,定量化,活用が不可欠である。
本調査は,不確実性の観点からGNNの総合的な概要を提供し,グラフ学習への統合を重視した。
既存のグラフ不確実性理論と手法と、対応する下流タスクを比較して要約する。
これにより、理論と実践のギャップを埋め、異なるGNNコミュニティを接続する。
さらに我々の研究は、この分野の有望な方向性に対する貴重な洞察を提供します。 Graph Neural Networks (GNNs) have been extensively used in various real-world applications. However, the predictive uncertainty of GNNs stemming from diverse sources such as inherent randomness in data and model training errors can lead to unstable and erroneous predictions. Therefore, identifying, quantifying, and utilizing uncertainty are essential to enhance the performance of the model for the downstream tasks as well as the reliability of the GNN predictions. This survey aims to provide a comprehensive overview of the GNNs from the perspective of uncertainty with an emphasis on its integration in graph learning. We compare and summarize existing graph uncertainty theory and methods, alongside the corresponding downstream tasks. Thereby, we bridge the gap between theory and practice, meanwhile connecting different GNN communities. Moreover, our work provides valuable insights into promising directions in this field. | 翻訳日:2024-03-13 23:33:54 公開日:2024-03-11 |
# AI修正コンテンツを大規模に監視する - AIカンファレンスピアレビューにおけるChatGPTの影響に関するケーススタディ Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews ( http://arxiv.org/abs/2403.07183v1 ) ライセンス: Link先を確認 | Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou | (参考訳) 本稿では,大言語モデル(llm)により大幅に修正または生成される可能性のある大コーパス中のテキストの分数を推定する手法を提案する。
本モデルでは,実世界のllm利用をコーパスレベルで正確かつ効率的に検討するために,エキスパート記述およびai生成参照テキストを活用する。
本稿では、ChatGPT: ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023のリリース後に行われたAIカンファレンスにおける、科学的ピアレビューのケーススタディに適用する。
我々の結果は、これらの会議にピアレビューとして提出されたテキストの6.5%から16.9%は、スペルチェックやマイナーな書き込み更新を超えて、LLMによって大幅に修正された可能性があることを示唆している。
生成したテキストが生成される状況は、ユーザ行動に関する洞察を与える: LLM生成したテキストの見積分は、信頼度を低く報告するレビューにおいて高く、期限に近く提出された、著者の反論に反応しにくいレビュアーから。
また,個人レベルでは検出できないほど微妙な生成テキストのコーパスレベルの傾向を観察し,その傾向がピアレビューに与える影響について考察する。
LLMが私たちの情報や知識の実践をどのように変えているかを調べるために、今後の学際的な研究を求めている。 We present an approach for estimating the fraction of text in a large corpus which is likely to be substantially modified or produced by a large language model (LLM). Our maximum likelihood model leverages expert-written and AI-generated reference texts to accurately and efficiently examine real-world LLM-use at the corpus level. We apply this approach to a case study of scientific peer review in AI conferences that took place after the release of ChatGPT: ICLR 2024, NeurIPS 2023, CoRL 2023 and EMNLP 2023. Our results suggest that between 6.5% and 16.9% of text submitted as peer reviews to these conferences could have been substantially modified by LLMs, i.e. beyond spell-checking or minor writing updates. The circumstances in which generated text occurs offer insight into user behavior: the estimated fraction of LLM-generated text is higher in reviews which report lower confidence, were submitted close to the deadline, and from reviewers who are less likely to respond to author rebuttals. We also observe corpus-level trends in generated text which may be too subtle to detect at the individual level, and discuss the implications of such trends on peer review. We call for future interdisciplinary work to examine how LLM use is changing our information and knowledge practices. | 翻訳日:2024-03-13 23:33:45 公開日:2024-03-11 |
# 創造領域におけるマルチモーダル問題に対する逆アセスメントを用いたMAP-Elites MAP-Elites with Transverse Assessment for Multimodal Problems in Creative Domains ( http://arxiv.org/abs/2403.07182v1 ) ライセンス: Link先を確認 | Marvin Zammit, Antonios Liapis, Georgios N. Yannakakis | (参考訳) 言語に基づく生成モデルの最近の進歩は、異なるアーティファクトタイプ(テキスト、画像、オーディオなど)の複数のジェネレータを1つのシステムにまとめる道を開いた。
現在、多くのオープンソース事前学習モデルは、テキストと他のモダリティを組み合わせることで、異なるジェネレータ間で共有ベクトル埋め込みを比較することができる。
この文脈内では、品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しいアプローチを提案する。
我々の貢献はMAP-Elitesアルゴリズム(MAP-Elites with Transverse Assessment (MEliTA))のバリエーションであり、マルチモーダルな創造タスクに適合し、モダリティ間のコヒーレンスを評価する深層学習モデルを活用する。
メリタはアーティファクトのモダリティを分離し、エリート間のクロスポリメーションを促進する。
本アルゴリズムのテストベッドとして,仮想ビデオゲーム用のテキスト記述とカバー画像を生成し,各アーティファクトにユニークなモダリティ特有の行動特性を割り当てる。
その結果、melitaは、各画像とテキストのペアを1つのソリューションとして厳格に扱うベースラインmap-elitesアルゴリズムと比較して、ソリューション空間内のテキストと画像のマッピングを改善できることが示されている。
我々のアプローチは、マルチモーダルなボトムアップオーケストレーションにおける重要な一歩であり、将来多モーダルなクリエイティブエージェントを協調するより複雑なシステムの基盤となる。 The recent advances in language-based generative models have paved the way for the orchestration of multiple generators of different artefact types (text, image, audio, etc.) into one system. Presently, many open-source pre-trained models combine text with other modalities, thus enabling shared vector embeddings to be compared across different generators. Within this context we propose a novel approach to handle multimodal creative tasks using Quality Diversity evolution. Our contribution is a variation of the MAP-Elites algorithm, MAP-Elites with Transverse Assessment (MEliTA), which is tailored for multimodal creative tasks and leverages deep learned models that assess coherence across modalities. MEliTA decouples the artefacts' modalities and promotes cross-pollination between elites. As a test bed for this algorithm, we generate text descriptions and cover images for a hypothetical video game and assign each artefact a unique modality-specific behavioural characteristic. Results indicate that MEliTA can improve text-to-image mappings within the solution space, compared to a baseline MAP-Elites algorithm that strictly treats each image-text pair as one solution. Our approach represents a significant step forward in multimodal bottom-up orchestration and lays the groundwork for more complex systems coordinating multimodal creative agents in the future. | 翻訳日:2024-03-13 23:33:19 公開日:2024-03-11 |
# 3m-diffusion:潜在マルチモーダル拡散による分子グラフのテキスト誘導 3M-Diffusion: Latent Multi-Modal Diffusion for Text-Guided Generation of Molecular Graphs ( http://arxiv.org/abs/2403.07179v1 ) ライセンス: Link先を確認 | Huaisheng Zhu, Teng Xiao, Vasant G Honavar | (参考訳) 望ましい性質を持つ分子の生成は、薬物発見や材料設計における幅広い応用において重要な課題である。
大規模言語モデルの最近の進歩に触発されて、分子の自然言語記述を使って望ましい性質を持つ分子を生成することへの関心が高まっている。
既存の手法のほとんどは、テキスト記述に正確に一致する分子を生成することに焦点を当てている。
しかし、実際的な応用は、望ましい性質を持つ多様な、理想的には新しい分子を生成する方法を要求する。
この課題に対処するために,新しい分子グラフ生成法である3M-Diffusionを提案する。
3m-diffusionはまず分子グラフをテキスト記述に合わせたグラフ潜在空間に符号化する。
その後、分子デコーダを用いて与えられたテキスト記述に基づいて分子構造と原子属性を再構成する。
その後、拡散モデルを用いてテキスト空間から潜在分子グラフ空間への確率的写像を学習する。
いくつかのデータセットに対する広範な実験の結果から、3M-拡散は、提供されるテキスト記述にセマンティックに一致する高品質で斬新で多様な分子グラフを生成できることが示された。 Generating molecules with desired properties is a critical task with broad applications in drug discovery and materials design. Inspired by recent advances in large language models, there is a growing interest in using natural language descriptions of molecules to generate molecules with the desired properties. Most existing methods focus on generating molecules that precisely match the text description. However, practical applications call for methods that generate diverse, and ideally novel, molecules with the desired properties. We propose 3M-Diffusion, a novel multi-modal molecular graph generation method, to address this challenge. 3M-Diffusion first encodes molecular graphs into a graph latent space aligned with text descriptions. It then reconstructs the molecular structure and atomic attributes based on the given text descriptions using the molecule decoder. It then learns a probabilistic mapping from the text space to the latent molecular graph space using a diffusion model. The results of our extensive experiments on several datasets demonstrate that 3M-Diffusion can generate high-quality, novel and diverse molecular graphs that semantically match the textual description provided. | 翻訳日:2024-03-13 23:32:53 公開日:2024-03-11 |
# ROMEの再構築 : 逐次モデル編集におけるモデル崩壊の解消 Rebuilding ROME : Resolving Model Collapse during Sequential Model Editing ( http://arxiv.org/abs/2403.07175v1 ) ライセンス: Link先を確認 | Akshat Gupta, Gopala Anumanchipalli | (参考訳) 人気のあるモデル編集手法であるrank-one model editing(rome)を用いたモデル編集に関する最近の研究は、アルゴリズムがモデルを壊さずに編集できないという特定の事実があることを示している。
このような編集は以前は無効な編集と呼ばれていた。
これらの無効な編集は、即座にモデルが崩壊し、逐次編集にROMEの使用を制限する。
本稿では2つの主な貢献を行う。
まず、ROMEによるモデル崩壊は、CounterFactデータセットを使用して編集を行う場合にのみ発生し、zsREデータセットを使用する場合には発生しないことを示す。
第二に、編集の無効化はROMEのオリジナルの実装の成果物であることがわかった。
本稿では, r-ROME と呼ばれる ROME を安定的に実装し, ROME で大規模な逐次編集を行う場合, モデル崩壊を観測しなくなったことを示す。 Recent work on model editing using Rank-One Model Editing (ROME), a popular model editing method, has shown that there are certain facts that the algorithm is unable to edit without breaking the model. Such edits have previously been called disabling edits. These disabling edits cause immediate model collapse and limits the use of ROME for sequential editing. In this paper, we make two main contributions. Firstly, we show that model collapse with ROME only happens when making edits using the CounterFact dataset and does not happen when using the zsRE dataset. Secondly, we find that disabling edits are an artifact of the original implementation of ROME. With this paper, we provide a more stable implementation ROME, which we call r-ROME and show that we no longer observe model collapse when making large scale sequential edits with ROME. | 翻訳日:2024-03-13 23:32:39 公開日:2024-03-11 |
# キリング対分岐:拡散緩和の未発見の面 Killing versus branching: Unexplored facets of diffusive relaxation ( http://arxiv.org/abs/2403.07164v1 ) ライセンス: Link先を確認 | P. Garbaczewski and M. Zaba | (参考訳) ファインマン・カック経路積分核関数のリラクゼーションダイナミクスを,キリングを伴う分岐拡散過程の観点から解析する。
これは、条件付きブラウン運動に対する平衡緩和の許容経路ワイズ記述と、フェインマン・カック核が推論された遷移確率密度関数の構成要素として現れる吸収境界を持つ拡散過程に新しい光を当てる。 We analyze the relaxation dynamics of Feynman-Kac path integral kernel functions in terms of branching diffusion processes with killing. This sheds new light on the admissible path-wise description of the relaxation to equilibrium for conditioned Brownian motions, and diffusion processes with absorbing boundaries, where Feynman-Kac kernels appear as the building blocks of inferred transition probability density functions. | 翻訳日:2024-03-13 23:32:24 公開日:2024-03-11 |
# 持続可能なスマートエコシステムのためのデジタルツイン進化 Digital Twin Evolution for Sustainable Smart Ecosystems ( http://arxiv.org/abs/2403.07162v1 ) ライセンス: Link先を確認 | Istvan David, Judith Michael, Dominik Bork | (参考訳) スマートエコシステムは現代社会の原動力である。
重要なインフラを制御し、安定かつ持続可能な運用を保証する。
スマートなエコシステムはデジタル双子によって管理されている -- 物理的なインフラのリアルタイム仮想表現。
スマートエコシステムのオープンでリアクティブな特性をサポートするために、デジタル双生児は状況の変化に反応して進化できる必要がある。
しかし、デジタルツイン進化は物理的およびソフトウェアコンポーネントの相互に絡み合った性質のため、特に困難である。
結果として、ソフトウェア実践者は、デジタルツイン進化シナリオに適用しづらいソフトウェア進化に関するかなりの知識を見出します。
本稿では,デジタル双生児の進化的関心事を理解し,管理するための具体的な手がかりを,ソフトウェア実践者に提供します。
これによって、ソフトウェアエンジニアリングプラクティスを活用して堅牢なスマートエコシステムを開発する上で、大きなギャップを埋めることを目指しています。 Smart ecosystems are the drivers of modern society. They control critical infrastructures, ensuring their stable and sustainable operation. Smart ecosystems are governed by digital twins -- real-time virtual representations of physical infrastructure. To support the open-ended and reactive traits of smart ecosystems, digital twins need to be able to evolve in reaction to changing conditions. However, digital twin evolution is particularly challenging due to the intertwined nature of physical and software components. As a consequence, software practitioners find a substantial body of knowledge on software evolution hard to apply in digital twin evolution scenarios. In this article, we provide software practitioners with tangible leads toward understanding and managing the evolutionary concerns of digital twins. By that, we aim to bridge a significant gap in leveraging software engineering practices to develop robust smart ecosystems. | 翻訳日:2024-03-13 23:32:16 公開日:2024-03-11 |
# フォニック・ライトとダーク状態:単一イオンによるマルチモード光-マター相互作用の研究 Phononic bright and dark states: Investigating multi-mode light-matter interactions with a single trapped ion ( http://arxiv.org/abs/2403.07154v1 ) ライセンス: Link先を確認 | Harry Parke, Robin Thomm, Alan C. Santos, Andr\'e Cidrim, Gerard Higgins, Marion Mallweger, Natalia Kuk, Shalina Salim, Romain Bachelard, Celso J. Villas-Boas and Markus Hennrich | (参考訳) 干渉は古典的および量子的世界の最も実用的で影響の大きい性質のいくつかを支えている。
本研究では,2レベル系への結合を促進あるいは抑制した集合状態に基づいて,干渉効果を記述する新しい形式を実験的に検討する。
マルチモード光間相互作用をシミュレートするために,電子状態と2つのイオンの運動モードを結合した単一トラップイオンを用いる。
単一フォノンとコヒーレント状態の重ね合わせの両方に対するフォノニックな明るく暗い状態の出現を観察し、集合基底での分解のみに基づく干渉の視点が、一つの原子への結合を直感的に記述できることを実証する。
この研究はまた、単一閉じ込められたイオンの有界運動により、マルチモードの明るい状態と暗い状態が形成された最初の例であり、ここで議論される量子情報処理の方法の可能性を強調している。 Interference underpins some of the most practical and impactful properties of both the classical and quantum worlds. In this work we experimentally investigate a new formalism to describe interference effects, based on collective states which have enhanced or suppressed coupling to a two-level system. We employ a single trapped ion, whose electronic state is coupled to two of the ion's motional modes in order to simulate a multi-mode light-matter interaction. We observe the emergence of phononic bright and dark states for both a single phonon and a superposition of coherent states and demonstrate that a view of interference which is based solely on their decomposition in the collective basis is able to intuitively describe their coupling to a single atom. This work also marks the first time that multi-mode bright and dark states have been formed with the bounded motion of a single trapped ion and we highlight the potential of the methods discussed here for use in quantum information processing. | 翻訳日:2024-03-13 23:32:04 公開日:2024-03-11 |
# 2023 低消費電力コンピュータビジョンチャレンジ(LPCVC)の概要 2023 Low-Power Computer Vision Challenge (LPCVC) Summary ( http://arxiv.org/abs/2403.07153v1 ) ライセンス: Link先を確認 | Leo Chen, Benjamin Boardley, Ping Hu, Yiru Wang, Yifan Pu, Xin Jin, Yongqiang Yao, Ruihao Gong, Bo Li, Gao Huang, Xianglong Liu, Zifu Wan, Xinwang Chen, Ning Liu, Ziyi Zhang, Dongping Liu, Ruijie Shan, Zhengping Che, Fachao Zhang, Xiaofeng Mou, Jian Tang, Maxim Chuprov, Ivan Malofeev, Alexander Goncharenko, Andrey Shcherbin, Arseny Yanchenko, Sergey Alyamkin, Xiao Hu, George K. Thiruvathukal, Yung Hsiang Lu | (参考訳) 本稿では2023 ieee low-power computer vision challenge (lpcvc)について述べる。
2015年以降、LPCVCはエッジデバイスにおけるコンピュータビジョン(CV)の課題に取り組むための国際コンペティションとなっている。
ほとんどのcv研究者は、マシンモデルのサイズの増加を犠牲にして、精度の向上に焦点を当てている。
LPCVCはリソース要求と精度のバランスをとる。
勝者は、Raspberry PIやNvidia Jetson Nanoのような組み込みデバイス上でCVソリューションを動作させる場合、短い実行時間で高い精度で達成しなければならない。
2023 LPCVCの視覚問題は、災害後に無人航空機(UAV、別名ドローン)が取得した画像のセグメンテーションである。
2023 lpcvcは1ヶ月の提出期間に676のソリューションを提出した60の国際チームを引き寄せた。
この記事では、コンペティションのセットアップを説明し、精度を高め、実行時間を短縮する勝者の方法を強調する。 This article describes the 2023 IEEE Low-Power Computer Vision Challenge (LPCVC). Since 2015, LPCVC has been an international competition devoted to tackling the challenge of computer vision (CV) on edge devices. Most CV researchers focus on improving accuracy, at the expense of ever-growing sizes of machine models. LPCVC balances accuracy with resource requirements. Winners must achieve high accuracy with short execution time when their CV solutions run on an embedded device, such as Raspberry PI or Nvidia Jetson Nano. The vision problem for 2023 LPCVC is segmentation of images acquired by Unmanned Aerial Vehicles (UAVs, also called drones) after disasters. The 2023 LPCVC attracted 60 international teams that submitted 676 solutions during the submission window of one month. This article explains the setup of the competition and highlights the winners' methods that improve accuracy and shorten execution time. | 翻訳日:2024-03-13 23:31:46 公開日:2024-03-11 |
# 俺が何をしたか忘れるな?
フェデレーション学習における顧客貢献の評価 Don't Forget What I did?: Assessing Client Contributions in Federated Learning ( http://arxiv.org/abs/2403.07151v1 ) ライセンス: Link先を確認 | Bishwamittra Ghosh, Debabrota Basu, Fu Huazhu, Wang Yuan, Renuga Kanagavelu, Jiang Jin Peng, Liu Yong, Goh Siow Mong Rick, and Wei Qingsong | (参考訳) Federated Learning(FL)は、複数のクライアントがプライベートデータを公開せずにMLモデルをトレーニングする、コラボレーティブ機械学習(ML)アプローチである。
顧客貢献の公平かつ正確な評価は、FLにおいて、インセンティブの割り当てを促進し、多様なクライアントに統一モデルトレーニングに参加するよう奨励する重要な問題である。
既存のクライアントコントリビューションを評価する手法では、Shapley値のような協調的なゲーム理論の概念が採用されているが、単純化された仮定のもとである。
本稿では,flトレーニングの各時代に(潜在的に非i.i.d.)クライアントのサブセットが参加する場合,クライアントのコントリビュートを評価するための,履歴を意識したゲーム理論フレームワークflcontribを提案する。
FLトレーニングプロセスとShapley値の線形性を利用して、FLトレーニングの進行とともにクライアントコントリビューションの履歴タイムラインを生成するFLContribを開発する。
また,限られた計算予算の下でクライアントのコントリビューションを評価するために,トレーニングエポックのサブセットでのみ高価なShapley値計算を行うための両面公正度基準を考慮したスケジューリング手法を提案する。
実験では,flcontribを用いて評価した顧客貢献の正確性と効率のトレードオフを実証する。
履歴を意識したクライアント貢献のメリットを示すために,flトレーニングでデータ中毒を行う不正クライアントの検出にflcontribを適用する。 Federated Learning (FL) is a collaborative machine learning (ML) approach, where multiple clients participate in training an ML model without exposing the private data. Fair and accurate assessment of client contributions is an important problem in FL to facilitate incentive allocation and encouraging diverse clients to participate in a unified model training. Existing methods for assessing client contribution adopts co-operative game-theoretic concepts, such as Shapley values, but under simplified assumptions. In this paper, we propose a history-aware game-theoretic framework, called FLContrib, to assess client contributions when a subset of (potentially non-i.i.d.) clients participate in each epoch of FL training. By exploiting the FL training process and linearity of Shapley value, we develop FLContrib that yields a historical timeline of client contributions as FL training progresses over epochs. Additionally, to assess client contribution under limited computational budget, we propose a scheduling procedure that considers a two-sided fairness criteria to perform expensive Shapley value computation only in a subset of training epochs. In experiments, we demonstrate a controlled trade-off between the correctness and efficiency of client contributions assessed via FLContrib. To demonstrate the benefits of history-aware client contributions, we apply FLContrib to detect dishonest clients conducting data poisoning in FL training. | 翻訳日:2024-03-13 23:31:31 公開日:2024-03-11 |
# ランダム再帰を伴う確率的超次数--変分不等式に対する収束の改善 Stochastic Extragradient with Random Reshuffling: Improved Convergence for Variational Inequalities ( http://arxiv.org/abs/2403.07148v1 ) ライセンス: Link先を確認 | Konstantinos Emmanouilidis, Ren\'e Vidal, Nicolas Loizou | (参考訳) Stochastic Extragradient (SEG) 法は、様々な機械学習タスクに現れる有限サム min-max 最適化と変分不等式問題(VIP)を解決するアルゴリズムの1つである。
しかし,既存のsegのコンバージェンス解析では,各コンポーネントをランダムにリライトし,逐次的に使用するのに対し,既存のsegのコンバーゼンス解析ではその変種に焦点が当てられている。
良く研究された代替型とは異なり、ランダムリシャッフル(SEG-RR)付きSEGは確立された理論的保証を欠いている。
本稿では,3種類のVIPに対してSEG-RRの収束解析を行う。
(i)強い単調。
(ii)アフィン、及び
(iii)単音。
我々は,SEG-RRが均一な置換サンプリングSEGよりも高速に収束する条件を導出する。
モノトーン設定では,SEG-RR解析により,従来の非置換SEGに必要とされる強い要件である大きなバッチサイズを伴わない任意の精度での収束が保証される。
結果の副産物として、Shuffle Once SEG(アルゴリズムの開始時にのみデータをシャッフルする)とIncremental Extragradient(データをシャッフルしない)の収束保証を提供する。
本研究は,SEG-RRの古典的置換サンプリングSEGよりも優れた性能を示す実験により,解析を補完する。 The Stochastic Extragradient (SEG) method is one of the most popular algorithms for solving finite-sum min-max optimization and variational inequality problems (VIPs) appearing in various machine learning tasks. However, existing convergence analyses of SEG focus on its with-replacement variants, while practical implementations of the method randomly reshuffle components and sequentially use them. Unlike the well-studied with-replacement variants, SEG with Random Reshuffling (SEG-RR) lacks established theoretical guarantees. In this work, we provide a convergence analysis of SEG-RR for three classes of VIPs: (i) strongly monotone, (ii) affine, and (iii) monotone. We derive conditions under which SEG-RR achieves a faster convergence rate than the uniform with-replacement sampling SEG. In the monotone setting, our analysis of SEG-RR guarantees convergence to an arbitrary accuracy without large batch sizes, a strong requirement needed in the classical with-replacement SEG. As a byproduct of our results, we provide convergence guarantees for Shuffle Once SEG (shuffles the data only at the beginning of the algorithm) and the Incremental Extragradient (does not shuffle the data). We supplement our analysis with experiments validating empirically the superior performance of SEG-RR over the classical with-replacement sampling SEG. | 翻訳日:2024-03-13 23:31:07 公開日:2024-03-11 |
# コヒーレンスを定量化する2つの新しい純状態コヒーレンス測度 Two novel pure-state coherence measures in quantifying coherence ( http://arxiv.org/abs/2403.07146v1 ) ライセンス: Link先を確認 | Manis Hazra and Debabrata Goswami | (参考訳) コヒーレンスの資源理論において、量子状態コヒーレンスの定量化は重要な課題である。
この点において重要な成分は、様々なコヒーレンスモノトン(または測度)である。
すべての純粋な状態に対して定義された他のコヒーレンス測度にのみ依存するコヒーレンス・モノトン類は少ないが、言い換えれば、純粋な状態コヒーレンス測度(PSCM)に依存している。
ここでは,2つの新しいPSCMを設定し,それぞれが必要な4つの条件をすべて満たして検証する。
さらに,最新のコヒーレンス単音類について,純状態コヒーレンスの観点からコヒーレンスを定量化し,さらに再定義するという革新的な考え方に基づいて考察し,混合下の凸性の研究を通じて,このコヒーレンス単音類が一般にコヒーレンス測定クラスとして扱われない理由を正当化する。 In the resource theory of coherence, the quantification of quantum-state coherence is an important task. In this regard, the key ingredients are the various coherence monotones (or measures). There are few coherence-monotone classes that solely depend on other coherence measures defined for all the pure states; in other words, they rely on the pure state coherence measures (PSCM). Here, we set forth two such novel PSCMs, and validate each of them through the fulfillment of all four necessary conditions. In addition, we delve into the most recent (as per our knowledge) coherence-monotone class based on the innovative idea of quantifying coherence in terms of pure-state coherence, further redefine it, and, through the study of convexity under mixing, justify why this coherence monotone class cannot be treated as a coherence-measure class in general. | 翻訳日:2024-03-13 23:30:42 公開日:2024-03-11 |
# どのLLMをプレイするか?
時間短縮バンディットを用いたコンバージェンスアウェアオンラインモデル選択 Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits ( http://arxiv.org/abs/2403.07213v1 ) ライセンス: Link先を確認 | Yu Xia, Fang Kong, Tong Yu, Liya Guo, Ryan A. Rossi, Sungchul Kim, Shuai Li | (参考訳) チャットボット、検索エンジン、ニュースレコメンデーションといったWebベースのアプリケーションは、最近のLLMの採用の増加に伴い、規模と複雑さが拡大し続けている。
オンラインモデル選択は、タスク報酬と探索コストのバランスを保ちながら、多様なセットの中で最高のモデルを選択する必要があるため、注目を集めている。
組織は、高価なAPIベースのLLMを採用するか、ローカルに調整された小さなLLMを使うか、パフォーマンスに対するコストを重んじるかといった決定に直面します。
従来の選別法では、LLMの訓練と微調整のコストが増大しているため、候補モデルを選定する前に評価することが多い。
さらに、過剰なリソースを貧弱なモデルの探索に割り当てることは望ましくない。
オンラインバンディットアルゴリズムを利用して、モデル選択におけるそのような探索・探索トレードオフを管理する最近の研究もあるが、モデルが反復的に微調整されているため、モデル性能の収束傾向は見過ごされがちである。
本稿では,細粒化によるモデル性能の増大を効果的に予測し,モデル選択における探索とエクスプロイトの効率よくバランスをとる,時間増加バンディットアルゴリズムTI-UCBを提案する。
さらにモデルの収束点を捉えるために,連続的な増加予測を比較することで変化検出機構を開発する。
理論上,本アルゴリズムは,収束速度が速い典型的なバンディット設定において,対数的後悔の上限値を達成することを証明している。
また, LLMの分類モデル選択とオンライン選択に関する広範な実験を通じて, 本手法の利点を実証的に検証した。
本研究は,LLMの展開において,より効率的かつ経済的なモデル選択のために,拡張収束パターンを活用することの重要性を強調した。 Web-based applications such as chatbots, search engines and news recommendations continue to grow in scale and complexity with the recent surge in the adoption of LLMs. Online model selection has thus garnered increasing attention due to the need to choose the best model among a diverse set while balancing task reward and exploration cost. Organizations faces decisions like whether to employ a costly API-based LLM or a locally finetuned small LLM, weighing cost against performance. Traditional selection methods often evaluate every candidate model before choosing one, which are becoming impractical given the rising costs of training and finetuning LLMs. Moreover, it is undesirable to allocate excessive resources towards exploring poor-performing models. While some recent works leverage online bandit algorithm to manage such exploration-exploitation trade-off in model selection, they tend to overlook the increasing-then-converging trend in model performances as the model is iteratively finetuned, leading to less accurate predictions and suboptimal model selections. In this paper, we propose a time-increasing bandit algorithm TI-UCB, which effectively predicts the increase of model performances due to finetuning and efficiently balances exploration and exploitation in model selection. To further capture the converging points of models, we develop a change detection mechanism by comparing consecutive increase predictions. We theoretically prove that our algorithm achieves a logarithmic regret upper bound in a typical increasing bandit setting, which implies a fast convergence rate. The advantage of our method is also empirically validated through extensive experiments on classification model selection and online selection of LLMs. Our results highlight the importance of utilizing increasing-then-converging pattern for more efficient and economic model selection in the deployment of LLMs. | 翻訳日:2024-03-13 23:23:30 公開日:2024-03-11 |
# 理論的に最適なスライディングウインドウアプローチによる動的ガウス密度の追跡 Tracking Dynamic Gaussian Density with a Theoretically Optimal Sliding Window Approach ( http://arxiv.org/abs/2403.07207v1 ) ライセンス: Link先を確認 | Yinsong Wang, Yu Ding, Shahin Shahrampour | (参考訳) 動的密度推定はコンピュータビジョンや信号処理を含む多くのアプリケーションで広く使われている。
この問題に対処する一般的な方法の1つは「スライディングウインドウ」カーネル密度推定器である。
この手法には、観測データに対してヒューリスティックに定義された重み列を用いる様々な実装が存在する。
しかし、重み列は、追跡性能に大きな影響を及ぼす推定器の重要な側面である。
本研究では,gaussian kernel density estimator (sliding window) の正確な平均積分二乗誤差 (mise) について検討した。
制約付き二次計画法として定式化できる厳密なmiseを理論的に特徴付けることにより,最適重み列を選択するための原理ガイドを提供する。
我々は,合成データセットを用いて経験的証拠を示し,重み付け手法がヒューリスティックアプローチに比べて追跡性能が向上することを示す。 Dynamic density estimation is ubiquitous in many applications, including computer vision and signal processing. One popular method to tackle this problem is the "sliding window" kernel density estimator. There exist various implementations of this method that use heuristically defined weight sequences for the observed data. The weight sequence, however, is a key aspect of the estimator affecting the tracking performance significantly. In this work, we study the exact mean integrated squared error (MISE) of "sliding window" Gaussian Kernel Density Estimators for evolving Gaussian densities. We provide a principled guide for choosing the optimal weight sequence by theoretically characterizing the exact MISE, which can be formulated as constrained quadratic programming. We present empirical evidence with synthetic datasets to show that our weighting scheme indeed improves the tracking performance compared to heuristic approaches. | 翻訳日:2024-03-13 23:22:56 公開日:2024-03-11 |
# スケッチに基づく画像検索におけるスケッチ抽象化の扱い方 How to Handle Sketch-Abstraction in Sketch-Based Image Retrieval? ( http://arxiv.org/abs/2403.07203v1 ) ライセンス: Link先を確認 | Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song | (参考訳) 本稿では,様々なレベルでスケッチの抽象化を処理可能な,新しい抽象化対応スケッチベース画像検索フレームワークを提案する。
従来は,図形や順序などのサブファクタの処理に重点を置いていたが,その代わりに抽象化全体をモデル化し,機能レベルと検索粒度レベルの設計を提案し,システムをそのDNAに組み込むことで抽象化を解釈する必要があった。
抽象化を意識した特徴の学習では,事前学習したStyleGANモデルのリッチなセマンティック埋め込みと,抽象化のレベルを解読し,特徴行列の適切な次元を動的に選択する新しい抽象化レベルのマッパーを併用して,異なる抽象化レベルに対応可能な特徴行列埋め込みを構築する。
粒度レベルの抽象理解のために、検索モデルがすべての抽象レベルを等しく扱うべきではないことを指示し、微分可能なサロゲートaccを導入する。
この理解をシステムに注入するために@qlost。
金標準の三重項の損失と異なり、Acc。
qlosは一意に、スケッチの評価がより抽象的で、よりストレートな(より高い$q$)という観点で、スケッチの焦点を狭くしたり縮めたりできる。
広汎な実験では,従来のSBIRタスクを上回り,早期検索,法医学的スケッチ写真マッチング,スタイル不変検索といった難題を克服する。 In this paper, we propose a novel abstraction-aware sketch-based image retrieval framework capable of handling sketch abstraction at varied levels. Prior works had mainly focused on tackling sub-factors such as drawing style and order, we instead attempt to model abstraction as a whole, and propose feature-level and retrieval granularity-level designs so that the system builds into its DNA the necessary means to interpret abstraction. On learning abstraction-aware features, we for the first-time harness the rich semantic embedding of pre-trained StyleGAN model, together with a novel abstraction-level mapper that deciphers the level of abstraction and dynamically selects appropriate dimensions in the feature matrix correspondingly, to construct a feature matrix embedding that can be freely traversed to accommodate different levels of abstraction. For granularity-level abstraction understanding, we dictate that the retrieval model should not treat all abstraction-levels equally and introduce a differentiable surrogate Acc.@q loss to inject that understanding into the system. Different to the gold-standard triplet loss, our Acc.@q loss uniquely allows a sketch to narrow/broaden its focus in terms of how stringent the evaluation should be - the more abstract a sketch, the less stringent (higher $q$). Extensive experiments depict our method to outperform existing state-of-the-arts in standard SBIR tasks along with challenging scenarios like early retrieval, forensic sketch-photo matching, and style-invariant retrieval. | 翻訳日:2024-03-13 23:22:42 公開日:2024-03-11 |
# 認知的動機づけによるSPAWNing構造プライミング予測 SPAWNing Structural Priming Predictions from a Cognitively Motivated Parser ( http://arxiv.org/abs/2403.07202v1 ) ライセンス: Link先を確認 | Grusha Prasad and Tal Linzen | (参考訳) 構造的プライミングは、人間の文表現を研究するために広く用いられる精神言語学パラダイムである。
本研究では,文処理時に人間が構築する構造表現を特徴付ける理論を構築するために,経験的プライミングパターンを用いたフレームワークを提案する。
このフレームワークは、認知的に動機づけられた新しいパーサーSPAWNを使用して、理論的構文から定量的プライミング予測を生成し、これらの予測を経験的人間の行動で評価する。
ケーススタディとして,この枠組みを英語における相対節表現の削減に応用する。
我々はSPAWNを用いて、相対的節の構造について異なる仮定を行う2つの理論的な説明からプライミング予測を生成する。
これらの理論のうちの1つ (Participial-Phase) からの予測は経験的プライミングパターンと一致し, 関係節に関する仮定が人間の文表現をよりよく捉えていることを示す。 Structural priming is a widely used psycholinguistic paradigm to study human sentence representations. In this work we propose a framework for using empirical priming patterns to build a theory characterizing the structural representations humans construct when processing sentences. This framework uses a new cognitively motivated parser, SPAWN, to generate quantitative priming predictions from theoretical syntax and evaluate these predictions with empirical human behavior. As a case study, we apply this framework to study reduced relative clause representations in English. We use SPAWN to generate priming predictions from two theoretical accounts which make different assumptions about the structure of relative clauses. We find that the predictions from only one of these theories (Participial-Phase) align with empirical priming patterns, thus highlighting which assumptions about relative clause better capture human sentence representations. | 翻訳日:2024-03-13 23:22:15 公開日:2024-03-11 |
# 選択的状態空間モデルを用いた急性脳機能障害状態の予測に関する研究 A multi-cohort study on prediction of acute brain dysfunction states using selective state space models ( http://arxiv.org/abs/2403.07201v1 ) ライセンス: Link先を確認 | Brandon Silva, Miguel Contreras, Sabyasachi Bandyopadhyay, Yuanfang Ren, Ziyuan Guan, Jeremy Balch, Kia Khezeli, Tezcan Ozrazgat Baslanti, Ben Shickel, Azra Bihorac, Parisa Rashidi | (参考訳) 急性脳機能障害 (ABD) の評価は, 集中治療室 (ICU) における deirium や coma などの急性脳機能障害 (ABD) の有病率と重篤な合併症である。
現在の診断方法は稀な臨床所見に依拠しており、発症後の患者のabd状態のみを判断できる。
本研究は、電子健康記録(EHR)データを用いて、ICU患者のABD自動予測手法を開発することを目的としている。
既存のモデルは単一の状態(例: deliriumまたはcoma)のみを予測し、予測を行うために少なくとも24時間の観測データを必要とし、icu滞在中に変動するabd条件を動的に予測しない(通常は1回の予測)。
本研究は, icu滞在中, 2つの公開データセットを検証し, 12時間間隔でデリウム, coma, 死亡率を動的に予測することにより, 既存の文献におけるこれらのギャップを埋めている。
当研究は,非ABDからABDへの臨界遷移をリアルタイムで動的に予測する概念も導入した。
我々は、2つの最先端ニューラルネットワークモデル、MAMBA選択状態空間モデルとLongformer Transformerモデルの予測性能を比較した。
mambaモデルを用いて12時間周期のabdの結果予測において,受信オペレータ特性曲線 (auroc) 下の平均面積は0.95であった。
このモデルはABD状態間の遷移を予測する際に平均AUROC0.79を達成する。
フロリダ大学ヘルスハンドス病院のキュレートされたデータセットを内部検証に使用し、MIMIC-IVとeICUの2つの公開データセットを外部検証に使用し、203の病院と140,945人の患者からのICU滞在者の堅牢性を実証した。 Assessing acute brain dysfunction (ABD), including delirium and coma in the intensive care unit (ICU), is a critical challenge due to its prevalence and severe implications for patient outcomes. Current diagnostic methods rely on infrequent clinical observations, which can only determine a patient's ABD status after onset. Our research attempts to solve these problems by harnessing Electronic Health Records (EHR) data to develop automated methods for ABD prediction for patients in the ICU. Existing models solely predict a single state (e.g., either delirium or coma), require at least 24 hours of observation data to make predictions, do not dynamically predict fluctuating ABD conditions during ICU stay (typically a one-time prediction), and use small sample size, proprietary single-hospital datasets. Our research fills these gaps in the existing literature by dynamically predicting delirium, coma, and mortality for 12-hour intervals throughout an ICU stay and validating on two public datasets. Our research also introduces the concept of dynamically predicting critical transitions from non-ABD to ABD and between different ABD states in real time, which could be clinically more informative for the hospital staff. We compared the predictive performance of two state-of-the-art neural network models, the MAMBA selective state space model and the Longformer Transformer model. Using the MAMBA model, we achieved a mean area under the receiving operator characteristic curve (AUROC) of 0.95 on outcome prediction of ABD for 12-hour intervals. The model achieves a mean AUROC of 0.79 when predicting transitions between ABD states. Our study uses a curated dataset from the University of Florida Health Shands Hospital for internal validation and two publicly available datasets, MIMIC-IV and eICU, for external validation, demonstrating robustness across ICU stays from 203 hospitals and 140,945 patients. | 翻訳日:2024-03-13 23:21:59 公開日:2024-03-11 |
# 動的人間行動のためのテキスト・ツー・Poseビデオ編集 Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions ( http://arxiv.org/abs/2403.07198v1 ) ライセンス: Link先を確認 | Lan Wang, Vishnu Boddeti, and Sernam Lim | (参考訳) 本稿では,新しいテキスト間ビデオ編集手法であるReimaginedActを紹介する。
既存のビデオ編集タスクは属性,背景,スタイルの変化に限られているが,本手法は映像のオープンエンドな人間の行動変化を予測することを目的としている。
さらに,本手法では,直接指示文のプロンプトだけでなく,行動変化を予測するための「もし」質問も受け付ける。
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
まず,まず LLM を用いて,(1)grounded-SAM に関連する個人の境界ボックスを作成させ,(2) 人間の行動の編集のために収集したポーズビデオの集合を検索する。
検索されたポーズビデオと検出された個人を用いて、元のビデオから抽出されたポーズを変更する。
また、必要な修正が必要な場合を除き、編集されたビデオが元のコンテンツを保持するようにするためのタイムステップブレンディングモジュールも使用しています。
テキスト間ビデオ編集の研究を容易にするために,新しい評価データセットWhatifVideo-1.0を導入する。
このデータセットには、さまざまな難易度にまたがるさまざまなシナリオのビデオと、質問やテキストプロンプトが含まれている。
実験の結果,既存の映像編集手法は人間の行動編集に苦しむのに対し,本手法は効果的な行動編集や,虚偽の質問からの虚偽の編集さえも達成できることがわかった。 We introduce a novel text-to-pose video editing method, ReimaginedAct. While existing video editing tasks are limited to changes in attributes, backgrounds, and styles, our method aims to predict open-ended human action changes in video. Moreover, our method can accept not only direct instructional text prompts but also `what if' questions to predict possible action changes. ReimaginedAct comprises video understanding, reasoning, and editing modules. First, an LLM is utilized initially to obtain a plausible answer for the instruction or question, which is then used for (1) prompting Grounded-SAM to produce bounding boxes of relevant individuals and (2) retrieving a set of pose videos that we have collected for editing human actions. The retrieved pose videos and the detected individuals are then utilized to alter the poses extracted from the original video. We also employ a timestep blending module to ensure the edited video retains its original content except where necessary modifications are needed. To facilitate research in text-to-pose video editing, we introduce a new evaluation dataset, WhatifVideo-1.0. This dataset includes videos of different scenarios spanning a range of difficulty levels, along with questions and text prompts. Experimental results demonstrate that existing video editing methods struggle with human action editing, while our approach can achieve effective action editing and even imaginary editing from counterfactual questions. | 翻訳日:2024-03-13 23:21:15 公開日:2024-03-11 |
# モデルカウントによる量子回路のシミュレーション Simulating Quantum Circuits by Model Counting ( http://arxiv.org/abs/2403.07197v1 ) ライセンス: Link先を確認 | Jingyi Mei, Marcello Bonsangue and Alfons Laarman | (参考訳) 量子回路のコンパイルは、#$\mathbf{P}$ と $\mathbf{PP}$ の中にある多くの計算難解な推論タスクから構成される。
一般量子回路の古典的なシミュレーションは中核的な例である。
本稿では、clifford+t回路の線形符号化により、重み付きモデルカウントにより、ユニバーサル量子回路の強力なシミュレーションを効率的に行うことを初めて示す。
これを達成するために、knill、gottesmann、aaronsonによる安定化形式を活用し、安定化状態が密度作用素の基礎を形成するという事実を利用する。
オープンソースシミュレータの実装により,zx計算と決定ダイアグラムに基づくシミュレーション手法において,モデルカウントがしばしば最先端シミュレーション技術を上回ることを実証的に示す。
私たちの研究は、効率的な量子回路のコンパイルを実現するために、既存の強力な古典的推論ツールを適用する方法を示しています。 Quantum circuit compilation comprises many computationally hard reasoning tasks that nonetheless lie inside #$\mathbf{P}$ and its decision counterpart in $\mathbf{PP}$. The classical simulation of general quantum circuits is a core example. We show for the first time that a strong simulation of universal quantum circuits can be efficiently tackled through weighted model counting by providing a linear encoding of Clifford+T circuits. To achieve this, we exploit the stabilizer formalism by Knill, Gottesmann, and Aaronson and the fact that stabilizer states form a basis for density operators. With an open-source simulator implementation, we demonstrate empirically that model counting often outperforms state-of-the-art simulation techniques based on the ZX calculus and decision diagrams. Our work paves the way to apply the existing array of powerful classical reasoning tools to realize efficient quantum circuit compilation; one of the obstacles on the road towards quantum supremacy. | 翻訳日:2024-03-13 23:20:51 公開日:2024-03-11 |
# CuentosIE: “メッセージ付きメッセージ”というチャットボットは,感情的なインテリジェンスを教える上で有効でしょうか? CuentosIE: can a chatbot about "tales with a message" help to teach emotional intelligence? ( http://arxiv.org/abs/2403.07193v1 ) ライセンス: Link先を確認 | Antonio Ferr\'andez, Roc\'io Lavigne-Cerv\'an, Jes\'us Peral, Ignasi Navarro-Soria, \'Angel Lloret, David Gil, Carmen Rocamora | (参考訳) 本稿では,教師や心理学者に対して,QuentosIE(TalesEI: chatbot of tales with a message with a talk to developing Emotional Intelligence)という,感情の学習用チャットボットについて紹介する。
メッセージ付き物語」の使用は、道徳的あるいは関連するメタファーのおかげで、その単純さと理解が正当化される。
cuentosieの主な貢献は、高度に専門化された物語のセットの選択、収集、分類であり、また、感情についてユーザーを教育し、感情の発達を監視するのに役立つツール(検索、読解、チャット、推薦、分類)の提供である。
ツールの予備評価は、記事のタイトルに記載された質問に対する肯定的な回答を提供する奨励的な結果を得た。 In this article, we present CuentosIE (TalesEI: chatbot of tales with a message to develop Emotional Intelligence), an educational chatbot on emotions that also provides teachers and psychologists with a tool to monitor their students/patients through indicators and data compiled by CuentosIE. The use of "tales with a message" is justified by their simplicity and easy understanding, thanks to their moral or associated metaphors. The main contributions of CuentosIE are the selection, collection, and classification of a set of highly specialized tales, as well as the provision of tools (searching, reading comprehension, chatting, recommending, and classifying) that are useful for both educating users about emotions and monitoring their emotional development. The preliminary evaluation of the tool has obtained encouraging results, which provides an affirmative answer to the question posed in the title of the article. | 翻訳日:2024-03-13 23:20:36 公開日:2024-03-11 |
# 陰イオンに対する基底状態の欠如 Absence of ground states for anions ( http://arxiv.org/abs/2403.07642v1 ) ライセンス: Link先を確認 | Yukimi Goto | (参考訳) N$電子ハミルトニアン$H(N, Z)$と総核電荷$Z$は、基底状態エネルギー$E(N, Z)$が$E(N, Z)=E(N-1, Z)$を$Z=N-1$としたとき、正規化可能な基底状態を持たないことを示す。
アニオン $\mathrm{He}^-, \mathrm{Be}^-, \mathrm{N}^-, \mathrm{Ne}^-$, etc. に対して、多くの数値結果は、条件 $E(N, Z) = E(N-1, Z)$ の強い証拠を与える。 We show that the $N$-electron Hamiltonian $H(N, Z)$ with the total nuclear charge $Z$ has no normalizable ground state if the ground state energy $E(N, Z)$ satisfies $E(N, Z)= E(N-1, Z)$ for $Z=N-1$. For anions $\mathrm{He}^-, \mathrm{Be}^-, \mathrm{N}^-, \mathrm{Ne}^-$, etc., many numerical results give strong evidence of the condition $E(N, Z)= E(N-1, Z)$. | 翻訳日:2024-03-13 21:24:34 公開日:2024-03-11 |
# 非局在状態からの量子ウォークによる高忠実状態伝達 High-fidelity state transfer via quantum walks from delocalized states ( http://arxiv.org/abs/2112.03429v3 ) ライセンス: Link先を確認 | Jo\~ao P. Engster, Rafael Vieira, Eduardo I. Duzzioni, Edgard P. M. Amorim | (参考訳) 有界な一次元経路上に置かれた量子ウォークによる状態伝達について検討する。
まず、ガウス状態から連続時間量子ウォークを考える。
開始位置と反足脚位置を中心に重畳することで,長期間にわたって高い忠実度を保ち,また大きな円グラフで送出する場合には,そのような状態が生じる。
さらに、これはヌル群速度で広がる。
また、離散時間量子ウォークを探索し、ウォークを通して量子ビットの忠実度を評価する。
この場合、初期状態は、立方体とガウス的位置状態の重ね合わせの間の状態の積である。
次に、2つの$\sigma_x$ゲートを加えて、この非局在化キュービットを閉じ込めます。
また、この有界系は初期分離状態の周期的回復を動的に行うことができる。
我々は,この結果の応用を動的グラフで概説し,利用可能な文献に基づいて実装するための量子回路を提案する。 We study the state transfer through quantum walks placed on a bounded one-dimensional path. We first consider continuous-time quantum walks from a Gaussian state. We find such a state when superposing centered on the starting and antipodal positions preserves a high fidelity for a long time and when sent on large circular graphs. Furthermore, it spreads with a null group velocity. We also explore discrete-time quantum walks to evaluate the qubit fidelity throughout the walk. In this case, the initial state is a product of states between a qubit and a Gaussian superposition of position states. Then, we add two $\sigma_x$ gates to confine this delocalized qubit. We also find that this bounded system dynamically enables periodic recovery of the initial separable state. We outline some applications of our results in dynamic graphs and propose quantum circuits to implement them based on the available literature. | 翻訳日:2024-03-13 18:17:31 公開日:2024-03-11 |
# 任意の対戦相手を持つ未知ゼロサム確率ゲームに対するベイズ学習アルゴリズム A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent ( http://arxiv.org/abs/2109.03396v3 ) ライセンス: Link先を確認 | Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar | (参考訳) 本稿では,ゼロサム確率ゲームのための後方サンプリング強化学習(PSRL-ZSG)を提案する。これは,平均逆基準付き無限水平ゼロサム確率ゲームにおいて,ベイズ的残差を$O(HS\sqrt{AT})$とする最初のオンライン学習アルゴリズムである。
ここで、$H$はバイアス関数の幅の上限、$S$は状態の数、$A$は共同アクションの数、$T$は地平線である。
我々は、対戦相手を制御できず、任意の時間順応的履歴依存戦略を採れるオンライン環境を考える。
我々の後悔境界は、同じ仮定の下でWei et al. (2017) による$O(\sqrt[3]{DS^2AT^2}) の最良の後悔境界を改善し、$T$ の理論的下界と一致する。 In this paper, we propose Posterior Sampling Reinforcement Learning for Zero-sum Stochastic Games (PSRL-ZSG), the first online learning algorithm that achieves Bayesian regret bound of $O(HS\sqrt{AT})$ in the infinite-horizon zero-sum stochastic games with average-reward criterion. Here $H$ is an upper bound on the span of the bias function, $S$ is the number of states, $A$ is the number of joint actions and $T$ is the horizon. We consider the online setting where the opponent can not be controlled and can take any arbitrary time-adaptive history-dependent strategy. Our regret bound improves on the best existing regret bound of $O(\sqrt[3]{DS^2AT^2})$ by Wei et al. (2017) under the same assumption and matches the theoretical lower bound in $T$. | 翻訳日:2024-03-13 18:16:08 公開日:2024-03-11 |
# 適応変分ベイズ:最適性、計算および応用 Adaptive variational Bayes: Optimality, computation and applications ( http://arxiv.org/abs/2109.03204v4 ) ライセンス: Link先を確認 | Ilsang Ohn, Lizhen Lin | (参考訳) 本稿では,変分ベイズに基づく適応推論について検討する。
変分後部の収縮特性を解析するためにいくつかの研究が行われてきたが、適応的推論を行う一般かつ計算可能な変分ベイズ法がまだ存在しない。
このギャップを埋めるために,モデルの集合上で動作可能な適応型変分ベイズフレームワークを提案する。
提案手法はまず,各モデル上の変動後部を個別に計算し,それを一定の重みと組み合わせてモデル全体の変動後部を生成する。
この複合変分後縁は、事前定義された分布の族において、モデル全体よりも後縁に最も近いことが判明した。
適応変分ベイズは非常に一般的な条件下で最適な収縮率が得られることを示す。
また, スパースモデルなど多数の個別モデルが存在する場合でも, 適応変分ベイズの移動性と適応的最適性を維持する手法を提案する。
ディープラーニングやスパースファクタモデルなど,いくつかの例に一般的な結果を適用し,新しい適応的推論結果から導出する。
さらに,変分ベイズの暗黙の正則化効果を特徴付け,適応変分後方がこれを利用できることを示す。 In this paper, we explore adaptive inference based on variational Bayes. Although several studies have been conducted to analyze the contraction properties of variational posteriors, there is still a lack of a general and computationally tractable variational Bayes method that performs adaptive inference. To fill this gap, we propose a novel adaptive variational Bayes framework, which can operate on a collection of models. The proposed framework first computes a variational posterior over each individual model separately and then combines them with certain weights to produce a variational posterior over the entire model. It turns out that this combined variational posterior is the closest member to the posterior over the entire model in a predefined family of approximating distributions. We show that the adaptive variational Bayes attains optimal contraction rates adaptively under very general conditions. We also provide a methodology to maintain the tractability and adaptive optimality of the adaptive variational Bayes even in the presence of an enormous number of individual models, such as sparse models. We apply the general results to several examples, including deep learning and sparse factor models, and derive new and adaptive inference results. In addition, we characterize an implicit regularization effect of variational Bayes and show that the adaptive variational posterior can utilize this. | 翻訳日:2024-03-13 18:15:44 公開日:2024-03-11 |
# 大量の注釈付きデータベースによる深度検出の公平性の解析 Analyzing Fairness in Deepfake Detection With Massively Annotated Databases ( http://arxiv.org/abs/2208.05845v4 ) ライセンス: Link先を確認 | Ying Xu, Philipp Terh\"orst, Kiran Raja, Marius Pedersen | (参考訳) 近年、Deepfakeによる画像とビデオの操作は、セキュリティと社会にとって深刻な懸念となっている。
ディープフェイクデータを確実に検出するために、多くの検出モデルとデータセットが提案されている。
しかし、これらのモデルとトレーニングデータベースが偏りがあり、ディープフェイク検出器が故障するのではないかとの懸念が高まっている。
本研究では,公開Deepfakeデータセットにおけるバイアス検出要因について検討する。
(a)5つの人気のDeepfakeデータセットと47の属性を持つ大規模および非デコグラフィ属性アノテーションを作成する。
b) これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスをもたらす属性を包括的に分析する。
分析の結果,年齢,性別,民族,非デポグラフィ属性(髪,肌,アクセサリーなど)を含む検出性能に,様々な特徴(65m以上のラベルを含む)が与える影響が示された。
その結果,データセットの多様性は限定的であり,さらに重要なのは,deepfake検出バックボーンモデルの利用が,属性間の公平さを損なう調査結果の影響を強く受けていることであった。
このような不均衡/バイアスのデータセットでトレーニングされたDeepfake検出バックボーンメソッドは、誤った検出結果の結果、一般性、公正性、セキュリティ問題を引き起こす。
我々の発見と注釈付きデータセットは、ディープフェイク検出技術におけるバイアスの評価と軽減のために将来の研究を導く。
注釈付きデータセットと対応するコードが公開されている。 In recent years, image and video manipulations with Deepfake have become a severe concern for security and society. Many detection models and datasets have been proposed to detect Deepfake data reliably. However, there is an increased concern that these models and training databases might be biased and, thus, cause Deepfake detectors to fail. In this work, we investigate factors causing biased detection in public Deepfake datasets by (a) creating large-scale demographic and non-demographic attribute annotations with 47 different attributes for five popular Deepfake datasets and (b) comprehensively analysing attributes resulting in AI-bias of three state-of-the-art Deepfake detection backbone models on these datasets. The analysis shows how various attributes influence a large variety of distinctive attributes (from over 65M labels) on the detection performance which includes demographic (age, gender, ethnicity) and non-demographic (hair, skin, accessories, etc.) attributes. The results examined datasets show limited diversity and, more importantly, show that the utilised Deepfake detection backbone models are strongly affected by investigated attributes making them not fair across attributes. The Deepfake detection backbone methods trained on such imbalanced/biased datasets result in incorrect detection results leading to generalisability, fairness, and security issues. Our findings and annotated datasets will guide future research to evaluate and mitigate bias in Deepfake detection techniques. The annotated datasets and the corresponding code are publicly available. | 翻訳日:2024-03-13 18:11:01 公開日:2024-03-11 |
# オンラインバイレベル最適化:オンライン交互勾配法の後悔分析 Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods ( http://arxiv.org/abs/2207.02829v6 ) ライセンス: Link先を確認 | Davoud Ataee Tarzanagh, Parvin Nazari, Bojian Hou, Li Shen, Laura Balzano | (参考訳) 本稿では,時間変動二レベル問題の列を次々に明らかにする \textit{online bilevel optimization} を提案する。
我々は、シングルレベルオンラインアルゴリズムの既知の後悔の限界を二レベル設定に拡張する。
具体的には, \textit{bilevel regret} という概念を新たに提供し,滑らかさを活用できるオンラインの交代時間平均勾配法を開発し,内側および外側の最小化配列の経路長の観点で後悔の限界を与える。 This paper introduces \textit{online bilevel optimization} in which a sequence of time-varying bilevel problems is revealed one after the other. We extend the known regret bounds for single-level online algorithms to the bilevel setting. Specifically, we provide new notions of \textit{bilevel regret}, develop an online alternating time-averaged gradient method that is capable of leveraging smoothness, and give regret bounds in terms of the path-length of the inner and outer minimizer sequences. | 翻訳日:2024-03-13 18:10:39 公開日:2024-03-11 |
# OpenXAI: モデル説明の透明な評価を目指して OpenXAI: Towards a Transparent Evaluation of Model Explanations ( http://arxiv.org/abs/2206.11104v4 ) ライセンス: Link先を確認 | Chirag Agarwal, Dan Ley, Eshika Saxena, Satyapriya Krishna, Martin Pawelczyk, Nari Johnson, Isha Puri, Marinka Zitnik, and Himabindu Lakkaraju | (参考訳) 最近の文献ではポストホックな説明手法がいくつか提案されているが、これらの手法を体系的にベンチマークする作業はほとんどない。
本稿では,ポストホックな説明手法の評価とベンチマークを行う,包括的で拡張可能なオープンソースフレームワークであるOpenXAIを紹介する。
OpenXAIは以下のキーコンポーネントで構成されています。
一 フレキシブルな合成データ生成装置及び多様な実世界のデータセット、事前訓練されたモデル及び最先端の特徴属性方法の収集
(ii) 忠実性、安定性(ロバスト性)、説明方法の公平性を評価するための11の定量的指標をオープンソースで実装し、様々なメトリクス、モデル、データセットにまたがる複数の説明方法の比較を提供する。
OpenXAIは、ユーザがカスタムな説明方法を評価し、それをリーダーボードに組み込むことができるので、容易に拡張できます。
全体として、OpenXAIは、ポストホックな説明手法の評価を単純化し標準化するだけでなく、これらの手法のベンチマークにおける透明性と再現性を促進する、エンドツーエンドの自動パイプラインを提供する。
OpenXAIの最初のリリースは表形式のデータセットのみをサポートしているが、私たちが考慮している説明方法とメトリクスは他のデータモダリティにも適用できる。
openxaiデータセットとモデル、最先端の説明メソッドと評価メトリクスの実装は、このgithubリンクで公開されている。 While several types of post hoc explanation methods have been proposed in recent literature, there is very little work on systematically benchmarking these methods. Here, we introduce OpenXAI, a comprehensive and extensible open-source framework for evaluating and benchmarking post hoc explanation methods. OpenXAI comprises of the following key components: (i) a flexible synthetic data generator and a collection of diverse real-world datasets, pre-trained models, and state-of-the-art feature attribution methods, and (ii) open-source implementations of eleven quantitative metrics for evaluating faithfulness, stability (robustness), and fairness of explanation methods, in turn providing comparisons of several explanation methods across a wide variety of metrics, models, and datasets. OpenXAI is easily extensible, as users can readily evaluate custom explanation methods and incorporate them into our leaderboards. Overall, OpenXAI provides an automated end-to-end pipeline that not only simplifies and standardizes the evaluation of post hoc explanation methods, but also promotes transparency and reproducibility in benchmarking these methods. While the first release of OpenXAI supports only tabular datasets, the explanation methods and metrics that we consider are general enough to be applicable to other data modalities. OpenXAI datasets and models, implementations of state-of-the-art explanation methods and evaluation metrics, are publicly available at this GitHub link. | 翻訳日:2024-03-13 18:09:54 公開日:2024-03-11 |
# ニューラルコードモデルにおけるProject-Specific Biasの展開 Unveiling Project-Specific Bias in Neural Code Models ( http://arxiv.org/abs/2201.07381v2 ) ライセンス: Link先を確認 | Zhiming Li, Yanzhou Li, Tianlin Li, Mengnan Du, Bozhi Wu, Yushi Cao, Junzhe Jiang, Yang Liu | (参考訳) ディープラーニングは多くのソフトウェア分析タスクで大幅に改善されている。
大規模言語モデル(llms)ベースのニューラルコードモデルは、プロジェクト内独立かつ同一の分散(iid)設定でトレーニングとテストを行う場合、賞賛に値するパフォーマンスを示すが、実際のプロジェクト間分散(ood)データに効果的に一般化するのに苦労することが多い。
本研究は,この現象が地中証拠ではなく,プロジェクト固有の予測ショートカットに依存することによるものであることを示す。
本稿では,トークンとラベルの関連性とそのプロジェクト固有性を定量化するCond-Idf測定法を提案する。
モデル行動と提案手法との強い相関関係は,適切な正規化がなければ,モデルが散発的な統計的手がかりを予測に活用する傾向があることを示している。
そこで本研究では,標本間の潜在論理関係を利用してモデルの学習行動を規則化するバイアス緩和機構を提案する。
2つの代表的なプログラム解析タスクの実験結果から,プロジェクト間OOD一般化と対向ロバスト性の両方を改善することができるが,プロジェクト内IIDデータでは精度を犠牲にしない。 Deep learning has introduced significant improvements in many software analysis tasks. Although the Large Language Models (LLMs) based neural code models demonstrate commendable performance when trained and tested within the intra-project independent and identically distributed (IID) setting, they often struggle to generalize effectively to real-world inter-project out-of-distribution (OOD) data. In this work, we show that this phenomenon is caused by the heavy reliance on project-specific shortcuts for prediction instead of ground-truth evidence. We propose a Cond-Idf measurement to interpret this behavior, which quantifies the relatedness of a token with a label and its project-specificness. The strong correlation between model behavior and the proposed measurement indicates that without proper regularization, models tend to leverage spurious statistical cues for prediction. Equipped with these observations, we propose a novel bias mitigation mechanism that regularizes the model's learning behavior by leveraging latent logic relations among samples. Experimental results on two representative program analysis tasks indicate that our mitigation framework can improve both inter-project OOD generalization and adversarial robustness, while not sacrificing accuracy on intra-project IID data. | 翻訳日:2024-03-13 18:07:09 公開日:2024-03-11 |
# ネスト型非パラメトリックインストゥルメンタル・レグレッション : 長期的・媒介的・時間的変化による治療効果 Nested Nonparametric Instrumental Variable Regression: Long Term, Mediated, and Time Varying Treatment Effects ( http://arxiv.org/abs/2112.14249v3 ) ライセンス: Link先を確認 | Isaac Meza and Rahul Singh | (参考訳) ショートパネルデータモデルにおけるいくつかの因果パラメータは、ネスト非パラメトリックインストゥルメンタル変数回帰(nested npiv)と呼ばれる関数のスカラー和である。
例えば、長期的、仲介的、およびプロキシ変数を用いて識別される時間の異なる処理効果がある。
しかしながら、ネストされたNPIVの事前推定や保証は存在せず、これらの因果パラメータの柔軟な推定と推測を妨げている。
主な課題は、ネストした逆問題による不正なポーズを複合することである。
ネストしたnpivの逆推定器を分析し,因果パラメータの効率的な推論に十分な条件を提供する。
nonasymptotic analysisには3つの特徴があります。
(i) ポーズ性化合物の悪影響を制限する技術の導入
(ii)ニューラルネットワーク、ランダムフォレスト、カーネルヒルベルト空間の再生
(iii)因果機能、例えば長期の不均一な治療効果にまで拡張する。
プロジェクトSTARの長期的不均一な治療効果と,作業部署の介在的近位治療効果を測定した。 Several causal parameters in short panel data models are scalar summaries of a function called a nested nonparametric instrumental variable regression (nested NPIV). Examples include long term, mediated, and time varying treatment effects identified using proxy variables. However, it appears that no prior estimators or guarantees for nested NPIV exist, preventing flexible estimation and inference for these causal parameters. A major challenge is compounding ill posedness due to the nested inverse problems. We analyze adversarial estimators of nested NPIV, and provide sufficient conditions for efficient inference on the causal parameter. Our nonasymptotic analysis has three salient features: (i) introducing techniques that limit how ill posedness compounds; (ii) accommodating neural networks, random forests, and reproducing kernel Hilbert spaces; and (iii) extending to causal functions, e.g. long term heterogeneous treatment effects. We measure long term heterogeneous treatment effects of Project STAR and mediated proximal treatment effects of the Job Corps. | 翻訳日:2024-03-13 18:06:44 公開日:2024-03-11 |
# ほぼ最適非パラメトリックシーケンステストと依存性のある観測による信頼度シーケンス Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations ( http://arxiv.org/abs/2212.14411v5 ) ライセンス: Link先を確認 | Aurelien Bibaut, Nathan Kallus, Michael Lindon | (参考訳) 任意の停止時間で有効な逐次テストとそのインプリート信頼シーケンスは、柔軟な統計的推測とオンザフライ決定を約束する。
しかし、強い保証は、実際には未発見のパラメトリックシーケンシャルテストや、過剰にカバーし、最適な拒絶時間を持つ濃度境界ベースのシーケンスに限られる。
そこで本研究では,従来の遅延開始型正規混合確率比テストについて検討し,非パラメトリックデータ生成プロセスにおける最初の漸近型I-エラーと予測退避時間保証を提供する。
タイプIエラーの結果は、主にマーチンゲールの強い不変原理を利用し、これらのテスト(およびそれらの命令された信頼シーケンス)が、望まれる(おそらく変化する)$\alpha$-レベルと漸近的に同値であることを示す。
期待排除時間の結果は、主に it\^o の補題に触発された同一性を利用しており、特定の漸近的な方法では、期待拒否時間は $\alpha$ レベルのテストで可能な最小値と漸近的に等しいことを暗示している。
平均治療効果などの方程式を推定したパラメータの逐次推定に本結果を適用する方法を示す。
この結果から,これらの実験を汎用性,非パラメトリック性,準最適性として確立した。
数値シミュレーションと実データによるNetflixのA/Bテストの応用について説明する。 Sequential tests and their implied confidence sequences, which are valid at arbitrary stopping times, promise flexible statistical inference and on-the-fly decision making. However, strong guarantees are limited to parametric sequential tests that under-cover in practice or concentration-bound-based sequences that over-cover and have suboptimal rejection times. In this work, we consider classic delayed-start normal-mixture sequential probability ratio tests, and we provide the first asymptotic type-I-error and expected-rejection-time guarantees under general non-parametric data generating processes, where the asymptotics are indexed by the test's burn-in time. The type-I-error results primarily leverage a martingale strong invariance principle and establish that these tests (and their implied confidence sequences) have type-I error rates asymptotically equivalent to the desired (possibly varying) $\alpha$-level. The expected-rejection-time results primarily leverage an identity inspired by It\^o's lemma and imply that, in certain asymptotic regimes, the expected rejection time is asymptotically equivalent to the minimum possible among $\alpha$-level tests. We show how to apply our results to sequential inference on parameters defined by estimating equations, such as average treatment effects. Together, our results establish these (ostensibly parametric) tests as general-purpose, non-parametric, and near-optimal. We illustrate this via numerical simulations and a real-data application to A/B testing at Netflix. | 翻訳日:2024-03-13 18:02:22 公開日:2024-03-11 |
# Visual CPG-RL:視覚誘導四足歩行のための中央パターン生成器の学習 Visual CPG-RL: Learning Central Pattern Generators for Visually-Guided Quadruped Locomotion ( http://arxiv.org/abs/2212.14400v2 ) ライセンス: Link先を確認 | Guillaume Bellegarda, Milad Shafiee, Auke Ijspeert | (参考訳) 本稿では,複合発振器のシステムである外部知覚・中央パターン生成器(CPG)を深部強化学習(DRL)フレームワークに統合することにより,視覚誘導四足歩行を学習するための枠組みを提案する。
エクスセプティブとプロプリセプティブの両方のセンシングを通じて、エージェントは異なる発振器間のリズム動作を調整して速度指令を追跡すると同時に、これらのコマンドをオーバーライドして環境との衝突を避ける。
オープンロボティクスと神経科学に関するいくつかの質問について調べる。
1) 振動子間の明示的な振動子間カップリングの役割は何か、そのようなカップリングはナビゲーションのロバスト性を改善することができるのか?
2)sim-to-realナビゲーションタスクにおけるロバスト性,エネルギ効率,トラッキング性能に関して,メモリ対応対メモリフリーポリシネットワークの効果はどのようなものか?
3)動物はどのようにして高い感覚運動遅延を許容するが、滑らかでロバストな歩行をするのだろうか。
これらの質問に答えるために、私たちは知覚的なロコモーションポリシーをシミュレーションで訓練し、unitree go1 4rupedへのsim-to-real転送を行い、さまざまなシナリオでロバストなナビゲーションを観察します。
以上の結果から, CPG, 明示的インターオシレータ結合, メモリ対応ポリシ表現は, エネルギー効率, 90msのノイズや知覚遅延に対する頑健性, ナビゲーションタスクのシミュレート・リアル転送における性能の追跡に有用であることが示唆された。
ビデオ結果はhttps://youtu.be/wpsbSMzIwgMで見ることができる。 We present a framework for learning visually-guided quadruped locomotion by integrating exteroceptive sensing and central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework. Through both exteroceptive and proprioceptive sensing, the agent learns to coordinate rhythmic behavior among different oscillators to track velocity commands, while at the same time override these commands to avoid collisions with the environment. We investigate several open robotics and neuroscience questions: 1) What is the role of explicit interoscillator couplings between oscillators, and can such coupling improve sim-to-real transfer for navigation robustness? 2) What are the effects of using a memory-enabled vs. a memory-free policy network with respect to robustness, energy-efficiency, and tracking performance in sim-to-real navigation tasks? 3) How do animals manage to tolerate high sensorimotor delays, yet still produce smooth and robust gaits? To answer these questions, we train our perceptive locomotion policies in simulation and perform sim-to-real transfers to the Unitree Go1 quadruped, where we observe robust navigation in a variety of scenarios. Our results show that the CPG, explicit interoscillator couplings, and memory-enabled policy representations are all beneficial for energy efficiency, robustness to noise and sensory delays of 90 ms, and tracking performance for successful sim-to-real transfer for navigation tasks. Video results can be found at https://youtu.be/wpsbSMzIwgM. | 翻訳日:2024-03-13 18:01:51 公開日:2024-03-11 |
# PhAST:加速触媒設計のための物理認識,スケーラブル,タスク固有GNN PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated Catalyst Design ( http://arxiv.org/abs/2211.12020v4 ) ライセンス: Link先を確認 | Alexandre Duval, Victor Schmidt, Santiago Miret, Yoshua Bengio, Alex Hern\'andez-Garc\'ia, David Rolnick | (参考訳) 気候変動の緩和には、低炭素エネルギーへの急速な移行が必要である。
触媒材料は、再生可能エネルギー貯蔵や電気燃料合成など、多くの産業プロセスにおける電気化学反応において重要な役割を担っている。
このような活性に費やされるエネルギーを減らすために、電気化学反応を駆動するより効率的な触媒を迅速に発見する必要がある。
機械学習(ML)は、大量のデータから材料特性を効率的にモデル化する可能性を秘めている。
この目的のためにopen catalyst project oc20データセットが構築された。
しかし、OC20でトレーニングされたMLモデルは、実用アプリケーションに十分なスケーラビリティや正確性を持っていない。
本稿では,ほとんどのアーキテクチャに適用可能なタスク固有の革新を提案し,計算効率と精度の両立を図る。
これには(1)グラフ作成ステップ、(2)原子表現、(3)エネルギー予測ヘッド、(4)力予測ヘッドの改善が含まれる。
これらの貢献をPhASTと呼び、複数のアーキテクチャ上で徹底的に評価する。
全体として、PhASTは目標タスク/モデルに応じて計算時間を3から8$\times$に分割しながら、エネルギーMAEを4から42$\%$に改善する。
PhASTはCPUトレーニングも可能で、高度に並列化された設定で40$\times$のスピードアップを実現している。
pythonパッケージ: \url{https://phast.readthedocs.io} Mitigating the climate crisis requires a rapid transition towards lower-carbon energy. Catalyst materials play a crucial role in the electrochemical reactions involved in numerous industrial processes key to this transition, such as renewable energy storage and electrofuel synthesis. To reduce the energy spent on such activities, we must quickly discover more efficient catalysts to drive electrochemical reactions. Machine learning (ML) holds the potential to efficiently model materials properties from large amounts of data, accelerating electrocatalyst design. The Open Catalyst Project OC20 dataset was constructed to that end. However, ML models trained on OC20 are still neither scalable nor accurate enough for practical applications. In this paper, we propose task-specific innovations applicable to most architectures, enhancing both computational efficiency and accuracy. This includes improvements in (1) the graph creation step, (2) atom representations, (3) the energy prediction head, and (4) the force prediction head. We describe these contributions, referred to as PhAST, and evaluate them thoroughly on multiple architectures. Overall, PhAST improves energy MAE by 4 to 42$\%$ while dividing compute time by 3 to 8$\times$ depending on the targeted task/model. PhAST also enables CPU training, leading to 40$\times$ speedups in highly parallelized settings. Python package: \url{https://phast.readthedocs.io}. | 翻訳日:2024-03-13 18:00:31 公開日:2024-03-11 |
# Min-SNR重み付けによる効率的な拡散訓練 Efficient Diffusion Training via Min-SNR Weighting Strategy ( http://arxiv.org/abs/2303.09556v3 ) ライセンス: Link先を確認 | Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo | (参考訳) 減音拡散モデルは画像生成の主流の手法であるが、これらのモデルの訓練はしばしば収束の遅さに苦しむ。
本稿では,時間ステップ間の最適化方向の矛盾による収束が遅いことを発見した。
この問題に対処するため,拡散学習をマルチタスク学習問題として扱うとともに,Min-SNR-$\gamma$と呼ばれるシンプルなアプローチを導入する。
本手法は,信号対雑音比に基づいて時間ステップの損失重みを適応させ,時間ステップ間の競合を効果的にバランスさせる。
その結果,収束速度が大幅に向上し,従来の重み付け戦略よりも3.4$\times$が速くなった。
また、imagenetの256\times256$ベンチマークで、以前の最先端アーキテクチャよりも小さなアーキテクチャを使用して、新しい記録fidスコアを2.06で達成した方が、より効果的である。
コードはhttps://github.com/TiankaiHang/Min-SNR-Diffusion-Trainingで公開されている。 Denoising diffusion models have been a mainstream approach for image generation, however, training these models often suffers from slow convergence. In this paper, we discovered that the slow convergence is partly due to conflicting optimization directions between timesteps. To address this issue, we treat the diffusion training as a multi-task learning problem, and introduce a simple yet effective approach referred to as Min-SNR-$\gamma$. This method adapts loss weights of timesteps based on clamped signal-to-noise ratios, which effectively balances the conflicts among timesteps. Our results demonstrate a significant improvement in converging speed, 3.4$\times$ faster than previous weighting strategies. It is also more effective, achieving a new record FID score of 2.06 on the ImageNet $256\times256$ benchmark using smaller architectures than that employed in previous state-of-the-art. The code is available at https://github.com/TiankaiHang/Min-SNR-Diffusion-Training. | 翻訳日:2024-03-13 17:50:05 公開日:2024-03-11 |
# ミニバッチ最適輸送によるフローベース生成モデルの改良と一般化 Improving and generalizing flow-based generative models with minibatch optimal transport ( http://arxiv.org/abs/2302.00482v4 ) ライセンス: Link先を確認 | Alexander Tong, Kilian Fatras, Nikolay Malkin, Guillaume Huguet, Yanlei Zhang, Jarrid Rector-Brooks, Guy Wolf, Yoshua Bengio | (参考訳) 連続正規化フロー(cnfs)は魅力的な生成的モデリング手法であるが、シミュレーションに基づく最大確率トレーニングの限界によって回避されている。
本稿では,CNFのシミュレーション不要な学習目標であるCFM(Generalized Conditional Flow Match)技術を紹介する。
cfmは拡散モデルの確率的流れを訓練するために使われるような安定した回帰目標を持っているが、決定論的フローモデルの効率的な推論を享受している。
拡散モデルとそれ以前のCNFトレーニングアルゴリズムの両方とは対照的に、CFMはソース分布をガウス的や密度評価を必要としない。
我々の目的の1つの変種は最適輸送CFM (OT-CFM) であり、これは訓練に安定であり、より高速な推論をもたらすより単純なフローを生成する。
さらに,真のOTプランが利用可能であれば,OT-CFM法が動的OTを近似することを示す。
CFMを用いたCNFのトレーニングは、単一セルダイナミクスの推測、教師なし画像翻訳、Schr\"odinger Bridge推論など、さまざまな条件および非条件生成タスクの結果を改善する。 Continuous normalizing flows (CNFs) are an attractive generative modeling technique, but they have been held back by limitations in their simulation-based maximum likelihood training. We introduce the generalized conditional flow matching (CFM) technique, a family of simulation-free training objectives for CNFs. CFM features a stable regression objective like that used to train the stochastic flow in diffusion models but enjoys the efficient inference of deterministic flow models. In contrast to both diffusion models and prior CNF training algorithms, CFM does not require the source distribution to be Gaussian or require evaluation of its density. A variant of our objective is optimal transport CFM (OT-CFM), which creates simpler flows that are more stable to train and lead to faster inference, as evaluated in our experiments. Furthermore, we show that when the true OT plan is available, our OT-CFM method approximates dynamic OT. Training CNFs with CFM improves results on a variety of conditional and unconditional generation tasks, such as inferring single cell dynamics, unsupervised image translation, and Schr\"odinger bridge inference. | 翻訳日:2024-03-13 17:47:54 公開日:2024-03-11 |
# OneDNN Graph Compiler: 高性能ディープラーニングコンパイルのためのハイブリッドアプローチ oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation ( http://arxiv.org/abs/2301.01333v3 ) ライセンス: Link先を確認 | Jianhui Li, Zhennan Qin, Yijie Mei, Jingze Cui, Yunfei Song, Ciyong Chen, Yifei Zhang, Longsheng Du, Xianhang Cheng, Baihui Jin, Yan Zhang, Jason Ye, Eric Lin, Dan Lavery | (参考訳) ディープラーニングモデルの急速な発展と高密度コンピューティングのハードウェアサポートにより、ディープラーニングのワークロード特性は、計算集約型オペレーションのいくつかのホットスポットから、モデル全体に散在する幅広いオペレーションへと大きく変化した。
プリミティブのエキスパートチューニングによる実装を使用して、いくつかの計算集約的な操作を加速することは、aiハードウェアのパフォーマンスポテンシャルを完全には活用しない。
フルディープニューラルネットワーク(DNN)グラフのコンパイルには,さまざまな取り組みが行われている。
計算集約型演算のエキスパートレベルパフォーマンスコードを生成し,DNN計算グラフの範囲内で複数の演算集約型演算に最適化を適用することで,高性能なテンソルコンパイルを実現する。
本稿では,1DNN Graph Compilerを提案する。1DNN Graph Compilerは,コンパイラ最適化とエキスパートチューニングカーネルを併用して,ディープニューラルネットワークグラフの高速コード生成を行うテンソルコンパイラである。
oneDNN Graph Compilerは、低精度の計算、グラフ操作のアグレッシブ融合、静的テンソル形状とメモリレイアウトの最適化、定数重み付け最適化、メモリバッファ再利用など、ディープラーニング領域におけるユニークな最適化課題に対処する。
実験の結果,既存のテンソルコンパイラやプリミティブライブラリに比べて,パフォーマンスクリティカルなDNN計算グラフやIntel Xeon Scalable Processorsのエンドツーエンドモデルに対して,大幅な性能向上が示された。 With the rapid development of deep learning models and hardware support for dense computing, the deep learning workload characteristics changed significantly from a few hot spots on compute-intensive operations to a broad range of operations scattered across the models. Accelerating a few compute-intensive operations using the expert-tuned implementation of primitives does not fully exploit the performance potential of AI hardware. Various efforts have been made to compile a full deep neural network (DNN) graph. One of the biggest challenges is to achieve high-performance tensor compilation by generating expert level performance code for the dense compute-intensive operations and applying compilation optimization at the scope of DNN computation graph across multiple compute-intensive operations. We present oneDNN Graph Compiler, a tensor compiler that employs a hybrid approach of using techniques from both compiler optimization and expert-tuned kernels for high performance code generation of the deep neural network graph. oneDNN Graph Compiler addresses unique optimization challenges in the deep learning domain, such as low-precision computation, aggressive fusion of graph operations, optimization for static tensor shapes and memory layout, constant weight optimization, and memory buffer reuse. Experimental results demonstrate significant performance gains over existing tensor compiler and primitives library for performance-critical DNN computation graphs and end-to-end models on Intel Xeon Scalable Processors. | 翻訳日:2024-03-13 17:45:52 公開日:2024-03-11 |
# rsba: 特権制約条件下でのロバストな統計バックドア攻撃 RSBA: Robust Statistical Backdoor Attack under Privilege-Constrained Scenarios ( http://arxiv.org/abs/2304.10985v2 ) ライセンス: Link先を確認 | Xiaolei Liu, Ming Yi, Kangyi Ding, Bangzhou Xin, Yixiao Xu, Li Yan, Chao Shen | (参考訳) 学習ベースのシステムはバックドア攻撃に弱いことが実証されており、悪意のあるユーザがターゲットモデルにバックドアを注入し、特定のトリガーでアクティベートすることで、モデルのパフォーマンスを操作できる。
以前のバックドア攻撃手法は、主に攻撃成功率とステルスネスの2つの重要な指標に焦点を当てていた。
しかしながら、これらの手法は、トレーニングプロセスの制御など、ターゲットモデルに対する重要な特権を必要とすることが多いため、現実のシナリオでは実装が困難になる。
さらに, 既存のバックドア攻撃の堅牢性は, 画像強化やモデル蒸留などの防御に敏感であることから保証されていない。
本稿では,これら2つの制限に対処し,RSBA(Robust Statistical Backdoor Attack under Privilege-Constrained Scenarios)を導入する。
RSBAのキーとなる洞察は、統計的特徴が自然に画像を異なるグループに分割し、トリガーの潜在的な実装を提供することである。
この種のトリガーは手動で設計したものよりも堅牢であり、通常の画像に広く分布している。
これらの統計トリガーを利用することで、rsbaはラベルや画像だけを毒殺することで攻撃者がブラックボックス攻撃を行えるようにする。
RSBAの画像増倍とモデル蒸留に対するロバスト性を実験的に理論的に実証した。
実験の結果、RSBAはブラックボックスのシナリオで99.83\%の攻撃成功率を達成した。
注目すべきは、モデル蒸留後も高い成功率を維持しており、攻撃者は学生モデルのトレーニングデータセットにアクセスできない(平均して1.39 %の成功率)。 Learning-based systems have been demonstrated to be vulnerable to backdoor attacks, wherein malicious users manipulate model performance by injecting backdoors into the target model and activating them with specific triggers. Previous backdoor attack methods primarily focused on two key metrics: attack success rate and stealthiness. However, these methods often necessitate significant privileges over the target model, such as control over the training process, making them challenging to implement in real-world scenarios. Moreover, the robustness of existing backdoor attacks is not guaranteed, as they prove sensitive to defenses such as image augmentations and model distillation. In this paper, we address these two limitations and introduce RSBA (Robust Statistical Backdoor Attack under Privilege-constrained Scenarios). The key insight of RSBA is that statistical features can naturally divide images into different groups, offering a potential implementation of triggers. This type of trigger is more robust than manually designed ones, as it is widely distributed in normal images. By leveraging these statistical triggers, RSBA enables attackers to conduct black-box attacks by solely poisoning the labels or the images. We empirically and theoretically demonstrate the robustness of RSBA against image augmentations and model distillation. Experimental results show that RSBA achieves a 99.83\% attack success rate in black-box scenarios. Remarkably, it maintains a high success rate even after model distillation, where attackers lack access to the training dataset of the student model (1.39\% success rate for baseline methods on average). | 翻訳日:2024-03-13 17:40:54 公開日:2024-03-11 |
# ReelFramer:ニューズ・トゥ・ビデオ翻訳のためのヒューマンAI共同編集 ReelFramer: Human-AI Co-Creation for News-to-Video Translation ( http://arxiv.org/abs/2304.09653v3 ) ライセンス: Link先を確認 | Sitong Wang, Samia Menon, Tao Long, Keren Henderson, Dingzeyu Li, Kevin Crowston, Mark Hansen, Jeffrey V. Nickerson, Lydia B. Chilton | (参考訳) ソーシャルメディア上の短いビデオは、若者がコンテンツを消費する主要な方法だ。
ニュースメディアはニュースリール(ニュースを流すショートビデオ)を通じて視聴者にリーチすることを目指しているが、伝統的なジャーナリストの形式を短くて楽しいビデオに変換するのに苦労している。
ニュースをソーシャルメディアのリールに翻訳するためには、ジャーナリストが物語を熟考するのをサポートする。
文学において、ナラティブフレーミングはストーリーの全体像を形成するハイレベルな構造である。
ソーシャルメディアの規範に適合するがニュース価値を保ち、それぞれ異なる情報とエンタテイメントのバランスを持つリールのための3つのナラティブ・フレーミングを同定した。
ReelFramerは、ジャーナリストが印刷物をスクリプトやストーリーボードに翻訳するのを支援する人間とAIの共同制作システムである。
ReelFramerは、ストーリーに適したものを見つけるために、複数のストーリーフレームの探索をサポートする。
AIは、キャラクター、プロット、セッティング、キー情報を含む基本的な物語の詳細を提案する。
ReelFramerはビジュアルフレーミングもサポートする。AIは完全なストーリーボードを生成する前に、キャラクタとビジュアルディテールの設計を提案する。
本研究は, 物語のフレーミングが, 様々な記事をリールに翻訳するために必要な多様性を導入し, 基礎的詳細を確立することによって, より関連性があり, 一貫性のあるスクリプトを生成することを示す。
また,コンテンツ再ターゲティングにおけるナラティブフレーミングと基礎的詳細の利用の利点についても論じる。 Short videos on social media are the dominant way young people consume content. News outlets aim to reach audiences through news reels -- short videos conveying news -- but struggle to translate traditional journalistic formats into short, entertaining videos. To translate news into social media reels, we support journalists in reframing the narrative. In literature, narrative framing is a high-level structure that shapes the overall presentation of a story. We identified three narrative framings for reels that adapt social media norms but preserve news value, each with a different balance of information and entertainment. We introduce ReelFramer, a human-AI co-creative system that helps journalists translate print articles into scripts and storyboards. ReelFramer supports exploring multiple narrative framings to find one appropriate to the story. AI suggests foundational narrative details, including characters, plot, setting, and key information. ReelFramer also supports visual framing; AI suggests character and visual detail designs before generating a full storyboard. Our studies show that narrative framing introduces the necessary diversity to translate various articles into reels, and establishing foundational details helps generate scripts that are more relevant and coherent. We also discuss the benefits of using narrative framing and foundational details in content retargeting. | 翻訳日:2024-03-13 17:40:00 公開日:2024-03-11 |
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化 LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v6 ) ライセンス: Link先を確認 | Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, and Ronggang Wang | (参考訳) 効果的な受容場(erf)は変換符号化において重要な役割を担っており、変換中にどれだけの冗長性を除去できるか、また逆変換中にテクスチャを合成するのにどれだけの空間的プリエントを使うことができるかを決定する。
既存の手法では、ERFが十分大きくない小さなカーネルのスタックや、高解像度画像符号化の可能性を制限する重い非局所的な注意機構に頼っている。
この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。
具体的には,学習画像圧縮コミュニティにおいて初めて,少ない複雑さを維持しつつ冗長性を向上させるために,カーネルベースの奥行き方向畳み込みをいくつか導入した。
画像の多様性の幅が広いため,自己条件で重みを生成することで畳み込みの適応性を高めることを提案する。
大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。
また,大規模カーネルの潜在能力を十分に活用するためのトレーニング手法の改善についても検討した。
さらに,チャネル間の相互作用を高めるために,チャネル重要度を自己条件で生成する適応的なチャネルワイドビット割り当てを提案する。
提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。
大規模な実験により,提案したLLICモデルは,対応するベースラインよりも大幅に改善され,最先端のパフォーマンスが達成され,性能と複雑性のトレードオフが向上した。 Effective Receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed at most during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERF remains not large enough instead, or heavy non-local attention mechanisms, which limit the potential of high resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in learned image compression community, we introduce a few large kernel-based depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to wide range of image diversity, we propose to enhance the adaptability of convolutions via generating weights in a self-conditioned manner. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter point-wise interactions. We also investigate improved training techniques to fully exploit the potential of large kernels. In addition, to enhance the interactions among channels, we propose the adaptive channel-wise bit allocation via generating channel importance factor in a self-conditioned manner. To demonstrate the effectiveness of proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, LLIC-TCM. Extensive experiments demonstrate our proposed LLIC models have significant improvements over corresponding baselines and achieve state-of-the-art performances and better trade-off between performance and complexity. | 翻訳日:2024-03-13 17:39:36 公開日:2024-03-11 |
# 線形プログラミングを用いたマルコフ決定過程におけるオンライン強化学習 Online Reinforcement Learning in Markov Decision Process Using Linear Programming ( http://arxiv.org/abs/2304.00155v3 ) ライセンス: Link先を確認 | Vincent Leon, S. Rasoul Etesami | (参考訳) 我々は,不確定な遷移関数と確率的報酬を有するマルコフ決定過程(mdp)におけるオンライン強化学習について検討する。
学習者は,環境との相互作用を通じて,最適方針を学習し,その後悔を最小限に抑えることを目的としている。
高確率で$\widetilde{O}(LX\sqrt{TA})$ regretを達成できる単純で効率的なモデルベースアルゴリズムを考案し、$L$はエピソードの長さ、$T$はエピソード数、$X$と$A$は状態空間とアクション空間の濃度である。
提案手法は「不確実性に直面した最適主義」の概念に基づいており、遷移関数と報酬関数の信頼セットを維持し、オンラインmdpと線形プログラミングをつなぐために占有測度を用いる。
同様の信頼セットフレームワークを使用しており、異なるフレームワークを使用しているものの、少し厳しい後悔のバウンドを持つものに比べて計算労力が向上している既存の作品に比べて、より厳格な後悔のバウンドを実現している。 We consider online reinforcement learning in episodic Markov decision process (MDP) with unknown transition function and stochastic rewards drawn from some fixed but unknown distribution. The learner aims to learn the optimal policy and minimize their regret over a finite time horizon through interacting with the environment. We devise a simple and efficient model-based algorithm that achieves $\widetilde{O}(LX\sqrt{TA})$ regret with high probability, where $L$ is the episode length, $T$ is the number of episodes, and $X$ and $A$ are the cardinalities of the state space and the action space, respectively. The proposed algorithm, which is based on the concept of ``optimism in the face of uncertainty", maintains confidence sets of transition and reward functions and uses occupancy measures to connect the online MDP with linear programming. It achieves a tighter regret bound compared to the existing works that use a similar confidence set framework and improves computational effort compared to those that use a different framework but with a slightly tighter regret bound. | 翻訳日:2024-03-13 17:37:58 公開日:2024-03-11 |
# unmasked teacher: トレーニング効率の高いビデオファウンデーションモデルに向けて Unmasked Teacher: Towards Training-Efficient Video Foundation Models ( http://arxiv.org/abs/2303.16058v2 ) ライセンス: Link先を確認 | Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao | (参考訳) ビデオファウンデーションモデル(vfms)は高い計算コストとデータの不足のため、限られた探索を受けた。
従来のvfmは、画像基盤モデル(ifms)に依存しており、ビデオ領域への転送の難しさに直面している。
VideoMAEは、限られたデータから堅牢なViTを訓練しているが、その低レベルの再構築は収束の困難と高レベルのクロスモーダルアライメントとの衝突を引き起こす。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
データ効率を向上させるために、低セマンティックなビデオトークンのほとんどをマスクするが、アンマスクされていないトークンをFM(UnMasked Teacher,UMT)に選択的にアライメントする。
本手法は,セマンティックガイダンスを提供することで,より高速な収束とマルチモーダルな親和性を実現する。
プログレッシブ事前学習フレームワークでは,シーン関連,時間関連,複雑なビデオ言語理解など,さまざまなタスクを処理可能である。
32のA100 GPUで6日間の事前トレーニングのために公開ソースのみを使用して、スクラッチで作られたViT-L/16は、さまざまなビデオタスクで最先端のパフォーマンスを実現します。
コードとモデルはhttps://github.com/opengvlab/unmasked_teacherでリリースされる。 Video Foundation Models (VFMs) have received limited exploration due to high computational costs and data scarcity. Previous VFMs rely on Image Foundation Models (IFMs), which face challenges in transferring to the video domain. Although VideoMAE has trained a robust ViT from limited data, its low-level reconstruction poses convergence difficulties and conflicts with high-level cross-modal alignment. This paper proposes a training-efficient method for temporal-sensitive VFMs that integrates the benefits of existing methods. To increase data efficiency, we mask out most of the low-semantics video tokens, but selectively align the unmasked tokens with IFM, which serves as the UnMasked Teacher (UMT). By providing semantic guidance, our method enables faster convergence and multimodal friendliness. With a progressive pre-training framework, our model can handle various tasks including scene-related, temporal-related, and complex video-language understanding. Using only public sources for pre-training in 6 days on 32 A100 GPUs, our scratch-built ViT-L/16 achieves state-of-the-art performances on various video tasks. The code and models will be released at https://github.com/OpenGVLab/unmasked_teacher. | 翻訳日:2024-03-13 17:37:16 公開日:2024-03-11 |
# 確率制御とゲームのための機械学習手法の最近の進歩 Recent Developments in Machine Learning Methods for Stochastic Control and Games ( http://arxiv.org/abs/2303.10257v3 ) ライセンス: Link先を確認 | Ruimeng Hu, Mathieu Lauri\`ere | (参考訳) 確率的最適制御とゲームは、金融や経済学から社会科学、ロボット工学、エネルギー管理まで幅広い応用がある。
多くの実世界の応用は、洗練された数値手法の開発を駆動する複雑なモデルを含んでいる。
近年,確率制御問題やゲームを解くために機械学習に基づく計算手法が開発されている。
本稿では,高次元でも,あるいは構造が非常に複雑であっても,従来の数値的手法が達成できる範囲を超えて,そのような問題を解決する可能性を解いた深層学習手法に注目する。
主に連続時間と連続空間の設定を考える。
新しいアプローチの多くは、高次元偏微分方程式や後方確率微分方程式を解くための最近のニューラル・ネットワークに基づく手法、またはマルコフ決定過程のモデルなし強化学習に基づいて構築され、画期的な結果をもたらした。
本稿では,これらの手法を紹介するとともに,機械学習と確率制御とゲームにおける最先端の成果を概説する。 Stochastic optimal control and games have a wide range of applications, from finance and economics to social sciences, robotics, and energy management. Many real-world applications involve complex models that have driven the development of sophisticated numerical methods. Recently, computational methods based on machine learning have been developed for solving stochastic control problems and games. In this review, we focus on deep learning methods that have unlocked the possibility of solving such problems, even in high dimensions or when the structure is very complex, beyond what traditional numerical methods can achieve. We consider mostly the continuous time and continuous space setting. Many of the new approaches build on recent neural-network-based methods for solving high-dimensional partial differential equations or backward stochastic differential equations, or on model-free reinforcement learning for Markov decision processes that have led to breakthrough results. This paper provides an introduction to these methods and summarizes the state-of-the-art works at the crossroad of machine learning and stochastic control and games. | 翻訳日:2024-03-13 17:36:39 公開日:2024-03-11 |
# 寿命予測のためのサブポピュレーション特異的合成EHR Subpopulation-Specific Synthetic EHR for Better Mortality Prediction ( http://arxiv.org/abs/2305.16363v2 ) ライセンス: Link先を確認 | Oriel Perets, Nadav Rappoport | (参考訳) 電子健康記録(EHR)は、特定のサブ集団(SP)の表現率が異なることが多い。
患者人口、臨床症状の有病率、医療センタータイプなどの要因がこの過小評価に寄与する。
その結果、そのようなデータセット上で機械学習モデルをトレーニングする場合、モデルは一般化に苦慮し、表現不足のSPでは性能が悪くなる。
そこで本研究では,生成モデルを利用した新しいアンサンブルフレームワークを提案する。
具体的には、各SPに対してGANベースの合成データ生成装置を訓練し、各SPトレーニングセットに合成サンプルを組み込む。
最終的に、SP固有の予測モデルを訓練する。
本手法を適切に評価するために,MIMICデータベースから検索した2つの実世界のユースケースデータセットを用いた評価パイプラインを設計する。
提案手法は,表現不足のSPに対するモデル性能の向上を示す。
私たちのコードとモデルは補足として提供され、パブリックリポジトリで公開されます。 Electronic health records (EHR) often contain different rates of representation of certain subpopulations (SP). Factors like patient demographics, clinical condition prevalence, and medical center type contribute to this underrepresentation. Consequently, when training machine learning models on such datasets, the models struggle to generalize well and perform poorly on underrepresented SPs. To address this issue, we propose a novel ensemble framework that utilizes generative models. Specifically, we train a GAN-based synthetic data generator for each SP and incorporate synthetic samples into each SP training set. Ultimately, we train SP-specific prediction models. To properly evaluate this method, we design an evaluation pipeline with 2 real-world use case datasets, queried from the MIMIC database. Our approach shows increased model performance over underrepresented SPs. Our code and models are given as supplementary and will be made available on a public repository. | 翻訳日:2024-03-13 17:29:39 公開日:2024-03-11 |
# GenerateCT:3次元胸部CTボリュームのテキストコンディショナル生成 GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes ( http://arxiv.org/abs/2305.16037v4 ) ライセンス: Link先を確認 | Ibrahim Ethem Hamamci, Sezgin Er, Anjany Sekuboyina, Enis Simsar, Alperen Tezcan, Ayse Gulnihan Simsek, Sevval Nil Esirgun, Furkan Almas, Irem Dogan, Muhammed Furkan Dasdelen, Chinmay Prabhakar, Hadrien Reynaud, Sarthak Pati, Christian Bluethgen, Mehmet Kemal Ozdemir, Bjoern Menze | (参考訳) フリーフォームの医療用テキストプロンプトで条件付き3D医療用画像を生成する最初のアプローチであるGenerateCTは、テキストエンコーダと、3DCTボリュームを符号化する新しい因果視覚変換器、CTとテキストトークンを整列するテキストイメージ変換器、およびテキスト条件の超解像拡散モデルを含む3つの重要なコンポーネントを組み込んでいる。
3次元医用画像における直接比較法が存在しないことから,本手法の有効性を示すため,最先端法を用いたベースラインを構築した。
GenerateCTは、すべての主要なメトリクスでこれらのメソッドを著しく上回る。
そこで我々はGenerateCTの臨床的応用を多義性分類タスクで評価することで検討した。
まず,実データセット上でのマルチ異常度分類器のトレーニングにより,ベースラインを確立した。
モデルの外部データセットへの一般化と、ゼロショットシナリオにおける未認識のプロンプトによるパフォーマンスをさらに評価するために、外部データセットを使用して分類器をトレーニングし、追加のベンチマークを設定した。
我々は,generatectを用いて各集合のボリュームを等数に合成し,トレーニングデータセットを2倍にする実験を行った。
最初の実験では、実数と生成量で分類器を共同で訓練する際、APスコアが11%改善した。
第2の実験では、目に見えないプロンプトに基づいた実数と生成量のトレーニングでは7%の改善が見られた。
さらに、GenerateCTは、任意のサイズの合成トレーニングデータセットのスケーリングを可能にする。
例えば、実際のデータセットの5倍の10万の3dctボリュームを生成し、これらの合成ボリューム専用の分類器をトレーニングしました。
驚くべきことに、この分類器は、利用可能なすべての実データでトレーニングされたもののパフォーマンスを8%上回った。
最後に、ドメインの専門家は生成されたボリュームを評価し、テキストプロンプトと高い整合性を確認した。 GenerateCT, the first approach to generating 3D medical imaging conditioned on free-form medical text prompts, incorporates a text encoder and three key components: a novel causal vision transformer for encoding 3D CT volumes, a text-image transformer for aligning CT and text tokens, and a text-conditional super-resolution diffusion model. Given the absence of directly comparable methods in 3D medical imaging, we established baselines with cutting-edge methods to demonstrate our method's effectiveness. GenerateCT significantly outperforms these methods across all key metrics. Importantly, we explored GenerateCT's clinical applications by evaluating its utility in a multi-abnormality classification task. First, we established a baseline by training a multi-abnormality classifier on our real dataset. To further assess the model's generalization to external datasets and its performance with unseen prompts in a zero-shot scenario, we employed an external dataset to train the classifier, setting an additional benchmark. We conducted two experiments in which we doubled the training datasets by synthesizing an equal number of volumes for each set using GenerateCT. The first experiment demonstrated an 11% improvement in the AP score when training the classifier jointly on real and generated volumes. The second experiment showed a 7% improvement when training on both real and generated volumes based on unseen prompts. Moreover, GenerateCT enables the scaling of synthetic training datasets to arbitrary sizes. As an example, we generated 100,000 3D CT volumes, fivefold the number in our real dataset, and trained the classifier exclusively on these synthetic volumes. Impressively, this classifier surpassed the performance of the one trained on all available real data by a margin of 8%. Lastly, domain experts evaluated the generated volumes, confirming a high degree of alignment with the text prompt. | 翻訳日:2024-03-13 17:29:27 公開日:2024-03-11 |
# 液体アルゴン検出器における低エネルギー物理のための少数ヒット機械学習分類アルゴリズムの評価 Assessment of few-hits machine learning classification algorithms for low energy physics in liquid argon detectors ( http://arxiv.org/abs/2305.09744v2 ) ライセンス: Link先を確認 | Roberto Moretti, Marco Rossi, Matteo Biassoni, Andrea Giachero, Michele Grossi, Daniele Guffanti, Danilo Labranca, Francesco Terranova, Sofia Vallecorsa | (参考訳) 低エネルギー体制下での大規模液体アルゴンTPCの物理ポテンシャルは、従来の分類アルゴリズムでは利用できない情報を数hのイベントでエンコードするため、完全に制限される。
機械学習(ML)技術は、この種の分類問題に最善を尽くす。
本稿では,従来の(決定論的)アルゴリズムに対する性能評価を行う。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーエンコーダ(Transformer-Encoder)は、低エネルギー物理の最も難しい分類問題の一つとして、決定論的アルゴリズムよりも優れていることを示した。
我々はTransformer-Encoder法とCNNの利点と落とし穴について論じ、これらの手法を用いて検出パラメータを最適化し、DUNE位相II検出器("Module of Opportunity")に重点を置いている("Module of Opportunity")。 The physics potential of massive liquid argon TPCs in the low-energy regime is still to be fully reaped because few-hits events encode information that can hardly be exploited by conventional classification algorithms. Machine learning (ML) techniques give their best in these types of classification problems. In this paper, we evaluate their performance against conventional (deterministic) algorithms. We demonstrate that both Convolutional Neural Networks (CNN) and Transformer-Encoder methods outperform deterministic algorithms in one of the most challenging classification problems of low-energy physics (single- versus double-beta events). We discuss the advantages and pitfalls of Transformer-Encoder methods versus CNN and employ these methods to optimize the detector parameters, with an emphasis on the DUNE Phase II detectors ("Module of Opportunity"). | 翻訳日:2024-03-13 17:26:34 公開日:2024-03-11 |
# コンピュータビジョンモデルの共用破壊に対するロバスト性に関する調査 A Survey on the Robustness of Computer Vision Models against Common Corruptions ( http://arxiv.org/abs/2305.06024v3 ) ライセンス: Link先を確認 | Shunxin Wang, Raymond Veldhuis, Christoph Brune, Nicola Strisciuglio | (参考訳) コンピュータビジョンモデルの性能は、一般的な汚職(ノイズ、ぼかし、照明変更など)として知られる入力画像の予期せぬ変化に影響を受けやすいため、実際のシナリオに展開する際の信頼性を損なう可能性がある。
これらの腐敗は必ずしもモデル一般化と堅牢性をテストするものではない。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性向上手法について概説する。
提案手法は,データ拡張,表現学習,知識蒸留,ネットワークコンポーネントの4つのグループに分類される。
また,近道学習の一般化と緩和のための間接的手法についても紹介する。
いくつかのデータセットにおけるロバスト性性能を比較するための統一ベンチマークフレームワークをリリースし、文献における評価の不整合に対処する。
本稿では,一般的な視覚バックボーンの基部破壊堅牢性について実験的に概説し,破壊堅牢性は必ずしもモデルサイズに及ばないことを示す。
非常に大きなモデル(1億以上のパラメータ)は、計算要求の増加を考慮して無視可能な堅牢性を得る。
汎用的で堅牢なコンピュータビジョンモデルを実現するためには、限られたデータを効率的に活用し、望ましくない学習行動を緩和する新しい学習戦略を開発する必要がある。 The performance of computer vision models are susceptible to unexpected changes in input images, known as common corruptions (e.g. noise, blur, illumination changes, etc.), that can hinder their reliability when deployed in real scenarios. These corruptions are not always considered to test model generalization and robustness. In this survey, we present a comprehensive overview of methods that improve the robustness of computer vision models against common corruptions. We categorize methods into four groups based on the model part and training method addressed: data augmentation, representation learning, knowledge distillation, and network components. We also cover indirect methods for generalization and mitigation of shortcut learning, potentially useful for corruption robustness. We release a unified benchmark framework to compare robustness performance on several datasets, and address the inconsistencies of evaluation in the literature. We provide an experimental overview of the base corruption robustness of popular vision backbones, and show that corruption robustness does not necessarily scale with model size. The very large models (above 100M parameters) gain negligible robustness, considering the increased computational requirements. To achieve generalizable and robust computer vision models, we foresee the need of developing new learning strategies to efficiently exploit limited data and mitigate unwanted or unreliable learning behaviors. | 翻訳日:2024-03-13 17:25:57 公開日:2024-03-11 |
# DeepTextMark:大規模言語モデル生成テキストの同定のためのディープラーニング駆動型テキスト透かしアプローチ DeepTextMark: A Deep Learning-Driven Text Watermarking Approach for Identifying Large Language Model Generated Text ( http://arxiv.org/abs/2305.05773v2 ) ライセンス: Link先を確認 | Travis Munyer, Abdullah Tanvir, Arjon Das, Xin Zhong | (参考訳) 大規模言語モデル(llms)の急速な進歩は、テキストジェネレータの能力を大幅に向上させた。
誤用がエスカレートする可能性が高まるにつれて、テキストが人間の著作であるかllmによって生成されたのかを見極めることが重要になっている。
いくつかの先行研究は、人間の書き起こしテキストとLLM生成テキストを区別するためにバイナリ分類器を用いてこの問題に対処している。
しかし、これらの分類器の信頼性は疑問視されている。
一連の決定がそのような分類の結果に左右される可能性を考えると、テキストソース検出が高いカリバーであることは必須である。
そこで本研究では,テキストソース識別のために考案された深層学習によるテキスト透かし手法であるdeeptextmarkを提案する。
透かし挿入にWord2VecとSentence Encodingを活用することで、透かし検出のためのトランスフォーマーベースの分類器とともに、DeepTextMarkは盲目、堅牢性、非受容性、信頼性をブレンドする。
本稿で詳述したように、これらの属性はユニバーサルテキストソース検出に不可欠であり、本論文ではLLMが生成したテキストに特に重点を置いている。
deeptextmarkは、テキスト生成フレームワークに有効な"アドオン"ソリューションを提供し、基盤となるテキスト生成メカニズムへの直接アクセスや変更を必要としない。
実験による評価は,DeepTextMarkの高知覚率,高検出精度,高堅牢性,信頼性,迅速な実行を裏付けるものである。 The rapid advancement of Large Language Models (LLMs) has significantly enhanced the capabilities of text generators. With the potential for misuse escalating, the importance of discerning whether texts are human-authored or generated by LLMs has become paramount. Several preceding studies have ventured to address this challenge by employing binary classifiers to differentiate between human-written and LLM-generated text. Nevertheless, the reliability of these classifiers has been subject to question. Given that consequential decisions may hinge on the outcome of such classification, it is imperative that text source detection is of high caliber. In light of this, the present paper introduces DeepTextMark, a deep learning-driven text watermarking methodology devised for text source identification. By leveraging Word2Vec and Sentence Encoding for watermark insertion, alongside a transformer-based classifier for watermark detection, DeepTextMark epitomizes a blend of blindness, robustness, imperceptibility, and reliability. As elaborated within the paper, these attributes are crucial for universal text source detection, with a particular emphasis in this paper on text produced by LLMs. DeepTextMark offers a viable "add-on" solution to prevailing text generation frameworks, requiring no direct access or alterations to the underlying text generation mechanism. Experimental evaluations underscore the high imperceptibility, elevated detection accuracy, augmented robustness, reliability, and swift execution of DeepTextMark. | 翻訳日:2024-03-13 17:25:34 公開日:2024-03-11 |
# motiontrack: 複数物体追跡のための学習動作予測器 MotionTrack: Learning Motion Predictor for Multiple Object Tracking ( http://arxiv.org/abs/2306.02585v2 ) ライセンス: Link先を確認 | Changcheng Xiao, Qiong Cao, Yujie Zhong, Long Lan, Xiang Zhang, Zhigang Luo, Dacheng Tao | (参考訳) 検出と再識別(ReID)技術の進化を通じて,多目的追跡(MOT)において重要な進歩が達成されている。
このような進歩にもかかわらず、均質な外観と不均質な動きを伴うシナリオにおける物体の正確な追跡は依然として課題である。
この課題は、ReID特徴の識別性不足と、MOTにおける線形運動モデルの多数利用の2つの主な要因から生じる。
本研究では,物体の軌跡情報のみに依存する学習可能な動き予測器を中心に,モーショントラッカーであるMotionTrackを導入する。
この予測器は、運動特徴の2段階の粒度を包括的に統合し、時間力学のモデリングを強化し、個々の物体の将来の動き予測を容易にする。
具体的には,トークンレベルの情報をキャプチャするセルフアテンション機構と,チャネルレベルの機能をモデル化する動的mlp層を採用する。
MotionTrackはシンプルなオンライントラッキング方式だ。
実験の結果,motiontrackはdancetrackやsportsmotなどのデータセット上で,非常に複雑な物体の動きを特徴とする最先端のパフォーマンスをもたらすことがわかった。 Significant progress has been achieved in multi-object tracking (MOT) through the evolution of detection and re-identification (ReID) techniques. Despite these advancements, accurately tracking objects in scenarios with homogeneous appearance and heterogeneous motion remains a challenge. This challenge arises from two main factors: the insufficient discriminability of ReID features and the predominant utilization of linear motion models in MOT. In this context, we introduce a novel motion-based tracker, MotionTrack, centered around a learnable motion predictor that relies solely on object trajectory information. This predictor comprehensively integrates two levels of granularity in motion features to enhance the modeling of temporal dynamics and facilitate precise future motion prediction for individual objects. Specifically, the proposed approach adopts a self-attention mechanism to capture token-level information and a Dynamic MLP layer to model channel-level features. MotionTrack is a simple, online tracking approach. Our experimental results demonstrate that MotionTrack yields state-of-the-art performance on datasets such as Dancetrack and SportsMOT, characterized by highly complex object motion. | 翻訳日:2024-03-13 17:21:08 公開日:2024-03-11 |
# データアクセスのない深層分類ミミリー Deep Classifier Mimicry without Data Access ( http://arxiv.org/abs/2306.02090v2 ) ライセンス: Link先を確認 | Steven Braun, Martin Mundt, Kristian Kersting | (参考訳) 事前学習されたモデルへのアクセスは、最近多くの機械学習領域で標準として登場している。
残念ながら、モデルがトレーニングしたオリジナルのデータへのアクセスは、等しく許可されないかもしれない。
これにより、モデルを微調整したり、圧縮したり、継続的に適応したり、他のタイプのデータ駆動更新を行うのは非常に難しくなります。
しかし、元のデータアクセスは必要ではないと仮定する。
具体的には、原データにアクセスせずに深部分類器を模倣するモデルに依存しない知識蒸留法であるContrastive Abductive Knowledge extract (CAKE)を提案する。
この目的のために、ケーキはノイズの多い合成サンプルのペアを生成し、モデルの決定境界に向かって対比的に拡散する。
我々は、いくつかのベンチマークデータセットとさまざまなアーキテクチャ選択を使用して、CAKEの有効性を実証的に裏付け、幅広いアプリケーションへの道を開いた。 Access to pre-trained models has recently emerged as a standard across numerous machine learning domains. Unfortunately, access to the original data the models were trained on may not equally be granted. This makes it tremendously challenging to fine-tune, compress models, adapt continually, or to do any other type of data-driven update. We posit that original data access may however not be required. Specifically, we propose Contrastive Abductive Knowledge Extraction (CAKE), a model-agnostic knowledge distillation procedure that mimics deep classifiers without access to the original data. To this end, CAKE generates pairs of noisy synthetic samples and diffuses them contrastively toward a model's decision boundary. We empirically corroborate CAKE's effectiveness using several benchmark datasets and various architectural choices, paving the way for broad application. | 翻訳日:2024-03-13 17:20:49 公開日:2024-03-11 |
# 学習可能で説明可能な単純地図ニューラルネットワーク Trainable and Explainable Simplicial Map Neural Networks ( http://arxiv.org/abs/2306.00010v2 ) ライセンス: Link先を確認 | Eduardo Paluzo-Hidalgo, Miguel A. Guti\'errez-Naranjo, Rocio Gonzalez-Diaz | (参考訳) 単純写像ニューラルネットワーク(simplicial map neural networks, smnns)は、普遍近似能力や適切な条件下での逆例に対するロバスト性といった興味深い性質を持つトポロジーベースのニューラルネットワークである。
しかし、SMNNは高次元データセットに適用可能なボトルネックをいくつか提示する。
まず、SMNNは固定重量を事前に計算しており、SMNNトレーニングプロセスは定義されていないため、一般化能力に欠ける。
第二に、SMNNは入力データセットを囲む凸ポリトープを構築する必要がある。
本稿では,与えられたデータセットのサポートサブセットに基づいてSMNNトレーニング手順を提案し,超球面への投影に基づく手法により凸ポリトープの構成を置き換えることで,これらの課題を克服する。
また,本論文では,SMNNの説明可能性と効果的な実装についても紹介する。 Simplicial map neural networks (SMNNs) are topology-based neural networks with interesting properties such as universal approximation ability and robustness to adversarial examples under appropriate conditions. However, SMNNs present some bottlenecks for their possible application in high-dimensional datasets. First, SMNNs have precomputed fixed weight and no SMNN training process has been defined so far, so they lack generalization ability. Second, SMNNs require the construction of a convex polytope surrounding the input dataset. In this paper, we overcome these issues by proposing an SMNN training procedure based on a support subset of the given dataset and replacing the construction of the convex polytope by a method based on projections to a hypersphere. In addition, the explainability capacity of SMNNs and an effective implementation are also newly introduced in this paper. | 翻訳日:2024-03-13 17:20:04 公開日:2024-03-11 |
# どのモデルが知覚に相応しい勾配を持つか?
off-manifold robustness による説明 Which Models have Perceptually-Aligned Gradients? An Explanation via Off-Manifold Robustness ( http://arxiv.org/abs/2305.19101v2 ) ライセンス: Link先を確認 | Suraj Srinivas, Sebastian Bordt, Hima Lakkaraju | (参考訳) 堅牢なコンピュータビジョンモデルの顕著な特性の1つは、その入力勾配が人間の知覚と整合していることであり、文献では知覚整合勾配(PAG)と呼ばれている。
分類のためにのみ訓練されているにもかかわらず、PAGは堅牢なモデルに画像生成、装飾、塗装を含む初歩的な生成能力をもたらす。
しかし、これらの現象の背後にあるメカニズムは不明である。
本研究では,モデルがデータ多様体よりもより頑健でなければならないことを述べる,\emph{off-manifold robustness} によるpagsの最初の説明を提供する。
まず,オフ多様体のロバスト性が入力勾配をおよそデータ多様体上に置くことを示し,その知覚的アライメントを説明する。
次に,ベイズ最適モデルはオフ・マニフォールド・ロバスト性を満たすことを示し,勾配ノルム正則化,ランダム化平滑化,投影勾配降下を伴う逆行訓練によって訓練されたロバストモデルについて,経験的にも同じことを確認する。
モデル勾配の知覚的アライメントの定量化と生成モデルの勾配との類似性から,オフマニフォールドのロバスト性は知覚的アライメントとよく相関することを示す。
最後に,onおよびoff-manifoldのロバスト性レベルに基づいて,知覚的アライメントとモデルの正確性の両方に影響を与える3つの異なるロバスト性(弱ロバスト性,ベイズアライメントロバスト性,過度のロバスト性)を同定する。
コードは \url{https://github.com/tml-tuebingen/pags} で入手できる。 One of the remarkable properties of robust computer vision models is that their input-gradients are often aligned with human perception, referred to in the literature as perceptually-aligned gradients (PAGs). Despite only being trained for classification, PAGs cause robust models to have rudimentary generative capabilities, including image generation, denoising, and in-painting. However, the underlying mechanisms behind these phenomena remain unknown. In this work, we provide a first explanation of PAGs via \emph{off-manifold robustness}, which states that models must be more robust off- the data manifold than they are on-manifold. We first demonstrate theoretically that off-manifold robustness leads input gradients to lie approximately on the data manifold, explaining their perceptual alignment. We then show that Bayes optimal models satisfy off-manifold robustness, and confirm the same empirically for robust models trained via gradient norm regularization, randomized smoothing, and adversarial training with projected gradient descent. Quantifying the perceptual alignment of model gradients via their similarity with the gradients of generative models, we show that off-manifold robustness correlates well with perceptual alignment. Finally, based on the levels of on- and off-manifold robustness, we identify three different regimes of robustness that affect both perceptual alignment and model accuracy: weak robustness, bayes-aligned robustness, and excessive robustness. Code is available at \url{https://github.com/tml-tuebingen/pags}. | 翻訳日:2024-03-13 17:19:51 公開日:2024-03-11 |
# HiFA:高度拡散誘導による高忠実テキスト・ツー・3D生成 HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion Guidance ( http://arxiv.org/abs/2305.18766v4 ) ライセンス: Link先を確認 | Junzhe Zhu and Peiye Zhuang and Sanmi Koyejo | (参考訳) 自動テキストから3D生成の進歩は目覚ましい。
既存のほとんどのメソッドは、トレーニング済みのテキスト-画像拡散モデルを使用して、潜時空間の復調スコアマッチングを通じてNeural Radiance Fields (NeRF)のような3D表現を最適化する。
しかし、これらの手法は、しばしば、サブ最適最適化アプローチと3次元幾何学の限られた理解のために、異なる視点でアーティファクトや不整合をもたらす。
さらに、クリプス幾何学や安定したテクスチャのレンダリングにおけるNeRFの固有の制約は、高精細度を実現するための2段階の最適化につながる。
本研究は,高品質なテキストから3d生成を実現するための包括的サンプリングと平滑化手法を提案する。
テキストから画像への拡散モデルの潜在および画像空間における分別スコアを計算する。
スコアマッチングにおけるノイズレベル(ノイズレベル)をランダムにサンプリングする代わりに、最適化全体を通してサンプリングされたタイムステップを段階的に削減する新しいタイムステップアニーリングアプローチを導入する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
我々は,NeRFにおけるテクスチャ・フリッカリング問題に対処するため,重みを粗くし,高精度かつ徹底的なサンプリングを行うカーネル・スムースティング手法を提案する。
広範な実験により,従来の手法よりも優れていることを示し,一段階のトレーニングプロセスを通じて,高度に詳細な3dアセットの生成を可能にした。 The advancements in automatic text-to-3D generation have been remarkable. Most existing methods use pre-trained text-to-image diffusion models to optimize 3D representations like Neural Radiance Fields (NeRFs) via latent-space denoising score matching. Yet, these methods often result in artifacts and inconsistencies across different views due to their suboptimal optimization approaches and limited understanding of 3D geometry. Moreover, the inherent constraints of NeRFs in rendering crisp geometry and stable textures usually lead to a two-stage optimization to attain high-resolution details. This work proposes holistic sampling and smoothing approaches to achieve high-quality text-to-3D generation, all in a single-stage optimization. We compute denoising scores in the text-to-image diffusion model's latent and image spaces. Instead of randomly sampling timesteps (also referred to as noise levels in denoising score matching), we introduce a novel timestep annealing approach that progressively reduces the sampled timestep throughout optimization. To generate high-quality renderings in a single-stage optimization, we propose regularization for the variance of z-coordinates along NeRF rays. To address texture flickering issues in NeRFs, we introduce a kernel smoothing technique that refines importance sampling weights coarse-to-fine, ensuring accurate and thorough sampling in high-density regions. Extensive experiments demonstrate the superiority of our method over previous approaches, enabling the generation of highly detailed and view-consistent 3D assets through a single-stage training process. | 翻訳日:2024-03-13 17:18:57 公開日:2024-03-11 |
# ツールメーカとしての大規模言語モデル Large Language Models as Tool Makers ( http://arxiv.org/abs/2305.17126v2 ) ライセンス: Link先を確認 | Tianle Cai, Xuezhi Wang, Tengyu Ma, Xinyun Chen, Denny Zhou | (参考訳) 最近の研究は、適切な外部ツールの助けを借りて問題解決能力を改善するために、大規模言語モデル(LLM)の可能性を強調している。
本稿では,LLMが独自の再利用可能な問題解決ツールを開発するLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入することで,この概念をさらに進展させる。
私たちのアプローチは2つのフェーズからなる。
1) ツール作成: LLMは、一連のタスクのためのツールを作るツールメーカーとして機能します。
2) ツールの使用: 別のllmがツールユーザとして機能し、ツールメーカが構築したツールを問題解決に適用する。
問題解決サーバ側では、ツール作成によって、新しい要求が出現するにつれて、継続的ツール生成とキャッシュが可能になる。
このフレームワークにより、その後の要求が対応するAPIを通じてキャッシュされたツールにアクセスでき、タスク解決の効率が向上する。
ツール作成にはもっと高度な機能が必要ですが、私たちはこのタスクをリソース集約的な強力なモデルに割り当てています。
逆に、シンプルなツール使用フェーズは軽量モデルに委譲される。
この戦略的分業により、ツール製造の1回限りのコストがツール使用の複数のインスタンスに分散し、高いパフォーマンスを維持しながら平均コストを大幅に削減できる。
さらに,本手法は,LLMからの自然言語応答ではなく,要求クラスの機能を格納し,従来のキャッシュ機構の適用性を拡大する,ツールのキャッシュと再利用による機能キャッシュを提供する。
我々はBig-Benchタスクを含む様々な複雑な推論タスクに対するアプローチを評価する。
GPT-4をツールメーカーとして、GPT-3.5をツールユーザとして、LATMはGPT-4を両方のロールで使用するようなパフォーマンスを示すが、推論コストは大幅に削減されている。 Recent research has highlighted the potential of large language models (LLMs) to improve their problem-solving capabilities with the aid of suitable external tools. In our work, we further advance this concept by introducing a closed-loop framework, referred to as LLMs A s Tool Makers (LATM), where LLMs create their own reusable tools for problem-solving. Our approach consists of two phases: 1) tool making: an LLM acts as the tool maker that crafts tools for a set of tasks. 2) tool using: another LLM acts as the tool user, which applies the tool built by the tool maker for problem-solving. On the problem-solving server side, tool-making enables continual tool generation and caching as new requests emerge. This framework enables subsequent requests to access cached tools via their corresponding APIs, enhancing the efficiency of task resolution. Recognizing that tool-making requires more sophisticated capabilities, we assign this task to a powerful, albeit resource-intensive, model. Conversely, the simpler tool-using phase is delegated to a lightweight model. This strategic division of labor allows the once-off cost of tool-making to be spread over multiple instances of tool-using, significantly reducing average costs while maintaining strong performance. Furthermore, our method offers a functional cache through the caching and reuse of tools, which stores the functionality of a class of requests instead of the natural language responses from LLMs, thus extending the applicability of the conventional cache mechanism. We evaluate our approach across various complex reasoning tasks, including Big-Bench tasks. With GPT-4 as the tool maker and GPT-3.5 as the tool user, LATM demonstrates performance equivalent to using GPT-4 for both roles, but with a significantly reduced inference cost. | 翻訳日:2024-03-13 17:16:37 公開日:2024-03-11 |
# DistriBlock:出力分布の特性を利用した対向音声サンプルの同定 DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution ( http://arxiv.org/abs/2305.17000v3 ) ライセンス: Link先を確認 | Mat\'ias Pizarro, Dorothea Kolossa and Asja Fischer | (参考訳) 敵対的攻撃は、自動音声認識(ASR)システムを誤って任意のターゲットテキストを予測し、明確なセキュリティ脅威を引き起こす可能性がある。
このような攻撃を防止するため,各ステップで出力トークンの確率分布を予測するASRシステムに適用可能な効率的な検出戦略であるDistriBlockを提案する。
出力確率に対する中央値,最大値,最小値,分布のエントロピー,Kulback-LeiblerおよびJensen-Shannon分散といった分布の特性を,その後の時間ステップの分布に関して測定する。
次に,良性データと逆データの両方で観測される特性を利用して,単純なしきい値に基づく分類,そのような分類器のアンサンブル,ニューラルネットワークといったバイナリ分類器を適用する。
現状のASRシステムと言語データセットの多種多様な分析を通じて, 対象の対向サンプルを, 99%, 97%のクリーンデータとノイズデータとを区別する受信動作特性下の平均領域を用いて, このアプローチの最高性能を実証した。
提案手法のロバスト性を評価するため,DistriBlockを回避可能な適応的対向例は,フィルタにより検出しやすくなり,システムのロバスト性を維持するための新たな道がもたらされた。 Adversarial attacks can mislead automatic speech recognition (ASR) systems into predicting an arbitrary target text, thus posing a clear security threat. To prevent such attacks, we propose DistriBlock, an efficient detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy of the distribution, as well as the Kullback-Leibler and the Jensen-Shannon divergence with respect to the distributions of the subsequent time step. Then, by leveraging the characteristics observed for both benign and adversarial data, we apply binary classifiers, including simple threshold-based classification, ensembles of such classifiers, and neural networks. Through extensive analysis across different state-of-the-art ASR systems and language data sets, we demonstrate the supreme performance of this approach, with a mean area under the receiver operating characteristic for distinguishing target adversarial examples against clean and noisy data of 99% and 97%, respectively. To assess the robustness of our method, we show that adaptive adversarial examples that can circumvent DistriBlock are much noisier, which makes them easier to detect through filtering and creates another avenue for preserving the system's robustness. | 翻訳日:2024-03-13 17:15:36 公開日:2024-03-11 |
# 産業シナリオにおける人間-物体相互作用検出のためのマルチモーダル合成データの爆発的抽出 Exploiting Multimodal Synthetic Data for Egocentric Human-Object Interaction Detection in an Industrial Scenario ( http://arxiv.org/abs/2306.12152v2 ) ライセンス: Link先を確認 | Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria Farinella | (参考訳) 本稿では,産業環境でのエゴセントリック・ヒューマン・オブジェクト・インタラクション(EHOI)検出の問題に取り組む。
この文脈における公開データセットの欠如を克服するため、いくつかのアノテーションとデータ信号(例えば深度マップやセグメンテーションマスク)と組み合わせたEHOIの合成画像を生成するパイプラインとツールを提案する。
提案するパイプラインを用いて,手やオブジェクトのアノテーションが豊富な産業環境において,EgoISM-HOIの合成EHOI画像からなる新しいマルチモーダルデータセットを提案する。
提案ツールにより生成された合成EHOIデータの有用性と有効性を示すため,RGB画像中のEHOIを検出するために,異なるマルチモーダル信号の予測と組み合わせを行う新しい手法を考案した。
本研究は,提案手法を事前学習するために合成データを利用すると,実世界のデータでテストした場合の性能が大幅に向上することを示す。
さらに,本手法の有用性を十分に理解するために,提案手法が最先端のクラス非依存手法よりも優れていることを示す詳細な分析を行った。
この分野の研究を支援するために、我々はデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoiで公開します。 In this paper, we tackle the problem of Egocentric Human-Object Interaction (EHOI) detection in an industrial setting. To overcome the lack of public datasets in this context, we propose a pipeline and a tool for generating synthetic images of EHOIs paired with several annotations and data signals (e.g., depth maps or segmentation masks). Using the proposed pipeline, we present EgoISM-HOI a new multimodal dataset composed of synthetic EHOI images in an industrial environment with rich annotations of hands and objects. To demonstrate the utility and effectiveness of synthetic EHOI data produced by the proposed tool, we designed a new method that predicts and combines different multimodal signals to detect EHOIs in RGB images. Our study shows that exploiting synthetic data to pre-train the proposed method significantly improves performance when tested on real-world data. Moreover, to fully understand the usefulness of our method, we conducted an in-depth analysis in which we compared and highlighted the superiority of the proposed approach over different state-of-the-art class-agnostic methods. To support research in this field, we publicly release the datasets, source code, and pre-trained models at https://iplab.dmi.unict.it/egoism-hoi. | 翻訳日:2024-03-13 17:10:06 公開日:2024-03-11 |
# Harvard Glaucoma Fairness:Fairness LearningとFair Identity Normalizationのための網膜神経疾患データセット Harvard Glaucoma Fairness: A Retinal Nerve Disease Dataset for Fairness Learning and Fair Identity Normalization ( http://arxiv.org/abs/2306.09264v3 ) ライセンス: Link先を確認 | Yan Luo, Yu Tian, Min Shi, Louis R. Pasquale, Lucy Q. Shen, Nazlee Zebardast, Tobias Elze, Mengyu Wang | (参考訳) 機械学習における公平性(公平性)は社会的な幸福のために重要であるが、公共データセットの制限は進歩を妨げる。
現在、フェアネス学習のための画像データを持つ公共医療データセットは提供されていないが、少数グループはより多くの健康問題に苦しんでいる。
このギャップに対処するために,2次元および3次元画像データとバランスのとれた人種集団による緑内障検出のための網膜神経疾患データセットであるharvard-gfを紹介する。
緑内障は他の人種よりも2倍の緑内障の有病率を持つ黒人が世界中で不可逆盲目の原因となっている。
また,異なる同一性群間の特徴的重要性を等化するための公平同一性正規化(fin)手法を提案する。
当社のfinアプローチは,2dおよび3dイメージングデータを用いて,人種,性別,民族の公平性タスクにおいて優れたパフォーマンスを示す,最先端のフェアネス学習手法と比較し,ハーバード大学gfによるフェアネス学習の有用性を実証する。
両モデル間の公正度比較を容易にするため,フェアネスの文脈において,あらゆる種類のパフォーマンス指標を柔軟に比較できるエクイティスケールパフォーマンス尺度を提案する。
データセットとコードは \url{https://ophai.hms.harvard.edu/datasets/harvard-glaucoma-fairness-3300-samples/} で公開されている。 Fairness (also known as equity interchangeably) in machine learning is important for societal well-being, but limited public datasets hinder its progress. Currently, no dedicated public medical datasets with imaging data for fairness learning are available, though minority groups suffer from more health issues. To address this gap, we introduce Harvard Glaucoma Fairness (Harvard-GF), a retinal nerve disease dataset with both 2D and 3D imaging data and balanced racial groups for glaucoma detection. Glaucoma is the leading cause of irreversible blindness globally with Blacks having doubled glaucoma prevalence than other races. We also propose a fair identity normalization (FIN) approach to equalize the feature importance between different identity groups. Our FIN approach is compared with various the-state-of-the-art fairness learning methods with superior performance in the racial, gender, and ethnicity fairness tasks with 2D and 3D imaging data, which demonstrate the utilities of our dataset Harvard-GF for fairness learning. To facilitate fairness comparisons between different models, we propose an equity-scaled performance measure, which can be flexibly used to compare all kinds of performance metrics in the context of fairness. The dataset and code are publicly accessible via \url{https://ophai.hms.harvard.edu/datasets/harvard-glaucoma-fairness-3300-samples/}. | 翻訳日:2024-03-13 17:08:56 公開日:2024-03-11 |
# Xiezhi: ソリスティックなドメイン知識評価のためのベンチマーク Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation ( http://arxiv.org/abs/2306.05783v3 ) ライセンス: Link先を確認 | Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Yixin Zhu, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Weijie Wu, Qianyu He, Rui Xu, Wenhao Huang, Jingping Liu, Zili Wang, Shusen Wang, Weiguo Zheng, Hongwei Feng, Yanghua Xiao | (参考訳) 新しいNLP(Natural Langauge Process)ベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi-SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問を含んでいる。
我々は, Xiezhi 上で47個の切刃 LLM の評価を行った。
その結果, LLMは, 科学, 工学, 農学, 医学, 芸術において, 人間の平均的業績を上回るが, 経済学, 法学, 教育学, 文学, 歴史, 管理に乏しいことが示唆された。
我々は、XiezhiがLLMの重要な長所と短所を分析するのに役立ち、ベンチマークを~\url{https://github.com/MikeGu721/XiezhiBenchmark}でリリースすることを期待している。 New Natural Langauge Process~(NLP) benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present Xiezhi, the most comprehensive evaluation suite designed to assess holistic domain knowledge. Xiezhi comprises multiple-choice questions across 516 diverse disciplines ranging from 13 different subjects with 249,587 questions and accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results indicate that LLMs exceed average performance of humans in science, engineering, agronomy, medicine, and art, but fall short in economics, jurisprudence, pedagogy, literature, history, and management. We anticipate Xiezhi will help analyze important strengths and shortcomings of LLMs, and the benchmark is released in~\url{https://github.com/MikeGu721/XiezhiBenchmark}. | 翻訳日:2024-03-13 17:06:44 公開日:2024-03-11 |
# 機械学習がスピンフェルミ表面の特徴を明らかに Machine learning reveals features of spinon Fermi surface ( http://arxiv.org/abs/2306.03143v2 ) ライセンス: Link先を確認 | Kevin Zhang, Shi Feng, Yuri D. Lensky, Nandini Trivedi, Eun-Ah Kim | (参考訳) 強い相互作用を持つ量子ハミルトニアンのシミュレーションの急速な進歩により、未知の位相を特徴づけることの課題は科学的な進歩のボトルネックとなる。
古典的機械学習を用いてサンプリングされた投影的スナップショットをマイニングする量子古典的ハイブリッドアプローチ(qucl)が、一見無機能な量子状態のシグネチャを顕在化できることを実証する。
外部磁場下でのハニカム格子上の北エフ・ハイゼンベルク模型はQuClをテストする理想的なシステムを示し、シミュレーションによって既知の位相の間に中間ギャップレス位相(IGP)が挟まれていることが判明し、その解明の性質に関する議論が始まった。
我々は、ラベル付き投影スナップショットに基づいて訓練された相関子畳み込みニューラルネットワークを用いて、位相のシグネチャを識別する正規化パス解析を行う。
我々はquclが確立した相の既知の特徴を再現することを示す。
また、電場方向に垂直なスピンチャネルにおけるIGPの符号を同定し、この符号をフェルミ面を形成する隙間のないスピンロンのフリーデル振動の符号と解釈する。
我々の予測は将来のスピン液体の探索を導くことができる。 With rapid progress in simulation of strongly interacting quantum Hamiltonians, the challenge in characterizing unknown phases becomes a bottleneck for scientific progress. We demonstrate that a Quantum-Classical hybrid approach (QuCl) of mining sampled projective snapshots with interpretable classical machine learning can unveil signatures of seemingly featureless quantum states. The Kitaev-Heisenberg model on a honeycomb lattice under external magnetic field presents an ideal system to test QuCl, where simulations have found an intermediate gapless phase (IGP) sandwiched between known phases, launching a debate over its elusive nature. We use the correlator convolutional neural network, trained on labeled projective snapshots, in conjunction with regularization path analysis to identify signatures of phases. We show that QuCl reproduces known features of established phases. Significantly, we also identify a signature of the IGP in the spin channel perpendicular to the field direction, which we interpret as a signature of Friedel oscillations of gapless spinons forming a Fermi surface. Our predictions can guide future experimental searches for spin liquids. | 翻訳日:2024-03-13 17:06:11 公開日:2024-03-11 |
# ニューロン活性化被覆 : 分布外検出と一般化の再考 Neuron Activation Coverage: Rethinking Out-of-distribution Detection and Generalization ( http://arxiv.org/abs/2306.02879v3 ) ライセンス: Link先を確認 | Yibing Liu, Chris Xing Tian, Haoliang Li, Lei Ma, Shiqi Wang | (参考訳) out-of-distribution(ood)問題は、一般的に、トレーニングデータ分散、すなわちin-distribution(ind)から著しく逸脱するデータにニューラルネットワークが遭遇したときに発生する。
本稿では,ニューロン活性化の観点からOOD問題を考察する。
まず、ニューロンの出力とモデル決定への影響を考慮し、ニューロンの活性化状態を定式化する。
次に、神経細胞とOOD問題との関係を特徴付けるために、InDデータに基づくニューロンの振る舞いの簡易な尺度である‘textit{neuron activation coverage’ (NAC) を導入する。
NACを活用することで、私たちはそれを示します。
1) ind と ood の入力はニューロンの挙動に基づいて大きく分離することができ、これは ood 検出問題を大幅に緩和し、3つのベンチマーク(cifar-10、cifar-100、imagenet-1k)で21の手法を上回った。
2)NACとモデル一般化能力の正の相関関係はアーキテクチャやデータセット間で一貫して保持され,NACに基づくモデルロバスト性の評価基準を実現する。
一般的なInDバリデーション基準と比較して,NACはより堅牢なモデルを選択するだけでなく,OODテスト性能との相関性も強いことを示す。 The out-of-distribution (OOD) problem generally arises when neural networks encounter data that significantly deviates from the training data distribution, i.e., in-distribution (InD). In this paper, we study the OOD problem from a neuron activation view. We first formulate neuron activation states by considering both the neuron output and its influence on model decisions. Then, to characterize the relationship between neurons and OOD issues, we introduce the \textit{neuron activation coverage} (NAC) -- a simple measure for neuron behaviors under InD data. Leveraging our NAC, we show that 1) InD and OOD inputs can be largely separated based on the neuron behavior, which significantly eases the OOD detection problem and beats the 21 previous methods over three benchmarks (CIFAR-10, CIFAR-100, and ImageNet-1K). 2) a positive correlation between NAC and model generalization ability consistently holds across architectures and datasets, which enables a NAC-based criterion for evaluating model robustness. Compared to prevalent InD validation criteria, we show that NAC not only can select more robust models, but also has a stronger correlation with OOD test performance. | 翻訳日:2024-03-13 17:05:52 公開日:2024-03-11 |
# スコアとフローマッチングによるシュリンガーブリッジのシミュレーションフリー化 Simulation-free Schr\"odinger bridges via score and flow matching ( http://arxiv.org/abs/2307.03672v3 ) ライセンス: Link先を確認 | Alexander Tong, Nikolay Malkin, Kilian Fatras, Lazar Atanackovic, Yanlei Zhang, Guillaume Huguet, Guy Wolf, Yoshua Bengio | (参考訳) 任意の音源および対象分布から抽出された未ペア標本から確率力学を推定するシミュレーションフリーな目的であるシミュレーションフリースコアとフローマッチング([SF]$^2$M)を提案する。
本手法は,拡散モデルのトレーニングに使用するスコアマッチング損失と,連続正規化フローのトレーニングに使用されるフローマッチング損失の両方を一般化する。
[SF]$^2$Mは、連続時間確率的生成モデリングをシュリンガーブリッジ問題として解釈する。
学習確率過程をシミュレートすることなくSBを効率的に学習するために、静的エントロピー規則化された最適輸送(ミニバッチ近似)に依存する。
我々は, [SF]$^2$Mの方が効率が高く, 従来のシミュレーション手法よりもSB問題に対するより正確な解が得られることを示した。
最後に,スナップショットデータからセルダイナミクスを学習する問題に対して [SF]$^2$M を適用する。
特に、[SF]$^2$Mは、高次元の細胞動態を正確にモデル化し、シミュレーションデータから既知の遺伝子制御ネットワークを復元する最初の方法である。
私たちのコードは、https://github.com/atong01/conditional-flow-matchingのtorchcfmパッケージで利用可能です。 We present simulation-free score and flow matching ([SF]$^2$M), a simulation-free objective for inferring stochastic dynamics given unpaired samples drawn from arbitrary source and target distributions. Our method generalizes both the score-matching loss used in the training of diffusion models and the recently proposed flow matching loss used in the training of continuous normalizing flows. [SF]$^2$M interprets continuous-time stochastic generative modeling as a Schr\"odinger bridge problem. It relies on static entropy-regularized optimal transport, or a minibatch approximation, to efficiently learn the SB without simulating the learned stochastic process. We find that [SF]$^2$M is more efficient and gives more accurate solutions to the SB problem than simulation-based methods from prior work. Finally, we apply [SF]$^2$M to the problem of learning cell dynamics from snapshot data. Notably, [SF]$^2$M is the first method to accurately model cell dynamics in high dimensions and can recover known gene regulatory networks from simulated data. Our code is available in the TorchCFM package at https://github.com/atong01/conditional-flow-matching. | 翻訳日:2024-03-13 16:59:15 公開日:2024-03-11 |
# 特徴分散データに対するスケーラブルな高次元多変数線形回帰 Scalable High-Dimensional Multivariate Linear Regression for Feature-Distributed Data ( http://arxiv.org/abs/2307.03410v2 ) ライセンス: Link先を確認 | Shuo-Chieh Huang, Ruey S. Tsay | (参考訳) 特徴分散データ(Feature-distributed data)は、機能によって分割され、複数のコンピューティングノードにまたがるデータを指すもので、多数の機能を持つアプリケーションではますます一般的になっている。
本稿では,そのデータに多変量線形回帰を適用するための2段階緩和グリードアルゴリズム(TSRGA)を提案する。
TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。
さらに、多変量応答変数に対しては、TSRGAを用いて低ランク係数推定を行うことができる。
TSRGAの高速収束はシミュレーション実験により検証された。
最後に,提案するtsrgaを10-k報告書の非構造化データを活用した金融アプリケーションに適用し,密集した大次元行列を用いたアプリケーションにおいて有用性を示す。 Feature-distributed data, referred to data partitioned by features and stored across multiple computing nodes, are increasingly common in applications with a large number of features. This paper proposes a two-stage relaxed greedy algorithm (TSRGA) for applying multivariate linear regression to such data. The main advantage of TSRGA is that its communication complexity does not depend on the feature dimension, making it highly scalable to very large data sets. In addition, for multivariate response variables, TSRGA can be used to yield low-rank coefficient estimates. The fast convergence of TSRGA is validated by simulation experiments. Finally, we apply the proposed TSRGA in a financial application that leverages unstructured data from the 10-K reports, demonstrating its usefulness in applications with many dense large-dimensional matrices. | 翻訳日:2024-03-13 16:58:56 公開日:2024-03-11 |
# 非相対論的時空間量子参照フレーム Nonrelativistic spatiotemporal quantum reference frames ( http://arxiv.org/abs/2307.01874v3 ) ライセンス: Link先を確認 | Michael Suleymanov, Ismael L. Paiva, Eliahu Cohen | (参考訳) 量子参照フレームは、その探索が量子論の多くの分野に関連し、指導的であるため、近年新たな関心を集めている。
異なるタイプの中で、位置と時間参照フレームは特別な注意を引いている。
本稿では,その外的(空間的)自由度に加えて,各系が内部時計を含む非相対論的枠組みを導入,解析することにより,時空間量子参照フレームとして利用することができる。
本稿では,異なる視点における観測変数の期待値と分散に対する表現と,相互作用のないシナリオにおける異なる視点におけるこれらの量との関係について述べる。
特に,このような単純なシナリオであっても,クロック間の相対的不確実性はシステムの相対的空間的拡散に影響を与える。 Quantum reference frames have attracted renewed interest recently, as their exploration is relevant and instructive in many areas of quantum theory. Among the different types, position and time reference frames have captivated special attention. Here, we introduce and analyze a nonrelativistic framework in which each system contains an internal clock, in addition to its external (spatial) degree of freedom and, hence, can be used as a spatiotemporal quantum reference frame. We present expressions for expectation values and variances of relevant observables in different perspectives, as well as relations between these quantities in different perspectives in scenarios with no interactions. In particular, we show that even in these simple scenarios, the relative uncertainty between clocks affects the relative spatial spread of the systems. | 翻訳日:2024-03-13 16:58:14 公開日:2024-03-11 |
# 転写型臨床面接における抑うつ検出のためのノード重み付きグラフ畳み込みネットワーク Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical Interviews ( http://arxiv.org/abs/2307.00920v2 ) ライセンス: Link先を確認 | Sergio Burdisso, Esa\'u Villatoro-Tello, Srikanth Madikeri, Petr Motlicek | (参考訳) 本稿では,グラフ畳み込みネットワーク(GCN)における自己接続エッジの重み付け方法を提案する。
この目的のために、我々はGCNを用いて非連続的・長距離的意味論をモデル化し、転写を抑うつまたは制御対象に分類する。
提案手法は,計算コストの低減,データ非依存,解釈可能性などの魅力的な特徴を保ちながら,局所性の制限と,GCN内の隣接ノードに対する自己接続とエッジとの等価の重要性を緩和することを目的とする。
2つのベンチマークデータセットで徹底的な評価を行う。
結果は,バニラGCNモデルと従来報告した結果とを一貫して上回り,両方のデータセットでF1=0.84を達成することを示す。
最後に、質的な分析は、提案手法の解釈可能性と、それ以前の心理学的知見との整合性を示す。 We propose a simple approach for weighting self-connecting edges in a Graph Convolutional Network (GCN) and show its impact on depression detection from transcribed clinical interviews. To this end, we use a GCN for modeling non-consecutive and long-distance semantics to classify the transcriptions into depressed or control subjects. The proposed method aims to mitigate the limiting assumptions of locality and the equal importance of self-connections vs. edges to neighboring nodes in GCNs, while preserving attractive features such as low computational cost, data agnostic, and interpretability capabilities. We perform an exhaustive evaluation in two benchmark datasets. Results show that our approach consistently outperforms the vanilla GCN model as well as previously reported results, achieving an F1=0.84 on both datasets. Finally, a qualitative analysis illustrates the interpretability capabilities of the proposed approach and its alignment with previous findings in psychology. | 翻訳日:2024-03-13 16:58:01 公開日:2024-03-11 |
# SCENEREPLICA:再現可能なシーンの作成による実世界のロボット操作のベンチマーク SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating Replicable Scenes ( http://arxiv.org/abs/2306.15620v3 ) ライセンス: Link先を確認 | Ninad Khargonkar, Sai Haneesh Allu, Yangxiao Lu, Jishnu Jaykumar P, Balakrishnan Prabhakaran, Yu Xiang | (参考訳) 実世界におけるロボット操作の評価のための再現可能な新しいベンチマークを提案する。
我々のベンチマークでは、ロボットコミュニティでよく使われているデータセットであるYCBオブジェクトを使用して、結果が他の研究と比較されるようにしています。
さらに、このベンチマークは現実世界で容易に再現できるように設計されており、研究者や実践者が利用できる。
また, モデルベースおよびモデルフリーな6次元ロボットグルーピングのための実験結果と解析を行い, 対象認識, 把握計画, 動作計画のための代表アルゴリズムの評価を行った。
私たちのベンチマークは、ロボット操作の分野を前進させるための貴重なツールであると信じています。
標準化された評価フレームワークを提供することで、研究者は様々な技術やアルゴリズムをより簡単に比較でき、ロボット操作法の開発がより早く進められる。 We present a new reproducible benchmark for evaluating robot manipulation in the real world, specifically focusing on pick-and-place. Our benchmark uses the YCB objects, a commonly used dataset in the robotics community, to ensure that our results are comparable to other studies. Additionally, the benchmark is designed to be easily reproducible in the real world, making it accessible to researchers and practitioners. We also provide our experimental results and analyzes for model-based and model-free 6D robotic grasping on the benchmark, where representative algorithms are evaluated for object perception, grasping planning, and motion planning. We believe that our benchmark will be a valuable tool for advancing the field of robot manipulation. By providing a standardized evaluation framework, researchers can more easily compare different techniques and algorithms, leading to faster progress in developing robot manipulation methods. | 翻訳日:2024-03-13 16:55:39 公開日:2024-03-11 |
# ニューラルブラッドリー・テリーレーティング:比較による特性の定量化 Neural Bradley-Terry Rating: Quantifying Properties from Comparisons ( http://arxiv.org/abs/2307.13709v5 ) ライセンス: Link先を確認 | Satoru Fujii | (参考訳) 現実世界の多くの特性はメトリクスを持っておらず、数値的に観察できないため、学習が難しい。
この課題に対処するために、先行研究は主に、トレーニングのターゲットラベルとしてグレードされた人間のスコアを用いて、それらの特性を推定することに焦点を当てている。
一方,Bradley-Terryモデルに基づく評価アルゴリズムは,試合履歴に基づく選手の競争性を評価するために広く研究されている。
本稿では,未知アイテムの特性の定量化と評価を目的とした機械学習フレームワークであるNeural Bradley-Terry Rating (NBTR)を紹介する。
我々はBradley-Terryモデルをニューラルネットワーク構造にシームレスに統合する。
さらに,このアーキテクチャを不公平な非対称環境に一般化する。
実験により,NBTRが望ましい特性の定量化と推定に成功していることを示す。 Many properties in the real world don't have metrics and can't be numerically observed, making them difficult to learn. To deal with this challenging problem, prior works have primarily focused on estimating those properties by using graded human scores as the target label in the training. Meanwhile, rating algorithms based on the Bradley-Terry model are extensively studied to evaluate the competitiveness of players based on their match history. In this paper, we introduce the Neural Bradley-Terry Rating (NBTR), a novel machine learning framework designed to quantify and evaluate properties of unknown items. Our method seamlessly integrates the Bradley-Terry model into the neural network structure. Moreover, we generalize this architecture further to asymmetric environments with unfairness, a condition more commonly encountered in real-world settings. Through experimental analysis, we demonstrate that NBTR successfully learns to quantify and estimate desired properties. | 翻訳日:2024-03-13 16:51:19 公開日:2024-03-11 |
# PRIOR:医用画像からのプロトタイプ表現共同学習とその報告 PRIOR: Prototype Representation Joint Learning from Medical Images and Reports ( http://arxiv.org/abs/2307.12577v3 ) ライセンス: Link先を確認 | Pujin Cheng, Li Lin, Junyan Lyu, Yijin Huang, Wenhan Luo, Xiaoying Tang | (参考訳) コントラスト学習に基づく視覚言語共同学習は,表現学習戦略として成功している。
本稿では,医用画像とレポートのグローバルなアライメントとローカルなアライメントを両立させた表現学習フレームワークを提案する。
標準のグローバルマルチモダリティアライメント法とは対照的に,細粒度表現には局所アライメントモジュールを用いる。
さらに、マスク画像とレポートを再構成することにより、トレーニングフェーズにおけるモダリティ間の情報を交換するクロスモダリティ条件リコンストラクションモジュールも設計されている。
長いレポートを再構築するために,低レベルの局所的な視覚的特徴と高レベルの臨床言語的特徴に焦点をあてる文的プロトタイプメモリバンクを構築した。
さらに、非逐次レポートの再構築のために、非自己回帰生成パラダイムを提案する。
教師付き分類、ゼロショット分類、画像からテキストへの検索、セマンティックセグメンテーション、オブジェクト検出を含む5つの下流タスクの実験結果から、提案手法は複数のデータセットと異なるデータセットサイズ設定下で、他の最先端メソッドよりも優れていることを示す。
コードはhttps://github.com/qtacierp/priorで入手できる。 Contrastive learning based vision-language joint pre-training has emerged as a successful representation learning strategy. In this paper, we present a prototype representation learning framework incorporating both global and local alignment between medical images and reports. In contrast to standard global multi-modality alignment methods, we employ a local alignment module for fine-grained representation. Furthermore, a cross-modality conditional reconstruction module is designed to interchange information across modalities in the training phase by reconstructing masked images and reports. For reconstructing long reports, a sentence-wise prototype memory bank is constructed, enabling the network to focus on low-level localized visual and high-level clinical linguistic features. Additionally, a non-auto-regressive generation paradigm is proposed for reconstructing non-sequential reports. Experimental results on five downstream tasks, including supervised classification, zero-shot classification, image-to-text retrieval, semantic segmentation, and object detection, show the proposed method outperforms other state-of-the-art methods across multiple datasets and under different dataset size settings. The code is available at https://github.com/QtacierP/PRIOR. | 翻訳日:2024-03-13 16:51:04 公開日:2024-03-11 |
# 履歴勾配更新による高速かつ安定な拡散逆解法 Fast and Stable Diffusion Inverse Solver with History Gradient Update ( http://arxiv.org/abs/2307.12070v2 ) ライセンス: Link先を確認 | Linchao He, Hongyu Yan, Mengting Luo, Hongjie Wu, Kunming Luo, Wang Wang, Wenchao Du, Hu Chen, Hongyu Yang, Yi Zhang, Jiancheng Lv | (参考訳) 拡散モデルは最近、ペアのデータトレーニングに頼らずに高品質な再構成結果が得られるため、効率的な逆問題解法として認識されている。
既存の拡散型解法では勾配降下戦略を用いて最適なサンプル解を得る。
しかしながら、これらの解法は現在の勾配のみを計算し、サンプリング過程の履歴情報を一切利用していないため、不安定な最適化の進行と亜最適解をもたらす。
そこで本研究では,拡散型逆解法の歴史情報を活用することを提案する。
本稿では,先行研究において,データ忠実性項を最適化するために勾配降下法を用いて収束することを示す。
これに基づいて,ヒストリーグラディエント・アップデート (HGU) と呼ばれる,この最適化プロセスに歴史的勾配を導入する。
また、HGUがアルゴリズム全体の収束を保証するという理論的証拠も提供する。
なお、HGUはピクセルベースの拡散モデルと潜在型の拡散モデルの両方に適用できる。
実験により,従来のサンプリングアルゴリズムと比較して,HGUを用いたサンプリングアルゴリズムは,医用画像再構成における最先端の結果を達成し,教師付き学習手法を超越していることが示された。
さらに、自然画像の競争結果も達成する。 Diffusion models have recently been recognised as efficient inverse problem solvers due to their ability to produce high-quality reconstruction results without relying on pairwise data training. Existing diffusion-based solvers utilize Gradient Descent strategy to get a optimal sample solution. However, these solvers only calculate the current gradient and have not utilized any history information of sampling process, thus resulting in unstable optimization progresses and suboptimal solutions. To address this issue, we propose to utilize the history information of the diffusion-based inverse solvers. In this paper, we first prove that, in previous work, using the gradient descent method to optimize the data fidelity term is convergent. Building on this, we introduce the incorporation of historical gradients into this optimization process, termed History Gradient Update (HGU). We also provide theoretical evidence that HGU ensures the convergence of the entire algorithm. It's worth noting that HGU is applicable to both pixel-based and latent-based diffusion model solvers. Experimental results demonstrate that, compared to previous sampling algorithms, sampling algorithms with HGU achieves state-of-the-art results in medical image reconstruction, surpassing even supervised learning methods. Additionally, it achieves competitive results on natural images. | 翻訳日:2024-03-13 16:50:47 公開日:2024-03-11 |
# 線形再帰と非線形射影の普遍性:有限幅保証と複素固有値の利点 Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues ( http://arxiv.org/abs/2307.11888v2 ) ライセンス: Link先を確認 | Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith | (参考訳) 線形複素数値RNNに基づくディープニューラルネットワークは、シーケンスモデリングの競争的アプローチとして、位置対応型MLPにインターリーブされた。
そのようなアーキテクチャの例として、S4、LRU、Mambaのような状態空間モデル(SSM)がある。
これらのアーキテクチャの有効性と計算効率を実証した実験的な証拠にもかかわらず、その表現力は、特に実用上重要な特定の選択(例えば、慎重に設計された初期化分布と複素数の使用)に関連して、比較的未調査のままである。
本稿では,MLPと実あるいは複素線形対角線再帰を組み合わせることで,正規因果列列列列マップの任意の精度で近似できることを示す。
線形RNNは入力シーケンスのロスレス符号化を提供し、MPPはこの符号化に対して非線形処理を行う。
実対角リニアリカレンスを用いることは,このアーキテクチャの普遍性を実現するのに十分であることを示す一方で,単位円板近傍の複雑な固有値(つまり,SSMにおいて最も成功した戦略を実証することで,RNNが情報を保存するのに有効であることを示す。
我々はこの発見を消滅する勾配問題と結びつけ、我々の主張を支持する実験的証拠を提供する。 Deep neural networks based on linear complex-valued RNNs interleaved with position-wise MLPs are gaining traction as competitive approaches to sequence modeling. Examples of such architectures include state-space models (SSMs) like S4, LRU, and Mamba: recently proposed models that achieve promising performance on text, genetics, and other data that require long-range reasoning. Despite experimental evidence highlighting these architectures' effectiveness and computational efficiency, their expressive power remains relatively unexplored, especially in connection to specific choices crucial in practice - e.g., carefully designed initialization distribution and use of complex numbers. In this paper, we show that combining MLPs with both real or complex linear diagonal recurrences leads to arbitrarily precise approximation of regular causal sequence-to-sequence maps. At the heart of our proof, we rely on a separation of concerns: the linear RNN provides a lossless encoding of the input sequence, and the MLP performs non-linear processing on this encoding. While we show that using real diagonal linear recurrences is enough to achieve universality in this architecture, we prove that employing complex eigenvalues near unit disk - i.e., empirically the most successful strategy in SSMs - greatly helps the RNN in storing information. We connect this finding with the vanishing gradient issue and provide experimental evidence supporting our claims. | 翻訳日:2024-03-13 16:49:58 公開日:2024-03-11 |
# 生成モデルによるゼロショット画像調和 Zero-Shot Image Harmonization with Generative Model Prior ( http://arxiv.org/abs/2307.08182v2 ) ライセンス: Link先を確認 | Jianqi Chen, Yilan Zhang, Zhengxia Zou, Keyan Chen, Zhenwei Shi | (参考訳) 本稿では,既存の合成合成画像への依存を克服するために,画像調和のためのゼロショットアプローチを提案する。
これらの手法は、有望な結果を示す一方で、かなりのトレーニング費用を伴い、しばしば目に見えない画像の一般化に苦しむ。
この目的のために,人間の行動に触発された完全なモジュール化フレームワークを導入する。
最近の基礎モデルの言語とビジョンの推論能力を活用することで、このアプローチは3つの主要なステージからなる。
まず,訓練済み視覚言語モデル(vlm)を用いて合成画像の記述を生成する。
その後、これらの記述は、テキスト対画像生成モデル(t2i)の前景調和方向を導く。
画像表現の強化のためにテキスト埋め込みを洗練し,構造保存にセルフアテンションとエッジマップを用いた。
各調和反復に続いて、評価器は調和方向を終了するか変更するかを決定する。
結果として生じる枠組みは、人間の振る舞いを反映し、広範な訓練を必要とせずに調和した結果が得られる。
様々なシーンやオブジェクトにまたがる説得力のある視覚的結果と,アプローチの有効性を検証するユーザスタディを提示する。 We propose a zero-shot approach to image harmonization, aiming to overcome the reliance on large amounts of synthetic composite images in existing methods. These methods, while showing promising results, involve significant training expenses and often struggle with generalization to unseen images. To this end, we introduce a fully modularized framework inspired by human behavior. Leveraging the reasoning capabilities of recent foundation models in language and vision, our approach comprises three main stages. Initially, we employ a pretrained vision-language model (VLM) to generate descriptions for the composite image. Subsequently, these descriptions guide the foreground harmonization direction of a text-to-image generative model (T2I). We refine text embeddings for enhanced representation of imaging conditions and employ self-attention and edge maps for structure preservation. Following each harmonization iteration, an evaluator determines whether to conclude or modify the harmonization direction. The resulting framework, mirroring human behavior, achieves harmonious results without the need for extensive training. We present compelling visual results across diverse scenes and objects, along with a user study validating the effectiveness of our approach. | 翻訳日:2024-03-13 16:47:27 公開日:2024-03-11 |
# デュアルレギュレータを用いたフェデレーション半教師あり学習におけるデータ不均衡 Combating Data Imbalances in Federated Semi-supervised Learning with Dual Regulators ( http://arxiv.org/abs/2307.05358v3 ) ライセンス: Link先を確認 | Sikai Bai, Shuaicheng Li, Weiming Zhuang, Jie Zhang, Song Guo, Kunlin Yang, Jun Hou, Shuai Zhang, Junyu Gao, Shuai Yi | (参考訳) 分散学習は分散異種データから学ぶための一般的な方法となっている。
フェデレーション半教師付き学習(FSSL)は、分散クライアントのラベル不足により、ラベル付きデータのごく一部からモデルをトレーニングするために現れる。
既存のFSSLメソッドは、クライアント間で独立および同一に分散された(IID)ラベル付きデータと、クライアント内でラベル付きおよび未ラベル付きデータ間の一貫性のあるクラス分散を前提としている。
この研究は、クライアント間だけでなく、ラベル付きデータとラベルなしデータの間でデータ分散が異なる、FSSLのより実践的で困難なシナリオを研究する。
この課題に対処するために、デュアルレギュレータであるFedDureを用いた新しいFSSLフレームワークを提案する。
粒度調整器(c−reg)と粒度調整器(f−reg):c−regはラベル付きデータ分布の学習効果を追跡して局所モデルの更新を規則化し、f−regは各クライアントのラベル付きインスタンス用に調整された適応重み付けスキームを学習する。
さらに,2つのレギュレータを用いてクライアント内のモデルを適応的に最適化するバイレベル最適化として,クライアントモデルのトレーニングを定式化する。
理論的には、二重レギュレータの収束保証を示す。
実証的に、FedDureは、CIFAR-10とCINIC-10データセットの11以上で、幅広い設定で既存のメソッドよりも優れていることを実証した。 Federated learning has become a popular method to learn from decentralized heterogeneous data. Federated semi-supervised learning (FSSL) emerges to train models from a small fraction of labeled data due to label scarcity on decentralized clients. Existing FSSL methods assume independent and identically distributed (IID) labeled data across clients and consistent class distribution between labeled and unlabeled data within a client. This work studies a more practical and challenging scenario of FSSL, where data distribution is different not only across clients but also within a client between labeled and unlabeled data. To address this challenge, we propose a novel FSSL framework with dual regulators, FedDure. FedDure lifts the previous assumption with a coarse-grained regulator (C-reg) and a fine-grained regulator (F-reg): C-reg regularizes the updating of the local model by tracking the learning effect on labeled data distribution; F-reg learns an adaptive weighting scheme tailored for unlabeled instances in each client. We further formulate the client model training as bi-level optimization that adaptively optimizes the model in the client with two regulators. Theoretically, we show the convergence guarantee of the dual regulators. Empirically, we demonstrate that FedDure is superior to the existing methods across a wide range of settings, notably by more than 11 on CIFAR-10 and CINIC-10 datasets. | 翻訳日:2024-03-13 16:46:23 公開日:2024-03-11 |
# 非局所フェルミオン反発によるハバード・チューレスポンプの安定化 Stabilization of Hubbard-Thouless pumps through nonlocal fermionic repulsion ( http://arxiv.org/abs/2308.13375v4 ) ライセンス: Link先を確認 | Javier Arg\"uello-Luengo and Manfred J. Mark and Francesca Ferlaino and Maciej Lewenstein and Luca Barbiero and Sergi Juli\`a-Farr\'e | (参考訳) チューレスポンピングは量子系における量子化された位相不変量を探索する強力な概念である。
我々は,この機構をライス・ミール・フェルミ・ハバードモデルで探索し,競合するオンサイトおよびインターサイト相互作用の存在を特徴とする。
オンサイト反発による量子化ポンプの崩壊を示す最近の実験および理論的結果とは対照的に, 十分大きなサイト間相互作用により, thoulessポンプの相互作用が引き起こされることを示した。
さらに,大規模相互作用における安定なトポロジカルトランスポートの発生は,モデル基底相図における自然結合秩序波の存在と関係していることを明らかにした。
最後に,光格子内の超低温磁性原子に基づく具体的な実験装置について検討し,新たに導入したthoulessポンプを実現する。
その結果,相互作用量子系におけるThoulessポンプの安定化機構が得られた。 Thouless pumping represents a powerful concept to probe quantized topological invariants in quantum systems. We explore this mechanism in a generalized Rice-Mele Fermi-Hubbard model characterized by the presence of competing onsite and intersite interactions. Contrary to recent experimental and theoretical results, showing a breakdown of quantized pumping induced by the onsite repulsion, we prove that sufficiently large intersite interactions allow for an interaction-induced recovery of Thouless pumps. Our analysis further reveals that the occurrence of stable topological transport at large interactions is connected to the presence of a spontaneous bond-order-wave in the ground-state phase diagram of the model. Finally, we discuss a concrete experimental setup based on ultracold magnetic atoms in an optical lattice to realize the newly introduced Thouless pump. Our results provide a new mechanism to stabilize Thouless pumps in interacting quantum systems. | 翻訳日:2024-03-13 16:41:28 公開日:2024-03-11 |
# MatchXML: 極端なマルチラベルテキスト分類のための効率的なテキストラベルマッチングフレームワーク MatchXML: An Efficient Text-label Matching Framework for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2308.13139v2 ) ライセンス: Link先を確認 | Hui Ye, Rajshekhar Sunderraman, Shihao Ji | (参考訳) eXtreme Multi-label text Classification (XMC) は、非常に大規模なラベルセット(数百万のラベルなど)から関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
スパース周波数-逆文書周波数(TF-IDF)の特徴から生じるラベル埋め込みにはいくつかの制限がある。
そこで我々は,Skip-gramモデルによる意味密度ラベル埋め込みを効果的に訓練するための label2vec を提案する。
密ラベル埋め込みは、クラスタリングによって階層的なラベルツリーを構築するために使用される。
事前学習したエンコーダ変換器を微調整する際、二部グラフにおけるテキストラベルマッチング問題としてマルチラベルテキスト分類を定式化する。
次に、微調整変換器から高密度テキスト表現を抽出する。
微調整された高密度テキスト埋め込みに加えて、事前訓練された文変換器から静的高密度テキスト埋め込みも抽出する。
最後に、疎いTF-IDF特徴、微調整された高次テキスト表現、静的高次文特徴を利用して線形ランク付けを訓練する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
スピードに関しては、MatchXMLは6つのデータセットで競合するメソッドよりも優れています。
ソースコードはhttps://github.com/huiyegit/matchxmlで公開しています。 The eXtreme Multi-label text Classification(XMC) refers to training a classifier that assigns a text sample with relevant labels from an extremely large-scale label set (e.g., millions of labels). We propose MatchXML, an efficient text-label matching framework for XMC. We observe that the label embeddings generated from the sparse Term Frequency-Inverse Document Frequency(TF-IDF) features have several limitations. We thus propose label2vec to effectively train the semantic dense label embeddings by the Skip-gram model. The dense label embeddings are then used to build a Hierarchical Label Tree by clustering. In fine-tuning the pre-trained encoder Transformer, we formulate the multi-label text classification as a text-label matching problem in a bipartite graph. We then extract the dense text representations from the fine-tuned Transformer. Besides the fine-tuned dense text embeddings, we also extract the static dense sentence embeddings from a pre-trained Sentence Transformer. Finally, a linear ranker is trained by utilizing the sparse TF-IDF features, the fine-tuned dense text representations and static dense sentence features. Experimental results demonstrate that MatchXML achieves state-of-the-art accuracy on five out of six datasets. As for the speed, MatchXML outperforms the competing methods on all the six datasets. Our source code is publicly available at https://github.com/huiyegit/MatchXML. | 翻訳日:2024-03-13 16:41:15 公開日:2024-03-11 |
# SICNN: ソフト干渉キャンセラによるニューラルネットワーク等化器 SICNN: Soft Interference Cancellation Inspired Neural Network Equalizers ( http://arxiv.org/abs/2308.12591v2 ) ライセンス: Link先を確認 | Stefan Baumgartner and Oliver Lang and Mario Huemer | (参考訳) 近年、デジタル通信システムにおける従来のモデルベース処理を置き換えたり、強化するために、データ駆動機械学習アプローチが広く研究されている。
本研究では、等化に着目し、SICNNと呼ばれる新しいニューラルネットワーク(NN-)アプローチを提案する。
SICNNはモデルに基づく反復型ソフト干渉キャンセル(SIC)法を深く展開して設計されている。
これは、必要となる近似によって高い計算複雑性と性能劣化に悩まされるモデルベースの主な欠点を取り除く。
SICNNには様々なバリエーションがある。
SICNNv1はシングルキャリア周波数領域等化(SC-FDE)システムに特化している。
sicnnv2はより普遍的であり、ブロックベースのデータ伝送方式を持つ任意の通信システムにおいて等化器として適用できる。
さらに、SICNNv1とSICNNv2の両方に対して、学習可能なパラメータの数が大幅に削減されたバージョンを示す。
この研究のもうひとつの貢献は、NNベースの等化器のトレーニングデータセットを生成するための新しいアプローチである。
提案するnnベースイコライザのビット誤り率性能を,最先端モデルベースおよびnnベース手法と比較し,sc-fdeの他の手法よりもsicnnv1が優れていることを示す。
例として、SICNNv2はその普遍性を強調するために、一意の単語直交周波数分割多重化(UW-OFDM)システムに適用され、最先端の性能を達成する。
さらに,提案したNNベースの等化手法の複雑度解析を行い,トレーニングセットのサイズがNNベースの等化器の性能に及ぼす影響について検討する。 In recent years data-driven machine learning approaches have been extensively studied to replace or enhance traditionally model-based processing in digital communication systems. In this work, we focus on equalization and propose a novel neural network (NN-)based approach, referred to as SICNN. SICNN is designed by deep unfolding a model-based iterative soft interference cancellation (SIC) method. It eliminates the main disadvantages of its model-based counterpart, which suffers from high computational complexity and performance degradation due to required approximations. We present different variants of SICNN. SICNNv1 is specifically tailored to single carrier frequency domain equalization (SC-FDE) systems, the communication system mainly regarded in this work. SICNNv2 is more universal and is applicable as an equalizer in any communication system with a block-based data transmission scheme. Moreover, for both SICNNv1 and SICNNv2, we present versions with highly reduced numbers of learnable parameters. Another contribution of this work is a novel approach for generating training datasets for NN-based equalizers, which significantly improves their performance at high signal-to-noise ratios. We compare the bit error ratio performance of the proposed NN-based equalizers with state-of-the-art model-based and NN-based approaches, highlighting the superiority of SICNNv1 over all other methods for SC-FDE. Exemplarily, to emphasize its universality, SICNNv2 is additionally applied to a unique word orthogonal frequency division multiplexing (UW-OFDM) system, where it achieves state-of-the-art performance. Furthermore, we present a thorough complexity analysis of the proposed NN-based equalization approaches, and we investigate the influence of the training set size on the performance of NN-based equalizers. | 翻訳日:2024-03-13 16:40:55 公開日:2024-03-11 |
# coca:ソースフリーユニバーサルドメイン適応のためのテキストプロトタイプによる分類器指向のキャリブレーション COCA: Classifier-Oriented Calibration via Textual Prototype for Source-Free Universal Domain Adaptation ( http://arxiv.org/abs/2308.10450v2 ) ライセンス: Link先を確認 | Xinghong Liu, Yi Zhou, Tao Zhou, Chun-Mei Feng, Ling Shao | (参考訳) ユニバーサルドメイン適応(UniDA)は、データソース間のドメインとカテゴリのシフトに対処することを目的としている。
最近、より厳密なデータ制限のため、研究者はソースフリーのUniDA(SF-UniDA)を導入した。
sf-unidaメソッドは、ターゲットドメインに適応するときにソースサンプルに直接アクセスする必要がない。
しかし、既存のsf-unidaメソッドは、ソースモデルをトレーニングするために大量のラベル付きソースサンプルを必要とするため、かなりのラベルコストがかかる。
この問題に対処するために, プラグアンドプレイ分類器指向校正法(COCA)を提案する。
テキストプロトタイプを利用するcocaは、視覚言語モデル(vlms)を用いた少数ショット学習に基づくソースモデル向けに設計されている。
SF-UniDAシナリオの一般的なクラスと未知のクラスを識別する未知の能力を備えた、クローズドセットの分類用に構築されたVLMベースの少ショット学習者を提供する。
COCAは、画像エンコーダ最適化の代わりに分類器に焦点を当てたVLMに基づくSF-UniDA課題に取り組むための新しいパラダイムである。
実験の結果、COCAは最先端のUniDAモデルとSF-UniDAモデルより優れていた。 Universal domain adaptation (UniDA) aims to address domain and category shifts across data sources. Recently, due to more stringent data restrictions, researchers have introduced source-free UniDA (SF-UniDA). SF-UniDA methods eliminate the need for direct access to source samples when performing adaptation to the target domain. However, existing SF-UniDA methods still require an extensive quantity of labeled source samples to train a source model, resulting in significant labeling costs. To tackle this issue, we present a novel plug-and-play classifier-oriented calibration (COCA) method. COCA, which exploits textual prototypes, is designed for the source models based on few-shot learning with vision-language models (VLMs). It endows the VLM-powered few-shot learners, which are built for closed-set classification, with the unknown-aware ability to distinguish common and unknown classes in the SF-UniDA scenario. Crucially, COCA is a new paradigm to tackle SF-UniDA challenges based on VLMs, which focuses on classifier instead of image encoder optimization. Experiments show that COCA outperforms state-of-the-art UniDA and SF-UniDA models. | 翻訳日:2024-03-13 16:40:05 公開日:2024-03-11 |
# PMET: トランスによる精密モデル編集 PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v6 ) ライセンス: Link先を確認 | Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu | (参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。
既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。
彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。
しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。
既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。
これにより、モデル編集の性能が低下する。
より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。
これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。
以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。
実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。
私たちのコードはhttps://github.com/xpq-tech/pmetで利用可能です。 Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at https://github.com/xpq-tech/PMET. | 翻訳日:2024-03-13 16:39:47 公開日:2024-03-11 |
# データ不足を活用したトポロジカル正規化マルチインスタンス学習 Topologically Regularized Multiple Instance Learning to Harness Data Scarcity ( http://arxiv.org/abs/2307.14025v2 ) ライセンス: Link先を確認 | Salome Kazeminia, Carsten Marr, Bastian Rieck | (参考訳) バイオメディカルデータ分析において、MILモデルは患者の顕微鏡サンプルを分類するための強力なツールとして登場した。
しかし、これらのモデルのデータ集約的な要求は、稀な疾患など、データ可用性の低いシナリオにおいて重大な課題となる。
この課題を緩和するために、milにトポロジカル正規化用語を導入する。
形状保存誘導バイアスを提供し、エンコーダを補完し、潜時空間への射影中に入力バッグの基本的な幾何学的位相構造を維持する。
これにより、特に訓練データが少ない場合、集約機能に関係なく、ミル分類器の性能と一般化が向上する。
本手法の有効性は,MILベンチマークの2.8%,合成MILデータセットの15.3%,バイオメディカルデータセットの5.5%など,さまざまなデータセットを対象とした実験を通じて確認された。 In biomedical data analysis, Multiple Instance Learning (MIL) models have emerged as a powerful tool to classify patients' microscopy samples. However, the data-intensive requirement of these models poses a significant challenge in scenarios with scarce data availability, e.g., in rare diseases. We introduce a topological regularization term to MIL to mitigate this challenge. It provides a shape-preserving inductive bias that compels the encoder to maintain the essential geometrical-topological structure of input bags during projection into latent space. This enhances the performance and generalization of the MIL classifier regardless of the aggregation function, particularly for scarce training data. The effectiveness of our method is confirmed through experiments across a range of datasets, showing an average enhancement of 2.8% for MIL benchmarks, 15.3% for synthetic MIL datasets, and 5.5% for real-world biomedical datasets over the current state-of-the-art. | 翻訳日:2024-03-13 16:36:03 公開日:2024-03-11 |
# dola: 大きな言語モデルの事実性を改善するレイヤの対比によるデコーディング DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models ( http://arxiv.org/abs/2309.03883v2 ) ライセンス: Link先を確認 | Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He | (参考訳) その印象的な能力にもかかわらず、大きな言語モデル(LLM)は幻覚、すなわち事前訓練中に見られる事実から逸脱したコンテンツを生成する傾向にある。
得られた外部知識の条件付けや追加の微調整を必要とせず,事前学習したllmを用いて幻覚を低減できる簡単な復号法を提案する。
本手法は,後段の層と前段の層を語彙空間に投影して得られたロジットの違いを対比し,llmにおける事実知識が一般に特定のトランスフォーマー層に局所化されていることを示すという事実を生かして,次段の分布を得る。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
例えば、TruthfulQA上のLLaMAファミリーモデルの性能を12-17%向上させ、LLMが真理事実を確実に生成する可能性を示している。 Despite their impressive capabilities, large language models (LLMs) are prone to hallucinations, i.e., generating content that deviates from facts seen during pretraining. We propose a simple decoding strategy for reducing hallucinations with pretrained LLMs that does not require conditioning on retrieved external knowledge nor additional fine-tuning. Our approach obtains the next-token distribution by contrasting the differences in logits obtained from projecting the later layers versus earlier layers to the vocabulary space, exploiting the fact that factual knowledge in an LLMs has generally been shown to be localized to particular transformer layers. We find that this Decoding by Contrasting Layers (DoLa) approach is able to better surface factual knowledge and reduce the generation of incorrect facts. DoLa consistently improves the truthfulness across multiple choices tasks and open-ended generation tasks, for example improving the performance of LLaMA family models on TruthfulQA by 12-17% absolute points, demonstrating its potential in making LLMs reliably generate truthful facts. | 翻訳日:2024-03-13 16:30:23 公開日:2024-03-11 |
# CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2309.01940v4 ) ライセンス: Link先を確認 | Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu | (参考訳) 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。
LLMの多面的能力の反映として,LLMのプログラミング能力を評価することが重要である。
本稿では,LLMのプログラミング理解,コード生成,コード修正能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。
概念的理解、常識的推論、マルチホップ推論を含む多点検定質問に対するプログラミング理解タスクテスト LLM。
コード生成タスクは、提供された説明とプロトタイプに基づいてc++関数を完了することでllmを評価する。
コード修正タスクはllmsに、現実世界の誤ったコードセグメントを異なるエラーメッセージで修正するように要求する。
汎用モデルと特殊モデルの両方を含む12種類のLLMを評価した。
gpt-4は、最も優れたプログラミング能力を示し、3つのタスクで69%、54%、66%の近似精度を達成している。
人的パフォーマンスと比較しても、LLMプログラミングには大きな改善の余地がある。
CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。 With the emergence of Large Language Models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. Evaluating the programming capabilities of LLMs is crucial as it reflects the multifaceted abilities of LLMs, and it has numerous downstream applications. In this paper, we propose CodeApex, a bilingual benchmark dataset focusing on the programming comprehension, code generation, and code correction abilities of LLMs. Programming comprehension task tests LLMs on multiple-choice exam questions covering conceptual understanding, commonsense reasoning, and multi-hop reasoning. The code generation task evaluates LLMs through completing C++ functions based on provided descriptions and prototypes. The code correction task asks LLMs to fix real-world erroneous code segments with different error messages. We evaluate 12 widely used LLMs, including both general-purpose and specialized models. GPT-4 exhibits the best programming capabilities, achieving approximate accuracy of 69%, 54%, and 66% on the three tasks, respectively. Compared to human performance, there is still significant room for improvement in LLM programming. We hope that CodeApex can serve as a reference for evaluating the coding capabilities of LLMs, further promoting their development and growth. | 翻訳日:2024-03-13 16:30:02 公開日:2024-03-11 |
# タスク対応機械の学習と負荷予測への応用 Task-Aware Machine Unlearning and Its Application in Load Forecasting ( http://arxiv.org/abs/2308.14412v2 ) ライセンス: Link先を確認 | Wangkun Xu, Fei Teng | (参考訳) データプライバシとセキュリティは、負荷予測において無視できない要素になっている。
これまでの研究は主に訓練段階の強化に焦点が当てられている。
しかし、モデルがトレーニングされ、デプロイされると、これらのデータが悪意のあるものであるか、あるいはデータ所有者が要求したように、トレーニングデータの'forget'(すなわち、影響を取り除かなければならない)が必要になる。
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
しかし、直接学習は必然的にモデルの一般化能力を低下させる。
非学習完全性とモデル性能のバランスをとるために,局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価し,性能認識アルゴリズムを提案する。
さらに,電力系統における下流タスクの運用コストを,平均二乗誤差などの統計的基準で完全に反映できないことも確認した。
そこで本研究では,三段階最適化を目標としたタスク認識マシンのアンラーニングを提案する。
このような目的の勾配の存在を理論的に証明し、残りのサンプルを再重み付けする鍵となる。
リアルな負荷データセットを用いて,線形,CNN,MLP-Mixerに基づく負荷予測器で未学習アルゴリズムを検証した。
シミュレーションは、未学習の完全性と運用コストのバランスを示す。
すべてのコードはhttps://github.com/xuwkk/task_aware_machine_unlearningにある。 Data privacy and security have become a non-negligible factor in load forecasting. Previous researches mainly focus on training stage enhancement. However, once the model is trained and deployed, it may need to `forget' (i.e., remove the impact of) part of training data if the these data are found to be malicious or as requested by the data owner. This paper introduces the concept of machine unlearning which is specifically designed to remove the influence of part of the dataset on an already trained forecaster. However, direct unlearning inevitably degrades the model generalization ability. To balance between unlearning completeness and model performance, a performance-aware algorithm is proposed by evaluating the sensitivity of local model parameter change using influence function and sample re-weighting. Furthermore, we observe that the statistical criterion such as mean squared error, cannot fully reflect the operation cost of the downstream tasks in power system. Therefore, a task-aware machine unlearning is proposed whose objective is a trilevel optimization with dispatch and redispatch problems considered. We theoretically prove the existence of the gradient of such an objective, which is key to re-weighting the remaining samples. We tested the unlearning algorithms on linear, CNN, and MLP-Mixer based load forecasters with a realistic load dataset. The simulation demonstrates the balance between unlearning completeness and operational cost. All codes can be found at https://github.com/xuwkk/task_aware_machine_unlearning. | 翻訳日:2024-03-13 16:27:44 公開日:2024-03-11 |
# UniPT: 効率的なパラメータとメモリを用いた伝達学習のためのユニバーサル並列チューニング UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory ( http://arxiv.org/abs/2308.14316v2 ) ライセンス: Link先を確認 | Haiwen Diao, Bo Wan, Ying Zhang, Xu Jia, Huchuan Lu, Long Chen | (参考訳) パラメータ効率変換学習(PETL)は、事前学習されたモデルを下流領域に適応させる効果的な戦略である。
メモリ需要をさらに減らすため、最近のPETLはより価値の高いメモリ効率特性に重点を置いている。
本稿では, 最先端手法のスケーラビリティ, 適応性, 一般化性は, 特定の事前学習されたバックボーンに対する構造的依存性と優性によって妨げられていると論じる。
そこで本研究では,これらの弱点を軽減すべく,新たなメモリ効率の高いpetl戦略であるuniversal parallel tuning (unipt)を提案する。
具体的には, 軽量で学習可能な並列ネットワークによる転送プロセスを容易にする。
1)シーケンシャル接続を分離し、事前訓練されたネットワークから中間活性化を処理する並列相互作用モジュール。
2) 層間機能統合のための最適戦略を適応的に学習する信頼集約モジュール。
我々は様々な視覚言語および純粋なnlpタスクにおいて、異なるバックボーン(例えば、t5, vse$\infty$, clip4clip, clip-vil, mdetr)を持つuniptを評価する。
18のデータセットに対する大規模な改善は、UniPTがメモリ消費を劇的に減らし、最高の競合相手を上回るだけでなく、トレーニングメモリオーバーヘッドの低い他の普通のPETLメソッドよりも競争力のあるパフォーマンスを達成できることを実証した。
私たちのコードは、https://github.com/Paranioar/UniPTで公開されています。 Parameter-efficient transfer learning (PETL), i.e., fine-tuning a small portion of parameters, is an effective strategy for adapting pre-trained models to downstream domains. To further reduce the memory demand, recent PETL works focus on the more valuable memory-efficient characteristic. In this paper, we argue that the scalability, adaptability, and generalizability of state-of-the-art methods are hindered by structural dependency and pertinency on specific pre-trained backbones. To this end, we propose a new memory-efficient PETL strategy, Universal Parallel Tuning (UniPT), to mitigate these weaknesses. Specifically, we facilitate the transfer process via a lightweight and learnable parallel network, which consists of: 1) A parallel interaction module that decouples the sequential connections and processes the intermediate activations detachedly from the pre-trained network. 2) A confidence aggregation module that learns optimal strategies adaptively for integrating cross-layer features. We evaluate UniPT with different backbones (e.g., T5, VSE$\infty$, CLIP4Clip, Clip-ViL, and MDETR) on various vision-and-language and pure NLP tasks. Extensive ablations on 18 datasets have validated that UniPT can not only dramatically reduce memory consumption and outperform the best competitor, but also achieve competitive performance over other plain PETL methods with lower training memory overhead. Our code is publicly available at: https://github.com/Paranioar/UniPT. | 翻訳日:2024-03-13 16:26:26 公開日:2024-03-11 |
# 量子インフォームド再帰最適化アルゴリズム Quantum-Informed Recursive Optimization Algorithms ( http://arxiv.org/abs/2308.13607v3 ) ライセンス: Link先を確認 | Jernej Rudi Fin\v{z}gar, Aron Kerschbaumer, Martin J. A. Schuetz, Christian B. Mendl, Helmut G. Katzgraber | (参考訳) 組合せ最適化問題に対する量子インフォームド再帰最適化(QIRO)アルゴリズムのファミリーを提案し,実装する。
提案手法では,量子資源を活用し,問題を再帰的に単純化する問題特有の古典的還元ステップで使用される情報を得る。
これらの削減ステップは、量子成分の限界に対処し、制約付き最適化問題における解実現可能性を保証する。
さらに,量子ハードウェアの要求を増加させることなく,アルゴリズムの性能をさらに向上させるためにバックトラッキング技術を用いる。
我々は,量子近似最適化アルゴリズム (qaoa) の浅層(深さ$p=1$) 回路の古典的シミュレーションによる相関関係をqiroに通知し, 最大独立集合のインスタンスを解き, 最大充足可能性問題を数百変数で解いた。
また、Amazon Braket上で利用可能な中性原子量子プロセッサにQIROをデプロイして、グラフの大きな独立した集合を見つける方法を示す。
要約すると, この手法は, 比較的弱い量子資源でも, シュミレーション・アニーリングや欲望アルゴリズムのような古典的ヒューリスティックスに匹敵する結果が得られる。
さらに、これらの量子リソースの品質の向上はアルゴリズムの性能を改善し、QIROの可能性を強調している。
特に、QIROのモジュラー性は様々な修正の道を提供し、組合せ最適化のためのより広範なハイブリッド量子古典アルゴリズムを設計するための青写真として位置づけられている。 We propose and implement a family of quantum-informed recursive optimization (QIRO) algorithms for combinatorial optimization problems. Our approach leverages quantum resources to obtain information that is used in problem-specific classical reduction steps that recursively simplify the problem. These reduction steps address the limitations of the quantum component and ensure solution feasibility in constrained optimization problems. Additionally, we use backtracking techniques to further improve the performance of the algorithm without increasing the requirements on the quantum hardware. We demonstrate the capabilities of our approach by informing QIRO with correlations from classical simulations of shallow (depth $p=1$) circuits of the quantum approximate optimization algorithm (QAOA), solving instances of maximum independent set and maximum satisfiability problems with hundreds of variables. We also demonstrate how QIRO can be deployed on a neutral atom quantum processor available online on Amazon Braket to find large independent sets of graphs. In summary, our scheme achieves results comparable to classical heuristics, such as simulated annealing and greedy algorithms, even with relatively weak quantum resources. Furthermore, enhancing the quality of these quantum resources improves the performance of the algorithms, highlighting the potential of QIRO. Notably, the modular nature of QIRO offers various avenues for modifications, positioning our work as a blueprint for designing a broader class of hybrid quantum-classical algorithms for combinatorial optimization. | 翻訳日:2024-03-13 16:25:59 公開日:2024-03-11 |
# MATLABにおける量子光学 Quantum optics in MATLAB ( http://arxiv.org/abs/2309.14354v2 ) ライセンス: Link先を確認 | Nilakantha Meher | (参考訳) 我々は、理論量子光学と関連分野の研究キャリアを始める学生を支援するために、初心者レベルでMATLAB数値ガイドを提供する。
これらの資源は、同様の分野の学期プロジェクトに取り組む大学生や大学院生にも有用である。 We provide a MATLAB numerical guide at the beginner level to support students starting their research careers in theoretical quantum optics and related areas. These resources are also valuable for undergraduate and graduate students working on semester projects in similar fields. | 翻訳日:2024-03-13 16:21:03 公開日:2024-03-11 |
# 連続治療のための2重ロバストな近位因果学習 Doubly Robust Proximal Causal Learning for Continuous Treatments ( http://arxiv.org/abs/2309.12819v3 ) ライセンス: Link先を確認 | Yong Wu, Yanwei Fu, Shouyan Wang, Xinwei Sun | (参考訳) 近位因果学習は、測定されていない共同創設者の存在下で因果効果を特定するための有望な枠組みである。
このフレームワーク内では、二重ロバスト(DR)推定器が導出され、特にモデル仮定に違反した場合に、その推定の有効性が示された。
しかし、DR推定器の現在の形態はバイナリ処理に限定され、実際の多くの応用において連続的な処理が可能である。
連続処理の主な障害は、元のDR推定器に存在するデルタ関数に存在し、因果効果の推定が不可能となり、ニュアンス関数推定において重い計算負担が生じる。
これらの課題に対処するために,カーネルベースのDR推定器を提案する。
その滑らかさを備え、そのオラクル形式は影響関数の一貫した近似であることを示す。
さらに,ニュアンス関数を効率的に解くための新しい手法を提案する。
次に,平均二乗誤差の観点から包括的収束解析を行う。
我々は,合成データセットと実世界のアプリケーションにおける推定器の有用性を実証する。 Proximal causal learning is a promising framework for identifying the causal effect under the existence of unmeasured confounders. Within this framework, the doubly robust (DR) estimator was derived and has shown its effectiveness in estimation, especially when the model assumption is violated. However, the current form of the DR estimator is restricted to binary treatments, while the treatment can be continuous in many real-world applications. The primary obstacle to continuous treatments resides in the delta function present in the original DR estimator, making it infeasible in causal effect estimation and introducing a heavy computational burden in nuisance function estimation. To address these challenges, we propose a kernel-based DR estimator that can well handle continuous treatments. Equipped with its smoothness, we show that its oracle form is a consistent approximation of the influence function. Further, we propose a new approach to efficiently solve the nuisance functions. We then provide a comprehensive convergence analysis in terms of the mean square error. We demonstrate the utility of our estimator on synthetic datasets and real-world applications. | 翻訳日:2024-03-13 16:19:45 公開日:2024-03-11 |
# AmodalSynthDrive:自動運転のための合成アモーダル知覚データセット AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous Driving ( http://arxiv.org/abs/2309.06547v2 ) ライセンス: Link先を確認 | Ahmed Rida Sekkat, Rohit Mohan, Oliver Sawade, Elmar Matthes, and Abhinav Valada | (参考訳) 部分的に遮蔽された場合でも物体全体を無力に推定できる人間とは異なり、現代のコンピュータビジョンアルゴリズムは、この側面を極めて困難に感じている。
このアモーダルな認識を自動運転に活用することは、適切なデータセットがないため、ほとんど解決されていない。
これらのデータセットのキュレーションは、主に重要なアノテーションコストと、正確なラベル付けにおけるアノテーションの主観性の緩和によって妨げられている。
これらの制約に対処するために、合成マルチタスクマルチモーダルアモーダル認識データセットであるAmodalSynthDriveを導入する。
データセットは、多視点カメライメージ、3dバウンディングボックス、lidarデータ、およびさまざまな交通、天候、照明条件で1m以上のオブジェクトアノテーションを含む150の運転シーケンスに対するオドメトリを提供する。
AmodalSynthDriveは、空間的理解を高めるために導入されたアモーダル深度推定を含む複数のアモーダルシーン理解タスクをサポートする。
これらのタスクのベースラインをいくつか評価し,課題を説明し,公開ベンチマークサーバを設置した。
データセットはhttp://amodalsynthdrive.cs.uni-freiburg.deで利用可能である。 Unlike humans, who can effortlessly estimate the entirety of objects even when partially occluded, modern computer vision algorithms still find this aspect extremely challenging. Leveraging this amodal perception for autonomous driving remains largely untapped due to the lack of suitable datasets. The curation of these datasets is primarily hindered by significant annotation costs and mitigating annotator subjectivity in accurately labeling occluded regions. To address these limitations, we introduce AmodalSynthDrive, a synthetic multi-task multi-modal amodal perception dataset. The dataset provides multi-view camera images, 3D bounding boxes, LiDAR data, and odometry for 150 driving sequences with over 1M object annotations in diverse traffic, weather, and lighting conditions. AmodalSynthDrive supports multiple amodal scene understanding tasks including the introduced amodal depth estimation for enhanced spatial understanding. We evaluate several baselines for each of these tasks to illustrate the challenges and set up public benchmarking servers. The dataset is available at http://amodalsynthdrive.cs.uni-freiburg.de. | 翻訳日:2024-03-13 16:16:26 公開日:2024-03-11 |
# モデルベースおよびモデルフリー強化学習の表現複雑性について On Representation Complexity of Model-based and Model-free Reinforcement Learning ( http://arxiv.org/abs/2310.01706v2 ) ライセンス: Link先を確認 | Hanlin Zhu, Baihe Huang, Stuart Russell | (参考訳) 回路複雑性の文脈におけるモデルベースおよびモデルフリー強化学習(RL)の表現複雑性について検討した。
理論的には、その基礎となる遷移関数と報酬関数が多項式サイズの定数深さ回路で表現できるようなmdpの幅広いクラスが存在することが証明され、一方最適な$q$-関数は定数深さ回路において指数関数回路複雑性を被る。
近似誤差に注意を向け、複雑性理論への接続を構築することによって、モデルベースのアルゴリズムが、新しい表現複雑性の観点から、モデルフリーなアルゴリズムよりも、通常より良いサンプル複雑性を享受する理由に関するユニークな洞察を与えます。
我々は, 遷移カーネルの近似誤差, 報酬関数, 最適$Q$-関数を様々なムジョコ環境において比較することにより, 理論を実証的に相関させ, 遷移カーネルと報酬関数の近似誤差が最適$Q$-関数よりも一貫して低いことを示す。
我々の知る限りでは、この研究はRLの回路複雑性を初めて研究し、将来の研究のための厳密な枠組みも提供する。 We study the representation complexity of model-based and model-free reinforcement learning (RL) in the context of circuit complexity. We prove theoretically that there exists a broad class of MDPs such that their underlying transition and reward functions can be represented by constant depth circuits with polynomial size, while the optimal $Q$-function suffers an exponential circuit complexity in constant-depth circuits. By drawing attention to the approximation errors and building connections to complexity theory, our theory provides unique insights into why model-based algorithms usually enjoy better sample complexity than model-free algorithms from a novel representation complexity perspective: in some cases, the ground-truth rule (model) of the environment is simple to represent, while other quantities, such as $Q$-function, appear complex. We empirically corroborate our theory by comparing the approximation error of the transition kernel, reward function, and optimal $Q$-function in various Mujoco environments, which demonstrates that the approximation errors of the transition kernel and reward function are consistently lower than those of the optimal $Q$-function. To the best of our knowledge, this work is the first to study the circuit complexity of RL, which also provides a rigorous framework for future research. | 翻訳日:2024-03-13 16:11:47 公開日:2024-03-11 |
# Retail-786k:ビジュアルエンティティマッチングのための大規模データセット Retail-786k: a Large-Scale Dataset for Visual Entity Matching ( http://arxiv.org/abs/2309.17164v2 ) ライセンス: Link先を確認 | Bianca Lamm (1 and 2), Janis Keuper (1) ((1) IMLA, Offenburg University, (2) Markant Services International GmbH) | (参考訳) エンティティマッチング(em)は、例のグループ(=エンティティ)から未認識データへ意味概念を転送することで、オブジェクトをグループ化する学習のタスクを定義する。
多くのEM-problemの文脈で画像データが一般に利用可能であるにもかかわらず、現在利用可能なEM-algorithmは(テキスト)メタデータのみに依存している。
本稿では,小売ドメインにおける生産レベルのユースケースに基づいた,視覚的実体マッチングのための最初の大規模データセットについて紹介する。
欧州の異なる小売業者から数年にわたって収集されたスキャン済みの広告リーフレットを用いて、約786kの注釈付き高解像度の製品イメージを、約18kの個々の小売商品を含む約3kのエンティティにまとめて提供します。
これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同値クラスを形成する価格比較タスクに基づいている。
最初のベースライン評価に従えば,提案した「視覚的実体マッチング」が,標準画像に基づく分類と検索アルゴリズムでは十分解決できない,新しい学習課題を構成することを示す。
代わりに、提案する問題に対処するために、サンプルベースの視覚的等価クラスを新しいデータに転送できる新しいアプローチが必要となる。
本論文の目的は,そのようなアルゴリズムのベンチマークを提供することである。
データセット、評価コード、ダウンロード手順に関する情報はhttps://www.retail-786k.org/で提供される。 Entity Matching (EM) defines the task of learning to group objects by transferring semantic concepts from example groups (=entities) to unseen data. Despite the general availability of image data in the context of many EM-problems, most currently available EM-algorithms solely rely on (textual) meta data. In this paper, we introduce the first publicly available large-scale dataset for "visual entity matching", based on a production level use case in the retail domain. Using scanned advertisement leaflets, collected over several years from different European retailers, we provide a total of ~786k manually annotated, high resolution product images containing ~18k different individual retail products which are grouped into ~3k entities. The annotation of these product entities is based on a price comparison task, where each entity forms an equivalence class of comparable products. Following on a first baseline evaluation, we show that the proposed "visual entity matching" constitutes a novel learning problem which can not sufficiently be solved using standard image based classification and retrieval algorithms. Instead, novel approaches which allow to transfer example based visual equivalent classes to new data are needed to address the proposed problem. The aim of this paper is to provide a benchmark for such algorithms. Information about the dataset, evaluation code and download instructions are provided under https://www.retail-786k.org/. | 翻訳日:2024-03-13 16:09:45 公開日:2024-03-11 |
# 下流課題の事前学習におけるラベルノイズの理解と緩和 Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks ( http://arxiv.org/abs/2309.17002v2 ) ライセンス: Link先を確認 | Hao Chen, Jindong Wang, Ankit Shah, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj | (参考訳) 大規模データセットの事前トレーニングと下流タスクの微調整は、ディープラーニングの標準的なプラクティスとなっている。
しかし、事前学習データは、しばしばモデルの一般化に悪影響を及ぼす可能性のあるラベルノイズを含む。
本稿では,データセットの事前学習におけるノイズの性質を理解し,そのダウンストリームタスクへの影響を緩和することを目的とする。
より具体的には、合成ノイズの多いimagenet-1kとyfcc15mデータセットにおける教師付き事前トレーニングモデルの広範な実験を通じて、事前トレーニング中のわずかなノイズがドメイン内(id)転送性能に寄与するが、トレーニングとテストのデータは同じ分布を共有しているため、トレーニングとテストデータ分布が異なる、ドメイン外(ood)パフォーマンスは常に低下する。
事前学習中のノイズが特徴空間の形状を異にする理由を実験的に検証する。
そこで我々は,ノイズの悪影響を軽減し,IDタスクとOODタスクの一般化を改善するために,特徴空間を緩和する軽量ブラックボックスチューニング法(NMTune)を提案する。
提案手法の評価のために,騒音データに事前学習したポピュラービジョンと言語モデルに関する実践実験を行う。
本研究は,ノイズモデル学習(Noisy Model Learning)とよばれる,興味深く,新しい研究方向の重要性を示唆するものである。 Pre-training on large-scale datasets and then fine-tuning on downstream tasks have become a standard practice in deep learning. However, pre-training data often contain label noise that may adversely affect the generalization of the model. This paper aims to understand the nature of noise in pre-training datasets and to mitigate its impact on downstream tasks. More specifically, through extensive experiments of supervised pre-training models on synthetic noisy ImageNet-1K and YFCC15M datasets, we demonstrate that while slight noise in pre-training can benefit in-domain (ID) transfer performance, where the training and testing data share the same distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing data distribution are different. We empirically verify that the reason behind is noise in pre-training shapes the feature space differently. We then propose a light-weight black-box tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization on both ID and OOD tasks, considering one may not be able to fully fine-tune or even access the pre-trained models. We conduct practical experiments on popular vision and language models that are pre-trained on noisy data for evaluation of our approach. Our analysis and results show the importance of this interesting and novel research direction, which we term Noisy Model Learning. | 翻訳日:2024-03-13 16:09:21 公開日:2024-03-11 |
# segment anything modelは、ローカル機能学習のよい教師である Segment Anything Model is a Good Teacher for Local Feature Learning ( http://arxiv.org/abs/2309.16992v2 ) ライセンス: Link先を確認 | Jingqian Wu, Rongtao Xu, Zach Wood-Doughty, Changwei Wang, Shibiao Xu, Edmund Lam | (参考訳) 局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動型局所特徴学習手法は、大規模取得が困難である訓練においてピクセルレベルの対応に頼る必要があるため、さらなるパフォーマンス向上を妨げる。
本稿では, SAMFeatを提案する。SAM(segment any model)は, 1100万の画像に基づいて訓練された基本モデルであり, 局所的な特徴学習を指導し, 限られたデータセット上でのより高い性能を刺激する教師である。
まず,SAMエンコーダが学習したカテゴリに依存しないセマンティックな意味情報を局所的な特徴学習ネットワークに蒸留し,意味的識別を用いて局所的な特徴記述を改善するための,Pixel Semantic Relational Distillation (PSRD) の補助タスクを構築する。
次に, SAMから派生したセマンティックグルーピングを弱教師付き信号として利用し, 局所記述子の距離空間を最適化する, Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC) という手法を開発した。
第3に,ネットワークにSAMにより誘導されるエッジ領域に注意を向けるよう促すことにより,ローカル特徴の検出と記述の精度をさらに向上するエッジ注意誘導(EAG)を設計する。
HPatchのイメージマッチングやAachen Day-Nightの長期的な視覚的ローカライゼーションなど、さまざまなタスクにおけるSAMFeatのパフォーマンスは、以前のローカル機能よりも優れていることを示している。
リリースコードはhttps://github.com/vignywang/samfeatで入手できる。 Local feature detection and description play an important role in many computer vision tasks, which are designed to detect and describe keypoints in "any scene" and "any downstream task". Data-driven local feature learning methods need to rely on pixel-level correspondence for training, which is challenging to acquire at scale, thus hindering further improvements in performance. In this paper, we propose SAMFeat to introduce SAM (segment anything model), a fundamental model trained on 11 million images, as a teacher to guide local feature learning and thus inspire higher performance on limited datasets. To do so, first, we construct an auxiliary task of Pixel Semantic Relational Distillation (PSRD), which distillates feature relations with category-agnostic semantic information learned by the SAM encoder into a local feature learning network, to improve local feature description using semantic discrimination. Second, we develop a technique called Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC), which utilizes semantic groupings derived from SAM as weakly supervised signals, to optimize the metric space of local descriptors. Third, we design an Edge Attention Guidance (EAG) to further improve the accuracy of local feature detection and description by prompting the network to pay more attention to the edge region guided by SAM. SAMFeat's performance on various tasks such as image matching on HPatches, and long-term visual localization on Aachen Day-Night showcases its superiority over previous local features. The release code is available at https://github.com/vignywang/SAMFeat. | 翻訳日:2024-03-13 16:08:58 公開日:2024-03-11 |
# STARC: 逆関数の違いを定量化するための一般的なフレームワーク STARC: A General Framework For Quantifying Differences Between Reward Functions ( http://arxiv.org/abs/2309.15257v2 ) ライセンス: Link先を確認 | Joar Skalse, Lucy Farnik, Sumeet Ramesh Motwani, Erik Jenner, Adam Gleave, Alessandro Abate | (参考訳) 強化学習を用いて課題を解決するためには,まずその課題の目標を報奨関数として定式化する必要がある。
しかし、多くの実世界のタスクでは、望ましくない振る舞いをインセンティブにしない報酬関数を手動で指定することは極めて困難である。
結果として、データから報奨関数を \emph{reward learning algorithms} としようとする \emph{learn} が使われるようになった。
しかし、報酬学習の理論的基礎はまだ十分に発達していない。
特に、高い確率で与えられた報酬学習アルゴリズムが、最適化するのに安全な報酬関数をいつ学習するかは知られていない。
これは、報酬学習アルゴリズムは一般的に経験的に評価されなければならず、これは高価であり、その失敗モードは事前に予測することが困難であることを意味する。
より理論的な保証を導き出すための障害の1つは、報酬関数間の差を定量化する良い方法がないことである。
本稿では,我々がstarc(standardized reward comparison)メトリックと呼ぶすべての報酬関数の空間上の擬メトリックのクラスという形で,この問題に対する解決策を提案する。
以上の結果から,STARCの指標は最悪の場合の後悔に対して上界と下界の両方を誘導し,我々の指標は厳密であり,同じ性質を持つ指標は我々のものと同等でなければならないことを示唆する。
さらに,先行研究によって提案された報奨指標を用いて,課題を多数特定した。
最後に,実効性を示すために,指標を実証的に評価する。
STARCメトリクスは、報酬学習アルゴリズムの理論的および実証的な解析を簡単かつより原理的に行うために使用できる。 In order to solve a task using reinforcement learning, it is necessary to first formalise the goal of that task as a reward function. However, for many real-world tasks, it is very difficult to manually specify a reward function that never incentivises undesirable behaviour. As a result, it is increasingly popular to use \emph{reward learning algorithms}, which attempt to \emph{learn} a reward function from data. However, the theoretical foundations of reward learning are not yet well-developed. In particular, it is typically not known when a given reward learning algorithm with high probability will learn a reward function that is safe to optimise. This means that reward learning algorithms generally must be evaluated empirically, which is expensive, and that their failure modes are difficult to anticipate in advance. One of the roadblocks to deriving better theoretical guarantees is the lack of good methods for quantifying the difference between reward functions. In this paper we provide a solution to this problem, in the form of a class of pseudometrics on the space of all reward functions that we call STARC (STAndardised Reward Comparison) metrics. We show that STARC metrics induce both an upper and a lower bound on worst-case regret, which implies that our metrics are tight, and that any metric with the same properties must be bilipschitz equivalent to ours. Moreover, we also identify a number of issues with reward metrics proposed by earlier works. Finally, we evaluate our metrics empirically, to demonstrate their practical efficacy. STARC metrics can be used to make both theoretical and empirical analysis of reward learning algorithms both easier and more principled. | 翻訳日:2024-03-13 16:07:38 公開日:2024-03-11 |
# テキストから画像へのカスタマイズのナビゲート:ライコリスの微調整からモデル評価へ Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation ( http://arxiv.org/abs/2309.14859v2 ) ライセンス: Link先を確認 | Shih-Ying Yeh, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, Yanmin Gong | (参考訳) テキストから画像への生成モデルは、テキストプロンプトから高精細な画像を生成する能力に多大な注目を集めている。
中でも、安定拡散は、この急成長分野における主要なオープンソースモデルと自らを区別している。
しかし、これらのモデルの微調整の複雑さは、新しい方法論の統合から体系的な評価まで、様々な課題をもたらす。
そこで本稿では, lycoris (lora beyond conventional methods, other rank adaptation implementation for stable diffusion) [https://github.com/kohakublueleaf/lycoris] というオープンソースのライブラリを紹介する。
さらに,様々な微調整手法を体系的に評価するための徹底的な枠組みを提案する。
このフレームワークは、ハイパーパラメータ調整や、さまざまな概念カテゴリで異なるプロンプト型による評価を含む、さまざまなメトリクスとデフを複数の微調整の側面に取り入れている。
この包括的アプローチを通じて、我々の研究は微調整パラメータのニュアンス効果に関する重要な洞察を与え、最先端の研究と実践的応用のギャップを埋める。 Text-to-image generative models have garnered immense attention for their ability to produce high-fidelity images from text prompts. Among these, Stable Diffusion distinguishes itself as a leading open-source model in this fast-growing field. However, the intricacies of fine-tuning these models pose multiple challenges from new methodology integration to systematic evaluation. Addressing these issues, this paper introduces LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) [https://github.com/KohakuBlueleaf/LyCORIS], an open-source library that offers a wide selection of fine-tuning methodologies for Stable Diffusion. Furthermore, we present a thorough framework for the systematic assessment of varied fine-tuning techniques. This framework employs a diverse suite of metrics and delves into multiple facets of fine-tuning, including hyperparameter adjustments and the evaluation with different prompt types across various concept categories. Through this comprehensive approach, our work provides essential insights into the nuanced effects of fine-tuning parameters, bridging the gap between state-of-the-art research and practical application. | 翻訳日:2024-03-13 16:07:13 公開日:2024-03-11 |
# FedCompass: 計算パワーアウェアスケジューリングを用いた異種クライアントデバイス上での効率的なクロスサイロフェデレーション学習 FedCompass: Efficient Cross-Silo Federated Learning on Heterogeneous Client Devices using a Computing Power Aware Scheduler ( http://arxiv.org/abs/2309.14675v2 ) ライセンス: Link先を確認 | Zilinghan Li, Pranshu Chaturvedi, Shilan He, Han Chen, Gagandeep Singh, Volodymyr Kindratenko, E. A. Huerta, Kibaek Kim, Ravi Madduri | (参考訳) クロスサイロ連合学習(cross-silo federated learning)は、中央集権的なデータ施設を持たない科学プロジェクトだけでなく、ローカルデータセットのプライバシを損なうことなく、堅牢で一般化されたaiモデルを協調的にトレーニングする、有望なソリューションを提供する。
それでも、異なるクライアント間のコンピューティングリソースの相違(デバイス不均一性)により、同期フェデレーション学習アルゴリズムは、ストラグラークライアントを待つ際に、劣化効率に悩まされる。
同様に、非同期フェデレート学習アルゴリズムは、古いローカルモデルとクライアントのドリフトによる非同一かつ独立に分散された(非IID)ヘテロジニアスデータセット上で、収束率と最終モデル精度の劣化を経験する。
本稿では,異種クライアントとデータとのクロスサイロフェデレーション学習におけるこれらの制限に対処するために,サーバ側では,各クライアントの計算能力の知識を用いて,さまざまなトレーニングタスクを異なるクライアントに適応的に割り当てるコンピューティングパワーアウェアスケジューラを備えた,革新的な半同期フェデレーション学習アルゴリズムfeedcompassを提案する。
FedCompassは、クライアントから複数のローカルトレーニングされたモデルがアグリゲーションのグループとしてほぼ同時に受信されることを保証する。
同時に、全体的なトレーニングプロセスは非同期のままであり、ストラグラークライアントからの待ち時間が長くなる。
非IID異種分散データセットを用いて、FedCompassは他の非同期アルゴリズムよりも高速な収束と高精度を実現する一方で、異種クライアント上でフェデレート学習を行う場合、同期アルゴリズムよりも効率的であることを示す。
FedCompassのソースコードはhttps://github.com/APPFL/FedCompassで入手できる。 Cross-silo federated learning offers a promising solution to collaboratively train robust and generalized AI models without compromising the privacy of local datasets, e.g., healthcare, financial, as well as scientific projects that lack a centralized data facility. Nonetheless, because of the disparity of computing resources among different clients (i.e., device heterogeneity), synchronous federated learning algorithms suffer from degraded efficiency when waiting for straggler clients. Similarly, asynchronous federated learning algorithms experience degradation in the convergence rate and final model accuracy on non-identically and independently distributed (non-IID) heterogeneous datasets due to stale local models and client drift. To address these limitations in cross-silo federated learning with heterogeneous clients and data, we propose FedCompass, an innovative semi-asynchronous federated learning algorithm with a computing power-aware scheduler on the server side, which adaptively assigns varying amounts of training tasks to different clients using the knowledge of the computing power of individual clients. FedCompass ensures that multiple locally trained models from clients are received almost simultaneously as a group for aggregation, effectively reducing the staleness of local models. At the same time, the overall training process remains asynchronous, eliminating prolonged waiting periods from straggler clients. Using diverse non-IID heterogeneous distributed datasets, we demonstrate that FedCompass achieves faster convergence and higher accuracy than other asynchronous algorithms while remaining more efficient than synchronous algorithms when performing federated learning on heterogeneous clients. The source code for FedCompass is available at https://github.com/APPFL/FedCompass. | 翻訳日:2024-03-13 16:06:50 公開日:2024-03-11 |
# InstructDET:一般化命令による参照対象検出の多様化 InstructDET: Diversifying Referring Object Detection with Generalized Instructions ( http://arxiv.org/abs/2310.05136v5 ) ライセンス: Link先を確認 | Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song | (参考訳) InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。
参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。
1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。
各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。
共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。
構築したデータセットをInDETと名付けます。
基礎モデルからのイメージ、bbx、一般化された命令を含む。
我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。
InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。
基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。 We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions. | 翻訳日:2024-03-13 16:02:42 公開日:2024-03-11 |
# 部分線形化によるパラメータ効率的なマルチタスクモデル融合 Parameter Efficient Multi-task Model Fusion with Partial Linearization ( http://arxiv.org/abs/2310.04742v3 ) ライセンス: Link先を確認 | Anke Tang, Li Shen, Yong Luo, Yibing Zhan, Han Hu, Bo Du, Yixin Chen, Dacheng Tao | (参考訳) 大規模な事前訓練されたモデルは、機械学習の大幅な進歩を可能にし、基礎コンポーネントとして機能した。
タスク演算のようなモデル融合手法は、異なるタスクからの微調整された重みをマルチタスクモデルに組み込むための強力でスケーラブルであることが証明されている。
しかし、複数の下流タスクで事前学習された大規模モデルを効率的に微調整することは依然として困難であり、非効率なマルチタスクモデル融合に繋がる。
本研究では,LoRAファインチューニングのようなパラメータ効率の高いファインチューニング技術において,マルチタスク融合を改善する新しい手法を提案する。
具体的には,アダプタモジュールのみを部分的に線形化し,タスク演算を線形化アダプタに適用する。
これにより、線形化ファインチューニングよりもモデル融合の利点を有効活用できると同時に、ファインチューニングと推論を効率的に行うことができる。
我々の部分線形化手法は、複数のタスクをより効果的に単一のモデルに融合させ、標準のアダプタチューニングとタスク演算のみを性能良くすることを示した。
実験により,細調整タスクベクトルの融合による統合マルチタスクモデルを効果的に構築できる部分線形化手法の有効性が示された。
タスク数の増加に対して性能を評価し,本手法が標準パラメータ効率の微調整技術より優れていることを示す。
この結果は、スケーラブルで効率的なマルチタスクモデル融合に対する部分線形化の利点を強調している。
コードはhttps://github.com/tanganke/petaで入手できる。 Large pre-trained models have enabled significant advances in machine learning and served as foundation components. Model fusion methods, such as task arithmetic, have been proven to be powerful and scalable to incorporate fine-tuned weights from different tasks into a multi-task model. However, efficiently fine-tuning large pre-trained models on multiple downstream tasks remains challenging, leading to inefficient multi-task model fusion. In this work, we propose a novel method to improve multi-task fusion for parameter-efficient fine-tuning techniques like LoRA fine-tuning. Specifically, our approach partially linearizes only the adapter modules and applies task arithmetic over the linearized adapters. This allows us to leverage the the advantages of model fusion over linearized fine-tuning, while still performing fine-tuning and inference efficiently. We demonstrate that our partial linearization technique enables a more effective fusion of multiple tasks into a single model, outperforming standard adapter tuning and task arithmetic alone. Experimental results demonstrate the capabilities of our proposed partial linearization technique to effectively construct unified multi-task models via the fusion of fine-tuned task vectors. We evaluate performance over an increasing number of tasks and find that our approach outperforms standard parameter-efficient fine-tuning techniques. The results highlight the benefits of partial linearization for scalable and efficient multi-task model fusion. The code is available at https://github.com/tanganke/peta | 翻訳日:2024-03-13 16:01:47 公開日:2024-03-11 |
# データ可用性に制限のあるMILPソリューションのためのディープインスタンス生成フレームワーク A Deep Instance Generative Framework for MILP Solvers Under Limited Data Availability ( http://arxiv.org/abs/2310.02807v3 ) ライセンス: Link先を確認 | Zijie Geng, Xijun Li, Jie Wang, Xiao Li, Yongdong Zhang, Feng Wu | (参考訳) 過去数年間、組合せ最適化(CO)問題、特に混合整数線形プログラム(MILP)に対処するために機械学習(ML)技術の使用が爆発的に増加した。
成果にもかかわらず、実世界のインスタンスの可用性が限られていることは、しばしば最適化された決定とバイアスド・ソルバ・アセスメントにつながり、一連の合成milpインスタンス生成技術が動機となる。
しかし、既存のメソッドは専門家が設計した定式化に大きく依存するか、現実のインスタンスのリッチな特徴を捉えるのに苦労する。
そこで本研究では,MILPインスタンスの深層生成フレームワークであるG2MILPを提案する。
特に、G2MILPはMILPインスタンスを二部グラフとして表現し、マスク付き変分オートエンコーダを用いて元のグラフの一部を反復的に破壊し、置き換えて新しいグラフを生成する。
G2MILPの魅力は、現実のデータセットの構造と計算硬度を同時に保ちながら、事前のエキスパート設計による定式化なしに、斬新で現実的なMILPインスタンスを生成することができることである。
したがって、生成されたインスタンスは、限られたデータ可用性の下でMILPソルバを強化するための下流タスクを容易にすることができる。
生成されたMILPインスタンスの品質を評価するためのベンチマークスイートを設計する。
実験により,本手法は実世界のデータセットによく似た構造と計算硬度の両方を生成できることを示した。
製品はhttps://miralab-ustc.github.io/L2O-G2MILPで公開される。 In the past few years, there has been an explosive surge in the use of machine learning (ML) techniques to address combinatorial optimization (CO) problems, especially mixed-integer linear programs (MILPs). Despite the achievements, the limited availability of real-world instances often leads to sub-optimal decisions and biased solver assessments, which motivates a suite of synthetic MILP instance generation techniques. However, existing methods either rely heavily on expert-designed formulations or struggle to capture the rich features of real-world instances. To tackle this problem, we propose G2MILP, the first deep generative framework for MILP instances. Specifically, G2MILP represents MILP instances as bipartite graphs, and applies a masked variational autoencoder to iteratively corrupt and replace parts of the original graphs to generate new ones. The appealing feature of G2MILP is that it can learn to generate novel and realistic MILP instances without prior expert-designed formulations, while preserving the structures and computational hardness of real-world datasets, simultaneously. Thus the generated instances can facilitate downstream tasks for enhancing MILP solvers under limited data availability. We design a suite of benchmarks to evaluate the quality of the generated MILP instances. Experiments demonstrate that our method can produce instances that closely resemble real-world datasets in terms of both structures and computational hardness. The deliverables are released at https://miralab-ustc.github.io/L2O-G2MILP. | 翻訳日:2024-03-13 15:59:05 公開日:2024-03-11 |
# GraphControl: グラフドメイン転送学習のためのUniversal Graph事前学習モデルに条件制御を追加する GraphControl: Adding Conditional Control to Universal Graph Pre-trained Models for Graph Domain Transfer Learning ( http://arxiv.org/abs/2310.07365v3 ) ライセンス: Link先を確認 | Yun Zhu, Yaoke Wang, Haizhou Shi, Zhenshuo Zhang, Dian Jiao, Siliang Tang | (参考訳) グラフ構造化データは、オブジェクト間の複雑な関係をモデル化し、様々なwebアプリケーションを可能にする世界でユビキタスである。
Web上のラベルなしグラフデータの毎日の流入は、これらのアプリケーションにとって大きな可能性を秘めている。
グラフ自己教師付きアルゴリズムは、豊富なラベルのないグラフデータからジェネリック知識を取得することに成功している。
これらの事前トレーニングされたモデルは、さまざまなダウンストリームwebアプリケーションに適用でき、トレーニング時間を短縮し、ダウンストリーム(ターゲット)パフォーマンスを改善する。
しかし、類似しているように見えるドメインの異なるグラフは、属性のセマンティクスの観点からは、トレーニング済みのモデルを下流のタスクに転送する際の困難を生じさせる可能性がある。
具体的には、例えば、下流タスク(特異性)におけるタスク固有の追加情報は通常、事前訓練された表現(転送可能性)を活用できるように意図的に省略される。
このようなトレードオフは、この作品において「伝達可能性-特異性ジレンマ」と呼ばれる。
この課題に対処するために、我々は、より良いグラフドメイン転送学習を実現するために、Controlと呼ばれるGraphControlと呼ばれる革新的なデプロイモジュールを導入しました。
具体的には、普遍的構造事前学習モデルとグラフ制御を利用することで、様々なグラフにまたがる入力空間を整列し、対象データのユニークな特徴を条件付き入力として取り入れる。
これらの条件は、コントロールネットによる微調整や迅速なチューニングの間、段階的にモデルに統合され、パーソナライズされたデプロイメントが容易になる。
実験の結果,提案手法は,対象とする属性データセットに対する事前学習モデルの適応性を著しく向上し,1.4~3倍の性能向上を達成した。
さらに、ターゲットデータに対するトレーニング・バイ・スクラッチ法を同等のマージンで上回り、より高速な収束を示す。 Graph-structured data is ubiquitous in the world which models complex relationships between objects, enabling various Web applications. Daily influxes of unlabeled graph data on the Web offer immense potential for these applications. Graph self-supervised algorithms have achieved significant success in acquiring generic knowledge from abundant unlabeled graph data. These pre-trained models can be applied to various downstream Web applications, saving training time and improving downstream (target) performance. However, different graphs, even across seemingly similar domains, can differ significantly in terms of attribute semantics, posing difficulties, if not infeasibility, for transferring the pre-trained models to downstream tasks. Concretely speaking, for example, the additional task-specific node information in downstream tasks (specificity) is usually deliberately omitted so that the pre-trained representation (transferability) can be leveraged. The trade-off as such is termed as "transferability-specificity dilemma" in this work. To address this challenge, we introduce an innovative deployment module coined as GraphControl, motivated by ControlNet, to realize better graph domain transfer learning. Specifically, by leveraging universal structural pre-trained models and GraphControl, we align the input space across various graphs and incorporate unique characteristics of target data as conditional inputs. These conditions will be progressively integrated into the model during fine-tuning or prompt tuning through ControlNet, facilitating personalized deployment. Extensive experiments show that our method significantly enhances the adaptability of pre-trained models on target attributed datasets, achieving 1.4-3x performance gain. Furthermore, it outperforms training-from-scratch methods on target data with a comparable margin and exhibits faster convergence. | 翻訳日:2024-03-13 15:48:58 公開日:2024-03-11 |
# オンラインリスク認識適応による分布強化学習 Distributional Reinforcement Learning with Online Risk-awareness Adaption ( http://arxiv.org/abs/2310.05179v2 ) ライセンス: Link先を確認 | Yupeng Wu, Wenjie Huang | (参考訳) 実践的応用における強化学習 (RL) の利用には, エージェントが不確実な環境に慣れていることに依存する, 準最適結果を検討する必要がある。
学習の過程で認識リスクのレベルを動的に調整することで、安全クリティカルな環境で戦術的に信頼できる最適ポリシーを達成し、静的リスクレベルの下位最適化に取り組むことができる。
本研究では,オンラインリスク適応型分散rl(drl-ora)という新しい枠組みを導入し,全変動最小化問題をオンライン上で解き明かして認識リスクレベルを動的に決定する手法を提案する。
リスクレベル選択は、フォロー・ザ・リーダー型アルゴリズムを用いたグリッド検索によって効率的に実現でき、そのオフラインオラクルは、損失関数の特別な修正の下で、"満足度尺度"(決定分析コミュニティ内)に関連している。
DRL-ORAは、固定リスクレベルまたは手動で所定のリスクレベル適応に依存する既存の手法よりも優れたタスクのクラスを示す。
修正の単純さを考えると、このフレームワークはほとんどのRLアルゴリズムの変種に簡単に組み込めると信じている。 The use of reinforcement learning (RL) in practical applications requires considering sub-optimal outcomes, which depend on the agent's familiarity with the uncertain environment. Dynamically adjusting the level of epistemic risk over the course of learning can tactically achieve reliable optimal policy in safety-critical environments and tackle the sub-optimality of a static risk level. In this work, we introduce a novel framework, Distributional RL with Online Risk Adaption (DRL-ORA), which can quantify the aleatory and epistemic uncertainties compositely and dynamically select the epistemic risk levels via solving a total variation minimization problem online. The risk level selection can be efficiently achieved through grid search using a Follow-The-Leader type algorithm, and its offline oracle is related to "satisficing measure" (in the decision analysis community) under a special modification of the loss function. We show multiple classes of tasks where DRL-ORA outperforms existing methods that rely on either a fixed risk level or manually predetermined risk level adaption. Given the simplicity of our modifications, we believe the framework can be easily incorporated into most RL algorithm variants. | 翻訳日:2024-03-13 15:47:09 公開日:2024-03-11 |
# オフセット構築モデルを用いた空中画像からのプロンプト駆動型建築用フットプリント抽出 Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model ( http://arxiv.org/abs/2310.16717v3 ) ライセンス: Link先を確認 | Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng, Junxian Ma | (参考訳) 超高解像度(VHR)空中画像からの見えない建物のフットプリントのより正確な抽出は、屋根のセグメンテーションと屋根からフットプリントまでのオフセット抽出に依存している。
インスタンスセグメンテーションに基づく既存の最先端のメソッドは、大規模データプロダクションに拡張された場合の一般化が貧弱で、低コストなヒューマンインタラクティブアノテーションが実現できない。
最新のプロンプトパラダイムは、屋根とオフセット抽出のためのプロンプト可能なフレームワークを設計するきっかけとなり、エンドツーエンドのアルゴリズムをプロンプト可能なメソッドに変換する。
本稿では,新しいOffset-Building Model (OBM)を提案する。
アルゴリズムの性能を厳格に評価するために,本モデルでは,オフセット誤差を16.6%削減し,屋根間交差(IoU)を10.8%改善するプロンプトベース評価手法を提案する。
オフセット予測における共通パターンを活用することで,距離NMS(Distance-NMS)アルゴリズムを提案し,オフセットベクトル損失を6.5%削減する。
モデルの一般化をさらに検証するため、7000以上のアノテーション付きインスタンスサンプルを新たにデータセットとしてテストした。
私たちのアルゴリズムとデータセットはhttps://anonymous.4open.science/r/obm-b3ecで利用可能です。 More accurate extraction of invisible building footprints from very-high-resolution (VHR) aerial images relies on roof segmentation and roof-to-footprint offset extraction. Existing state-of-the-art methods based on instance segmentation suffer from poor generalization when extended to large-scale data production and fail to achieve low-cost human interactive annotation. The latest prompt paradigms inspire us to design a promptable framework for roof and offset extraction, which transforms end-to-end algorithms into promptable methods. Within this framework, we propose a novel Offset-Building Model (OBM). To rigorously evaluate the algorithm's capabilities, we introduce a prompt-based evaluation method, where our model reduces offset errors by 16.6% and improves roof Intersection over Union (IoU) by 10.8% compared to other models. Leveraging the common patterns in predicting offsets, we propose Distance-NMS (DNMS) algorithms, enabling the model to further reduce offset vector loss by 6.5%. To further validate the generalization of models, we tested them using a new dataset with over 7,000 manually annotated instance samples. Our algorithms and dataset are available at https://anonymous.4open.science/r/OBM-B3EC. | 翻訳日:2024-03-13 15:39:11 公開日:2024-03-11 |
# 画像復元における後方サンプリングから有意義な多様性へ From Posterior Sampling to Meaningful Diversity in Image Restoration ( http://arxiv.org/abs/2310.16047v2 ) ライセンス: Link先を確認 | Noa Cohen, Hila Manor, Yuval Bahat, Tomer Michaeli | (参考訳) 画像復元問題は通常、劣化した画像が無限に多くの有効な方法で復元できるという意味では不適切である。
これに対応するために、多くの作品が、劣化した入力を与えられた自然画像の後方分布からランダムにサンプルし、多様な出力を生成する。
ここでは,この戦略は後方分布の重く,実用的価値が限られていると論じる。
例えば、画像中の空の欠落した領域を塗装することを考える。
欠落した領域には雲以外の物体が存在しない可能性が高いため、後部からのサンプルの集合はすべて(実際は同一)空の完備化によって支配される。
しかし、飛行船、鳥、気球などの代替ソリューションとともに、空の完成度を1つだけ示すことで、可能性の集合を概説した方がよいだろう。
本稿では,有意義に多様な画像復元の研究を開始する。
本稿では,様々な画像復元手法と組み合わせて意味論的に意味のある多様性が得られるポストプロセッシング手法について検討する。
さらに, 拡散に基づく画像復元手法により, 不要な計算オーバーヘッドのみを伴いながら, 有意義に多様な出力を生成できる実用的な手法を提案する。
提案手法を広範囲にわたるユーザスタディで分析し,出力間の類似性を低減し,後方サンプリングよりも有意に有利であることを示す。
コードと例はhttps://noa-cohen.github.io/MeaningfulDiversityInIRで公開されている。 Image restoration problems are typically ill-posed in the sense that each degraded image can be restored in infinitely many valid ways. To accommodate this, many works generate a diverse set of outputs by attempting to randomly sample from the posterior distribution of natural images given the degraded input. Here we argue that this strategy is commonly of limited practical value because of the heavy tail of the posterior distribution. Consider for example inpainting a missing region of the sky in an image. Since there is a high probability that the missing region contains no object but clouds, any set of samples from the posterior would be entirely dominated by (practically identical) completions of sky. However, arguably, presenting users with only one clear sky completion, along with several alternative solutions such as airships, birds, and balloons, would better outline the set of possibilities. In this paper, we initiate the study of meaningfully diverse image restoration. We explore several post-processing approaches that can be combined with any diverse image restoration method to yield semantically meaningful diversity. Moreover, we propose a practical approach for allowing diffusion based image restoration methods to generate meaningfully diverse outputs, while incurring only negligent computational overhead. We conduct extensive user studies to analyze the proposed techniques, and find the strategy of reducing similarity between outputs to be significantly favorable over posterior sampling. Code and examples are available at https://noa-cohen.github.io/MeaningfulDiversityInIR. | 翻訳日:2024-03-13 15:38:49 公開日:2024-03-11 |
# 適応型マルチヘッドアテンションを用いたトランスフォーマーの感情分析 Sentiment analysis with adaptive multi-head attention in Transformer ( http://arxiv.org/abs/2310.14505v4 ) ライセンス: Link先を確認 | Fanfei Meng, Chen-Ao Wang | (参考訳) 本稿では,映画レビュー資料の感情を識別するためのアテンション機構に基づく新しいフレームワークを提案する。
注意機構を有するディープニューラルネットワークの以前の取り組みは、固定数のマルチヘッド注意を持つエンコーダとデコーダに焦点を当てていた。
そこで本研究では,より有用な情報をメモリから読み取ることができなければ,注意処理を自動停止する機構が必要であり,文の長さに応じて注意ヘッド数を変化させる適応型多頭注意アーキテクチャ(adaptattn)を提案する。
AdaptAttnは、各文書を文の長さに基づいて、小、中、大の3つのビンのいずれかに分類するデータ前処理ステップを有する。
小さめに分類された文書は、各層で2つのヘッドを通り、中型グループは4つのヘッドを通り、大きなグループは8つのヘッドで処理される。
本モデルの有効性をスタンフォード大映画レビューデータセットで検証する。
実験結果から,本モデルからのF1スコアはベースラインモデルと同等であることがわかった。 We propose a novel framework based on the attention mechanism to identify the sentiment of a movie review document. Previous efforts on deep neural networks with attention mechanisms focus on encoder and decoder with fixed numbers of multi-head attention. Therefore, we need a mechanism to stop the attention process automatically if no more useful information can be read from the memory.In this paper, we propose an adaptive multi-head attention architecture (AdaptAttn) which varies the number of attention heads based on length of sentences. AdaptAttn has a data preprocessing step where each document is classified into any one of the three bins small, medium or large based on length of the sentence. The document classified as small goes through two heads in each layer, the medium group passes four heads and the large group is processed by eight heads. We examine the merit of our model on the Stanford large movie review dataset. The experimental results show that the F1 score from our model is on par with the baseline model. | 翻訳日:2024-03-13 15:38:25 公開日:2024-03-11 |
# 三体力の包絡理論の検証 Tests of the envelope theory for three-body forces ( http://arxiv.org/abs/2311.05212v2 ) ライセンス: Link先を確認 | Lorenzo Cimino, Clara Tourbez, Cyrille Chevalier, Gwendolyn Lacroix, Claude Semay | (参考訳) 多体力(特に三体力)は、原子物理学、原子核物理学、ハドロン物理学など様々な分野の関連成分である。
その正確な構造は一般に解明や実装が困難であるため、現象学的有効力は実際にしばしば用いられる。
多体変数によく用いられる形式は、2体変数の和の平方根である。
この場合においても、数値的な扱いは非常に困難である。
しかし、この種の多体力は包絡理論によって二体力と同等の難易度で扱うことができる。
エンベロープ理論は多体系の近似だが信頼性の高い解を計算するための非常に効率的な手法であり、特に同一粒子に対するものである。
この技術の品質は、3つの同一粒子からなる非相対論的系を持つ様々な3体力に対して検証される。
エネルギー、固有関数、およびいくつかの可観測性は、数値変分法で計算された対応する正確な結果と比較される。 Many-body forces, and specially three-body forces, are sometimes a relevant ingredient in various fields, such as atomic, nuclear or hadronic physics. As their precise structure is generally difficult to uncover or to implement, phenomenological effective forces are often used in practice. A form commonly used for a many-body variable is the square-root of the sum of two-body variables. Even in this case, the problem can be very difficult to treat numerically. But this kind of many-body forces can be handled at the same level of difficulty than two-body forces by the envelope theory. The envelope theory is a very efficient technique to compute approximate, but reliable, solutions of many-body systems, specially for identical particles. The quality of this technique is tested here for various three-body forces with non-relativistic systems composed of three identical particles. The energies, the eigenfunctions, and some observables are compared with the corresponding accurate results computed with a numerical variational method. | 翻訳日:2024-03-13 15:31:03 公開日:2024-03-11 |
# 重量共有正規化 Weight-Sharing Regularization ( http://arxiv.org/abs/2311.03096v2 ) ライセンス: Link先を確認 | Mehran Shakerinava, Motahareh Sohrabi, Siamak Ravanbakhsh, Simon Lacoste-Julien | (参考訳) 重み付けはディープラーニングにおいてユビキタスである。
これにより、ニューラルネットワークの重み値$w \in \mathbb{r}^d$に対する「重み共有正規化」のペナルティが提案され、$\mathcal{r}(w) = \frac{1}{d - 1}\sum_{i > j}^d |w_i - w_j|$ と定義される。
我々は、$\mathcal{r}$ の近位写像を研究し、相互作用する粒子の物理系の観点から直感的な解釈を提供する。
また、既存のアルゴリズムを$\operatorname{prox}_\mathcal{r}$(gpuで動かすために)並列化し、そのうちの1つが実際に速いが、最悪の入力には遅い(o(d)$)ことに気付く。
物理解釈を用いて、十分なプロセッサが利用可能であれば$o(\log^3 d)$で動作する新しい並列アルゴリズムを設計し、高速トレーニングを保証する。
実験の結果,畳み込みニューラルネットワークが故障しても,重み共有正規化により,畳み込み型フィルタを学習できることがわかった。
コードはgithubから入手できます。 Weight-sharing is ubiquitous in deep learning. Motivated by this, we propose a "weight-sharing regularization" penalty on the weights $w \in \mathbb{R}^d$ of a neural network, defined as $\mathcal{R}(w) = \frac{1}{d - 1}\sum_{i > j}^d |w_i - w_j|$. We study the proximal mapping of $\mathcal{R}$ and provide an intuitive interpretation of it in terms of a physical system of interacting particles. We also parallelize existing algorithms for $\operatorname{prox}_\mathcal{R}$ (to run on GPU) and find that one of them is fast in practice but slow ($O(d)$) for worst-case inputs. Using the physical interpretation, we design a novel parallel algorithm which runs in $O(\log^3 d)$ when sufficient processors are available, thus guaranteeing fast training. Our experiments reveal that weight-sharing regularization enables fully connected networks to learn convolution-like filters even when pixels have been shuffled while convolutional neural networks fail in this setting. Our code is available on github. | 翻訳日:2024-03-13 15:30:04 公開日:2024-03-11 |
# 確率的双対平均化による対数損失の高速最小化 Fast Minimization of Expected Logarithmic Loss via Stochastic Dual Averaging ( http://arxiv.org/abs/2311.02557v2 ) ライセンス: Link先を確認 | Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li | (参考訳) 確率的単純性または量子密度行列の集合よりも期待される対数損失を最小化する問題を考える。
この問題には、ポアソン逆問題の解法、量子状態トモグラフィーの最大近似計算、現在最も厳密な近似比で正の半定行列を近似するといったタスクが含まれる。
最適化問題は凸であるが、一階法の標準的な反復複雑性は、損失関数のリプシッツ連続性や滑らかさの欠如により直接適用されない。
本研究では,対数障壁を持つ確率的一階アルゴリズムである$b$-sample確率的双対平均法を提案する。
Poisson逆問題に対して、我々のアルゴリズムは$\varepsilon$-optimal solution in $\smash{\tilde{O}}(d^2/\varepsilon^2)$ time, with the state of the art, where $d$ represent the dimension。
量子状態トモグラフィーの最大線量推定を計算するとき、我々のアルゴリズムは、$\smash{\tilde{O}}(d^3/\varepsilon^2)$ timeで$\varepsilon$-optimal Solutionを得る。
これにより、既存の確率的一階法の時間的複雑さを、$d^{\omega-2}$で、バッチ法を$d^2$で、$\omega$は行列の乗法指数を表す。
数値実験により,提案手法は従来の手法よりも明示的な複雑性を保証できることを示した。 Consider the problem of minimizing an expected logarithmic loss over either the probability simplex or the set of quantum density matrices. This problem includes tasks such as solving the Poisson inverse problem, computing the maximum-likelihood estimate for quantum state tomography, and approximating positive semi-definite matrix permanents with the currently tightest approximation ratio. Although the optimization problem is convex, standard iteration complexity guarantees for first-order methods do not directly apply due to the absence of Lipschitz continuity and smoothness in the loss function. In this work, we propose a stochastic first-order algorithm named $B$-sample stochastic dual averaging with the logarithmic barrier. For the Poisson inverse problem, our algorithm attains an $\varepsilon$-optimal solution in $\smash{\tilde{O}}(d^2/\varepsilon^2)$ time, matching the state of the art, where $d$ denotes the dimension. When computing the maximum-likelihood estimate for quantum state tomography, our algorithm yields an $\varepsilon$-optimal solution in $\smash{\tilde{O}}(d^3/\varepsilon^2)$ time. This improves on the time complexities of existing stochastic first-order methods by a factor of $d^{\omega-2}$ and those of batch methods by a factor of $d^2$, where $\omega$ denotes the matrix multiplication exponent. Numerical experiments demonstrate that empirically, our algorithm outperforms existing methods with explicit complexity guarantees. | 翻訳日:2024-03-13 15:29:39 公開日:2024-03-11 |
# 大規模言語モデルを用いた対話エージェントのプラグアンドプレイポリシープランナ Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents ( http://arxiv.org/abs/2311.00262v2 ) ライセンス: Link先を確認 | Yang Deng, Wenxuan Zhang, Wai Lam, See-Kiong Ng, Tat-Seng Chua | (参考訳) プロアクティブ対話は、大規模言語モデル(llm)の時代において実用的で挑戦的な対話問題となり、対話政策計画がllmのプロアクティブ性を改善する鍵となる。
既存の研究の多くは、様々なプロンプトスキームを用いたLLMの対話ポリシープランニングを可能とし、言語AIのフィードバックで与えられたケースを扱う能力を反復的に強化する。
しかし、これらのアプローチは凍結したLCMの政策計画能力に縛られているか、あるいは新しいケースに移行することが難しいかのどちらかである。
そこで本研究では,ppdppと呼ばれる対話政策プランナーとして,可変言語モデルプラグインを用いて,積極的な対話問題に対するllmをストラテジライズするための新しい対話政策計画パラダイムを提案する。
具体的には、LLMベースのセルフプレイシミュレーションによって収集された動的相互作用データを用いた目標指向のAIフィードバックからの強化学習とともに、利用可能な人間アノテーションデータに対する教師あり微調整を容易にする新しいトレーニングフレームワークを開発する。
このように、LLMを利用した対話エージェントは、訓練後に異なるケースに一般化できるだけでなく、学習したプラグインを置換するだけで異なるアプリケーションに適用できる。
さらに,対話型環境下での対話システムの政策計画能力を評価することを提案する。
実験の結果,PDPPは交渉,感情支援,教師対話など,3つの異なる対話アプリケーションにおいて,既存のアプローチよりも一貫して,実質的に優れていた。 Proactive dialogues serve as a practical yet challenging dialogue problem in the era of large language models (LLMs), where the dialogue policy planning is the key to improving the proactivity of LLMs. Most existing studies enable the dialogue policy planning of LLMs using various prompting schemes or iteratively enhance this capability in handling the given case with verbal AI feedback. However, these approaches are either bounded by the policy planning capability of the frozen LLMs or hard to be transferred to new cases. In this work, we introduce a new dialogue policy planning paradigm to strategize LLMs for proactive dialogue problems with a tunable language model plug-in as a plug-and-play dialogue policy planner, named PPDPP. Specifically, we develop a novel training framework to facilitate supervised fine-tuning over available human-annotated data as well as reinforcement learning from goal-oriented AI feedback with dynamic interaction data collected by the LLM-based self-play simulation. In this manner, the LLM-powered dialogue agent can not only be generalized to different cases after the training, but also be applicable to different applications by just substituting the learned plug-in. In addition, we propose to evaluate the policy planning capability of dialogue systems under the interactive setting. Experimental results demonstrate that PPDPP consistently and substantially outperforms existing approaches on three different proactive dialogue applications, including negotiation, emotional support, and tutoring dialogues. | 翻訳日:2024-03-13 15:28:02 公開日:2024-03-11 |
# ヨルダンとウィグナー以外の自由フェルミオン Free fermions beyond Jordan and Wigner ( http://arxiv.org/abs/2310.19897v3 ) ライセンス: Link先を確認 | Paul Fendley and Balazs Pozsgay | (参考訳) ヨルダン・ウィグナー変換はしばしばフェルミオン作用素の項で量子スピン鎖を書き換えるために用いられる。
結果のハミルトニアンがこれらのフェルミオンにおいて双線型であるとき、すなわちフェルミオンが自由であるとき、正確なスペクトルは系の体積と直線的にしか成長しない行列の固有値から従う。
しかし、フェルミオン双線型へのヨルダン・ウィグナー変換を認めないいくつかのハミルトニアンは、依然として同じ種類の自由フェルミオンスペクトルを持つ。
そのような『変装中の自由フェルミオン』モデルのスペクトルは、昇降演算子の複雑だが明示的な構成によって正確に見ることができる。
さらに、このようなスピン鎖の族を見つける方法を一般化する。
正確なスペクトルを計算し、エレガントなグラフ理論の構成を一般化する。
また、この族が N=2 格子超対称性を持つことを説明する。 The Jordan-Wigner transformation is frequently utilised to rewrite quantum spin chains in terms of fermionic operators. When the resulting Hamiltonian is bilinear in these fermions, i.e. the fermions are free, the exact spectrum follows from the eigenvalues of a matrix whose size grows only linearly with the volume of the system. However, several Hamiltonians that do not admit a Jordan-Wigner transformation to fermion bilinears still have the same type of free-fermion spectra. The spectra of such ``free fermions in disguise" models can be found exactly by an intricate but explicit construction of the raising and lowering operators. We generalise the methods further to find a family of such spin chains. We compute the exact spectrum, and generalise an elegant graph-theory construction. We also explain how this family admits an N=2 lattice supersymmetry. | 翻訳日:2024-03-13 15:27:37 公開日:2024-03-11 |
# 固定予算付き最適多関節型ガウスベストアーム同定法 Worst-Case Optimal Multi-Armed Gaussian Best Arm Identification with a Fixed Budget ( http://arxiv.org/abs/2310.19788v3 ) ライセンス: Link先を確認 | Masahiro Kato | (参考訳) 本研究は, 最良腕識別 (best arm identification, bai) と呼ばれる最も期待された結果を持つ腕を識別するための実験設計問題を検討する。
実験では,治療アロケーションラウンドの数を固定した。
各ラウンドの間、意思決定者は腕を割り当て、対応する結果を観察し、腕間で異なるばらつきを持つガウス分布に従う。
実験の最後には、意思決定者は腕の1つを最適な腕の見積もりとして推奨する。
実験を設計するために,まず,誤認確率の下限について検討する。
分析の結果,平均値(予測結果),ばらつき,ベストアームの選択などの結果分布に関する情報が,下限に大きく影響していることが明らかになった。
利用可能な情報は実際の実験では限られているため、未知の手段と最善のアームの未知の選択の下で有効となる下限を開発し、最悪の下限と呼ぶ。
最悪の場合の低い境界は結果のばらつきにのみ依存することを示す。
次に,分散が知られていると仮定して,ニーマン(1934)が提案したニーマン割当の延長であるgna-empirical-best-arm(eba)戦略を提案する。
gna-eba戦略は,標本サイズが無限に増大するにつれて誤同定の確率が下界と一致し,最善と他の準最適アームの期待結果の差が腕間で同じ値に収束するという意味で漸近的に最適であることを示す。
このような戦略を漸近的に最悪の場合最適と呼ぶ。 This study investigates the experimental design problem for identifying the arm with the highest expected outcome, referred to as best arm identification (BAI). In our experiments, the number of treatment-allocation rounds is fixed. During each round, a decision-maker allocates an arm and observes a corresponding outcome, which follows a Gaussian distribution with variances that can differ among the arms. At the end of the experiment, the decision-maker recommends one of the arms as an estimate of the best arm. To design an experiment, we first discuss lower bounds for the probability of misidentification. Our analysis highlights that the available information on the outcome distribution, such as means (expected outcomes), variances, and the choice of the best arm, significantly influences the lower bounds. Because available information is limited in actual experiments, we develop a lower bound that is valid under the unknown means and the unknown choice of the best arm, which are referred to as the worst-case lower bound. We demonstrate that the worst-case lower bound depends solely on the variances of the outcomes. Then, under the assumption that the variances are known, we propose the Generalized-Neyman-Allocation (GNA)-empirical-best-arm (EBA) strategy, an extension of the Neyman allocation proposed by Neyman (1934). We show that the GNA-EBA strategy is asymptotically optimal in the sense that its probability of misidentification aligns with the lower bounds as the sample size increases infinitely and the differences between the expected outcomes of the best and other suboptimal arms converge to the same values across arms. We refer to such strategies as asymptotically worst-case optimal. | 翻訳日:2024-03-13 15:27:23 公開日:2024-03-11 |
# ニューラルモンジマップのアンバランス性はドメイン翻訳のアンペア化を改善する Unbalancedness in Neural Monge Maps Improves Unpaired Domain Translation ( http://arxiv.org/abs/2311.15100v2 ) ライセンス: Link先を確認 | Luca Eyring, Dominik Klein, Th\'eo Uscidda, Giovanni Palla, Niki Kilbertus, Zeynep Akata, Fabian Theis | (参考訳) 最適な輸送(OT)では、Mongeマップはソース分布を最もコスト効率のよい方法でターゲット分布に転送するマッピングとして知られている。
近年,単細胞生物学やコンピュータビジョンなど,多種多様な領域翻訳タスクにおいて,mongeマップのための複数の神経推定器が開発され,応用されている。
しかし、古典的なOTフレームワークは大量保存を強制し、現実のシナリオで適用性を制限する傾向にある。
後者は、分布内のサンプルの相対的な位置を明示的に考慮したotドメイン翻訳タスクにおいて特に有害である。
非バランスなOTは離散的な設定でこの課題に取り組むが、ニューラルなMongeマップ推定器への統合は限定的な注目を集めている。
我々は,任意のMongeマップ推定器に不均衡を組み込む理論的基礎付け手法を提案する。
既存の推定器を改良し、経時的に細胞軌跡をモデル化し、摂動に対する細胞応答を予測する。
さらに,本手法はOTフローマッチング(OT-FM)フレームワークとシームレスに統合される。
画像翻訳においてOT-FMが競合的に機能することを示す一方で,不均衡 (UOT-FM) を組み込むことにより, 性能の向上を図る。
そこで我々は,uot-fmを非ペア画像変換の原理的手法として確立する。 In optimal transport (OT), a Monge map is known as a mapping that transports a source distribution to a target distribution in the most cost-efficient way. Recently, multiple neural estimators for Monge maps have been developed and applied in diverse unpaired domain translation tasks, e.g. in single-cell biology and computer vision. However, the classic OT framework enforces mass conservation, which makes it prone to outliers and limits its applicability in real-world scenarios. The latter can be particularly harmful in OT domain translation tasks, where the relative position of a sample within a distribution is explicitly taken into account. While unbalanced OT tackles this challenge in the discrete setting, its integration into neural Monge map estimators has received limited attention. We propose a theoretically grounded method to incorporate unbalancedness into any Monge map estimator. We improve existing estimators to model cell trajectories over time and to predict cellular responses to perturbations. Moreover, our approach seamlessly integrates with the OT flow matching (OT-FM) framework. While we show that OT-FM performs competitively in image translation, we further improve performance by incorporating unbalancedness (UOT-FM), which better preserves relevant features. We hence establish UOT-FM as a principled method for unpaired image translation. | 翻訳日:2024-03-13 15:22:49 公開日:2024-03-11 |
# 移動ロボットのセマンティック・セマンティック・セグメンテーションと境界検出 Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for Mobile Robots ( http://arxiv.org/abs/2311.12651v3 ) ライセンス: Link先を確認 | Youqi Liao, Shuhao Kang, Jianping Li, Yang Liu, Yun Liu, Zhen Dong, Bisheng Yang, Xieyuanli Chen | (参考訳) シャープバウンダリとロバストセマンティクスの高精度かつ迅速なデライン化は、ロボットの把握と操作、リアルタイムセマンティクスマッピング、エッジコンピューティングユニットで実行されるオンラインセンサーキャリブレーションなど、多くの下流ロボットタスクに不可欠である。
境界検出とセマンティックセグメンテーションは相補的なタスクであるが、ほとんどの研究はセマンティックセグメンテーションの軽量モデルに焦点を当てているが、境界検出の重要な役割を見落としている。
本研究では,同時セマンティックセグメンテーションと境界検出に適した軽量なデュアルタスクフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
エンコーダは2つの経路に分けられる: 1つはカテゴリ認識のセマンティック情報をキャプチャし、もう1つはマルチスケールの特徴から境界を識別する。
AFDモジュールは、チャネル関係を学習することで意味情報と境界情報の融合を動的に適応し、各チャネルの正確な重み付けを可能にする。
さらに,二重タスク学習と深層ダイバーシティの監督における矛盾を軽減するために,正規化損失を導入する。
既存の手法と比較して,提案するMobile-Seedはセマンティックセグメンテーション性能を同時に改善し,オブジェクト境界を正確に特定する軽量なフレームワークを提供する。
Cityscapesデータセットの実験によると、Mobile-Seedは、RTX 2080 Ti GPU上で1024x2048の解像度で23.9フレーム/秒(FPS)のオンライン推論速度を維持しながら、mIoUで2.2ポイント(pp)、mFスコアで4.2ppという、最先端のSOTAベースラインよりも顕著に改善されている。
CamVidおよびPASCALコンテキストデータセットに関する追加実験により、我々のメソッドの一般化可能性が確認された。
コードと追加結果はhttps://whu-usi3dv.github.io/Mobile-Seed/で公開されている。 Precise and rapid delineation of sharp boundaries and robust semantics is essential for numerous downstream robotic tasks, such as robot grasping and manipulation, real-time semantic mapping, and online sensor calibration performed on edge computing units. Although boundary detection and semantic segmentation are complementary tasks, most studies focus on lightweight models for semantic segmentation but overlook the critical role of boundary detection. In this work, we introduce Mobile-Seed, a lightweight, dual-task framework tailored for simultaneous semantic segmentation and boundary detection. Our framework features a two-stream encoder, an active fusion decoder (AFD) and a dual-task regularization approach. The encoder is divided into two pathways: one captures category-aware semantic information, while the other discerns boundaries from multi-scale features. The AFD module dynamically adapts the fusion of semantic and boundary information by learning channel-wise relationships, allowing for precise weight assignment of each channel. Furthermore, we introduce a regularization loss to mitigate the conflicts in dual-task learning and deep diversity supervision. Compared to existing methods, the proposed Mobile-Seed offers a lightweight framework to simultaneously improve semantic segmentation performance and accurately locate object boundaries. Experiments on the Cityscapes dataset have shown that Mobile-Seed achieves notable improvement over the state-of-the-art (SOTA) baseline by 2.2 percentage points (pp) in mIoU and 4.2 pp in mF-score, while maintaining an online inference speed of 23.9 frames-per-second (FPS) with 1024x2048 resolution input on an RTX 2080 Ti GPU. Additional experiments on CamVid and PASCAL Context datasets confirm our method's generalizability. Code and additional results are publicly available at https://whu-usi3dv.github.io/Mobile-Seed/. | 翻訳日:2024-03-13 15:21:10 公開日:2024-03-11 |
# BEND:生物学的に意味のあるタスクに関するDNA言語モデルのベンチマーク BEND: Benchmarking DNA Language Models on biologically meaningful tasks ( http://arxiv.org/abs/2311.12570v3 ) ライセンス: Link先を確認 | Frederikke Isa Marin, Felix Teufel, Marc Horlacher, Dennis Madsen, Dennis Pultz, Ole Winther, Wouter Boomsma | (参考訳) ゲノム配列は、細胞プロセスを管理するための青写真を含む。
ゲノムの入手は過去数十年で大幅に増加したが、DNA配列にコードされる様々な機能的、非コード的、規制的要素の実験的なアノテーションは高価かつ困難である。
これは、タンパク質配列データに大きな成功を収めたパラダイムであるゲノムDNAの教師なし言語モデルへの関心を喚起した。
様々なdna言語モデルが提案されているが、評価タスクは個々の作品によって異なり、データの長さ、スケール、スパース性など、ゲノムアノテーションの基本的な課題を完全には再現できない。
本研究では,ヒトゲノム上に定義された現実的で生物学的に意味のある下流タスクの集合を特徴とする,DNA言語モデルのベンチマークであるBENDを紹介する。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
BENDはhttps://github.com/frederikkemarin/BENDで入手できる。 The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND. | 翻訳日:2024-03-13 15:20:25 公開日:2024-03-11 |
# ShapeMatcher: 自己監督型関節形状正準化, セグメンテーション, 検索, 変形 ShapeMatcher: Self-Supervised Joint Shape Canonicalization, Segmentation, Retrieval and Deformation ( http://arxiv.org/abs/2311.11106v2 ) ライセンス: Link先を確認 | Yan Di, Chenyangguang Zhang, Chaowei Wang, Ruida Zhang, Guangyao Zhai, Yanyan Li, Bowen Fu, Xiangyang Ji, Shan Gao | (参考訳) 本稿では,共同形状の正準化,セグメンテーション,検索,変形のための統一的自己教師付き学習フレームワークshapematcherを提案する。
任意のポーズで部分的に観察されたオブジェクトが与えられると、まず、そのオブジェクトのポーズとサイズでオブジェクトの固有の構造を分離し、ポイントワイズアフィン不変な特徴を抽出することによって、オブジェクトを正準化する。
これらの学習された特徴は、意味的に一貫した部分分割と対応する部分中心を予測するために活用される。
次に,各部分の特徴を検索トークンとして集約し,すべてのトークンと既存のデータベースからのソース形状を比較し,最も幾何学的に類似した形状を識別する。
最後に、部品中心誘導ニューラルケージ変形を利用して、取得した変形モジュールの形状を変形させ、入力対象を密にフィットさせる。
shapemakerの重要な洞察は、カノニカライズ、セグメンテーション、検索、変形という4つの高度関連プロセスの同時トレーニングであり、相互監督のためにタスク間の一貫性の損失を活用する。
合成データセットのPartNet、ComplementMe、および実世界のデータセットScan2CADに関する大規模な実験は、ShapeMakerが競合をはるかに上回っていることを示している。 In this paper, we present ShapeMatcher, a unified self-supervised learning framework for joint shape canonicalization, segmentation, retrieval and deformation. Given a partially-observed object in an arbitrary pose, we first canonicalize the object by extracting point-wise affine-invariant features, disentangling inherent structure of the object with its pose and size. These learned features are then leveraged to predict semantically consistent part segmentation and corresponding part centers. Next, our lightweight retrieval module aggregates the features within each part as its retrieval token and compare all the tokens with source shapes from a pre-established database to identify the most geometrically similar shape. Finally, we deform the retrieved shape in the deformation module to tightly fit the input object by harnessing part center guided neural cage deformation. The key insight of ShapeMaker is the simultaneous training of the four highly-associated processes: canonicalization, segmentation, retrieval, and deformation, leveraging cross-task consistency losses for mutual supervision. Extensive experiments on synthetic datasets PartNet, ComplementMe, and real-world dataset Scan2CAD demonstrate that ShapeMaker surpasses competitors by a large margin. | 翻訳日:2024-03-13 15:19:17 公開日:2024-03-11 |
# 脳記録からの言語生成 Language Generation from Brain Recordings ( http://arxiv.org/abs/2311.09889v5 ) ライセンス: Link先を確認 | Ziyi Ye, Qingyao Ai, Yiqun Liu, Maarten de Rijke, Min Zhang, Christina Lioma, Tuukka Ruotsalo | (参考訳) 非侵襲的脳-コンピュータインタフェース(BCI)による人間の言語の生成は、障害者に提供したりコミュニケーションを改善するなど、多くの応用を解き放つ可能性がある。
しかし、現在、bcisによる言語生成は、最も可能性の高い皮質意味表現を持つ前生成文継続候補を選択するための分類設定でのみ成功している。
脳と大規模計算言語モデルとの関係を明らかにする最近の研究に触発されて,意味的脳デコーダと組み合わせて,機能的磁気共鳴画像(fMRI)入力から言語を直接生成する,大規模言語モデル(LLM)のキャパシティを利用する生成言語BCIを提案する。
提案モデルは,事前生成した候補の事前知識を必要とせず,視覚刺激や聴覚刺激の意味的内容に整合したコヒーレントな言語系列を生成することができる。
提案したモデルから生成された言語を,ランダム制御,事前生成言語選択アプローチ,および標準LCMと比較し,統計的言語学習データに基づいて,次の単語の確率のみに基づいて共通コヒーレントテキストを生成する。
提案モデルでは,脳の入力がサンプリングされたときのセマンティック刺激とより整合した言語を生成する。
本研究は,直接言語生成におけるbcis活用の可能性と実現可能性を示す。 Generating human language through non-invasive brain-computer interfaces (BCIs) has the potential to unlock many applications, such as serving disabled patients and improving communication. Currently, however, generating language via BCIs has been previously successful only within a classification setup for selecting pre-generated sentence continuation candidates with the most likely cortical semantic representation. Inspired by recent research that revealed associations between the brain and the large computational language models, we propose a generative language BCI that utilizes the capacity of a large language model (LLM) jointly with a semantic brain decoder to directly generate language from functional magnetic resonance imaging (fMRI) input. The proposed model can generate coherent language sequences aligned with the semantic content of visual or auditory language stimuli perceived, without prior knowledge of any pre-generated candidates. We compare the language generated from the presented model with a random control, pre-generated language selection approach, and a standard LLM, which generates common coherent text solely based on the next word likelihood according to statistical language training data. The proposed model is found to generate language that is more aligned with semantic stimulus in response to which brain input is sampled. Our findings demonstrate the potential and feasibility of employing BCIs in direct language generation. | 翻訳日:2024-03-13 15:18:54 公開日:2024-03-11 |
# グラウンドングと引用生成を改善するための効果的な大規模言語モデル適応 Effective Large Language Model Adaptation for Improved Grounding and Citation Generation ( http://arxiv.org/abs/2311.09533v2 ) ライセンス: Link先を確認 | Xi Ye, Ruoxi Sun, Sercan \"O. Arik, Tomas Pfister | (参考訳) 大規模言語モデル(llm)は自然言語理解と生成において著しく進歩した。
しかし、現実の世界に広く展開する上での大きな問題は、事実ではない"幻滅的な"回答を生成できることです。
そこで本論文では, 抽出した経路に応答を接地し, 引用を提供することによりLCMを改善することに焦点を当てた。
本稿では,GRounding EnhancEment のための新たなフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
事前学習されたLLM上でのこのチューニングは、ペアクエリに対する(引用を含む)十分な応答を必要とするため、ラベルなしクエリからそのようなデータを自動的に構築する手法を導入する。
チューニングされたLLMの自己接地能力により、LLMの応答を反復的に改善する、根拠のないクレームをサポートするために、積極的に経路を検索できるテスト時適応(TTA)能力が提供される。
5つのデータセットと2つのLPMに対して,提案したチューニングベースAGREEフレームワークは,プロンプトベースアプローチやポストホック引用ベースアプローチと比較して,より正確な引用で優れた基底応答を生成することを示す。 Large language models (LLMs) have achieved remarkable advancements in natural language understanding and generation. However, one major issue towards their widespread deployment in the real world is that they can generate "hallucinated" answers that are not factual. Towards this end, this paper focuses on improving LLMs by grounding their responses in retrieved passages and by providing citations. We propose a new framework, AGREE, Adaptation for GRounding EnhancEment, that improves the grounding from a holistic perspective. Our framework tunes LLMs to selfground the claims in their responses and provide accurate citations to retrieved documents. This tuning on top of the pre-trained LLMs requires well-grounded responses (with citations) for paired queries, for which we introduce a method that can automatically construct such data from unlabeled queries. The selfgrounding capability of tuned LLMs further grants them a test-time adaptation (TTA) capability that can actively retrieve passages to support the claims that have not been grounded, which iteratively improves the responses of LLMs. Across five datasets and two LLMs, our results show that the proposed tuningbased AGREE framework generates superior grounded responses with more accurate citations compared to prompting-based approaches and post-hoc citing-based approaches | 翻訳日:2024-03-13 15:18:32 公開日:2024-03-11 |
# 磁場中における2次元ラシュバ半導体の近接誘起ギャップレス超伝導 Proximity-induced gapless superconductivity in two-dimensional Rashba semiconductor in magnetic field ( http://arxiv.org/abs/2311.09347v2 ) ライセンス: Link先を確認 | Serafim S. Babkin, Andrew P. Higginbotham, and Maksym Serbyn | (参考訳) 2次元半導体超導体ヘテロ構造は、多数のナノスケール物理系の基礎を形成する。
しかし、そのようなヘテロ構造の性質を測定し、半導体をその場で特徴づけることは困難である。
最近の実験では(arXiv:2107.03695)、超流動密度のマイクロ波測定を用いてヘテロ構造内の半導体をプローブすることができた。
この研究は、スピン軌道結合の存在下でボゴリューボフフェルミ表面が形成される面内磁場による半導体中の超流動密度の急速な減少を明らかにした。
実験では、半導体中の非磁性障害の存在を無視する単純な理論モデルを用いて、データを定性的に記述した。
実験により,超伝導体によって酸化される強いスピン軌道結合を持つ不規則半導体を記述する理論モデルを導入する。
本モデルでは, 状態密度と超流動密度の予測を行う。
障害の存在は、ボゴリューボフフェルミ表面の表象と見なされる、ギャップのない超伝導相の出現に繋がる。
実実験データに適用すると, 定量的な一致が得られ, 平均自由経路や移動度などの材料パラメータの抽出が可能となり, 磁場の軌道寄与を考慮した場合のg$-tensorの推定が可能となる。
このモデルは、他の超伝導半導体ヘテロ構造のその場パラメータを調べるために使用され、輸送特性にアクセスするためにさらに拡張することができる。 Two-dimensional semiconductor-superconductor heterostructures form the foundation of numerous nanoscale physical systems. However, measuring the properties of such heterostructures, and characterizing the semiconductor in-situ is challenging. A recent experimental study [arXiv:2107.03695] was able to probe the semiconductor within the heterostructure using microwave measurements of the superfluid density. This work revealed a rapid depletion of superfluid density in semiconductor, caused by the in-plane magnetic field which in presence of spin-orbit coupling creates so-called Bogoliubov Fermi surfaces. The experimental work used a simplified theoretical model that neglected the presence of non-magnetic disorder in the semiconductor, hence describing the data only qualitatively. Motivated by experiments, we introduce a theoretical model describing a disordered semiconductor with strong spin-orbit coupling that is proximitized by a superconductor. Our model provides specific predictions for the density of states and superfluid density. Presence of disorder leads to the emergence of a gapless superconducting phase, that may be viewed as a manifestation of Bogoliubov Fermi surface. When applied to real experimental data, our model showcases excellent quantitative agreement, enabling the extraction of material parameters such as mean free path and mobility, and estimating $g$-tensor after taking into account the orbital contribution of magnetic field. Our model can be used to probe in-situ parameters of other superconductor-semiconductor heterostructures and can be further extended to give access to transport properties. | 翻訳日:2024-03-13 15:18:08 公開日:2024-03-11 |
# 半教師ノード分類におけるホモフィリーとヘテロフィリーの絡み合い Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification ( http://arxiv.org/abs/2312.04111v2 ) ライセンス: Link先を確認 | Henan Sun, Xunkai Li, Zhengyu Wu, Daohan Su, Rong-Hua Li, Guoren Wang | (参考訳) 近年、グラフニューラルネットワーク(GNN)は、グラフデータベースからの知識を活用し、半教師付きノード分類において顕著な性能を示している。
しかし、既存のほとんどのGNNはホモフィリーの仮定に従っており、接続ノードは類似した特徴分布と同一のラベルを示す傾向があり、そのような仮定は、多くの実用的な応用において脆弱であることが証明されている。
補足として、ヘテロフィリーは連結ノードの相似性を反映しており、グラフ学習において大きな注目を集めている。
この目的のために、データエンジニアは、ホモフィリーとヘテロフィリーの両方で性能を保証する強力なGNNモデルの開発を目指している。
多くの試みにもかかわらず、ほとんどの既存のGNNは、無向グラフの制約のために最適なノード表現を達成するのに苦労している。
有向エッジの無視は、準最適グラフ表現をもたらすため、GNNの容量を妨げる。
この問題に対処するため,AMUDを導入し,ノードプロファイルとトポロジの関係を統計的観点から定量化し,自然有向グラフを非有向グラフあるいは有向グラフとして適応的にモデル化し,その後のグラフ学習の利点を最大化するための貴重な洞察を提供する。
さらに,新しい指向型グラフ学習パラダイムとして,適応型指向型パターンアグリゲーション(adpa)を提案する。
実証的研究により、AMUDが効率的なグラフ学習を導くことが示されている。
一方、16のベンチマークデータセットに対する広範な実験はADPAの印象的な性能を裏付け、ベースラインを3.96のかなりのマージンで上回った。 Recently, graph neural networks (GNNs) have shown prominent performance in semi-supervised node classification by leveraging knowledge from the graph database. However, most existing GNNs follow the homophily assumption, where connected nodes are more likely to exhibit similar feature distributions and the same labels, and such an assumption has proven to be vulnerable in a growing number of practical applications. As a supplement, heterophily reflects dissimilarity in connected nodes, which has gained significant attention in graph learning. To this end, data engineers aim to develop a powerful GNN model that can ensure performance under both homophily and heterophily. Despite numerous attempts, most existing GNNs struggle to achieve optimal node representations due to the constraints of undirected graphs. The neglect of directed edges results in sub-optimal graph representations, thereby hindering the capacity of GNNs. To address this issue, we introduce AMUD, which quantifies the relationship between node profiles and topology from a statistical perspective, offering valuable insights for Adaptively Modeling the natural directed graphs as the Undirected or Directed graph to maximize the benefits from subsequent graph learning. Furthermore, we propose Adaptive Directed Pattern Aggregation (ADPA) as a new directed graph learning paradigm for AMUD. Empirical studies have demonstrated that AMUD guides efficient graph learning. Meanwhile, extensive experiments on 16 benchmark datasets substantiate the impressive performance of ADPA, outperforming baselines by significant margins of 3.96. | 翻訳日:2024-03-13 15:13:01 公開日:2024-03-11 |
# 進化的アルゴリズムによるポインタネットワークの学習 Pointer Networks Trained Better via Evolutionary Algorithms ( http://arxiv.org/abs/2312.01150v4 ) ライセンス: Link先を確認 | Muyao Zhong, Shengcai Liu, Bingdong Li, Haobo Fu, Ke Tang, Peng Yang | (参考訳) Pointer Network (PtrNet) は、組合せ最適化問題(COP)を解決するためのニューラルネットワークである。
PtrNetsは複雑なCOPsインスタンスに対してリアルタイムフィードフォワード推論を提供するが、結果の品質は満足できない傾向にある。
一つの考えられる理由は、このような問題は勾配降下のグローバルな探索能力の欠如に苦しんでおり、教師付き学習と強化学習の両方を含む伝統的なptrnetトレーニング手法で頻繁に使われている。
PtrNetの性能向上のために,PtrNetと進化的アルゴリズム(EA)の訓練の利点を深く研究した。
トラベリングセールスマン問題(TSP)に基づく広範な実証研究が実施されている。
その結果、EAでトレーニングされたPtrNetは、様々な問題スケールで8つの最先端手法よりもずっと優れた推論結果が得られることが示された。
勾配降下に基づくPtrNetトレーニング手法と比較して、EAは同じ計算時間でソリューションの品質を最大30.21 %向上させる。
この利点を活かして,同じ次元でptrnetをトレーニングすることにより,1000次元tspの解法を初めて報告することが可能であり,高次元copsの解法においてptrnetの性能を向上させるためには,トレーニングインスタンスのスケールアップが必要であることを強く示唆する。 Pointer Network (PtrNet) is a specific neural network for solving Combinatorial Optimization Problems (COPs). While PtrNets offer real-time feed-forward inference for complex COPs instances, its quality of the results tends to be less satisfactory. One possible reason is that such issue suffers from the lack of global search ability of the gradient descent, which is frequently employed in traditional PtrNet training methods including both supervised learning and reinforcement learning. To improve the performance of PtrNet, this paper delves deeply into the advantages of training PtrNet with Evolutionary Algorithms (EAs), which have been widely acknowledged for not easily getting trapped by local optima. Extensive empirical studies based on the Travelling Salesman Problem (TSP) have been conducted. Results demonstrate that PtrNet trained with EA can consistently perform much better inference results than eight state-of-the-art methods on various problem scales. Compared with gradient descent based PtrNet training methods, EA achieves up to 30.21\% improvement in quality of the solution with the same computational time. With this advantage, this paper is able to at the first time report the results of solving 1000-dimensional TSPs by training a PtrNet on the same dimensionality, which strongly suggests that scaling up the training instances is in need to improve the performance of PtrNet on solving higher-dimensional COPs. | 翻訳日:2024-03-13 15:12:18 公開日:2024-03-11 |
# 高品質なニューラルレンダリングのための異方性ニューラル表現学習 Anisotropic Neural Representation Learning for High-Quality Neural Rendering ( http://arxiv.org/abs/2311.18311v2 ) ライセンス: Link先を確認 | Y.Wang, J. Xu, Y. Zeng and Y. Gong | (参考訳) ニューラルレイディアンス場(NeRF)は,多視点画像から暗黙の容積表現を学習することにより,印象的なビュー合成を実現している。
暗黙表現を画像に投影するために、nerfは、サンプリングされた点の色と密度の蓄積として、線の連続積分を近似するボリュームレンダリングを用いる。
この近似は効率的なレンダリングを可能にするが、方向情報を点間隔で無視し、あいまいな特徴と再構成品質が制限される。
本稿では、学習可能なビュー依存機能を利用してシーン表現と再構成を改善する異方性ニューラル表現学習法を提案する。
我々は,体積関数を球面調和(SH)誘導異方性特徴としてモデル化し,多層パーセプトロンでパラメータ化し,レンダリング効率を保ちながら曖昧性除去を容易にする。
異方性オーバーフィッティングを伴わない堅牢なシーン再構築を実現するため,トレーニング中の異方性特徴のエネルギーを正規化する。
我々の手法は柔軟であり、NeRFベースのフレームワークにプラグインできる。
広汎な実験により,提案手法により,様々なNeRFのレンダリング品質が向上し,合成シーンと実シーンの両方で最先端のレンダリング性能が得られることが示された。 Neural radiance fields (NeRFs) have achieved impressive view synthesis results by learning an implicit volumetric representation from multi-view images. To project the implicit representation into an image, NeRF employs volume rendering that approximates the continuous integrals of rays as an accumulation of the colors and densities of the sampled points. Although this approximation enables efficient rendering, it ignores the direction information in point intervals, resulting in ambiguous features and limited reconstruction quality. In this paper, we propose an anisotropic neural representation learning method that utilizes learnable view-dependent features to improve scene representation and reconstruction. We model the volumetric function as spherical harmonic (SH)-guided anisotropic features, parameterized by multilayer perceptrons, facilitating ambiguity elimination while preserving the rendering efficiency. To achieve robust scene reconstruction without anisotropy overfitting, we regularize the energy of the anisotropic features during training. Our method is flexiable and can be plugged into NeRF-based frameworks. Extensive experiments show that the proposed representation can boost the rendering quality of various NeRFs and achieve state-of-the-art rendering performance on both synthetic and real-world scenes. | 翻訳日:2024-03-13 15:11:58 公開日:2024-03-11 |
# オフ・ポリティイ・アセスメントのリスク・リターントレードオフの評価とベンチマークに向けて Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation ( http://arxiv.org/abs/2311.18207v3 ) ライセンス: Link先を確認 | Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito | (参考訳) Off-Policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの有効性を評価することを目的としており、オンラインA/Bテストにデプロイする上で、最も有望なポリシを特定するためにしばしば使用される。
OPE推定器の既存の評価指標は、主にOPEの「正確性」や下流政策の選択に焦点を当て、その後のオンライン政策展開におけるリスク・リターンのトレードオフを無視している。
この問題に対処するため、我々は金融におけるポートフォリオ評価からインスピレーションを得て、さまざまなオンライン評価予算(k)の下でOPE推定器によって形成される政策ポートフォリオのリスク・リターントレードオフを測定するSharpeRatio@kという新しい指標を開発した。
提案手法を2つのシナリオで検証し,低リスクと高リスクの推定器を効果的に識別し,最も効率的な推定器を正確に同定する能力を示す。
推定器の効率性は、最も有利なポリシーポートフォリオを形成し、リターンを最大化し、オンラインデプロイメント中のリスクを最小限にする能力によって特徴づけられる。
SharpeRatio@kによるOPEの迅速かつ正確かつ一貫した評価を容易にするため、このメトリクスをオープンソースソフトウェアであるSCOPE-RL(https://github.com/hakuhodo-technologies/scope-rl)に統合した。
SharpeRatio@k と SCOPE-RL を用いて,様々な推定器と RL タスクの総合的なベンチマーク実験を行い,リスク-リターントレードオフに着目した。
これらの実験は、将来のOPE研究にいくつかの興味深い方向と提案を提供する。 Off-Policy Evaluation (OPE) aims to assess the effectiveness of counterfactual policies using only offline logged data and is often used to identify the top-k promising policies for deployment in online A/B tests. Existing evaluation metrics for OPE estimators primarily focus on the "accuracy" of OPE or that of downstream policy selection, neglecting risk-return tradeoff in the subsequent online policy deployment. To address this issue, we draw inspiration from portfolio evaluation in finance and develop a new metric, called SharpeRatio@k, which measures the risk-return tradeoff of policy portfolios formed by an OPE estimator under varying online evaluation budgets (k). We validate our metric in two example scenarios, demonstrating its ability to effectively distinguish between low-risk and high-risk estimators and to accurately identify the most efficient one. Efficiency of an estimator is characterized by its capability to form the most advantageous policy portfolios, maximizing returns while minimizing risks during online deployment, a nuance that existing metrics typically overlook. To facilitate a quick, accurate, and consistent evaluation of OPE via SharpeRatio@k, we have also integrated this metric into an open-source software, SCOPE-RL (https://github.com/hakuhodo-technologies/scope-rl). Employing SharpeRatio@k and SCOPE-RL, we conduct comprehensive benchmarking experiments on various estimators and RL tasks, focusing on their risk-return tradeoff. These experiments offer several interesting directions and suggestions for future OPE research. | 翻訳日:2024-03-13 15:11:37 公開日:2024-03-11 |
# SCOPE-RL: オフライン強化学習とオフライン評価のためのPythonライブラリ SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation ( http://arxiv.org/abs/2311.18206v3 ) ライセンス: Link先を確認 | Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito | (参考訳) 本稿では、オフライン強化学習(オフラインRL)、オフ政治評価(OPE)、選択(OPS)のために設計されたオープンソースPythonソフトウェアSCOPE-RLを紹介する。
ポリシー学習や評価にのみフォーカスする既存のライブラリとは異なり、SCOPE-RLはこれらの2つの重要な側面をシームレスに統合し、オフラインのRLプロセスとOPEプロセスの両方の柔軟で完全な実装を容易にします。
SCOPE-RLはOPEモジュールに特に重点を置いており、様々なOPE推定器と堅牢なOPEプロトコルを提供している。
このアプローチは、他のパッケージよりも奥深く、信頼性の高いOPEを可能にします。
例えば scope-rl は、単なるポイント単位での期待値ではなく、ポリシーの下での報酬分布全体を見積もることで ope を強化する。
さらに、SCOPE-RLは、OPE結果のリスク・リターントレードオフを提示し、既存のOPE文献の単なる精度評価を超えて、より徹底的なOPEの評価を提供する。
SCOPE-RLはユーザアクセシビリティを念頭に設計されている。
ユーザフレンドリなAPI、包括的なドキュメント、そしてさまざまな簡単に追跡できる例は、研究者や実践者が、特定の問題コンテキストに合わせて、さまざまなオフラインRLメソッドやOPE推定器を効率的に実装し、実験するのに役立つ。
scope-rlのドキュメントはhttps://scope-rl.readthedocs.io/en/latest/で入手できる。 This paper introduces SCOPE-RL, a comprehensive open-source Python software designed for offline reinforcement learning (offline RL), off-policy evaluation (OPE), and selection (OPS). Unlike most existing libraries that focus solely on either policy learning or evaluation, SCOPE-RL seamlessly integrates these two key aspects, facilitating flexible and complete implementations of both offline RL and OPE processes. SCOPE-RL put particular emphasis on its OPE modules, offering a range of OPE estimators and robust evaluation-of-OPE protocols. This approach enables more in-depth and reliable OPE compared to other packages. For instance, SCOPE-RL enhances OPE by estimating the entire reward distribution under a policy rather than its mere point-wise expected value. Additionally, SCOPE-RL provides a more thorough evaluation-of-OPE by presenting the risk-return tradeoff in OPE results, extending beyond mere accuracy evaluations in existing OPE literature. SCOPE-RL is designed with user accessibility in mind. Its user-friendly APIs, comprehensive documentation, and a variety of easy-to-follow examples assist researchers and practitioners in efficiently implementing and experimenting with various offline RL methods and OPE estimators, tailored to their specific problem contexts. The documentation of SCOPE-RL is available at https://scope-rl.readthedocs.io/en/latest/. | 翻訳日:2024-03-13 15:11:05 公開日:2024-03-11 |
# 肝癌からのデジタル組織学的スライス分類のためのトランスダクティブ・数ショット学習法 A transductive few-shot learning approach for classification of digital histopathological slides from liver cancer ( http://arxiv.org/abs/2311.17740v2 ) ライセンス: Link先を確認 | Aymen Sadraoui (OPIS, CVN), S\'egol\`ene Martin (OPIS, CVN), Eliott Barbot (OPIS, CVN), Astrid Laurent-Bellue, Jean-Christophe Pesquet (OPIS, CVN), Catherine Guettier, Ismail Ben Ayed (ETS) | (参考訳) 本稿では,2次元病理組織学的パッチの分類法を提案する。
この方法は、ラベル付きデータの限られた可用性である病理学における重要な課題に取り組むように設計されている。
病理組織学スライドにスライディングウインドウ手法を適用することで,トランスダクティブ学習(パッチによる共同予測)の実用的メリットを,一貫性と正確な分類を実現するために示す。
提案手法は,各ウィンドウ内の多数の異なるクラスの予測を積極的にペナルティ化する最適化ベースの戦略である。
肝癌, 特に肝細胞癌のデジタルスライドにおける組織クラス分類のための病理組織学的データの実験を行った。
以上より,本手法の有効性と,がんの診断と治療のプロセスを強化する可能性を示すとともに,専門家の注記に要する時間と労力を削減した。 This paper presents a new approach for classifying 2D histopathology patches using few-shot learning. The method is designed to tackle a significant challenge in histopathology, which is the limited availability of labeled data. By applying a sliding window technique to histopathology slides, we illustrate the practical benefits of transductive learning (i.e., making joint predictions on patches) to achieve consistent and accurate classification. Our approach involves an optimization-based strategy that actively penalizes the prediction of a large number of distinct classes within each window. We conducted experiments on histopathological data to classify tissue classes in digital slides of liver cancer, specifically hepatocellular carcinoma. The initial results show the effectiveness of our method and its potential to enhance the process of automated cancer diagnosis and treatment, all while reducing the time and effort required for expert annotation. | 翻訳日:2024-03-13 15:10:39 公開日:2024-03-11 |
# TFMQ-DM:拡散モデルのための時間的特徴維持量子化 TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models ( http://arxiv.org/abs/2311.16503v3 ) ライセンス: Link先を確認 | Yushi Huang, Ruihao Gong, Jing Liu, Tianlong Chen, Xianglong Liu | (参考訳) 画像生成の一般的なフレームワークであるDiffusionモデルは、推論時間の拡張とかなりのメモリ要求のため、幅広い適用性の観点から大きな課題に直面している。
効率的なトレーニング後の量子化(ptq)は、これらの問題を従来のモデルで扱う上で重要である。
従来のモデルと異なり、拡散モデルは十分なマルチラウンドデノイジン化を達成するために時間ステップ$t$に大きく依存する。
通常、有限集合 $\{1, \ldots, t\}$ から$t$ はサンプリングデータに全く関係なくいくつかの加群によって時間的特徴に符号化される。
しかし、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。
彼らは不適切な再建ターゲットと複雑なキャリブレーション手法を採用し、時間的特徴の深刻な乱れと軌道の偏り、圧縮効率の低下をもたらす。
そこで本研究では,時間ステップ$t$にのみ関連し,サンプリングデータとは無関係な時間的情報ブロックに基づく時間的特徴維持量化(tfmq)フレームワークを提案する。
先駆的なブロック設計により、時間的情報認識再構築(tiar)と有限集合校正(fsc)を考案し、全精度時間的特徴を限られた時間内に調整する。
フレームワークを備えることで、最も時間的な情報を維持でき、エンドツーエンドの生成品質を保証できます。
様々なデータセットと拡散モデルに関する広範囲な実験により、最先端の結果が証明された。
注目すべきことに、我々の量子化アプローチは初めて、4ビットの重み量子化の下での完全精度モデルとほぼ同等のモデル性能を達成する。
さらに,提案手法は計算コストをほとんど必要とせず,LSUN-Bedrooms の量子化時間を 256$ の$2.0 \times$ で高速化する。
私たちのコードはhttps://github.com/ModelTC/TFMQ-DMで公開されています。 The Diffusion model, a prevalent framework for image generation, encounters significant challenges in terms of broad applicability due to its extended inference times and substantial memory requirements. Efficient Post-training Quantization (PTQ) is pivotal for addressing these issues in traditional models. Different from traditional models, diffusion models heavily depend on the time-step $t$ to achieve satisfactory multi-round denoising. Usually, $t$ from the finite set $\{1, \ldots, T\}$ is encoded to a temporal feature by a few modules totally irrespective of the sampling data. However, existing PTQ methods do not optimize these modules separately. They adopt inappropriate reconstruction targets and complex calibration methods, resulting in a severe disturbance of the temporal feature and denoising trajectory, as well as a low compression efficiency. To solve these, we propose a Temporal Feature Maintenance Quantization (TFMQ) framework building upon a Temporal Information Block which is just related to the time-step $t$ and unrelated to the sampling data. Powered by the pioneering block design, we devise temporal information aware reconstruction (TIAR) and finite set calibration (FSC) to align the full-precision temporal features in a limited time. Equipped with the framework, we can maintain the most temporal information and ensure the end-to-end generation quality. Extensive experiments on various datasets and diffusion models prove our state-of-the-art results. Remarkably, our quantization approach, for the first time, achieves model performance nearly on par with the full-precision model under 4-bit weight quantization. Additionally, our method incurs almost no extra computational cost and accelerates quantization time by $2.0 \times$ on LSUN-Bedrooms $256 \times 256$ compared to previous works. Our code is publicly available at https://github.com/ModelTC/TFMQ-DM. | 翻訳日:2024-03-13 15:09:22 公開日:2024-03-11 |
# LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント LLMGA: Multimodal Large Language Model based Generation Assistant ( http://arxiv.org/abs/2311.16500v3 ) ライセンス: Link先を確認 | Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, and Jiaya Jia | (参考訳) 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。
MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。
これは、llmのコンテキスト理解を増強するだけでなく、生成プロンプトのノイズを低減し、より複雑で正確なコンテンツを持つ画像を生成し、ネットワークの解釈可能性を高める。
そこで本研究では, 迅速な精細化, 類似画像生成, 塗り絵, 命令ベースの編集を含む包括的データセットをキュレートする。
さらに,二段階訓練方式を提案する。
第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。
第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。
また, 塗装時と塗装時において, 生成領域と保存領域のテクスチャ, 輝度, コントラストの差異を緩和する参照ベース復元ネットワークを提案する。
幅広い結果から、llmgaは有望な生成と編集機能を持ち、より柔軟で拡張性の高いアプリケーションをインタラクティブに実現できることが分かる。 In this paper, we introduce a Multimodal Large Language Model-based Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and proficiency in reasoning, comprehension, and response inherent in Large Language Models (LLMs) to assist users in image generation and editing. Diverging from existing approaches where Multimodal Large Language Models (MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our LLMGA provides a detailed language generation prompt for precise control over SD. This not only augments LLM context understanding but also reduces noise in generation prompts, yields images with more intricate and precise content, and elevates the interpretability of the network. To this end, we curate a comprehensive dataset comprising prompt refinement, similar image generation, inpainting \& outpainting, and instruction-based editing. Moreover, we propose a two-stage training scheme. In the first stage, we train the MLLM to grasp the properties of image generation and editing, enabling it to generate detailed prompts. In the second stage, we optimize SD to align with the MLLM's generation prompts. Additionally, we propose a reference-based restoration network to alleviate texture, brightness, and contrast disparities between generated and preserved regions during inpainting and outpainting. Extensive results show that LLMGA has promising generation and editing capabilities and can enable more flexible and expansive applications in an interactive manner. | 翻訳日:2024-03-13 15:08:52 公開日:2024-03-11 |
# 平衡内外相互作用鎖における2つの不連続区間の絡み合いエントロピーとスピン構造 Entanglement entropy of two disjoint intervals and spin structures in interacting chains in and out of equilibrium ( http://arxiv.org/abs/2312.10028v3 ) ライセンス: Link先を確認 | Vanja Mari\'c, Saverio Bocini, Maurizio Fagotti | (参考訳) 我々は、ハイゼンベルクスピン-$\frac{1}{2}$ xxzモデルと相互作用するスピン鎖のパラダイムを基準系として、ヨルダン-ウィグナー変換と部分鎖への制限によってそれに関連する相互作用モデルを検討する。
例えば、空隙のない XXZ ハミルトニアンのフェルミオン類似体は、連続的なスケーリング極限において、質量のないチューリングモデルによって記述される。
基底状態における不連続ブロックの r\'enyi-$\alpha$ エントロピーを調べ、無限長の極限において r\'enyi-$\alpha$ 三成分情報を記述する普遍的スケーリング関数を抽出する。
また、フォン・ノイマンのエントロピーを考えるが、大距離の限界のみを考える。
スピンブロックのエントロピーを用いて、基礎となる無質量チューリングモデルのスピン構造を明らかにする方法を示す。
最後に,大域的クエンチ後の三成分情報について推測し,無限時間と小クエンチの限界におけるその漸近的挙動を推測する。
結果として得られる'residual tripartite information''の予想は、区間の長さが(大きな)距離よりも無限に大きい極限に対応するもので、最近、非相互作用スピン鎖の研究を行った普遍性(universality)の主張を支持する。
我々の軽微な仮定は、XXZの隙間のない位相における異方性の小さなクエンチ後の残留三部体情報は、$-\log 2$と等しいことを示唆している。 We take the paradigm of interacting spin chains, the Heisenberg spin-$\frac{1}{2}$ XXZ model, as a reference system and consider interacting models that are related to it by Jordan-Wigner transformations and restrictions to sub-chains. An example is the fermionic analogue of the gapless XXZ Hamiltonian, which, in a continuum scaling limit, is described by the massless Thirring model. We work out the R\'enyi-$\alpha$ entropies of disjoint blocks in the ground state and extract the universal scaling functions describing the R\'enyi-$\alpha$ tripartite information in the limit of infinite lengths. We consider also the von Neumann entropy, but only in the limit of large distance. We show how to use the entropies of spin blocks to unveil the spin structures of the underlying massless Thirring model. Finally, we speculate about the tripartite information after global quenches and conjecture its asymptotic behaviour in the limit of infinite time and small quench. The resulting conjecture for the ``residual tripartite information'', which corresponds to the limit in which the intervals' lengths are infinitely larger than their (large) distance, supports the claim of universality recently made studying noninteracting spin chains. Our mild assumptions imply that the residual tripartite information after a small quench of the anisotropy in the gapless phase of XXZ is equal to $-\log 2$. | 翻訳日:2024-03-13 15:02:30 公開日:2024-03-11 |
# ラベル要求に対する非応答バイアスによるアクティブラーニング Active learning with biased non-response to label requests ( http://arxiv.org/abs/2312.08150v2 ) ライセンス: Link先を確認 | Thomas Robinson, Niek Tax, Richard Mudd, and Ido Guy | (参考訳) アクティブラーニングは、獲得する最も有益な新しいラベルを識別することで、予測モデルのトレーニング効率を向上させることができる。
しかしながら、ラベルリクエストに対する非応答は、現実世界のコンテキストにおけるアクティブラーニングの有効性に影響を与える可能性がある。
この劣化を,データ内に存在する非応答の種類を考慮し,非応答バイアスが特にモデル性能に有害であることを示すことで概念化する。
偏りのある非応答性は、本質的にラベル付けプロセスがユーザーインタラクションに依存しているコンテキストで起こりやすいと主張する。
偏りのある非応答の影響を軽減するため,本研究では,任意のアクティブラーニングアルゴリズムに適用可能な,期待効用(ucb-eu)の上位信頼範囲のサンプリング戦略に対するコストベース補正を提案する。
実験により,提案手法は,多くの環境において非応答のラベル付けによる害を軽減できることが実証された。
しかし,アノテーションの非応答バイアスが,特定のサンプリング方法やデータ生成プロセスにおいて UCB-EU の下で有害であるような設定も特徴付ける。
最後に、本手法をeコマースプラットフォームから実世界のデータセットで評価する。
UCB-EUは、クリックインプレッションに基づいてトレーニングされた変換モデルに対して、大幅な性能向上をもたらすことを示す。
一般的に、この研究は、非応答型とアクティブラーニングによるモデル改善の相互作用をより概念化し、モデルの劣化を緩和する実用的な実装容易な補正を提供するのに役立つ。 Active learning can improve the efficiency of training prediction models by identifying the most informative new labels to acquire. However, non-response to label requests can impact active learning's effectiveness in real-world contexts. We conceptualise this degradation by considering the type of non-response present in the data, demonstrating that biased non-response is particularly detrimental to model performance. We argue that biased non-response is likely in contexts where the labelling process, by nature, relies on user interactions. To mitigate the impact of biased non-response, we propose a cost-based correction to the sampling strategy--the Upper Confidence Bound of the Expected Utility (UCB-EU)--that can, plausibly, be applied to any active learning algorithm. Through experiments, we demonstrate that our method successfully reduces the harm from labelling non-response in many settings. However, we also characterise settings where the non-response bias in the annotations remains detrimental under UCB-EU for specific sampling methods and data generating processes. Finally, we evaluate our method on a real-world dataset from an e-commerce platform. We show that UCB-EU yields substantial performance improvements to conversion models that are trained on clicked impressions. Most generally, this research serves to both better conceptualise the interplay between types of non-response and model improvements via active learning, and to provide a practical, easy-to-implement correction that mitigates model degradation. | 翻訳日:2024-03-13 15:01:13 公開日:2024-03-11 |
# リフュージョン:メタラーニングを通して学習可能な損失を伴う再構成から画像融合を学ぶ ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning ( http://arxiv.org/abs/2312.07943v2 ) ライセンス: Link先を確認 | Haowen Bai, Zixiang Zhao, Jiangshe Zhang, Yichen Wu, Lilun Deng, Yukun Cui, Shuang Xu, Baisong Jiang | (参考訳) Image fusionは、複数のソースイメージからの情報と、より包括的な情報コンテンツを組み合わせることを目的としている。
ディープラーニングに基づくイメージ融合アルゴリズムの重要な課題は、決定的な基礎的真理の欠如と、それに対応する距離測定であり、現在の手動で与えられた損失関数は、統一融合タスクのモデルの柔軟性と一般化性を制約している。
これらの制約を克服するために,メタラーニングに基づく統合画像融合フレームワークReFusionを導入し,ソースコードの再構成に基づく様々な融合タスクに対する最適な融合損失を求める学習パラダイムを提供する。
既存の手法と比較して、ReFusionはパラメータ化された損失関数を採用し、特定のシナリオとタスクに応じてトレーニングフレームワークによって動的に調整される。
ReFusionは、融合モジュール、損失提案モジュール、ソース再構築モジュールの3つのコンポーネントで構成されている。
融合モジュールがソース画像からの情報を最大限に保存し、融合画像からのソース画像の再構成を可能にするために、再構成損失を用いた損失提案モジュールのトレーニングを行うメタラーニング戦略を採用する。
融合モジュールの更新は、損失提案モジュールによって提案された融合損失に依存する。
3つのモジュールの交互更新は相互に促進し、異なるタスクに対して適切な融合損失を提案し、良好な融合結果を得る。
広範囲にわたる実験により、ReFusionは赤外線可視、医療、マルチフォーカス、マルチ露光画像融合など様々なタスクに適応できることが示された。
コードはリリースされます。 Image fusion aims to combine information from multiple source images into a single one with more comprehensive informational content. The significant challenges for deep learning-based image fusion algorithms are the lack of a definitive ground truth as well as the corresponding distance measurement, with current manually given loss functions constrain the flexibility of model and generalizability for unified fusion tasks. To overcome these limitations, we introduce a unified image fusion framework based on meta-learning, named ReFusion, which provides a learning paradigm that obtains the optimal fusion loss for various fusion tasks based on reconstructing the source images. Compared to existing methods, ReFusion employs a parameterized loss function, dynamically adjusted by the training framework according to the specific scenario and task. ReFusion is constituted by three components: a fusion module, a loss proposal module, and a source reconstruction module. To ensure the fusion module maximally preserves the information from the source images, enabling the reconstruction of the source images from the fused image, we adopt a meta-learning strategy to train the loss proposal module using reconstruction loss. The update of the fusion module relies on the fusion loss proposed by the loss proposal module. The alternating updates of the three modules mutually facilitate each other, aiming to propose an appropriate fusion loss for different tasks and yield satisfactory fusion results. Extensive experiments demonstrate that ReFusion is capable of adapting to various tasks, including infrared-visible, medical, multi-focus, and multi-exposure image fusion. The code will be released. | 翻訳日:2024-03-13 15:00:51 公開日:2024-03-11 |
# XXAI: 明示的な説明可能なAIは、象徴的AIの限界を克服することによって、自動意思決定における透明性を提供する XXAI: Explicitly Explainable AI provides transparency in automatic decision-making by overcoming the limitations of symbolic AI ( http://arxiv.org/abs/2401.03093v3 ) ライセンス: Link先を確認 | V. L. Kalmykov, L.V. Kalmykov | (参考訳) シンボリックニューラルネットワークaiの信頼性と安全性は、その決定が明確に説明できないため懸念されている。
これは現代のAIのブラックボックス問題である。
同時に、象徴的なAIは、ホワイトボックスの性質を持ち、その決定の信頼性と安全性を保証することができる。
しかし、いくつかの問題は、数学モデルと自然言語用語の不透明さ、統一オントロジーの欠如、探索能力の複合的爆発など、記号的AIの広範な使用を妨げる。
AIのブラックボックス問題を解決するために,決定論的論理セルオートマトンに基づく完全透明なホワイトボックスAIであるExplicitly Explainable AI (XXAI)を提案する。
この場合、ドメインの一般理論は、セルオートマトンの推定を導出するための知識ベースの役割を担っている。
セルオートマトンは、要素ベースの局所的な相互作用からシステム全体に至るまで、あらゆるレベルの組織で並列多レベル論理推論を実装している。
いくつかの生態仮説の検証は,提案手法の実装を成功させる前例となる。
XXAIは、ファイナルフェーズとトレーニングフェーズの両方で、サブシンボリックニューラルネットワークAI決定の信頼性、安全性、倫理性を自動的に検証することができる。
本稿では,XXAIを創出するための理論的・方法論的基盤について述べる。 There are concerns about the reliability and safety of sub-symbolic neural network AI because its decisions cannot be explained explicitly. This is the black box problem of modern AI. At the same time, symbolic AI has the nature of a white box and is able to ensure the reliability and safety of its decisions. However, several problems prevent the widespread use of symbolic AI: the opacity of mathematical models and natural language terms, the lack of a unified ontology, and the combinatorial explosion of search capabilities. To solve the black-box problem of AI, we propose Explicitly Explainable AI (XXAI) - a fully transparent white-box AI based on deterministic logical cellular automata whose rules are derived from the first principles of the general theory of the relevant domain. In this case, the general theory of the domain plays the role of a knowledge base for deriving the inferences of the cellular automata. A cellular automaton implements parallel multi-level logical inference at all levels of organization - from local interactions of the element base to the system as a whole. Our verification of several ecological hypotheses sets a precedent for the successful implementation of the proposed solution. XXAI can automatically verify the reliability, safety, and ethicality of sub-symbolic neural network AI decisions during both the final and training phases. This paper presents the theoretical and methodological foundations for creating XXAI and discusses the prospects for this direction. | 翻訳日:2024-03-13 14:52:47 公開日:2024-03-11 |
# iKUN:リトレーニングなしでトラッカーに話しかける iKUN: Speak to Trackers without Retraining ( http://arxiv.org/abs/2312.16245v2 ) ライセンス: Link先を確認 | Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su | (参考訳) マルチオブジェクト追跡(RMOT)は、入力されたテキスト記述に基づいて複数のオブジェクトを追跡することを目的としている。
以前の作業では、余分なテキストモジュールをマルチオブジェクトトラッカに統合するだけでこれを実現する。
しかし、通常はフレームワーク全体を再トレーニングし、最適化に支障をきたす必要がある。
そこで本研究では,市販トラッカーとの通信をプラグイン・アンド・プレイ方式で行えるように,挿入可能な知識統一ネットワーク「ikun」を提案する。
具体的には、知識統一モジュール(KUM)は、テキストガイダンスに基づいて視覚的特徴を適応的に抽出するように設計されている。
一方、局所化精度を向上させるために、現在の動作状況に基づいてプロセスノイズと観測ノイズを動的に調整するKalman filter(NKF)のニューラルバージョンを提案する。
さらに,テキスト記述の長区間分布の開放化の問題に対処するため,疑似周波数で信頼度を向上するテスト時間類似度校正法を提案する。
refer-kittiデータセットに関する広範な実験は、このフレームワークの有効性を検証する。
最後に、RMOTの開発をスピードアップするために、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceも提供します。
コードとデータセットはhttps://github.com/dyhBUPT/iKUNで公開されている。 Referring multi-object tracking (RMOT) aims to track multiple objects based on input textual descriptions. Previous works realize it by simply integrating an extra textual module into the multi-object tracker. However, they typically need to retrain the entire framework and have difficulties in optimization. In this work, we propose an insertable Knowledge Unification Network, termed iKUN, to enable communication with off-the-shelf trackers in a plug-and-play manner. Concretely, a knowledge unification module (KUM) is designed to adaptively extract visual features based on textual guidance. Meanwhile, to improve the localization accuracy, we present a neural version of Kalman filter (NKF) to dynamically adjust process noise and observation noise based on the current motion status. Moreover, to address the problem of open-set long-tail distribution of textual descriptions, a test-time similarity calibration method is proposed to refine the confidence score with pseudo frequency. Extensive experiments on Refer-KITTI dataset verify the effectiveness of our framework. Finally, to speed up the development of RMOT, we also contribute a more challenging dataset, Refer-Dance, by extending public DanceTrack dataset with motion and dressing descriptions. The codes and dataset are available at https://github.com/dyhBUPT/iKUN. | 翻訳日:2024-03-13 14:51:32 公開日:2024-03-11 |
# 誘発幻覚による大規模言語モデルの幻覚緩和 Alleviating Hallucinations of Large Language Models through Induced Hallucinations ( http://arxiv.org/abs/2312.15710v2 ) ライセンス: Link先を確認 | Yue Zhang, Leyang Cui, Wei Bi, Shuming Shi | (参考訳) 彼らの印象的な能力にもかかわらず、大きな言語モデル(LLM)は不正確な情報や製造された情報を含む応答を生成するために観察されてきた。
本研究は,幻覚を緩和するための単純な \textit{induce-then-contrast} decoding (icd) 戦略を提案する。
まず,本来のLLMから幻覚を誘導することにより,現実的に弱いLLMを構築する。
そして,デコード中に誘導された幻覚をペナルティ化し,生成したコンテンツの事実性を高める。
具体的には、元のモデルからの予測を増幅し、コントラスト復号により誘発された不正確な予測を軽視することにより、最終的な次の予測を決定する。
TruthfulQA や \textsc{FActScore} のような識別に基づく幻覚評価ベンチマークと世代別幻覚評価ベンチマークによる実験結果から,提案手法は様々なモデルサイズや家族におけるLCMの事実性を効果的に向上できることを示した。
例えば、ICDを搭載した場合、Llama2-7B-Chat と Mistral-7B-Instruct はそれぞれ TruthfulQA 上で ChatGPT と GPT4 に匹敵する性能を達成する。 Despite their impressive capabilities, large language models (LLMs) have been observed to generate responses that include inaccurate or fabricated information, a phenomenon commonly known as ``hallucination''. In this work, we propose a simple \textit{Induce-then-Contrast} Decoding (ICD) strategy to alleviate hallucinations. We first construct a factually weak LLM by inducing hallucinations from the original LLMs. Then, we penalize these induced hallucinations during decoding to enhance the factuality of the generated content. Concretely, we determine the final next-token predictions by amplifying the predictions from the original model and downplaying the induced untruthful predictions via contrastive decoding. Experimental results on both discrimination-based and generation-based hallucination evaluation benchmarks, such as TruthfulQA and \textsc{FActScore}, demonstrate that our proposed ICD methods can effectively enhance the factuality of LLMs across various model sizes and families. For example, when equipped with ICD, Llama2-7B-Chat and Mistral-7B-Instruct achieve performance comparable to ChatGPT and GPT4 on TruthfulQA, respectively. | 翻訳日:2024-03-13 14:51:12 公開日:2024-03-11 |
# repairLLaMA: プログラム修復のための効率的な表現と微調整アダプタ RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair ( http://arxiv.org/abs/2312.15698v3 ) ライセンス: Link先を確認 | Andr\'e Silva, Sen Fang, Martin Monperrus | (参考訳) APR(Automated Program repair)は、LLM(Large Language Models)の出現によって大きく進化した。
プログラム修復のための微調整LDMは最近の研究の道であり、多くの次元がまだ探索されていない。
既存の作業は、コード表現が単純で、大きなLLMを微調整する能力に基本的に制限がある。
この問題に対処するため,我々は,新しいプログラム修復手法である repairllama を提案する。
1) apr と apr のコード表現
2) LLMファインチューニング技術であるLoRAについて検討した。
この結果、LLaMAは言語モデルでバグを修正するのに非常に効果的な'プログラム修復アダプタ'を作成した。
両概念の妥当性を示す実験を行った。
まず、プログラムの補修固有のコード表現を備えた微調整アダプタにより、意味のある補修信号を使用することができる。
第二に、パラメータ効率の良い微調整は微調整の収束に役立ち、微調整データ分布外のデータポイントを修正するための補修アダプタの有効性に寄与する。
repairLLaMAは、125 Defects4J v2と82 HumanEval-Javaのバグを正しく修正し、すべてのベースラインを上回っている。 Automated Program Repair (APR) has evolved significantly with the advent of Large Language Models (LLMs). Fine-tuning LLMs for program repair is a recent avenue of research, with many dimensions which have not been explored. Existing work mostly fine-tunes LLMs with naive code representations and is fundamentally limited in its ability to fine-tune larger LLMs. To address this problem, we propose RepairLLaMA, a novel program repair approach that combines 1) code representations for APR and 2) the state-of-the-art parameter-efficient LLM fine-tuning technique called LoRA. This results in RepairLLaMA producing a highly effective `program repair adapter' for fixing bugs with language models. Our experiments demonstrate the validity of both concepts. First, fine-tuning adapters with program repair specific code representations enables the model to use meaningful repair signals. Second, parameter-efficient fine-tuning helps fine-tuning to converge and contributes to the effectiveness of the repair adapter to fix data-points outside the fine-tuning data distribution. Overall, RepairLLaMA correctly fixes 125 Defects4J v2 and 82 HumanEval-Java bugs, outperforming all baselines. | 翻訳日:2024-03-13 14:50:50 公開日:2024-03-11 |
# ロバストさ、効率性、プライバシ: 機械学習で2つを選ぶ Robustness, Efficiency, or Privacy: Pick Two in Machine Learning ( http://arxiv.org/abs/2312.14712v2 ) ライセンス: Link先を確認 | Youssef Allouah, Rachid Guerraoui, and John Stephan | (参考訳) 機械学習(ML)アプリケーションの成功は、巨大なデータセットと分散アーキテクチャに依存し、成長するにつれて大きな課題が提示される。
データがセンシティブな情報を含む実世界のシナリオでは、データ中毒やハードウェア障害といった問題が一般的である。
プライバシと堅牢性の確保は、公共生活におけるMLの普及に不可欠である。
本稿では,分散MLアーキテクチャにおけるこれらの目的達成に伴うコストについて,理論的・経験的両面から検討する。
分散MLにおけるプライバシとロバスト性の意味を概説し、それらを分離して効率的に達成する方法を明らかにする。
しかし、これらの2つの目的の統合は、計算効率において顕著な妥協を必要とする。
要するに、従来のノイズ注入は、有害な入力を隠蔽することで精度を損なうが、暗号手法は、非線形の性質のため、防御と衝突する。
しかし,より弱い脅威モデルを考慮し,この妥協と効率性との調和を図るための今後の研究方向について概説する。 The success of machine learning (ML) applications relies on vast datasets and distributed architectures which, as they grow, present major challenges. In real-world scenarios, where data often contains sensitive information, issues like data poisoning and hardware failures are common. Ensuring privacy and robustness is vital for the broad adoption of ML in public life. This paper examines the costs associated with achieving these objectives in distributed ML architectures, from both theoretical and empirical perspectives. We overview the meanings of privacy and robustness in distributed ML, and clarify how they can be achieved efficiently in isolation. However, we contend that the integration of these two objectives entails a notable compromise in computational efficiency. In short, traditional noise injection hurts accuracy by concealing poisoned inputs, while cryptographic methods clash with poisoning defenses due to their non-linear nature. However, we outline future research directions aimed at reconciling this compromise with efficiency by considering weaker threat models. | 翻訳日:2024-03-13 14:50:32 公開日:2024-03-11 |
# 不信頼なd2dネットワーク上の不均質分散フェデレーション学習のためのトポロジー学習 Topology Learning for Heterogeneous Decentralized Federated Learning over Unreliable D2D Networks ( http://arxiv.org/abs/2312.13611v2 ) ライセンス: Link先を確認 | Zheshun Wu, Zenglin Xu, Dun Zeng, Junfan Li, Jie Liu | (参考訳) 無線デバイス対デバイス(d2d)ネットワークにおけるインテリジェントモバイルデバイスの普及に伴い、分散型連合学習(dfl)が注目されている。
集中型連合学習(CFL)と比較して、DFLは通信ボトルネックによる中央サーバ障害のリスクを軽減する。
しかし、DFLは様々な環境におけるデータ分散の不均一性や、D2Dネットワークにおけるユーザデータグラムプロトコル(UDP)の採用による送信停止やパッケージエラーなど、いくつかの課題に直面している。
これらの課題はしばしば訓練用DFLモデルの収束を低下させる。
これらの課題に対処するため、我々はDFLの完全な理論的収束解析を行い、収束境界を導出する。
本研究では,この収束境界における信頼できないリンク認識近傍の不一致という新しい量を定義することによって,トラクタブルな最適化目標を定式化し,DFLにおける表現不一致と信頼できないリンクを考慮した新しいトポロジー学習手法,ToLRDULを開発した。
特徴スキューとラベルスキュー設定の両方による集中的な実験により,提案手法の有効性が検証され,理論的な結果と一致した収束速度と試験精度が向上した。 With the proliferation of intelligent mobile devices in wireless device-to-device (D2D) networks, decentralized federated learning (DFL) has attracted significant interest. Compared to centralized federated learning (CFL), DFL mitigates the risk of central server failures due to communication bottlenecks. However, DFL faces several challenges, such as the severe heterogeneity of data distributions in diverse environments, and the transmission outages and package errors caused by the adoption of the User Datagram Protocol (UDP) in D2D networks. These challenges often degrade the convergence of training DFL models. To address these challenges, we conduct a thorough theoretical convergence analysis for DFL and derive a convergence bound. By defining a novel quantity named unreliable links-aware neighborhood discrepancy in this convergence bound, we formulate a tractable optimization objective, and develop a novel Topology Learning method considering the Representation Discrepancy and Unreliable Links in DFL, named ToLRDUL. Intensive experiments under both feature skew and label skew settings have validated the effectiveness of our proposed method, demonstrating improved convergence speed and test accuracy, consistent with our theoretical findings. | 翻訳日:2024-03-13 14:49:30 公開日:2024-03-11 |
# 量子コンピュータを用いたシュウィンガーモデルの一階相転移 First-Order Phase Transition of the Schwinger Model with a Quantum Computer ( http://arxiv.org/abs/2312.12831v2 ) ライセンス: Link先を確認 | Takis Angelides, Pranay Naredi, Arianna Crippa, Karl Jansen, Stefan K\"uhn, Ivano Tavernelli, Derek S. Wang | (参考訳) 本稿では,変分量子固有解法 (VQE) を用いてトポロジカル$\theta$-termの存在下での格子シュウィンガーモデルの1次位相遷移について検討する。
Wilson と Stagered fermion の2つの異なるフェミオン離散化を用いて、両離散化に適したパラメトリックアンサッツ回路を開発し、ノイズがない場合に理想的なVQE最適化を古典的にシミュレートしてそれらの性能を比較する。
古典的なシミュレーションによって得られた状態は、IBMの超伝導量子ハードウェア上で準備される。
そこで, 量子ハードウェアを用いて, 電界密度と粒子数, モデルの位相構造を明らかにする可観測性を用いて, 量子ハードウェアから確実に得られることを示す。
連続体外挿に必要な最小系サイズを調べるために,行列積状態を用いた連続体限界を調べ,連続体質量摂動理論と比較した。
付加的な質量再正規化を考慮に入れることは、より小さなシステムサイズで得られる精度を高めるのに不可欠である。
さらに,観測可能な観測対象について普遍性を観測し,両フェルミオンの離散化は同じ連続体極限を生成する。 We explore the first-order phase transition in the lattice Schwinger model in the presence of a topological $\theta$-term by means of the variational quantum eigensolver (VQE). Using two different fermion discretizations, Wilson and staggered fermions, we develop parametric ansatz circuits suitable for both discretizations, and compare their performance by simulating classically an ideal VQE optimization in the absence of noise. The states obtained by the classical simulation are then prepared on the IBM's superconducting quantum hardware. Applying state-of-the art error-mitigation methods, we show that the electric field density and particle number, observables which reveal the phase structure of the model, can be reliably obtained from the quantum hardware. To investigate the minimum system sizes required for a continuum extrapolation, we study the continuum limit using matrix product states, and compare our results to continuum mass perturbation theory. We demonstrate that taking the additive mass renormalization into account is vital for enhancing the precision that can be obtained with smaller system sizes. Furthermore, for the observables we investigate we observe universality, and both fermion discretizations produce the same continuum limit. | 翻訳日:2024-03-13 14:49:08 公開日:2024-03-11 |
# ファウショット関係抽出のための相乗的アンコレッドコントラスト事前学習 Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction ( http://arxiv.org/abs/2312.12021v3 ) ライセンス: Link先を確認 | Da Luo, Yanglei Gan, Rui Hou, Run Lin, Qiao Liu, Yuxiang Cai, Wannian Gao | (参考訳) Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから関係事実を抽出することを目的としている。
近年の研究では、教師付きコントラスト学習の枠組みに事前学習言語モデル(PLM)を用いることで、FSREにおいて有望な結果が示されている。
しかし、この学習パラダイムにおける学習表現と意味豊かさを包含する大規模なインスタンスラベルペアを効果的に活用する方法は、十分に検討されていない。
このギャップに対処するために,新しい相乗的アンカー型コントラストプレトレーニングフレームワークを提案する。
このフレームワークは、インスタンスラベルペアを通じて伝達される多様な視点が不完全だが補完的な内在的なテキスト意味論を捉えているという洞察に動機づけられている。
特に,本フレームワークは,文長とラベル長の両比較損失を含む対称的コントラスト目的を含む。
これら2つの損失を組み合わせることで、モデルは堅牢で均一な表現空間を確立する。
この空間は、インスタンスとリレーショナル事実間の特徴分布の相互アライメントを効果的に捉え、同時に、同一関係内の様々な視点における相互情報の最大化を強化する。
実験の結果, 下流fsreタスクにおけるベースラインモデルと比較して, 性能が大幅に向上した。
さらに,本手法は,ドメインシフトやゼロショット関係抽出の課題に対処する上で,優れた適応性を示す。
私たちのコードはhttps://github.com/AONE-NLP/FSRE-SaConで公開されている。 Few-shot Relation Extraction (FSRE) aims to extract relational facts from a sparse set of labeled corpora. Recent studies have shown promising results in FSRE by employing Pre-trained Language Models (PLMs) within the framework of supervised contrastive learning, which considers both instances and label facts. However, how to effectively harness massive instance-label pairs to encompass the learned representation with semantic richness in this learning paradigm is not fully explored. To address this gap, we introduce a novel synergistic anchored contrastive pre-training framework. This framework is motivated by the insight that the diverse viewpoints conveyed through instance-label pairs capture incomplete yet complementary intrinsic textual semantics. Specifically, our framework involves a symmetrical contrastive objective that encompasses both sentence-anchored and label-anchored contrastive losses. By combining these two losses, the model establishes a robust and uniform representation space. This space effectively captures the reciprocal alignment of feature distributions among instances and relational facts, simultaneously enhancing the maximization of mutual information across diverse perspectives within the same relation. Experimental results demonstrate that our framework achieves significant performance enhancements compared to baseline models in downstream FSRE tasks. Furthermore, our approach exhibits superior adaptability to handle the challenges of domain shift and zero-shot relation extraction. Our code is available online at https://github.com/AONE-NLP/FSRE-SaCon. | 翻訳日:2024-03-13 14:48:48 公開日:2024-03-11 |
# SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習 SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.11791v2 ) ライセンス: Link先を確認 | Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen | (参考訳) Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャすることができる。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP潜伏空間を効果的に促進し,セグメント化された領域と対象対象オブジェクトのセマンティックアライメントを強化する。
より具体的には、各対象対象カテゴリーに関連づけられた共起の背景を適切に記述し抑制するプロンプトを学ぶために、コントラスト付きプロンプト学習とプロンプトガイド付きセマンティックリファインメントを提案する。
このようにして、semplesは、オブジェクト領域と関連するクラスラベルの間のより優れたセマンティクスアライメントを実行し、セグメンテーションモデルのトレーニングに所望の擬似マスクを生成することができる。
提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,他のWSSSメソッドとの互換性を示す。
ソースコードは補足書に記載されている。 Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation models using image data with only image-level supervision. Since precise pixel-level annotations are not accessible, existing methods typically focus on producing pseudo masks for training segmentation models by refining CAM-like heatmaps. However, the produced heatmaps may capture only the discriminative image regions of object categories or the associated co-occurring backgrounds. To address the issues, we propose a Semantic Prompt Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the CLIP latent space to enhance the semantic alignment between the segmented regions and the target object categories. More specifically, we propose Contrastive Prompt Learning and Prompt-guided Semantic Refinement to learn the prompts that adequately describe and suppress the co-occurring backgrounds associated with each target object category. In this way, SemPLeS can perform better semantic alignment between object regions and the associated class labels, resulting in desired pseudo masks for training the segmentation model. The proposed SemPLeS framework achieves SOTA performance on the standard WSSS benchmarks, PASCAL VOC and MS COCO, and shows compatibility with other WSSS methods. The source codes are provided in the supplementary. | 翻訳日:2024-03-13 14:42:48 公開日:2024-03-11 |
# 中国語QAペア抽出課題におけるコードベース英語モデルの性能評価 Code-Based English Models Surprising Performance on Chinese QA Pair Extraction Task ( http://arxiv.org/abs/2401.10286v3 ) ライセンス: Link先を確認 | Linghan Zheng, Hui Liu, Xiaojun Lin, Jiayuan Dong, Yue Sheng, Gang Shi, Zhiwei Liu, Hongwei Chen | (参考訳) これまでの研究では、コードベースのモデルは推論集約的なシナリオにおいて、一貫してテキストベースのモデルよりも優れていた。
検索-拡張生成(RAG)の知識ベースを生成すると、コードベースモデルも中国語のQAペア抽出タスクにおいて非常によく機能することがわかった。
さらに、当社が設計した実験とメトリクスによって、一定の量の中国データを含むコードベースモデルが、さらに優れたパフォーマンスを達成できることが分かりました。
さらに、特定の中国語タスクにおけるコードベースの英語モデルの能力は、哲学的な「中国語室」思考実験において、明確な視点を提供する。 In previous studies, code-based models have consistently outperformed text-based models in reasoning-intensive scenarios. When generating our knowledge base for Retrieval-Augmented Generation (RAG), we observed that code-based models also perform exceptionally well in Chinese QA Pair Extraction task. Further, our experiments and the metrics we designed discovered that code-based models containing a certain amount of Chinese data achieve even better performance. Additionally, the capabilities of code-based English models in specified Chinese tasks offer a distinct perspective for discussion on the philosophical "Chinese Room" thought experiment. | 翻訳日:2024-03-13 14:42:23 公開日:2024-03-11 |
# スケーラブルでロバストなモデルバージョニングに向けて Towards Scalable and Robust Model Versioning ( http://arxiv.org/abs/2401.09574v2 ) ライセンス: Link先を確認 | Wenxin Ding, Arjun Nitin Bhagoji, Ben Y. Zhao, Haitao Zheng | (参考訳) ディープラーニングモデルの展開が業界全体に広がるにつれ、これらのデプロイされたモデルへのアクセスを目的とした悪意のある侵入の脅威が高まっている。
攻撃者がサーバの侵入、インサイダー攻撃、モデル反転技術などを通じてデプロイされたモデルにアクセスできれば、モデルの分類結果を操作するためにホワイトボックスの敵攻撃を構築でき、クリティカルなタスクにこれらのモデルに依存する組織に重大なリスクをもたらす。
モデル所有者は、新たなトレーニングデータを取得する必要なしに、そのような損失から自分自身を保護するメカニズムを必要とします。
本稿では,新たなトレーニングデータを取得したり,モデルアーキテクチャを変更することなく,異なる攻撃特性を持つモデルの複数バージョンを生成する可能性を検討する。
モデルオーナーは一度に1つのバージョンをデプロイし、リークしたバージョンを新しいバージョンで即座に置き換えることができる。
新しくデプロイされたモデルバージョンは、以前にリークされたバージョンすべてに対するホワイトボックスアクセスを利用して生成された敵攻撃に抵抗することができる。
モデル学習データにパラメータ化された隠れ分布を組み込むことで、モデルが選択したデータによって一意に定義されたタスク関連の特徴を学習させることで、これを実現できることを示す。
さらに、隠蔽分布の最適選択は、時間とともに複合転送可能性攻撃に抵抗できるモデルバージョンのシーケンスを生成することができる。
分析的知見を活かし,dnn分類器の実用的なモデルバージョニング手法を設計・実装し,既存の手法よりも大幅に堅牢性が向上した。
当社の作業は、DNNサービスを初期展開を超えて保護するための有望な方向性を示すものだと考えています。 As the deployment of deep learning models continues to expand across industries, the threat of malicious incursions aimed at gaining access to these deployed models is on the rise. Should an attacker gain access to a deployed model, whether through server breaches, insider attacks, or model inversion techniques, they can then construct white-box adversarial attacks to manipulate the model's classification outcomes, thereby posing significant risks to organizations that rely on these models for critical tasks. Model owners need mechanisms to protect themselves against such losses without the necessity of acquiring fresh training data - a process that typically demands substantial investments in time and capital. In this paper, we explore the feasibility of generating multiple versions of a model that possess different attack properties, without acquiring new training data or changing model architecture. The model owner can deploy one version at a time and replace a leaked version immediately with a new version. The newly deployed model version can resist adversarial attacks generated leveraging white-box access to one or all previously leaked versions. We show theoretically that this can be accomplished by incorporating parameterized hidden distributions into the model training data, forcing the model to learn task-irrelevant features uniquely defined by the chosen data. Additionally, optimal choices of hidden distributions can produce a sequence of model versions capable of resisting compound transferability attacks over time. Leveraging our analytical insights, we design and implement a practical model versioning method for DNN classifiers, which leads to significant robustness improvements over existing methods. We believe our work presents a promising direction for safeguarding DNN services beyond their initial deployment. | 翻訳日:2024-03-13 14:41:53 公開日:2024-03-11 |
# 保守密度推定による疎オフラインデータセットからの学習 Learning from Sparse Offline Datasets via Conservative Density Estimation ( http://arxiv.org/abs/2401.08819v2 ) ライセンス: Link先を確認 | Zhepeng Cen, Zuxin Liu, Zitong Wang, Yihang Yao, Henry Lam, Ding Zhao | (参考訳) オフライン強化学習(RL)は、環境とのさらなるインタラクションを必要とせずに、事前にコンパイルされたデータセットからポリシーを学ぶための有望な方向を提供する。
しかし、既存のメソッドは、特にスパース報酬やデータ設定の不足など、外挿エラー(OOD)を扱うのに苦労している。
本稿では,この課題に対処するために,状態-動作の定常分布に制約を明示的に課すことにより,保守的密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEは, 限界値サンプリングにおけるサポートミスマッチ問題に対処することで, 定常分布補正法などの既存手法の限界を克服する。
本手法はD4RLベンチマークにおける最先端性能を実現する。
特に、CDEは、低い報酬や不十分なデータを伴う課題タスクにおいて、ベースラインを一貫して上回り、オフラインRLにおける外挿エラー問題に対処する上で、我々のアプローチの利点を示す。 Offline reinforcement learning (RL) offers a promising direction for learning policies from pre-collected datasets without requiring further interactions with the environment. However, existing methods struggle to handle out-of-distribution (OOD) extrapolation errors, especially in sparse reward or scarce data settings. In this paper, we propose a novel training algorithm called Conservative Density Estimation (CDE), which addresses this challenge by explicitly imposing constraints on the state-action occupancy stationary distribution. CDE overcomes the limitations of existing approaches, such as the stationary distribution correction method, by addressing the support mismatch issue in marginal importance sampling. Our method achieves state-of-the-art performance on the D4RL benchmark. Notably, CDE consistently outperforms baselines in challenging tasks with sparse rewards or insufficient data, demonstrating the advantages of our approach in addressing the extrapolation error problem in offline RL. | 翻訳日:2024-03-13 14:41:27 公開日:2024-03-11 |
# 相対性理論の量子原理と可算量子重力 Quantum Principle of Relativity and The Renormalizable Quantum Gravity ( http://arxiv.org/abs/2401.08617v7 ) ライセンス: Link先を確認 | Jinsu Kim and Dongok Kim | (参考訳) 我々は、微分同相不変性を適用するのではなく、新しい相対性理論に基づく純粋量子理論を開発し、相対性理論の量子原理と呼ぶ。
我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。
この原理を用いることで、量子重力効果が自然に正規化可能な理論に組み込まれ、一般相対性理論が大きな距離で現れることを示す。
グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。 We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, instead of applying the diffeomorphism invariance. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that quantum gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in large distances. We derive graviton propagators and provide several examples grounded in this novel theory. | 翻訳日:2024-03-13 14:41:11 公開日:2024-03-11 |
# EU法における生成AI - 責任、プライバシ、知的財産権、サイバーセキュリティ Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity ( http://arxiv.org/abs/2401.07348v3 ) ライセンス: Link先を確認 | Claudio Novelli, Federico Casolari, Philipp Hacker, Giorgio Spedicato, Luciano Floridi | (参考訳) 生成AIの出現、特にChatGPTとその後継者のような大規模言語モデル(LLM)を通じて、AIの世界におけるパラダイムシフトを象徴する。
高度なLCMはマルチモーダリティを示し、多様なデータフォーマットを扱い、アプリケーションの範囲を広げる。
しかし、これらのモデルの複雑さと創発的な自律性は、予測可能性と法的コンプライアンスの課題をもたらす。
本稿では、欧州連合の文脈におけるジェネレーティブAIとLLMの法的および規制的な意味を掘り下げ、責任、プライバシー、知的財産権、サイバーセキュリティの側面を分析する。
人工知能法(AIA)の草案を含む、既存のおよび提案されたEUの法律の妥当性を批判的に検証し、ジェネレーティブAIの一般的な問題、特にLLMの課題に対処する。
本稿は、立法枠組みにおける潜在的なギャップと欠点を特定し、生成モデルの安全かつコンプライアンスの確保と、EUの進化するデジタルランドスケープと法的基準との整合性を確保するための勧告を提案する。 The advent of Generative AI, particularly through Large Language Models (LLMs) like ChatGPT and its successors, marks a paradigm shift in the AI landscape. Advanced LLMs exhibit multimodality, handling diverse data formats, thereby broadening their application scope. However, the complexity and emergent autonomy of these models introduce challenges in predictability and legal compliance. This paper delves into the legal and regulatory implications of Generative AI and LLMs in the European Union context, analyzing aspects of liability, privacy, intellectual property, and cybersecurity. It critically examines the adequacy of the existing and proposed EU legislation, including the Artificial Intelligence Act (AIA) draft, in addressing the unique challenges posed by Generative AI in general and LLMs in particular. The paper identifies potential gaps and shortcomings in the legislative framework and proposes recommendations to ensure the safe and compliant deployment of generative models, ensuring they align with the EU's evolving digital landscape and legal standards. | 翻訳日:2024-03-13 14:40:13 公開日:2024-03-11 |
# マーケティングミックスモデリング(MMM)と共有価値回帰を用いたチャネルパートナーレベルのマーケティング性能の定量化 Quantifying Marketing Performance at Channel-Partner Level by Using Marketing Mix Modeling (MMM) and Shapley Value Regression ( http://arxiv.org/abs/2401.05653v3 ) ライセンス: Link先を確認 | Sean Tang, Sriya Musunuru, Baoshi Zong, Brooks Thornton | (参考訳) 本稿では,チャネルレベルのマーケティング・ミックス・モデリング(MMM)を補完する,チャネルパートナーレベルでのマーケティング・パフォーマンスの分離におけるShapley Value Regressionの適用について検討する。
金融サービス産業における実世界のデータを利用して,個々のパートナー貢献度の評価におけるシャプリー価値回帰の実用性を示す。
協調ゲーム理論と共に構造化されたフィールドテストは最も正確であるが、しばしば非常に複雑で費用がかかる。
従って、共有価値回帰は、マーケティングチャネル内の各マーケティングパートナーの影響を弱めるための、より実現可能なアプローチである。
また、共有値回帰の調整係数を導出する簡単な手法を提案し、それを代替手法と比較する。 This paper explores the application of Shapley Value Regression in dissecting marketing performance at channel-partner level, complementing channel-level Marketing Mix Modeling (MMM). Utilizing real-world data from the financial services industry, we demonstrate the practicality of Shapley Value Regression in evaluating individual partner contributions. Although structured in-field testing along with cooperative game theory is most accurate, it can often be highly complex and expensive to conduct. Shapley Value Regression is thus a more feasible approach to disentangle the influence of each marketing partner within a marketing channel. We also propose a simple method to derive adjusted coefficients of Shapley Value Regression and compare it with alternative approaches. | 翻訳日:2024-03-13 14:39:55 公開日:2024-03-11 |
# InfiAgent-DABench: データ分析タスクにおけるエージェントの評価 InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks ( http://arxiv.org/abs/2401.05507v3 ) ライセンス: Link先を確認 | Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu | (参考訳) 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークであるinfiagent-dabenchを紹介する。
これらのタスクは、エージェントが実行環境と対話することで複雑なタスクをエンドツーエンドで解決する必要がある。
このベンチマークには、52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalと、LCMを組み込んでデータ分析エージェントとして機能するエージェントフレームワークが含まれている。
データ分析の質問はしばしばオープンで、人間の監督なしには評価が難しいので、私たちは各質問をクローズドな形式に変換して自動的に評価できるようにフォーマットプロピング技術を採用しています。
34 LLMの広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。
さらに, エージェント・フレームワーク上に構築し, DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent でリリースされている。 In this paper, we introduce InfiAgent-DABench, the first benchmark specifically designed to evaluate LLM-based agents on data analysis tasks. These tasks require agents to end-to-end solving complex tasks by interacting with an execution environment. This benchmark contains DAEval, a dataset consisting of 257 data analysis questions derived from 52 CSV files, and an agent framework which incorporates LLMs to serve as data analysis agents for both serving and evaluation. Since data analysis questions are often open-ended and hard to evaluate without human supervision, we adopt a format-prompting technique to convert each question into a closed-form format so that they can be automatically evaluated. Our extensive benchmarking of 34 LLMs uncovers the current challenges encountered in data analysis tasks. In addition, building on top of our agent framework, we develop a specialized agent, DAAgent, which surpasses GPT-3.5 by 3.9% on DABench. Evaluation datasets and toolkits for InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent . | 翻訳日:2024-03-13 14:39:24 公開日:2024-03-11 |
# 局所-Global Weakly Supervised Semantic Segmentationのためのスウィントランスの活用 Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.17828v2 ) ライセンス: Link先を確認 | Rozhan Ahmadi, Shohreh Kasaei | (参考訳) 近年,画像レベルのラベルを用いたセマンティックセマンティックセグメンテーションがコンピュータビジョンの分野で注目されている。
既存の手法の多くは、クラスアクティベーションマップ(cams)から疑似ラベルを生成することによって教師付き学習を促進することに焦点を当て、これらのラベルにおける空間情報の欠如から生じる課題に対処している。
CNNの局所的なパターン検出のため、CAMはオブジェクトの最も差別的な部分のみを強調することが多く、前景オブジェクトと背景オブジェクトを正確に区別することは困難である。
近年の研究では、視覚変換器(ViT)の機能はCNNよりもシーンレイアウトを捉えるのに効果的であることが示されている。
しかし、この分野では階層型 ViT の使用が広く研究されていない。
本研究は,「swtformer」の提案により,初期シードカメラの精度を高めるために,局所的およびグローバル的なビューを組み合わせることで,swinトランスフォーマーの利用を探求する。
SWTformer-V1は、パッチトークンのみを特徴として、クラス確率とCAMを生成する。
SWTformer-V2には、追加情報を抽出するマルチスケール機能融合機構が組み込まれており、背景認識機構を使用して、クロスオブジェクト識別を改善したより正確なローカライゼーションマップを生成する。
PascalVOC 2012データセットの実験に基づいて、SWTformer-V1は0.98%のmAPのローカライゼーション精度を実現し、最先端モデルを上回っている。
また、分類ネットワークに依存して初期位置マップを生成する場合、他の手法よりも平均0.82% mIoUで同等の性能が得られる。
SWTformer-V2はさらに、生成されたシードCAMの精度を5.32% mIoUで改善し、Swin変換器によって提供されるローカル・グローバルビューの有効性を証明した。
コード提供: https://github.com/rozhanahmadi/swtformer In recent years, weakly supervised semantic segmentation using image-level labels as supervision has received significant attention in the field of computer vision. Most existing methods have addressed the challenges arising from the lack of spatial information in these labels by focusing on facilitating supervised learning through the generation of pseudo-labels from class activation maps (CAMs). Due to the localized pattern detection of CNNs, CAMs often emphasize only the most discriminative parts of an object, making it challenging to accurately distinguish foreground objects from each other and the background. Recent studies have shown that Vision Transformer (ViT) features, due to their global view, are more effective in capturing the scene layout than CNNs. However, the use of hierarchical ViTs has not been extensively explored in this field. This work explores the use of Swin Transformer by proposing "SWTformer" to enhance the accuracy of the initial seed CAMs by bringing local and global views together. SWTformer-V1 generates class probabilities and CAMs using only the patch tokens as features. SWTformer-V2 incorporates a multi-scale feature fusion mechanism to extract additional information and utilizes a background-aware mechanism to generate more accurate localization maps with improved cross-object discrimination. Based on experiments on the PascalVOC 2012 dataset, SWTformer-V1 achieves a 0.98% mAP higher localization accuracy, outperforming state-of-the-art models. It also yields comparable performance by 0.82% mIoU on average higher than other methods in generating initial localization maps, depending only on the classification network. SWTformer-V2 further improves the accuracy of the generated seed CAMs by 5.32% mIoU, further proving the effectiveness of the local-to-global view provided by the Swin transformer. Code available at: https://github.com/RozhanAhmadi/SWTformer | 翻訳日:2024-03-13 14:33:12 公開日:2024-03-11 |
# 深層学習を用いた局所的特徴マッチング:サーベイ Local Feature Matching Using Deep Learning: A Survey ( http://arxiv.org/abs/2401.17592v2 ) ライセンス: Link先を確認 | Shibiao Xu, Shunpeng Chen, Rongtao Xu, Changwei Wang, Peng Lu, Li Guo | (参考訳) 局所的特徴マッチングは、画像検索、3次元再構成、オブジェクト認識などの領域を包含するコンピュータビジョンの分野で幅広い応用を享受している。
しかしながら、視点や照明のバリエーションといった要因により、マッチングの正確さと堅牢性の向上に課題が残っている。
近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。
この取り組みの目的は,局所的な特徴マッチング手法の概要を明らかにすることである。
これらの方法は検出器の存在に基づいて2つのキーセグメントに分類される。
Detectorベースのカテゴリには、De Detect-then-Describe、Joint Detection and Description、Describe-then-Detectを含むモデルと、グラフベースのテクニックが含まれている。
対照的に、検出器フリーカテゴリは、cnnベース、トランスフォーマーベース、パッチベースメソッドを含む。
本研究は方法論分析を超えて,最先端手法の定量的比較を容易にするために,普及度の高いデータセットとメトリクスの評価を取り入れた。
本論文は,動画像認識,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討し,その多様性と意義について考察した。
最終的に、我々はこの領域で直面している現在の課題の概要を概説し、将来の研究方向性を示し、それによって、局所的な特徴マッチングとその相互接続ドメインに関わる研究者の参考となる。
この調査の総合的な研究リストはhttps://github.com/vignywang/Awesome-Local-Feature-Matching で公開されている。 Local feature matching enjoys wide-ranging applications in the realm of computer vision, encompassing domains such as image retrieval, 3D reconstruction, and object recognition. However, challenges persist in improving the accuracy and robustness of matching due to factors like viewpoint and lighting variations. In recent years, the introduction of deep learning models has sparked widespread exploration into local feature matching techniques. The objective of this endeavor is to furnish a comprehensive overview of local feature matching methods. These methods are categorized into two key segments based on the presence of detectors. The Detector-based category encompasses models inclusive of Detect-then-Describe, Joint Detection and Description, Describe-then-Detect, as well as Graph Based techniques. In contrast, the Detector-free category comprises CNN Based, Transformer Based, and Patch Based methods. Our study extends beyond methodological analysis, incorporating evaluations of prevalent datasets and metrics to facilitate a quantitative comparison of state-of-the-art techniques. The paper also explores the practical application of local feature matching in diverse domains such as Structure from Motion, Remote Sensing Image Registration, and Medical Image Registration, underscoring its versatility and significance across various fields. Ultimately, we endeavor to outline the current challenges faced in this domain and furnish future research directions, thereby serving as a reference for researchers involved in local feature matching and its interconnected domains. A comprehensive list of studies in this survey is available at https://github.com/vignywang/Awesome-Local-Feature-Matching . | 翻訳日:2024-03-13 14:32:37 公開日:2024-03-11 |
# 実践から真に学ぶ:強化学習による身体環境とのLLMの調整 True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning ( http://arxiv.org/abs/2401.14151v2 ) ライセンス: Link先を確認 | Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An | (参考訳) 多数のタスクにまたがるパフォーマンスにもかかわらず、LLMの知識と環境とのミスアライメントのため、大きな言語モデル(LLM)は単純な意思決定タスクの解決に失敗することが多い。
それとは対照的に、強化学習(RL)エージェントはスクラッチからポリシーを学ぶため、常に環境と整合するが、効率的な探索のために事前の知識を組み込むことは困難である。
このギャップを狭めるために,LLMを意思決定エージェントとして展開する新しい汎用オンラインフレームワークであるTWOSOMEを提案する。
まず、各有効な行動がLCMと協調して行動ポリシーを形成する確率を問う。
次に,ポリシーの安定性と堅牢性を高めるため,2つの正規化手法を提案し,4つの素早い設計原則を要約する。
最後に,PPOによって更新された低ランクアダプタ (LoRA) を備えた冷凍LDMをアクターと批評家が共有する,パラメータ効率のトレーニングアーキテクチャを設計する。
我々はTWOSOMEを評価するための広範囲な実験を行った。
一) 従来のrl法, ppo法, 即席チューニング法, saycan法と比較して, 古典的意思決定環境, 過剰調理, 模擬家庭環境, virtualhomeと比較して, 試料効率, 性能が有意に良好である。
ii) llms のオープンボキャブラリー機能により,twosome はタスクを検知する上で優れた一般化能力を示す。
三 当社の枠組みでは、オンラインPPOファインタニングにおけるLLMの本来の能力に大きな損失はない。 Despite the impressive performance across numerous tasks, large language models (LLMs) often fail in solving simple decision-making tasks due to the misalignment of the knowledge in LLMs with environments. On the contrary, reinforcement learning (RL) agents learn policies from scratch, which makes them always align with environments but difficult to incorporate prior knowledge for efficient explorations. To narrow the gap, we propose TWOSOME, a novel general online framework that deploys LLMs as decision-making agents to efficiently interact and align with embodied environments via RL without requiring any prepared datasets or prior knowledge of the environments. Firstly, we query the joint probabilities of each valid action with LLMs to form behavior policies. Then, to enhance the stability and robustness of the policies, we propose two normalization methods and summarize four prompt design principles. Finally, we design a novel parameter-efficient training architecture where the actor and critic share one frozen LLM equipped with low-rank adapters (LoRA) updated by PPO. We conduct extensive experiments to evaluate TWOSOME. i) TWOSOME exhibits significantly better sample efficiency and performance compared to the conventional RL method, PPO, and prompt tuning method, SayCan, in both classical decision-making environment, Overcooked, and simulated household environment, VirtualHome. ii) Benefiting from LLMs' open-vocabulary feature, TWOSOME shows superior generalization ability to unseen tasks. iii) Under our framework, there is no significant loss of the LLMs' original ability during online PPO finetuning. | 翻訳日:2024-03-13 14:30:31 公開日:2024-03-11 |
# MambaMorph:医療用MR-CT変形性レジストレーションのためのMambaベースのフレームワーク MambaMorph: a Mamba-based Framework for Medical MR-CT Deformable Registration ( http://arxiv.org/abs/2401.13934v3 ) ライセンス: Link先を確認 | Tao Guo and Yinuo Wang and Shihao Shu and Diansheng Chen and Zhouping Tang and Cai Meng and Xiangzhi Bai | (参考訳) 医用画像解析には,voxel-wise空間対応を別々に捉えることが重要である。
しかし、現在の登録手法は、登録精度と臨床応用性の観点からは不十分である。
本稿では,新しい多モード変形可能な登録フレームワークであるMambaMorphを紹介する。
具体的には、MambaMorphは、Mambaベースの登録モジュールと、細粒度で単純な特徴抽出器を使用して、効率的な長距離対応モデリングと高次元特徴学習を行う。
さらに,マルチモーダリティ登録におけるデータの不足に対処するため,脳MR-CT登録データセットSR-Regを開発した。
MambaMorphのマルチモダリティ登録機能を検証するため、SR-RegデータセットとパブリックT1-T2データセットの両方で定量的な実験を行った。
両データセットにおける実験結果から,mambamorphは登録精度の点で,最先端の学習ベース登録手法を著しく上回っていることが示された。
さらに,マンバをベースとした登録モジュールと軽量特徴抽出器の効率性を強調し,適正な計算コストと速度を維持しつつ,優れた登録品質を実現する。
我々は,MambaMorphが医用画像登録の実用化に重要な可能性を秘めていると考えている。
MambaMorphのコードは、https://github.com/Guo-Stone/MambaMorphで入手できる。 Capturing voxel-wise spatial correspondence across distinct modalities is crucial for medical image analysis. However, current registration approaches are not practical enough in terms of registration accuracy and clinical applicability. In this paper, we introduce MambaMorph, a novel multi-modality deformable registration framework. Specifically, MambaMorph utilizes a Mamba-based registration module and a fine-grained, yet simple, feature extractor for efficient long-range correspondence modeling and high-dimensional feature learning, respectively. Additionally, we develop a well-annotated brain MR-CT registration dataset, SR-Reg, to address the scarcity of data in multi-modality registration. To validate MambaMorph's multi-modality registration capabilities, we conduct quantitative experiments on both our SR-Reg dataset and a public T1-T2 dataset. The experimental results on both datasets demonstrate that MambaMorph significantly outperforms the current state-of-the-art learning-based registration methods in terms of registration accuracy. Further study underscores the efficiency of the Mamba-based registration module and the lightweight feature extractor, which achieve notable registration quality while maintaining reasonable computational costs and speeds. We believe that MambaMorph holds significant potential for practical applications in medical image registration. The code for MambaMorph is available at: https://github.com/Guo-Stone/MambaMorph. | 翻訳日:2024-03-13 14:30:02 公開日:2024-03-11 |
# 合成生成逆設計 Compositional Generative Inverse Design ( http://arxiv.org/abs/2401.13171v2 ) ライセンス: Link先を確認 | Tailin Wu, Takashi Maruyama, Long Wei, Tao Zhang, Yilun Du, Gianluca Iaccarino, Jure Leskovec | (参考訳) 目的関数を最適化するために入力変数を設計しようとする逆設計は、機械工学や航空宇宙工学といった分野にまたがる重要な問題である。
逆設計は典型的には最適化問題として定式化され、最近の研究は学習されたダイナミクスモデル間の最適化を利用している。
しかし、モデルが最適化されているため、敵モードに陥り、効果的なサンプリングを防ぐ傾向にある。
拡散モデルによってキャプチャされた学習エネルギー関数を最適化することで、そのような逆の例を避け、設計性能を大幅に改善できることを示す。
さらに、そのような設計システムが構成的であるため、所望のシステムのサブコンポーネントを表す複数の異なる拡散モデルを組み合わせることで、システムの設計を特定のコンポーネントすべてと組み合わせることができる。
n体インタラクションタスクと挑戦的な2次元多翼設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,トレーニングデータよりも複雑な初期状態と境界形状を設計できることを実証する。
提案手法は,n体データセットのより多くのオブジェクトに一般化し,多翼設計タスクのドラッグを最小化するために生成フライングを検出する。
プロジェクトのWebサイトとコードはhttps://github.com/AI4Science-WestlakeU/cindm.comにある。 Inverse design, where we seek to design input variables in order to optimize an underlying objective function, is an important problem that arises across fields such as mechanical engineering to aerospace engineering. Inverse design is typically formulated as an optimization problem, with recent works leveraging optimization across learned dynamics models. However, as models are optimized they tend to fall into adversarial modes, preventing effective sampling. We illustrate that by instead optimizing over the learned energy function captured by the diffusion model, we can avoid such adversarial examples and significantly improve design performance. We further illustrate how such a design system is compositional, enabling us to combine multiple different diffusion models representing subcomponents of our desired system to design systems with every specified component. In an N-body interaction task and a challenging 2D multi-airfoil design task, we demonstrate that by composing the learned diffusion model at test time, our method allows us to design initial states and boundary shapes that are more complex than those in the training data. Our method generalizes to more objects for N-body dataset and discovers formation flying to minimize drag in the multi-airfoil design task. Project website and code can be found at https://github.com/AI4Science-WestlakeU/cindm. | 翻訳日:2024-03-13 14:28:52 公開日:2024-03-11 |
# $\phi^n$ trajectory bootstrap The $\phi^n$ trajectory bootstrap ( http://arxiv.org/abs/2402.05778v2 ) ライセンス: Link先を確認 | Wenliang Li | (参考訳) グリーン函数 $G_n=\langle\phi^n\rangle$ とその自己整合方程式は複素$n$への解析的連続性を認める。
ブートストラップ問題の不確定性は最小特異性の原理によって解決できる。
我々は高調波発振器を用いてブートストラップ解析の様々な側面を説明する。例えば、大きな$n$展開、マッチング条件、正確な量子化条件、高エネルギー漸近挙動などである。
エルミート四量体および非エルミート立方体振動子については、標準波動関数の定式化により、非整数の n$ における $\phi^n$ 軌道を再検討する。
結果は極小特異解と一致している。
マッチング手法を用いて高出力の非調和発振器の正確な解を求める。
特に、非整数$n$を持つ$G_n$の存在は、非整数パワーを持つ$\mathcal{PT}$不変発振器をブートストラップすることができる。 The Green's functions $G_n=\langle\phi^n\rangle$ and their self-consistent equations admit analytic continuations to complex $n$. The indeterminacy of bootstrap problems can be resolved by the principle of minimal singularity. We use the harmonic oscillator to illustrate various aspects of the bootstrap analysis, such as the large $n$ expansion, matching conditions, exact quantization condition, and high energy asymptotic behavior. For the Hermitian quartic and non-Hermitian cubic oscillators, we revisit the $\phi^n$ trajectories at non-integer $n$ by the standard wave function formulation. The results are in agreement with the minimally singular solutions. Using the matching procedure, we obtain accurate solutions for anharmonic oscillators with higher powers. In particular, the existence of $G_n$ with non-integer $n$ allows us to bootstrap the $\mathcal{PT}$ invariant oscillators with non-integer powers. | 翻訳日:2024-03-13 14:23:30 公開日:2024-03-11 |
# 協調LLMエージェントによる自律走行のための編集可能なシーンシミュレーション Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents ( http://arxiv.org/abs/2402.05746v2 ) ライセンス: Link先を確認 | Yuxi Wei, Zi Wang, Yifan Lu, Chenxin Xu, Changxing Liu, Hao Zhao, Siheng Chen, Yanfeng Wang | (参考訳) 自動運転におけるシーンシミュレーションは、カスタマイズされたデータを生成する大きな可能性から注目されている。
しかし,既存の編集可能なシーンシミュレーションでは,ユーザインタラクション効率,マルチカメラフォトリアリスティックレンダリング,外部デジタルアセット統合といった面で制限に直面している。
これらの課題に対処するために,外部デジタル資産を用いた自然言語コマンドによる編集可能な3次元実写シーンシミュレーションを可能にするChatSimを提案する。
コマンドの柔軟性を高めるために、~ChatSimは大きな言語モデル(LLM)エージェントコラボレーションフレームワークを活用している。
フォトリアリスティックな結果を生成するため、ChatSimは新しいマルチカメラニューラル放射場法を採用している。
さらに、広範囲な高品質デジタル資産の可能性を明らかにするため、チャットシムはシーン一貫性のある資産のレンダリングを実現するために、新しいマルチカメラ照明推定手法を採用している。
Waymo Open Datasetの実験は、ChatSimが複雑な言語コマンドを処理し、対応する写真リアリスティックシーンビデオを生成することを示した。 Scene simulation in autonomous driving has gained significant attention because of its huge potential for generating customized data. However, existing editable scene simulation approaches face limitations in terms of user interaction efficiency, multi-camera photo-realistic rendering and external digital assets integration. To address these challenges, this paper introduces ChatSim, the first system that enables editable photo-realistic 3D driving scene simulations via natural language commands with external digital assets. To enable editing with high command flexibility,~ChatSim leverages a large language model (LLM) agent collaboration framework. To generate photo-realistic outcomes, ChatSim employs a novel multi-camera neural radiance field method. Furthermore, to unleash the potential of extensive high-quality digital assets, ChatSim employs a novel multi-camera lighting estimation method to achieve scene-consistent assets' rendering. Our experiments on Waymo Open Dataset demonstrate that ChatSim can handle complex language commands and generate corresponding photo-realistic scene videos. | 翻訳日:2024-03-13 14:23:14 公開日:2024-03-11 |
# セグメンテーション誘導拡散モデルを用いた解剖学的制御可能な医用画像生成 Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models ( http://arxiv.org/abs/2402.05210v3 ) ライセンス: Link先を確認 | Nicholas Konz, Yuwen Chen, Haoyu Dong, Maciej A. Mazurowski | (参考訳) 拡散モデルは極めて高品質な医用画像生成を可能にしているが、生成された画像に解剖学的制約を課すことは困難である。
これは、事前登録された画像生成、偽のシナリオなど、多くの有用なアプリケーションを妨げる。
そこで本研究では,マルチクラス解剖学的セグメンテーションマスクをサンプリングステップ毎に追従することにより,解剖学的に制御可能な医用画像生成を支援する拡散モデルに基づく手法を提案する。
また,他の解剖学的領域の柔軟性を保ちつつ,選択された解剖的制約の組み合わせを条件づけ可能なランダムマスクアブレーショントレーニングアルゴリズムも導入した。
胸部MRIや腹部・頸部CTデータセットの既存手法と,幅広い解剖学的対象のモデル(Seg-Diff)を比較した。
その結果、生成された画像の忠実性が向上し、両方のデータセットに解剖学的マスクが入力され、一般的な解剖学的実在論に匹敵することが分かった。
最後に,本モデルでは,潜在空間における補間により,生成した画像の解剖学的類似性を実際の画像に調整できるという付加的な利点も享受している。 Diffusion models have enabled remarkably high-quality medical image generation, yet it is challenging to enforce anatomical constraints in generated images. This hampers many useful applications, including pre-registered image generation, counterfactual scenarios, and others. To this end, we propose a diffusion model-based method that supports anatomically-controllable medical image generation, by following a multi-class anatomical segmentation mask at each sampling step. We additionally introduce a random mask ablation training algorithm to enable conditioning on a selected combination of anatomical constraints while allowing flexibility in other anatomical areas. We compare our model ("Seg-Diff") to existing methods on breast MRI and abdominal/neck-to-pelvis CT datasets with a wide range of anatomical objects. Results show that it reaches a new state-of-the-art in the faithfulness of generated images to input anatomical masks on both datasets, and is on par for general anatomical realism. Finally, our model also enjoys the extra benefit of being able to adjust the anatomical similarity of generated images to real images of choice through interpolation in its latent space. | 翻訳日:2024-03-13 14:22:56 公開日:2024-03-11 |
# リスク最小化を伴う群分布ロバストデータセット蒸留 Group Distributionally Robust Dataset Distillation with Risk Minimization ( http://arxiv.org/abs/2402.04676v2 ) ライセンス: Link先を確認 | Saeed Vahidian, Mingyu Wang, Jianyang Gu, Vyacheslav Kungurtsev, Wei Jiang, Yiran Chen | (参考訳) データセット蒸留(dataset distillation, dd)は、トレーニングデータセットの本質情報をキャプチャし、正確な神経モデルのトレーニングを容易にする合成データセットを作成するために広く採用されている技術である。
そのアプリケーションは、転送学習、連合学習、ニューラルネットワーク検索など、さまざまなドメインにまたがる。
合成データを構築する最も一般的な方法は、モデルの収束特性と、合成データセットとトレーニングデータセットとの整合性に依存する。
しかし、トレーニングデータセットのターゲットは、トレーニングセットが人口分布の近似代用であり、後者が興味のあるデータであるのと同じ意味で補助的なものとみなす必要がある。
しかし、その人気にもかかわらず、まだ探索されていない側面は、DDとその一般化、特に非共通部分群の間の関係である。
つまり、人口密度の低い地域からのサンプルに対して、合成データセットでトレーニングされたモデルが適切に機能することを保証するには、どうすればよいのか?
ここで、データセットの代表性とカバレッジは、推論時に保証されたトレーニングエラーに対して良好になる。
分散的ロバストな最適化から着想を得て,ddを行うための損失に対するリスク尺度の最小化とクラスタリングを組み合わせたアルゴリズムを提案する。
提案手法の理論的理論的根拠を提供し,その有効一般化と,数値実験による部分群間のロバスト性を示す。
ソースコードはhttps://github.com/Mming11/RobustDatasetDistillationで入手できる。 Dataset distillation (DD) has emerged as a widely adopted technique for crafting a synthetic dataset that captures the essential information of a training dataset, facilitating the training of accurate neural models. Its applications span various domains, including transfer learning, federated learning, and neural architecture search. The most popular methods for constructing the synthetic data rely on matching the convergence properties of training the model with the synthetic dataset and the training dataset. However, targeting the training dataset must be thought of as auxiliary in the same sense that the training set is an approximate substitute for the population distribution, and the latter is the data of interest. Yet despite its popularity, an aspect that remains unexplored is the relationship of DD to its generalization, particularly across uncommon subgroups. That is, how can we ensure that a model trained on the synthetic dataset performs well when faced with samples from regions with low population density? Here, the representativeness and coverage of the dataset become salient over the guaranteed training error at inference. Drawing inspiration from distributionally robust optimization, we introduce an algorithm that combines clustering with the minimization of a risk measure on the loss to conduct DD. We provide a theoretical rationale for our approach and demonstrate its effective generalization and robustness across subgroups through numerical experiments. The source code is available in https://github.com/Mming11/RobustDatasetDistillation. | 翻訳日:2024-03-13 14:21:49 公開日:2024-03-11 |
# 冷間開始不要なインクリメンタル学習のための弾性的特徴統合 Elastic Feature Consolidation for Cold Start Exemplar-free Incremental Learning ( http://arxiv.org/abs/2402.03917v2 ) ライセンス: Link先を確認 | Simone Magistri, Tomaso Trinci, Albin Soutif-Cormerais, Joost van de Weijer, Andrew D. Bagdanov | (参考訳) Exemplar-Free Class Incremental Learning (EFCIL) は、タスクのシーケンスから以前のタスクデータにアクセスすることなく学習することを目的としている。
本稿では,高品質なバックボーンを学習する最初のタスクにおいて,不十分なデータが利用できるという,コールドスタートの難しさについて考察する。
これはefcilにとって特に困難であり、高い可塑性を必要とするため、exemplar-free設定では補うのが難しい特徴ドリフトが生じる。
この問題に対処するために,従来のタスクに強く関連する方向のドリフトを規則化し,特徴表現を統合するためのシンプルで効果的な手法を提案する。
提案手法は,EFC (Elastic Feature Consolidation) と呼ばれ,経験的特徴行列 (EFM) に基づく特徴ドリフトの抽出可能な2次近似を利用する。
EFMは、重要な方向における特徴ドリフトの正則化や、新しい非対称なクロスエントロピー損失に使用されるガウスプロトタイプの更新に使用する擬似的特徴空間を誘導し、新しいタスクのデータとプロトタイプのリハーサルを効果的にバランスさせる。
cifar-100、tiny-imagenet、imagenet-subset、imagenet-1kの実験結果は、弾力的な機能統合がモデル可塑性を維持し、最先端を著しく上回ることで新しいタスクを学習できることを示しています。 Exemplar-Free Class Incremental Learning (EFCIL) aims to learn from a sequence of tasks without having access to previous task data. In this paper, we consider the challenging Cold Start scenario in which insufficient data is available in the first task to learn a high-quality backbone. This is especially challenging for EFCIL since it requires high plasticity, which results in feature drift which is difficult to compensate for in the exemplar-free setting. To address this problem, we propose a simple and effective approach that consolidates feature representations by regularizing drift in directions highly relevant to previous tasks and employs prototypes to reduce task-recency bias. Our method, called Elastic Feature Consolidation (EFC), exploits a tractable second-order approximation of feature drift based on an Empirical Feature Matrix (EFM). The EFM induces a pseudo-metric in feature space which we use to regularize feature drift in important directions and to update Gaussian prototypes used in a novel asymmetric cross entropy loss which effectively balances prototype rehearsal with data from new tasks. Experimental results on CIFAR-100, Tiny-ImageNet, ImageNet-Subset and ImageNet-1K demonstrate that Elastic Feature Consolidation is better able to learn new tasks by maintaining model plasticity and significantly outperform the state-of-the-art. | 翻訳日:2024-03-13 14:20:57 公開日:2024-03-11 |
# Sliced Wasserstein Weisfeiler-Lehmanグラフカーネルによるガウス過程の回帰 Gaussian process regression with Sliced Wasserstein Weisfeiler-Lehman graph kernels ( http://arxiv.org/abs/2402.03838v2 ) ライセンス: Link先を確認 | Rapha\"el Carpintero Perez (CMAP), S\'ebastien da Veiga (ENSAI, CREST), Josselin Garnier (CMAP), Brian Staber | (参考訳) 教師付き学習は、偏微分方程式の解法や材料特性の予測といったタスクの複雑なパターンを効果的に抽出する能力によって、計算物理学の分野で大きな注目を集めている。
伝統的に、このようなデータセットは、問題幾何を表す多数のノードが(グラフとして)メッシュとして与えられる入力と、数値解法で得られる対応する出力からなる。
つまり、教師付き学習モデルは、ノード属性の連続した大きなスパースグラフを処理できなければならない。
本研究ではガウス過程の回帰に着目し,スライスしたwasserstein weisfeiler-lehman(swwl)グラフカーネルを紹介する。
既存のグラフカーネルとは対照的に、提案されているswlカーネルはポジティブな定性と劇的な複雑さの低減を享受しており、これまで処理できなかったデータセットを処理できる。
新しいカーネルは、入力グラフが数十のノードを持つ分子データセットのグラフ分類で最初に検証される。
SWWLカーネルの効率は、数万のノードからなる入力グラフを構成する計算流体力学や固体力学におけるグラフ回帰に基づいて説明される。 Supervised learning has recently garnered significant attention in the field of computational physics due to its ability to effectively extract complex patterns for tasks like solving partial differential equations, or predicting material properties. Traditionally, such datasets consist of inputs given as meshes with a large number of nodes representing the problem geometry (seen as graphs), and corresponding outputs obtained with a numerical solver. This means the supervised learning model must be able to handle large and sparse graphs with continuous node attributes. In this work, we focus on Gaussian process regression, for which we introduce the Sliced Wasserstein Weisfeiler-Lehman (SWWL) graph kernel. In contrast to existing graph kernels, the proposed SWWL kernel enjoys positive definiteness and a drastic complexity reduction, which makes it possible to process datasets that were previously impossible to handle. The new kernel is first validated on graph classification for molecular datasets, where the input graphs have a few tens of nodes. The efficiency of the SWWL kernel is then illustrated on graph regression in computational fluid dynamics and solid mechanics, where the input graphs are made up of tens of thousands of nodes. | 翻訳日:2024-03-13 14:20:28 公開日:2024-03-11 |
# LVC-LGMC:学習ビデオ圧縮のための局所・グローバル運動補償 LVC-LGMC: Joint Local and Global Motion Compensation for Learned Video Compression ( http://arxiv.org/abs/2402.00680v3 ) ライセンス: Link先を確認 | Wei Jiang, Junru Li, Kai Zhang, Li Zhang | (参考訳) 既存の学習ビデオ圧縮モデルは、フローネットまたは変形可能な畳み込みネットワーク(dcn)を使用して動作情報を推定する。
しかし、フローネットとdcnの限られた受容場は本質的に局所的な文脈に注意を向ける。
大規模な動きやフレーム間のグローバル相関といったグローバルコンテキストは無視され、正確な動きを捉える上で重要なボトルネックとなる。
この問題に対処するため,リーンビデオ符号化のための共同ローカル・グローバル・モーション補償モジュール(LGMC)を提案する。
具体的には,局所運動補償にflow netを採用する。
グローバルなコンテキストを捉えるために,機能領域におけるクロスアテンションを用いて動き補償を行う。
さらに,バニラクロス注意の二次的複雑性を避けるために,ソフトマックス操作を2つの独立したソフトマックス演算に分割し,線形複雑性を生じさせる。
提案したLGMCの有効性を検証するため,DCVC-TCMと統合し,LVC-LGMCを併用して学習ビデオ圧縮を実現する。
LVC-LGMCは, ベースラインDCVC-TCMよりも高い速度歪み性能を示した。 Existing learned video compression models employ flow net or deformable convolutional networks (DCN) to estimate motion information. However, the limited receptive fields of flow net and DCN inherently direct their attentiveness towards the local contexts. Global contexts, such as large-scale motions and global correlations among frames are ignored, presenting a significant bottleneck for capturing accurate motions. To address this issue, we propose a joint local and global motion compensation module (LGMC) for leaned video coding. More specifically, we adopt flow net for local motion compensation. To capture global context, we employ the cross attention in feature domain for motion compensation. In addition, to avoid the quadratic complexity of vanilla cross attention, we divide the softmax operations in attention into two independent softmax operations, leading to linear complexity. To validate the effectiveness of our proposed LGMC, we integrate it with DCVC-TCM and obtain learned video compression with joint local and global motion compensation (LVC-LGMC). Extensive experiments demonstrate that our LVC-LGMC has significant rate-distortion performance improvements over baseline DCVC-TCM. | 翻訳日:2024-03-13 14:19:11 公開日:2024-03-11 |
# 未学習の学習:コントラスト学習における特徴抑制の緩和 Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning ( http://arxiv.org/abs/2402.11816v2 ) ライセンス: Link先を確認 | Jihai Zhang, Xiang Lan, Xiaoye Qu, Yu Cheng, Mengling Feng, Bryan Hooi | (参考訳) 自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
しかし、ユニモーダルとマルチモーダルのコントラスト学習の両方を妨げる大きな課題は、訓練されたモデルが入力データから限られた情報のみをキャプチャし、他の潜在的に価値のあるコンテンツを見渡す現象である。
この問題はしばしば視覚的に類似しているが意味的に異なる入力に対する識別不能な表現をもたらし、下流のタスクパフォーマンスに悪影響を及ぼす。
そこで本研究では,新しいモデル非依存多段階コントラスト学習(mcl)フレームワークを提案する。
単一の偏りのある特徴分布を本質的に捉える標準のコントラスト学習とは異なり、mclは、前段に割り当てられたクラスタからアンカーの負のサンプルが排他的に選択される各段で特徴認識された負のサンプリングを通じて、前段の未学習の特徴を徐々に学習する。
一方、mclは、クロスステージ表現の統合によって、これまでよく知られた機能を保存し、すべてのステージに機能を統合して最終表現を形成する。
我々の総合評価は、ResNet から Vision Transformers (ViT) までのモデルアーキテクチャにまたがる、一様および多モードのコントラスト学習における MCL の有効性と優位性を示している。
注目すべきなのは、オリジナルのCLIPモデルが制限されたタスクにおいて、MCLはパフォーマンスを劇的に向上させ、最近提案されたMMVPベンチマークの特定の属性を最大3倍に改善する。 Self-Supervised Contrastive Learning has proven effective in deriving high-quality representations from unlabeled data. However, a major challenge that hinders both unimodal and multimodal contrastive learning is feature suppression, a phenomenon where the trained model captures only a limited portion of the information from the input data while overlooking other potentially valuable content. This issue often leads to indistinguishable representations for visually similar but semantically different inputs, adversely affecting downstream task performance, particularly those requiring rigorous semantic comprehension. To address this challenge, we propose a novel model-agnostic Multistage Contrastive Learning (MCL) framework. Unlike standard contrastive learning which inherently captures one single biased feature distribution, MCL progressively learns previously unlearned features through feature-aware negative sampling at each stage, where the negative samples of an anchor are exclusively selected from the cluster it was assigned to in preceding stages. Meanwhile, MCL preserves the previously well-learned features by cross-stage representation integration, integrating features across all stages to form final representations. Our comprehensive evaluation demonstrates MCL's effectiveness and superiority across both unimodal and multimodal contrastive learning, spanning a range of model architectures from ResNet to Vision Transformers (ViT). Remarkably, in tasks where the original CLIP model has shown limitations, MCL dramatically enhances performance, with improvements up to threefold on specific attributes in the recently proposed MMVP benchmark. | 翻訳日:2024-03-13 14:11:57 公開日:2024-03-11 |
# Unlink to Unlearn: GNNにおけるエッジアンラーニングの簡略化 Unlink to Unlearn: Simplifying Edge Unlearning in GNNs ( http://arxiv.org/abs/2402.10695v2 ) ライセンス: Link先を確認 | Jiajun Tan, Fei Sun, Ruichen Qiu, Du Su, Huawei Shen | (参考訳) データプライバシに関する懸念が強まるにつれ、グラフニューラルネットワーク(GNN)のアンラーニングは、アカデミックにおける顕著な研究フロンティアとして現れている。
この概念は、ユーザの要求に応じてトレーニングされたGNNから特定のデータを選択的に削除する、‘textit{right to be forget}’を実行する上で重要なものだ。
私たちの研究は、実世界のアプリケーションと特に関連性のあるプロセスであるエッジアンラーニングにフォーカスしています。
GNNDeleteのような現在の最先端のアプローチは、未学習のプロセスが必然的に必要以上に過剰な情報を排除し、残するエッジのパフォーマンスが大幅に低下する、という、特定のエッジの影響を排除します。
本研究は,gnndeleteの損失関数をオーバーフォーティングの主な原因として同定し,効果的なエッジアンラーニングには損失関数が冗長である可能性を示唆する。
これらの知見に基づいて、GNNDeleteを単純化して、グラフ構造から左端を解き放つことで、未学習を容易にする新しい方法であるtextbf{Unlink to Unlearn} (UtU) を開発する。
広範な実験により、utuは、再トレーニングされたモデルのプライバシ保護能力の97.3\%とリンク予測精度の99.8\%を保ちながら、下流タスクにおける高い精度を維持しながら、再トレーニングされたモデルと同等のプライバシ保護を提供することが示された。
一方、UtUは一定の計算要求しか必要とせず、高度に軽量で実用的なエッジアンラーニングソリューションとしての優位性を強調している。 As concerns over data privacy intensify, unlearning in Graph Neural Networks (GNNs) has emerged as a prominent research frontier in academia. This concept is pivotal in enforcing the \textit{right to be forgotten}, which entails the selective removal of specific data from trained GNNs upon user request. Our research focuses on edge unlearning, a process of particular relevance to real-world applications. Current state-of-the-art approaches like GNNDelete can eliminate the influence of specific edges yet suffer from \textit{over-forgetting}, which means the unlearning process inadvertently removes excessive information beyond needed, leading to a significant performance decline for remaining edges. Our analysis identifies the loss functions of GNNDelete as the primary source of over-forgetting and also suggests that loss functions may be redundant for effective edge unlearning. Building on these insights, we simplify GNNDelete to develop \textbf{Unlink to Unlearn} (UtU), a novel method that facilitates unlearning exclusively through unlinking the forget edges from graph structure. Our extensive experiments demonstrate that UtU delivers privacy protection on par with that of a retrained model while preserving high accuracy in downstream tasks, by upholding over 97.3\% of the retrained model's privacy protection capabilities and 99.8\% of its link prediction accuracy. Meanwhile, UtU requires only constant computational demands, underscoring its advantage as a highly lightweight and practical edge unlearning solution. | 翻訳日:2024-03-13 14:11:01 公開日:2024-03-11 |
# 心電図の時空間的関係を捉えるためのマスク表現学習 Guiding Masked Representation Learning to Capture Spatio-Temporal Relationship of Electrocardiogram ( http://arxiv.org/abs/2402.09450v2 ) ライセンス: Link先を確認 | Yeongyeon Na, Minje Park, Yunwon Tae, Sunghoon Joo | (参考訳) 心電図(ECG)は、心臓由来の電気信号を監視する診断ツールとして広く用いられている。
近年の機械学習研究は,心電図信号を用いた各種疾患のスクリーニングに重点を置いている。
しかし,ecgデータは限られているため,スクリーニング疾患の適用への適応は困難である。
自己教師付き学習(SSL)による一般的な表現の実現はラベル付きデータの不足を克服するためのよく知られたアプローチであるが、ECG信号に固有の空間的・時間的関係を考慮せずに、SSLをECGデータに適用することで、準最適結果が得られる。
本稿では,12誘導心電図データを再構成し,時空間特性を学習するためのST-MEM(Spatio-Temporal Masked Electrocardiogram Modeling)を提案する。
ST-MEMは、不整脈分類タスクの様々な実験環境で、他のSSLベースラインメソッドよりも優れている。
さらに,ST-MEMは様々な鉛の組み合わせに適応可能であることを示す。
定量的および定性的な分析により、心電図データ内の時空間関係を示す。
私たちのコードはhttps://github.com/bakqui/st-memで利用可能です。 Electrocardiograms (ECG) are widely employed as a diagnostic tool for monitoring electrical signals originating from a heart. Recent machine learning research efforts have focused on the application of screening various diseases using ECG signals. However, adapting to the application of screening disease is challenging in that labeled ECG data are limited. Achieving general representation through self-supervised learning (SSL) is a well-known approach to overcome the scarcity of labeled data; however, a naive application of SSL to ECG data, without considering the spatial-temporal relationships inherent in ECG signals, may yield suboptimal results. In this paper, we introduce ST-MEM (Spatio-Temporal Masked Electrocardiogram Modeling), designed to learn spatio-temporal features by reconstructing masked 12-lead ECG data. ST-MEM outperforms other SSL baseline methods in various experimental settings for arrhythmia classification tasks. Moreover, we demonstrate that ST-MEM is adaptable to various lead combinations. Through quantitative and qualitative analysis, we show a spatio-temporal relationship within ECG data. Our code is available at https://github.com/bakqui/ST-MEM. | 翻訳日:2024-03-13 14:09:45 公開日:2024-03-11 |
# ブラックボディのQとは何か?
グスタフ・ロバート・キルヒホフの二年生への小さな貢献 What is the Q of a Blackbody? A small contribution to Gustav Robert Kirchhoff's bicentennial ( http://arxiv.org/abs/2402.08691v2 ) ライセンス: Link先を確認 | Arthur Ballato and John Ballato | (参考訳) ブラックボディスペクトルの「半パワーポイント」は、周波数や波長のスケーリングを用いてもユニティ以下であることが判明した有効なQ値「品質因子」を割り当てるために用いられる。
コヒーレント発振器の値との比較を行う。
この演習はキルヒホフの興味の2つを融合させ、しばしば相互に排他的な工学と科学の分野を橋渡しするため、それ自体が指導的である。 The blackbody spectrum "half-power points" are used to assign effective Q "quality factor" values that are found to be less than unity whether frequency or wavelength scaling is used. A comparison with values for coherent oscillators is made. This exercise blends two of Kirchhoff's interests, and is instructive in its own right, as it bridges the often mutually exclusive engineering and scientific disciplines. | 翻訳日:2024-03-13 14:08:40 公開日:2024-03-11 |
# LLM推論が明らかに:サーベイとルーフラインモデル LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v4 ) ライセンス: Link先を確認 | Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Zhe Zhou, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer | (参考訳) 効率的な大規模言語モデル(llm)推論の分野は急速に進化しており、機会と課題のユニークなブレンドを示している。
フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。
本調査は,研究の現状を要約するだけでなく,LLM推論手法の系統解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。
このフレームワークは、LLMをハードウェアデバイスにデプロイする際のボトルネックを特定し、LCMがメモリバウンドである理由、必要なメモリと計算量、適切なハードウェアを選択する方法など、実用的な問題を明確に理解する。
我々は、効率的なllm推論における最新の進歩を体系的に調整し、モデル圧縮(例えば、知識の蒸留と量子化)、アルゴリズムの改善(例えば、アーリーエグジットとミキシング・オブ・エキスパート)、ハードウェアとシステムレベルの強化といった重要な領域をカバーする。
本調査では,これらの手法を屋上モデルで解析し,メモリアクセスと計算への影響を明らかにする。
この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。
アナリティクスツールのLLM-Viewerがオープンソース化された。 The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework identifies the bottlenecks when deploying LLMs on hardware devices and provides a clear understanding of practical problems, such as why LLMs are memory-bound, how much memory and computation they need, and how to choose the right hardware. We systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as model compression (e.g., Knowledge Distillation and Quantization), algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Our survey stands out by analyzing these methods with roofline model, helping us understand their impact on memory access and computation. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The analyze tool, LLM-Viewer, is open-sourced. | 翻訳日:2024-03-13 14:02:34 公開日:2024-03-11 |
# BLO-SAM: SAMのオーバーフィッティングによる最適化 BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM ( http://arxiv.org/abs/2402.16338v4 ) ライセンス: Link先を確認 | Li Zhang, Youwei Liang, Ruiyi Zhang, Amirhosein Javadi, Pengtao Xie | (参考訳) 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。
その強みにもかかわらず、SAMは2つの大きな課題に直面している。
まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。
第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。
SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。
これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。
提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。
さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。
BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。 The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model's weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM's superior performance over various state-of-the-art image semantic segmentation methods. | 翻訳日:2024-03-13 14:02:05 公開日:2024-03-11 |
# DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識 DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem ( http://arxiv.org/abs/2402.16159v2 ) ライセンス: Link先を確認 | Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee | (参考訳) AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。
このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。
しかし、各ドメインの特定の性質、異なる技術用語、専門言語により、利用可能なデータの専門家のアノテーションは高価で困難になる。
そこで本稿では,これらの課題に照らし合わせて,オープンソースのソフトウェアシステムに特化した新しいエンティティ認識(ner)手法を提案する。
提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。
このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。
これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。
我々のモデルが最先端のllmを大幅に上回っていることは注目に値する。
また,関係抽出の下流課題におけるNERの有効性を示す。 With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction. | 翻訳日:2024-03-13 14:01:14 公開日:2024-03-11 |
# 量子ニューラルネットワークの周波数スペクトルのスペクトル不変性と最大性 Spectral invariance and maximality properties of the frequency spectrum of quantum neural networks ( http://arxiv.org/abs/2402.14515v2 ) ライセンス: Link先を確認 | Patrick Holzer, Ivica Turkalj | (参考訳) 量子ニューラルネットワーク(QNN)は、変分量子回路と密接な関係にある量子機械学習において一般的なアプローチであり、ノイズ中間量子(NISQ)デバイスにおける実用的な応用の候補として期待できる。
qnnは有限フーリエ級数として表現でき、周波数のセットは周波数スペクトルと呼ばれる。
この周波数スペクトルを解析し、大規模なモデルに対して、様々な最大値結果を示す。
さらに、いくつかの穏やかな条件下では、周波数スペクトルを保持する同じ領域 $a = rl$ を持つモデルのクラスの間に単射があることを証明し、ここで $r$ は qubits の数を表し、$l$ は層数を表す。
これにより、文献でよく見られる結果において、$R$ と $L$ の対称性を説明し、最大周波数スペクトルが $A = RL$ の領域にのみ依存し、$R$ と $L$ の個々の値には依存しないことを示す。
さらに、既存の結果を拡張し、任意に多数の層を有するqnnの最大周波数スペクトルを発生器のスペクトルの関数として指定する。
QNNのジェネレータがさらに2次元のサブジェネレータに分解できる場合、この仕様は基本数理論的な考察から従う。
任意の次元生成器の場合、いわゆるgolomb定規に基づいて既存の結果を拡張し、リラックスしたturnpike問題と呼ばれるturnpike問題の変動に基づく2つ目の新しいアプローチを導入する。 Quantum Neural Networks (QNNs) are a popular approach in Quantum Machine Learning due to their close connection to Variational Quantum Circuits, making them a promising candidate for practical applications on Noisy Intermediate-Scale Quantum (NISQ) devices. A QNN can be expressed as a finite Fourier series, where the set of frequencies is called the frequency spectrum. We analyse this frequency spectrum and prove, for a large class of models, various maximality results. Furthermore, we prove that under some mild conditions there exists a bijection between classes of models with the same area $A = RL$ that preserves the frequency spectrum, where $R$ denotes the number of qubits and $L$ the number of layers, which we consequently call spectral invariance under area-preserving transformations. With this we explain the symmetry in $R$ and $L$ in the results often observed in the literature and show that the maximal frequency spectrum depends only on the area $A = RL$ and not on the individual values of $R$ and $L$. Moreover, we extend existing results and specify the maximum possible frequency spectrum of a QNN with arbitrarily many layers as a function of the spectrum of its generators. If the generators of the QNN can be further decomposed into 2-dimensional sub-generators, then this specification follows from elementary number-theoretical considerations. In the case of arbitrary dimensional generators, we extend existing results based on the so-called Golomb ruler and introduce a second novel approach based on a variation of the turnpike problem, which we call the relaxed turnpike problem. | 翻訳日:2024-03-13 13:59:19 公開日:2024-03-11 |
# Me LLaMA:医療応用のための基礎的な大規模言語モデル Me LLaMA: Foundation Large Language Models for Medical Applications ( http://arxiv.org/abs/2402.12749v2 ) ライセンス: Link先を確認 | Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xingyu Zhou, Huan He, Lucila Ohno-Machido, Yonghui Wu, Hua Xu, Jiang Bian | (参考訳) ChatGPTやLLaMAといった最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。
しかし、医療タスクにおけるそれらのパフォーマンスは最適以下であり、広範なドメイン固有のデータセットのトレーニングによって改善することができる。
本研究では,Me LLaMA 13/70B,Me LLaMA 13/70B-chat,Me LLaMA 13/70B-chatなどの基礎モデルを含む医療用LLMファミリーについて紹介する。
トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンによる大規模で連続的な事前トレーニングデータセット、214kサンプルによる命令チューニングデータセット、12データセットによる6つのタスクにわたる新しい医療評価ベンチマーク(MIBE)が含まれている。
MIBEを用いた広範囲な評価により,Me LLaMAモデルは,ゼロショット,少数ショット,教師あり学習能力において,既存のオープンソース医療用LLMよりも総合的に優れた性能を発揮することが示された。
ゼロショットのパフォーマンスは、8つのデータセットのうち7つにまたがるChatGPTに匹敵する。
さらに, 破滅的な忘れ込み問題を検討した結果, Me LLaMAモデルは, 他のオープンソース医療用LLMよりも優れており, この問題を緩和していることがわかった。
Me LLaMAは、バイオメディカルデータと臨床データの両方を使用する、最大のオープンソース医療財団の1つである。
他のオープンソース医療用LLMと比較して、一般的なタスクと医療タスクの両方で優れたパフォーマンスを示しており、医療AIアプリケーションにとって魅力的な選択である。
モデル、データセット、評価スクリプトをhttps://github.com/BIDS-Xu-Lab/Me-LLaMAでリリースします。 Recent large language models (LLMs) such as ChatGPT and LLaMA have shown great promise in many AI applications. However, their performance on medical tasks is suboptimal and can be improved by training on extensive domain-specific datasets. This study introduces Me LLaMA, a medical LLM family that includes foundation models - Me LLaMA 13/70B, along with their chat-enhanced versions - Me LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our domain-specific data suite for training and evaluation includes a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. Their zero-shot performance is comparable with ChatGPT across 7 out of 8 datasets, with a slight variance of within 3%, and yet falls short when compared to GPT-4. In addition, we investigated the catastrophic forgetting problem, and our results show that Me LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA. | 翻訳日:2024-03-13 13:58:16 公開日:2024-03-11 |
# 意味変化のキャラクタリゼーションに関する調査 Survey in Characterization of Semantic Change ( http://arxiv.org/abs/2402.19088v2 ) ライセンス: Link先を確認 | Jader Martins Camboim de S\'a, Marcos Da Silveira, C\'edric Pruski | (参考訳) 生きた言語は、人類社会の文化的変化を統合するために継続的に進化する。
この進化は、単語(既存の単語の新しい意味)のネオロジズム(新語)または \textbf{semantic change} を通じて現れる。
言葉の意味を理解することは、異なる文化(地域主義やスラング)、ドメイン(例えば、技術用語)、期間から来るテキストを解釈するのに不可欠である。
コンピュータ科学では、これらの単語は翻訳、情報検索、質問応答など計算言語学のアルゴリズムに関係している。
意味的変化は、これらのアルゴリズムの結果の品質に影響を与える可能性がある。
したがって、これらの変化を正式に理解し、特徴づけることが重要である。
この影響の研究は、計算言語学コミュニティの注目を集めている最近の問題である。
いくつかの手法では意味変化を精度良く検出する手法が提案されているが、単語の意味がどう変化するか、意味変化の影響を抑える方法についての推論により多くの努力が必要である。
単語の意味がより一般的あるいは狭くなり(次元の変化)、単語がより悲観的または肯定的/改善的な意味(向きの変化)で使用される場合、そして、例えば比喩的またはメトニム的文脈(関係の変化)で単語を使用する傾向がある場合である。
選択された出版物の主な側面を表にまとめて,意味的変化のキャラクタリゼーションに関する研究活動におけるニーズと動向について考察した。 Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization. | 翻訳日:2024-03-13 13:52:45 公開日:2024-03-11 |
# 異常検出のための連続記憶表現 Continuous Memory Representation for Anomaly Detection ( http://arxiv.org/abs/2402.18293v2 ) ライセンス: Link先を確認 | Joo Chan Lee, Taejune Kim, Eunbyung Park, Simon S. Woo, Jong Hwan Ko | (参考訳) 正常な画像のみがトレーニングに利用できる、教師なしの方法で異常検出が大幅に進歩している。
いくつかの最近の手法は、メモリに基づいて異常を検出し、入力を直接記憶された通常の特徴(または通常の画像で訓練された特徴)と比較または再構成することを目的としている。
しかし、このようなメモリベースのアプローチは、最寄りの近傍またはアテンション機構によって実装された離散的な特徴空間上で動作し、それぞれ入力として出力される非一般化やidショートカットの問題に苦しむ。
さらに,既存手法の大部分は単一クラスの異常を検出するように設計されており,複数のオブジェクトのクラスを提示しても不満足な性能が得られる。
上記の課題をすべて解決するために,空間特徴を座標に変換し,連続格子にマッピングすることにより,"連続"メモリ内の正常な特徴を表現する新しい異常検出手法であるcradを提案する。
さらに,異常検出に適したグリッドを設計し,局所的特徴と大域的特徴の両方を表現し,効果的に融合させる。
我々は, CRADが通常の特徴を一般化し, アイデンティティショートカットを緩和し, さらに, 高粒度連続表現により, 単一モデルの多様なクラスを効果的に扱えることを示した。
MVTec ADデータセットを用いた評価では、CRADは、マルチクラス統一異常検出におけるエラーの65.0%を削減し、従来の最先端手法よりも大幅に優れている。
プロジェクトページはhttps://tae-mo.github.io/crad/。 There have been significant advancements in anomaly detection in an unsupervised manner, where only normal images are available for training. Several recent methods aim to detect anomalies based on a memory, comparing or reconstructing the input with directly stored normal features (or trained features with normal images). However, such memory-based approaches operate on a discrete feature space implemented by the nearest neighbor or attention mechanism, suffering from poor generalization or an identity shortcut issue outputting the same as input, respectively. Furthermore, the majority of existing methods are designed to detect single-class anomalies, resulting in unsatisfactory performance when presented with multiple classes of objects. To tackle all of the above challenges, we propose CRAD, a novel anomaly detection method for representing normal features within a "continuous" memory, enabled by transforming spatial features into coordinates and mapping them to continuous grids. Furthermore, we carefully design the grids tailored for anomaly detection, representing both local and global normal features and fusing them effectively. Our extensive experiments demonstrate that CRAD successfully generalizes the normal features and mitigates the identity shortcut, furthermore, CRAD effectively handles diverse classes in a single model thanks to the high-granularity continuous representation. In an evaluation using the MVTec AD dataset, CRAD significantly outperforms the previous state-of-the-art method by reducing 65.0% of the error for multi-class unified anomaly detection. The project page is available at https://tae-mo.github.io/crad/. | 翻訳日:2024-03-13 13:49:43 公開日:2024-03-11 |
# 衣服デジタル化のためのベイズ微分物理 Bayesian Differentiable Physics for Cloth Digitalization ( http://arxiv.org/abs/2402.17664v4 ) ライセンス: Link先を確認 | Deshan Gong, Ningtao Mao, He Wang | (参考訳) 布のデジタル化のための新しい手法を提案する。
比較的カジュアルな設定で取得したデータから学習する既存の方法から逸脱し,厳密にテストされた測定プロトコルで取得したデータから学習し,布の物理パラメータを求める。
しかし、このデータは現在存在しないため、まず布の正確な測定を行う新しいデータセットを提案する。
さらに、データキャプチャプロセスの性質上、データサイズは現在のディープラーニングのものよりもかなり小さい。
小さなデータから学ぶために,実布の複雑な材料不均一性を推定する新しいベイズ微分可能な布モデルを提案する。
非常に限られたデータサンプルから高い精度でデジタル化することができる。
徹底的な評価と比較を通じて,布のディジタル化,限られたデータサンプルからの学習の効率化,素材の変動の把握の一般的さを示す。
コードとデータはhttps://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalizationで利用可能である。 We propose a new method for cloth digitalization. Deviating from existing methods which learn from data captured under relatively casual settings, we propose to learn from data captured in strictly tested measuring protocols, and find plausible physical parameters of the cloths. However, such data is currently absent, so we first propose a new dataset with accurate cloth measurements. Further, the data size is considerably smaller than the ones in current deep learning, due to the nature of the data capture process. To learn from small data, we propose a new Bayesian differentiable cloth model to estimate the complex material heterogeneity of real cloths. It can provide highly accurate digitalization from very limited data samples. Through exhaustive evaluation and comparison, we show our method is accurate in cloth digitalization, efficient in learning from limited data samples, and general in capturing material variations. Code and data are available https://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalization | 翻訳日:2024-03-13 13:48:46 公開日:2024-03-11 |
# 量子アニーリング手法を用いたポートフォリオ最適化手法の比較分析 Comparative analysis of diverse methodologies for portfolio optimization leveraging quantum annealing techniques ( http://arxiv.org/abs/2403.02599v2 ) ライセンス: Link先を確認 | Zhijie Tang, Alex Lu Dou, Arit Kumar Bishwas | (参考訳) ポートフォリオ最適化(PO)は、投資目標達成を支援するために金融サービスに広く採用されている。
最適な資産配分を提供することで、POは投資に関連するリスクとリターンを効果的にバランスさせる。
しかし、関連する資産や制約の数が増えるにつれて、ポートフォリオ最適化の問題がますます解決しにくくなり、NPハード問題に陥ることに注意する必要がある。
このようなシナリオでは、モンテカルロ法のような古典的なアルゴリズムは、ポートフォリオの在庫数が増加すると、この課題に対処する上での限界を示す。
量子アニールアルゴリズムは、NISQ時代の複雑なポートフォリオ最適化問題の解決を約束する。
多くの研究は、標準量子アニーリングアプローチに対する様々な量子アニーリングアルゴリズムの利点を実証している。
本研究では,ランダムに生成した単周期離散平均分散ポートフォリオ最適化インスタンスを数値的に検討する。
我々は,従来型でない量子アニーリングアルゴリズムの応用について検討し,前方アニーリングと逆アニーリングの2つのスケジュールを用いた。
提案手法は,tts(time-to-solution)と多種多様なアプローチの成功確率を比較し,従来の前処理スケジュールを用いた場合の成功確率を高める効果を示す。
さらに、逆アニーリングスケジュールの実装により、選択された非従来型量子アニーリングアルゴリズムの性能が大幅に向上することが判明した。 Portfolio optimization (PO) is extensively employed in financial services to assist in achieving investment objectives. By providing an optimal asset allocation, PO effectively balances the risk and returns associated with investments. However, it is important to note that as the number of involved assets and constraints increases, the portfolio optimization problem can become increasingly difficult to solve, falling into the category of NP-hard problems. In such scenarios, classical algorithms, such as the Monte Carlo method, exhibit limitations in addressing this challenge when the number of stocks in the portfolio grows. Quantum annealing algorithm holds promise for solving complex portfolio optimization problems in the NISQ era. Many studies have demonstrated the advantages of various quantum annealing algorithm variations over the standard quantum annealing approach. In this work, we conduct a numerical investigation of randomly generated unconstrained single-period discrete mean-variance portfolio optimization instances. We explore the application of a variety of unconventional quantum annealing algorithms, employing both forward annealing and reverse annealing schedules. By comparing the time-to-solution(TTS) and success probabilities of diverse approaches, we show that certain methods exhibit advantages in enhancing the success probability when utilizing conventional forward annealing schedules. Furthermore, we find that the implementation of reverse annealing schedules can significantly improve the performance of select unconventional quantum annealing algorithms. | 翻訳日:2024-03-13 13:43:00 公開日:2024-03-11 |
# ニューロミクスコンピューティングに向けて: ニューロンをオートエンコーダとして Toward Neuromic Computing: Neurons as Autoencoders ( http://arxiv.org/abs/2403.02331v3 ) ライセンス: Link先を確認 | Larry Bull | (参考訳) 本稿では,神経バックプロパゲーションが樹状突起処理を用いて各ニューロンの自己エンコードを可能にするという考え方を提案する。
超単純な接続重み探索ヒューリスティックおよび人工ニューラルネットワークモデルを用いて、フィードフォワードネットワークの隠れ層における各ニューロンに対する相互結合型自己符号化の効果を探索する。
これは、オートエンコーディングの標準層アプローチとは対照的である。
このような個別化処理は有害ではなく、ネットワーク学習を改善することができる。 This short paper presents the idea that neural backpropagation is using dendritic processing to enable individual neurons to perform autoencoding. Using a very simple connection weight search heuristic and artificial neural network model, the effects of interleaving autoencoding for each neuron in a hidden layer of a feedforward network are explored. This is contrasted to the standard layered approach to autoencoding. It is shown that such individualised processing is not detrimental and can improve network learning. | 翻訳日:2024-03-13 13:42:38 公開日:2024-03-11 |
# アンカー多変量解析による一般化の改善 Improving generalisation via anchor multivariate analysis ( http://arxiv.org/abs/2403.01865v2 ) ライセンス: Link先を確認 | Homer Durand, Gherardo Varando, Nathan Mankovich, Gustau Camps-Valls | (参考訳) 我々は,out-of-distribution(ood)一般化を改善するために,アンカー回帰(ar)に対する因果正規化拡張を導入する。
我々は、分散シフトに対する堅牢性を確保するために、anchorフレームワークと連携して、anchor互換の損失を示す。
様々な多変量解析(MVA)アルゴリズム、例えば(オルソノーマライズされた)PLS、RR、MLRはアンカーフレームワークに該当する。
単純な正規化はOOD設定の堅牢性を高める。
合成および実世界の気候科学問題における一貫性と有効性を示す、選択されたアルゴリズムに対する推定器を提供する。
実証的検証はアンカー正規化の汎用性を強調し、mvaアプローチとの互換性と、分布シフトをガードしながら再現性を高める役割を強調している。
拡張されたARフレームワークは因果推論手法を進化させ、信頼性の高いOOD一般化の必要性に対処する。 We introduce a causal regularisation extension to anchor regression (AR) for improved out-of-distribution (OOD) generalisation. We present anchor-compatible losses, aligning with the anchor framework to ensure robustness against distribution shifts. Various multivariate analysis (MVA) algorithms, such as (Orthonormalized) PLS, RRR, and MLR, fall within the anchor framework. We observe that simple regularisation enhances robustness in OOD settings. Estimators for selected algorithms are provided, showcasing consistency and efficacy in synthetic and real-world climate science problems. The empirical validation highlights the versatility of anchor regularisation, emphasizing its compatibility with MVA approaches and its role in enhancing replicability while guarding against distribution shifts. The extended AR framework advances causal inference methodologies, addressing the need for reliable OOD generalisation. | 翻訳日:2024-03-13 13:42:06 公開日:2024-03-11 |
# 冷却による量子計算 Quantum Computation by Cooling ( http://arxiv.org/abs/2403.01760v3 ) ライセンス: Link先を確認 | Jaeyoon Cho | (参考訳) 断熱量子計算は、解をカプセル化した多体基底状態を発見し、計算問題を解くことを目的としたパラダイムモデルである。
しかし、複雑な多体ハミルトニアンのスペクトルギャップによる断熱的進化の利用は、その分析をばかげている。
代わりに、断熱進化の最終的なガッピング系を直接冷却することは可能であるが、そのようなスキームの一般的な地上での分析は欠落している。
ここでは,この目的のためにハミルトニアンモデルを提案する。
このスキームは空洞冷却にインスパイアされ、ゼロ温度貯水池のエミュレーションを含む。
アシラ貯水池の繰り返し廃棄はシステムのエントロピーを抽出し、システムをその基底状態に向かって駆動する。
同時に、廃棄された量子ビットの測定は、システムのエネルギー準位構造を回帰として示唆する。
この冷却法に基づく量子計算は、その計算能力において量子回路に基づくものと等価であることを示す。
次に、組合せ最適化問題に対するいくつかの例示的なユースケースでスキームを例示する。
最初の例では、冷却は任意の局所エネルギーミニマから自由であり、いくつかの改良によってグローバーの探索アルゴリズムにスキームを還元する。
第2の例では、冷却は豊富な局所エネルギーミニマに悩まされる。
これを回避するために、ハミルトニアンに、局所的なミニマに閉じ込められた集団が高次遷移によってトンネルアウトできるようなメカニズムを埋め込む。
このアイデアを,特定の組合せ最適化問題に対する数値シミュレーションで支持する。
また、スペクトルギャップは冷却の時間スケールを決定する上で重要な要素であるとして、量子多体基底状態の生成への応用についても論じる。 Adiabatic quantum computation is a paradigmatic model aiming to solve a computational problem by finding the many-body ground state encapsulating the solution. However, its use of an adiabatic evolution depending on the spectral gap of an intricate many-body Hamiltonian makes its analysis daunting. While it is plausible to directly cool the final gapped system of the adiabatic evolution instead, the analysis of such a scheme on a general ground is missing. Here, we propose a specific Hamiltonian model for this purpose. The scheme is inspired by cavity cooling, involving the emulation of a zero-temperature reservoir. Repeated discarding of ancilla reservoir qubits extracts the entropy of the system, driving the system toward its ground state. At the same time, the measurement of the discarded qubits hints at the energy level structure of the system as a return. We show that quantum computation based on this cooling procedure is equivalent in its computational power to the one based on quantum circuits. We then exemplify the scheme with a few illustrative use cases for combinatorial optimization problems. In the first example, the cooling is free from any local energy minima, reducing the scheme to Grover's search algorithm with a few improvements. In the second example, the cooling suffers from abundant local energy minima. To circumvent this, we implant a mechanism in the Hamiltonian so that the population trapped in the local minima can tunnel out by high-order transitions. We support this idea with a numerical simulation for a particular combinatorial optimization problem. We also discuss its application to preparing quantum many-body ground states, arguing that the spectral gap is a crucial factor in determining the time scale of the cooling. | 翻訳日:2024-03-13 13:41:09 公開日:2024-03-11 |
# フィルタ部分空間による大規模畳み込みモデルチューニング Large Convolutional Model Tuning via Filter Subspace ( http://arxiv.org/abs/2403.00269v2 ) ライセンス: Link先を確認 | Wei Chen, Zichen Miao, Qiang Qiu | (参考訳) 効率的な微調整手法は、下流タスクに大規模な事前学習モデルを適用しながら、高い計算量とパラメータの複雑さに対処するために重要である。
我々の研究は、各畳み込みフィルタをフィルタ原子と呼ばれる小さなフィルター部分空間要素の線形結合として表現する以前の研究にインスパイアされている。
本稿では,空間的のみの畳み込みに責任を持つフィルタ原子のみを調整し,空間的不変チャネル結合知識を原子係数に保ちながら,事前学習した微調整モデルを提案する。
このようにして、モデルチューニングのための新しいフィルタサブスペースビューを提供する。
さらに、各フィルタ原子は、フィルタサブスペース内の可変パラメータの数を自然に拡大する別の原子集合の組み合わせとして再帰的に分解することができる。
少数のパラメータで構築されたフィルタ原子のみを適応させることで、残りのモデルのパラメータを一定に保ちながら、提案手法はパラメータ効率が高い。
事前訓練されたモデルの能力を効果的に保持し、下流タスクへの過度な適合を防止する。
広範な実験により、このような単純なスキームは、判別タスクと生成タスクの両方の以前のチューニングベースラインを超えることが示されている。 Efficient fine-tuning methods are critical to address the high computational and parameter complexity while adapting large pre-trained models to downstream tasks. Our study is inspired by prior research that represents each convolution filter as a linear combination of a small set of filter subspace elements, referred to as filter atoms. In this paper, we propose to fine-tune pre-trained models by adjusting only filter atoms, which are responsible for spatial-only convolution, while preserving spatially-invariant channel combination knowledge in atom coefficients. In this way, we bring a new filter subspace view for model tuning. Furthermore, each filter atom can be recursively decomposed as a combination of another set of atoms, which naturally expands the number of tunable parameters in the filter subspace. By only adapting filter atoms constructed by a small number of parameters, while maintaining the rest of model parameters constant, the proposed approach is highly parameter-efficient. It effectively preserves the capabilities of pre-trained models and prevents overfitting to downstream tasks. Extensive experiments show that such a simple scheme surpasses previous tuning baselines for both discriminate and generative tasks. | 翻訳日:2024-03-13 13:39:22 公開日:2024-03-11 |
# TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning ( http://arxiv.org/abs/2402.19467v3 ) ライセンス: Link先を確認 | Kate Sanders, Nathaniel Weir, Benjamin Van Durme | (参考訳) テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。
これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。
我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。
tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。
次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。
提案手法によるTVQAデータセットに対する実験結果は,ブラックボックス法とは対照的に,フルビデオクリップ上では非定型かつ最先端のゼロショット性能を示すものである。 It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method's experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best-of-both-worlds contrast to black-box methods. | 翻訳日:2024-03-13 13:38:49 公開日:2024-03-11 |
# 効率的なloftr: スパースライクなスピードでセミデンスなローカル機能マッチング Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed ( http://arxiv.org/abs/2403.04765v2 ) ライセンス: Link先を確認 | Yifan Wang, Xingyi He, Sida Peng, Dongli Tan, Xiaowei Zhou | (参考訳) 本稿では,画像間のセミセンスマッチングを効率よく生成する手法を提案する。
従来の検出器フリーのマッチ装置loftrは、大きな視点変化やテクスチャパウアシナリオを扱う際、顕著なマッチング能力を示したが、効率は低かった。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
特徴マップ全体にわたるトランスフォーマーの実行は共有局所情報による冗長であるため,効率のために適応トークン選択を用いた集中型アテンション機構を提案する。
さらに,LoFTRの微細相関モジュールには空間的ばらつきがあり,マッチング精度に悪影響を及ぼすことがわかった。
精度向上のための高精度サブピクセル対応を実現するために,新しい2段階相関層を提案する。
我々の効率最適化モデルは、LoFTRよりも$\sim 2.5\times$高速で、最先端の効率的なスパースマッチングパイプラインSuperPoint + LightGlueを超えます。
また, 提案手法は, 競争型セミデンスマッチングに比べて高い精度を実現でき, 高い効率性が期待できることを示した。
これにより、画像検索や3D再構成といった大規模または遅延に敏感なアプリケーションに、エキサイティングな展望が開ける。
プロジェクトページ: https://zju3dv.github.io/ efficientloftr。 We present a novel method for efficiently producing semi-dense matches across images. Previous detector-free matcher LoFTR has shown remarkable matching capability in handling large-viewpoint change and texture-poor scenarios but suffers from low efficiency. We revisit its design choices and derive multiple improvements for both efficiency and accuracy. One key observation is that performing the transformer over the entire feature map is redundant due to shared local information, therefore we propose an aggregated attention mechanism with adaptive token selection for efficiency. Furthermore, we find spatial variance exists in LoFTR's fine correlation module, which is adverse to matching accuracy. A novel two-stage correlation layer is proposed to achieve accurate subpixel correspondences for accuracy improvement. Our efficiency optimized model is $\sim 2.5\times$ faster than LoFTR which can even surpass state-of-the-art efficient sparse matching pipeline SuperPoint + LightGlue. Moreover, extensive experiments show that our method can achieve higher accuracy compared with competitive semi-dense matchers, with considerable efficiency benefits. This opens up exciting prospects for large-scale or latency-sensitive applications such as image retrieval and 3D reconstruction. Project page: https://zju3dv.github.io/efficientloftr. | 翻訳日:2024-03-13 13:33:31 公開日:2024-03-11 |
# イメージが現実的になる理由? What makes an image realistic? ( http://arxiv.org/abs/2403.04493v3 ) ライセンス: Link先を確認 | Lucas Theis | (参考訳) 過去10年間は、画像、テキスト、オーディオ、ビデオなど、現実的なデータを生成する能力が大幅に進歩してきました。
本稿では,非現実的データから現実データを確実に把握できる関数の設計という,実数論を定量化する密接な関係の問題について議論する。
この問題は、機械学習の普及と最近の生成AIのブレークスルーにもかかわらず、解決が極めて困難であることが判明した。
アルゴリズム情報理論からの洞察に基づいて、なぜこの問題が難しいのか、なぜ良い生成モデルだけでは解決できないのか、良い解決策がどのようなものになるのかを論じる。
特に, 敵の批判者とは異なり, 敵の訓練を必要としない普遍的な批判者の概念を導入する。
普遍的批評家はすぐには実践的ではないが、実践的な実践を導くためのノーススターや、現実主義を捉えようとする既存の試みを分析するツールとしても機能する。 The last decade has seen tremendous progress in our ability to generate realistic-looking data, be it images, text, audio, or video. Here, we discuss the closely related problem of quantifying realism, that is, designing functions that can reliably tell realistic data from unrealistic data. This problem turns out to be significantly harder to solve and remains poorly understood, despite its prevalence in machine learning and recent breakthroughs in generative AI. Drawing on insights from algorithmic information theory, we discuss why this problem is challenging, why a good generative model alone is insufficient to solve it, and what a good solution would look like. In particular, we introduce the notion of a universal critic, which unlike adversarial critics does not require adversarial training. While universal critics are not immediately practical, they can serve both as a North Star for guiding practical implementations and as a tool for analyzing existing attempts to capture realism. | 翻訳日:2024-03-13 13:32:20 公開日:2024-03-11 |
# Aligners: LLMとアライメントの分離 Aligners: Decoupling LLMs and Alignment ( http://arxiv.org/abs/2403.04224v2 ) ライセンス: Link先を確認 | Lilian Ngweta, Mayank Agarwal, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail Yurochkin | (参考訳) 大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
アライメントは困難でコストがかかり、すべてのLCMとアライメント基準を繰り返す必要があります。
そこで本稿では,LLM とアライメントをトレーニングアライメントモデルによって分離し,任意の基準をアライメントすることで,アライメントがパフォーマンスに与える影響を低減することを提案する。
リライナーモデルをトレーニングするためのレシピは、(入力された)llmで生成された合成データのみに依存しており、様々なアライメント基準に容易に調整することができます。
本手法を「倫理的」なライナーを訓練し,その効果を実証的に検証する。 Large Language Models (LLMs) need to be aligned with human expectations to ensure their safety and utility in most applications. Alignment is challenging, costly, and needs to be repeated for every LLM and alignment criterion. We propose to decouple LLMs and alignment by training aligner models that can be used to align any LLM for a given criteria on an as-needed basis, thus also reducing the potential negative impacts of alignment on performance. Our recipe for training the aligner models solely relies on synthetic data generated with a (prompted) LLM and can be easily adjusted for a variety of alignment criteria. We illustrate our method by training an "ethical" aligner and verify its efficacy empirically. | 翻訳日:2024-03-13 13:31:50 公開日:2024-03-11 |
# サンプル毎のアクティベーションパターンによるニューラルネットワークの性能推定 Estimating Neural Network Performance through Sample-Wise Activation Patterns ( http://arxiv.org/abs/2403.04161v2 ) ライセンス: Link先を確認 | Yameng Peng, Andy Song, Haytham M. Fayek, Vic Ciesielski, Xiaojun Chang | (参考訳) トレーニングフリーメトリクス(すなわちゼロコストプロキシ)は、リソース集約型ニューラルネットワークトレーニング、特にニューラルネットワーク検索(nas)を避けるために広く使われている。
近年の研究では、既存のトレーニングフリーメトリクスには、相関の限定や、異なる検索空間やタスク間の一般化の欠如など、いくつかの制限があることが示された。
そこで本研究では,Sample-Wise Activation Patternsとその派生品であるSWAP-Scoreを提案する。
入力サンプルのバッチ上でのネットワークの表現性を測定する。
SWAPスコアは,NAS-Bench-101/201/301 と TransNAS-Bench-101 において,既存のトレーニング不要の指標を15 以上上回った。
SWAP-Scoreは正規化によってさらに強化され、セルベースの検索空間の相関がさらに高められ、検索中のモデルサイズ制御が可能となる。
例えば、NAS-Bench-201ネットワーク上の正規化SWAP-ScoreとCIFAR-100の検証精度のSpearmanのランク相関係数は0.90であり、第2の基準であるNWOTよりは0.80よりかなり高い。
NASの進化的アルゴリズムと統合すると、SWAP-NASは、約6分9分でCIFAR-10とImageNetの競合性能を達成する。 Training-free metrics (a.k.a. zero-cost proxies) are widely used to avoid resource-intensive neural network training, especially in Neural Architecture Search (NAS). Recent studies show that existing training-free metrics have several limitations, such as limited correlation and poor generalisation across different search spaces and tasks. Hence, we propose Sample-Wise Activation Patterns and its derivative, SWAP-Score, a novel high-performance training-free metric. It measures the expressivity of networks over a batch of input samples. The SWAP-Score is strongly correlated with ground-truth performance across various search spaces and tasks, outperforming 15 existing training-free metrics on NAS-Bench-101/201/301 and TransNAS-Bench-101. The SWAP-Score can be further enhanced by regularisation, which leads to even higher correlations in cell-based search space and enables model size control during the search. For example, Spearman's rank correlation coefficient between regularised SWAP-Score and CIFAR-100 validation accuracies on NAS-Bench-201 networks is 0.90, significantly higher than 0.80 from the second-best metric, NWOT. When integrated with an evolutionary algorithm for NAS, our SWAP-NAS achieves competitive performance on CIFAR-10 and ImageNet in approximately 6 minutes and 9 minutes of GPU time respectively. | 翻訳日:2024-03-13 13:31:36 公開日:2024-03-11 |
# ファウショット異常検出のためのデュアルパス周波数判別器 Dual-path Frequency Discriminators for Few-shot Anomaly Detection ( http://arxiv.org/abs/2403.04151v2 ) ライセンス: Link先を確認 | Yuhu Bai, Jiangning Zhang, Yuhang Dong, Guanzhong Tian, Liang Liu, Yunkang Cao, Yabiao Wang, Chengjie Wang | (参考訳) 工業生産にはFSAD(Few-shot Anomaly Detection)が不可欠である。
しかし、既存のfsad法は限られた数の正常なサンプルを効果的に利用するのに苦労しており、空間領域で目立たない異常の検出や発見に失敗する可能性がある。
さらに、これらの微妙な異常が周波数領域でより顕著であることが分かる。
本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。
具体的には、画像レベルと特徴レベルの両方で異常を生成する。
多周波情報構築モジュールにより差分周波数成分を抽出し、微細な特徴構築モジュールに供給して適合した特徴を提供する。
本稿では,特徴空間における画像レベルおよび特徴レベル異常の検出と同定にデュアルパス特徴識別モジュールを用いる識別分類問題として,異常検出法を提案する。
識別者は、潜在空間における異常特徴と正規特徴の合同表現を学習することを目的としている。
MVTec AD と VisA のベンチマークで実施された大規模な実験により、DFD が現在の最先端手法を超越していることが示されている。
ソースコードは利用可能である。 Few-shot anomaly detection (FSAD) is essential in industrial manufacturing. However, existing FSAD methods struggle to effectively leverage a limited number of normal samples, and they may fail to detect and locate inconspicuous anomalies in the spatial domain. We further discover that these subtle anomalies would be more noticeable in the frequency domain. In this paper, we propose a Dual-Path Frequency Discriminators (DFD) network from a frequency perspective to tackle these issues. Specifically, we generate anomalies at both image-level and feature-level. Differential frequency components are extracted by the multi-frequency information construction module and supplied into the fine-grained feature construction module to provide adapted features. We consider anomaly detection as a discriminative classification problem, wherefore the dual-path feature discrimination module is employed to detect and locate the image-level and feature-level anomalies in the feature space. The discriminators aim to learn a joint representation of anomalous features and normal features in the latent space. Extensive experiments conducted on MVTec AD and VisA benchmarks demonstrate that our DFD surpasses current state-of-the-art methods. Source code will be available. | 翻訳日:2024-03-13 13:31:10 公開日:2024-03-11 |
# フェアネスのグローバル化--アフリカにおける植民地主義、AI、健康に関する混合研究 The Case for Globalizing Fairness: A Mixed Methods Study on Colonialism, AI, and Health in Africa ( http://arxiv.org/abs/2403.03357v2 ) ライセンス: Link先を確認 | Mercy Asiedu, Awa Dieng, Iskandar Haykel, Negar Rostamzadeh, Stephen Pfohl, Chirag Nagpal, Maria Nagawa, Abigail Oppong, Sanmi Koyejo, Katherine Heller | (参考訳) 医療分野における機械学習(ML)技術の普及に伴い、これらのシステムが示すバイアスを理解し緩和する技術の開発が求められている。
健康のためのMLベースのソリューション開発における公平性の考慮は、アフリカに特に影響を及ぼす。この論文は、アフリカをケーススタディとして、世界の健康に対する公平性を探究することを目的としている。
我々は,アフリカにおけるフェアネスを考慮した不均一性の軸の提案と,それらがML対応の異なる医療モダリティでどのような役割を果たすのかを,スコーピングレビューにより検討する。
次に,アフリカを対象とする一般人口調査参加者672人と,ML,健康,政策の専門家28人との質的研究を行い,格差の軸に関する確証的証拠を得た。
我々の分析は、関心の属性として植民地主義に焦点を当て、人工知能(AI)、健康、植民地主義の相互作用を調べる。
事前に特定された属性のうち、植民地の歴史、起源の国、国民所得のレベルは、参加者がAIシステムに偏見をもたらすと信じている格差の特定の軸であり、しかしながら、専門家と一般人口の意見の相違も見られた。
専門家は一般的に、アフリカにおけるAI技術の発展と実装に関する植民地史の関連性について共通の見解を表明したが、調査対象者の大多数は、AIと植民地主義に直接関連があるとは考えていなかった。
これらの知見に基づき,アフリカにおける健康のための公平なMLソリューション開発のための実践的提言を行った。 With growing application of machine learning (ML) technologies in healthcare, there have been calls for developing techniques to understand and mitigate biases these systems may exhibit. Fair-ness considerations in the development of ML-based solutions for health have particular implications for Africa, which already faces inequitable power imbalances between the Global North and South.This paper seeks to explore fairness for global health, with Africa as a case study. We conduct a scoping review to propose axes of disparities for fairness consideration in the African context and delineate where they may come into play in different ML-enabled medical modalities. We then conduct qualitative research studies with 672 general population study participants and 28 experts inML, health, and policy focused on Africa to obtain corroborative evidence on the proposed axes of disparities. Our analysis focuses on colonialism as the attribute of interest and examines the interplay between artificial intelligence (AI), health, and colonialism. Among the pre-identified attributes, we found that colonial history, country of origin, and national income level were specific axes of disparities that participants believed would cause an AI system to be biased.However, there was also divergence of opinion between experts and general population participants. Whereas experts generally expressed a shared view about the relevance of colonial history for the development and implementation of AI technologies in Africa, the majority of the general population participants surveyed did not think there was a direct link between AI and colonialism. Based on these findings, we provide practical recommendations for developing fairness-aware ML solutions for health in Africa. | 翻訳日:2024-03-13 13:30:50 公開日:2024-03-11 |
# 深層学習のための仮説空間 Hypothesis Spaces for Deep Learning ( http://arxiv.org/abs/2403.03353v2 ) ライセンス: Link先を確認 | Rui Wang, Yuesheng Xu, Mingsong Yan | (参考訳) 本稿では,ディープニューラルネットワーク(DNN)を用いた深層学習のための仮説空間を提案する。
DNNを物理変数とパラメータ変数の2つの変数の関数として扱うことにより、DNNの所定の深さと幅によって決定される重み行列とバイアスのセットに位置するパラメータ変数に対するDNNの原始集合を考える。
次に、弱*位相における原始dnn集合の線型スパンを完備化し、物理変数の関数のバナッハ空間を構築する。
このようなバナッハ空間が再生カーネルバナッハ空間(RKBS)であることを証明し、その再生カーネルを構築する。
学習モデルの解に対する代表者定理を確立することにより,RKBSにおける正規化学習と最小補間問題という2つの学習モデルについて検討する。
これらの学習モデルの解は、与えられたデータと再生核によって決定される有限個のカーネルセッションの線形結合として表現できる。 This paper introduces a hypothesis space for deep learning that employs deep neural networks (DNNs). By treating a DNN as a function of two variables, the physical variable and parameter variable, we consider the primitive set of the DNNs for the parameter variable located in a set of the weight matrices and biases determined by a prescribed depth and widths of the DNNs. We then complete the linear span of the primitive DNN set in a weak* topology to construct a Banach space of functions of the physical variable. We prove that the Banach space so constructed is a reproducing kernel Banach space (RKBS) and construct its reproducing kernel. We investigate two learning models, regularized learning and minimum interpolation problem in the resulting RKBS, by establishing representer theorems for solutions of the learning models. The representer theorems unfold that solutions of these learning models can be expressed as linear combination of a finite number of kernel sessions determined by given data and the reproducing kernel. | 翻訳日:2024-03-13 13:29:59 公開日:2024-03-11 |
# MiKASA:3Dビジュアルグラウンドのためのマルチキーアンカーとシーンアウェアトランス MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding ( http://arxiv.org/abs/2403.03077v2 ) ライセンス: Link先を確認 | Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker | (参考訳) 3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。
既存の手法では、オブジェクト認識の正確さや複雑な言語クエリ、特に複数のアンカーを含む記述やビュー依存の記述の解釈に苦慮している場合が多い。
これに対して,Multi-Key-Anchor Scene-Aware 変換器を提案する。
我々の新しいエンドツーエンド学習モデルは、自己認識に基づくシーン認識オブジェクトエンコーダと、従来のマルチキーアンカー技術を統合し、物体認識精度を高め、空間的関係を理解する。
さらに、ミカサは意思決定の説明可能性を改善し、誤り診断を容易にする。
本モデルは,sr3dとnr3dの両方のデータセットに対するreviewit3dチャレンジにおいて,最も高い精度を達成している。
このプロジェクトのソースコードと追加リソースはgithubにある。 https://github.com/birdy666/mikasa-3dvg。 3D visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interpreting complex linguistic queries, particularly with descriptions that involve multiple anchors or are view-dependent. In response, we present the MiKASA (Multi-Key-Anchor Scene-Aware) Transformer. Our novel end-to-end trained model integrates a self-attention-based scene-aware object encoder and an original multi-key-anchor technique, enhancing object recognition accuracy and the understanding of spatial relationships. Furthermore, MiKASA improves the explainability of decision-making, facilitating error diagnosis. Our model achieves the highest overall accuracy in the Referit3D challenge for both the Sr3D and Nr3D datasets, particularly excelling by a large margin in categories that require viewpoint-dependent descriptions. The source code and additional resources for this project are available on GitHub: https://github.com/birdy666/MiKASA-3DVG | 翻訳日:2024-03-13 13:28:45 公開日:2024-03-11 |
# 個人属性予測によるグループ活動の学習 Learning Group Activity Features Through Person Attribute Prediction ( http://arxiv.org/abs/2403.02753v2 ) ライセンス: Link先を確認 | Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita | (参考訳) 本稿では,多人数活動の特徴をコンパクトな潜在ベクトルとして学習するグループ活動特徴(GAF)学習を提案する。
教師付き学習にグループアクティビティの手動アノテーションを必要とする先行作業とは異なり,本手法はグループアクティビティアノテーションを使わずに個人属性予測を通じてgafを学習する。
グループ内の人の属性を予測するためにGAFが必要とされるように、ネットワーク全体をエンドツーエンドで学習することにより、GAFは多人数活動の特徴として訓練される。
人属性として,その単純さからアノテーションが容易であり,手作業によるアノテーションが不要であることから,人のアクションクラスと外観特徴を使用するように提案する。
さらに,各対象者の特徴を適切に抽出するために,複雑なGAFをアンタングルする位置誘導属性予測を導入する。
提案手法は2つの公開データセット上でSOTA法を定量的に定性的に上回ることを示す。
また,GAFの可視化により,詳細なグループ活動クラスを表すGAFを学習することを示す。
コード:https://github.com/chihina/GAFL-CVPR2024。 This paper proposes Group Activity Feature (GAF) learning in which features of multi-person activity are learned as a compact latent vector. Unlike prior work in which the manual annotation of group activities is required for supervised learning, our method learns the GAF through person attribute prediction without group activity annotations. By learning the whole network in an end-to-end manner so that the GAF is required for predicting the person attributes of people in a group, the GAF is trained as the features of multi-person activity. As a person attribute, we propose to use a person's action class and appearance features because the former is easy to annotate due to its simpleness, and the latter requires no manual annotation. In addition, we introduce a location-guided attribute prediction to disentangle the complex GAF for extracting the features of each target person properly. Various experimental results validate that our method outperforms SOTA methods quantitatively and qualitatively on two public datasets. Visualization of our GAF also demonstrates that our method learns the GAF representing fined-grained group activity classes. Code: https://github.com/chihina/GAFL-CVPR2024. | 翻訳日:2024-03-13 13:28:28 公開日:2024-03-11 |
# DT-DDNN:CAV用5GRFドメインの物理層セキュリティ攻撃検出器 DT-DDNN: A Physical Layer Security Attack Detector in 5G RF Domain for CAVs ( http://arxiv.org/abs/2403.02645v2 ) ライセンス: Link先を確認 | Ghazal Asemian, Mohammadreza Amini, Burak Kantarci, Melike Erol-Kantarci | (参考訳) シンクロナイゼーション・シグナル・ブロック(SSB)は、5Gニューラジオ(NR)エアインターフェースの基本コンポーネントであり、コネクテッド・アンド・オートマチック・ビークルズ(CAV)の初期アクセス手順に不可欠なものであり、ネットワークの運用においていくつかの重要な目的を担っている。
しかし、一次同期信号と二次同期信号(pssとsss)を含むssb伝送の予測可能な性質のため、妨害攻撃は重要な脅威である。
これらの攻撃は、高出力や複雑な機器を必要とせずに実行でき、特に暗号化されていない制御信号の送信の結果、5gネットワークに重大なリスクをもたらす。
RF領域の知識を生かした本研究は,CAVネットワークにおけるジャマー検出のための新しいディープラーニング技術を提案する。
ネットワークパラメータを主に依存する既存のジャミング検出アルゴリズムとは異なり、ssbに焦点を合わせることで、ダブルスレッショルドなディープラーニングジャミング検出器を導入する。
検出方法はRF領域の特徴に着目し,既存のネットワークインフラストラクチャと統合することなくネットワークの堅牢性を向上させる。
プリプロセッシングブロックを統合して、Null Resource Element(EPNRE)特性あたりのPSS相関とエネルギーを抽出することにより、正常信号と妨害信号とを高精度に区別する。
さらに、離散ウェーブレット変換(DWT)を取り入れることで、トレーニングと検出の有効性を最適化する。
また、ディープカスケード学習モデルによって補完されるアーキテクチャに、二重閾値ダブルディープニューラルネットワーク(DT-DDNN)を導入し、信号対ジャミングノイズ比(SJNR)の変動に対するモデルの感度を高める。
提案手法は,SJNRが15~30dBの余剰低ジャミングパワーにおいて96.4%の検出率を達成することを示す。
さらに、実用的なテストベッドから得られた実5G信号を解析してDT-DDNNの性能を検証する。 The Synchronization Signal Block (SSB) is a fundamental component of the 5G New Radio (NR) air interface, crucial for the initial access procedure of Connected and Automated Vehicles (CAVs), and serves several key purposes in the network's operation. However, due to the predictable nature of SSB transmission, including the Primary and Secondary Synchronization Signals (PSS and SSS), jamming attacks are critical threats. These attacks, which can be executed without requiring high power or complex equipment, pose substantial risks to the 5G network, particularly as a result of the unencrypted transmission of control signals. Leveraging RF domain knowledge, this work presents a novel deep learning-based technique for detecting jammers in CAV networks. Unlike the existing jamming detection algorithms that mostly rely on network parameters, we introduce a double-threshold deep learning jamming detector by focusing on the SSB. The detection method is focused on RF domain features and improves the robustness of the network without requiring integration with the pre-existing network infrastructure. By integrating a preprocessing block to extract PSS correlation and energy per null resource elements (EPNRE) characteristics, our method distinguishes between normal and jammed received signals with high precision. Additionally, by incorporating of Discrete Wavelet Transform (DWT), the efficacy of training and detection are optimized. A double-threshold double Deep Neural Network (DT-DDNN) is also introduced to the architecture complemented by a deep cascade learning model to increase the sensitivity of the model to variations of signal-to-jamming noise ratio (SJNR). Results show that the proposed method achieves 96.4% detection rate in extra low jamming power, i.e., SJNR between 15 to 30 dB. Further, performance of DT-DDNN is validated by analyzing real 5G signals obtained from a practical testbed. | 翻訳日:2024-03-13 13:28:08 公開日:2024-03-11 |
# lightm-unet: 医療用画像セグメンテーションのための軽量unetのmamba支援 LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image Segmentation ( http://arxiv.org/abs/2403.05246v2 ) ライセンス: Link先を確認 | Weibin Liao and Yinghao Zhu and Xinyuan Wang and Chengwei Pan and Yasha Wang and Liantao Ma | (参考訳) UNetとその変種は医療画像のセグメンテーションで広く使われている。
しかしながら、これらのモデル、特にTransformerアーキテクチャに基づくモデルは、多数のパラメータと計算負荷のために問題を起こし、モバイルヘルスアプリケーションには適さない。
最近、Mambaによって実証されたState Space Models (SSM) が、CNNやTransformerアーキテクチャの代替として登場した。
これに基づいて我々は、mambaをunet内のcnnとtransformerの軽量な代替として採用し、実際の医療環境での計算資源の制限に起因する課題に取り組むことを目的としています。
この目的のために、軽量フレームワークにMambaとUNetを統合するLightweight Mamba UNet(LightM-UNet)を紹介します。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、線形計算複雑性で長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された大規模な実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
特に、有名なnnU-Netと比較して、LightM-UNetは、パラメータと計算コストをそれぞれ116倍と21倍に大幅に削減しながら、優れたセグメンテーション性能を達成する。
これはモデルの軽量化を促進するMambaの可能性を強調している。
私たちのコード実装はhttps://github.com/MrBlankness/LightM-UNetで公開されています。 UNet and its variants have been widely used in medical image segmentation. However, these models, especially those based on Transformer architectures, pose challenges due to their large number of parameters and computational loads, making them unsuitable for mobile health applications. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as competitive alternatives to CNN and Transformer architectures. Building upon this, we employ Mamba as a lightweight substitute for CNN and Transformer within UNet, aiming at tackling challenges stemming from computational resource limitations in real medical settings. To this end, we introduce the Lightweight Mamba UNet (LightM-UNet) that integrates Mamba and UNet in a lightweight framework. Specifically, LightM-UNet leverages the Residual Vision Mamba Layer in a pure Mamba fashion to extract deep semantic features and model long-range spatial dependencies, with linear computational complexity. Extensive experiments conducted on two real-world 2D/3D datasets demonstrate that LightM-UNet surpasses existing state-of-the-art literature. Notably, when compared to the renowned nnU-Net, LightM-UNet achieves superior segmentation performance while drastically reducing parameter and computation costs by 116x and 21x, respectively. This highlights the potential of Mamba in facilitating model lightweighting. Our code implementation is publicly available at https://github.com/MrBlankness/LightM-UNet. | 翻訳日:2024-03-13 13:21:50 公開日:2024-03-11 |
# ルール駆動ニュースキャプション Rule-driven News Captioning ( http://arxiv.org/abs/2403.05101v2 ) ライセンス: Link先を確認 | Ning Xu, Tingting Zhang, Hongshuo Tian, An-An Liu | (参考訳) ニュースキャプションタスクは、ニュース記事と共に画像に名前付きエンティティや具体的なイベントを記述することによって、文章を生成することを目的としている。
既存の手法は、入力されたニュースコンテンツと出力予測との相関に主に焦点をあてる大規模な事前学習モデルに頼ることで、目覚ましい結果を得た。
しかし、ニュースキャプションは、イベントに関連する個人やアクションを正確に記述するなど、ニュースレポートの基本的な規則に従う必要がある。
本稿では,指定された規則信号に従って画像記述を生成できるルール駆動ニュースキャプション手法を提案する。
具体的には、まず、記述のためのニュース対応セマンティックルールを設計する。
このルールには、画像に描かれた主要なアクション(例えば「パフォーマンス」)と、アクションに関与する名前付きエンティティ(例えば「エージェント」や「プレース」)によって演じられる役割が含まれる。
次に,複数のエンコーダ層にニュース対応セマンティックルールを組み込むプレフィックスチューニング戦略により,このセマンティックルールを大規模事前学習モデルであるBARTに注入する。
最後に、BARTを効果的に誘導し、指定された規則に従うニュース文を生成する。
広く使われている2つのデータセット(GoodNewsとNYTimes800k)に対する大規模な実験は、我々の方法の有効性を実証している。 News captioning task aims to generate sentences by describing named entities or concrete events for an image with its news article. Existing methods have achieved remarkable results by relying on the large-scale pre-trained models, which primarily focus on the correlations between the input news content and the output predictions. However, the news captioning requires adhering to some fundamental rules of news reporting, such as accurately describing the individuals and actions associated with the event. In this paper, we propose the rule-driven news captioning method, which can generate image descriptions following designated rule signal. Specifically, we first design the news-aware semantic rule for the descriptions. This rule incorporates the primary action depicted in the image (e.g., "performing") and the roles played by named entities involved in the action (e.g., "Agent" and "Place"). Second, we inject this semantic rule into the large-scale pre-trained model, BART, with the prefix-tuning strategy, where multiple encoder layers are embedded with news-aware semantic rule. Finally, we can effectively guide BART to generate news sentences that comply with the designated rule. Extensive experiments on two widely used datasets (i.e., GoodNews and NYTimes800k) demonstrate the effectiveness of our method. | 翻訳日:2024-03-13 13:21:24 公開日:2024-03-11 |
# UFORecon: 任意および未使用の集合からの一般化可能なスパースビュー表面再構成 UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets ( http://arxiv.org/abs/2403.05086v2 ) ライセンス: Link先を確認 | Youngju Na, Woo Jae Kim, Kyu Beom Han, Suhyeon Ha, and Sung-eui Yoon | (参考訳) 一般化可能な神経暗黙的表面再構成は、見当たらないシーンから限られた数のマルチビュー画像が与えられることで、正確な基盤となる幾何学を得ることを目的としている。
しかし、既存の手法では、トレーニングとテストのフェーズで事前に定義されたスコアを使用して、情報的および関連するビューのみを選択する。
この制約は、望ましい組み合わせの可用性が常に保証されない現実のシナリオでは、モデルを非現実的にします。
入力ビューの組み合わせの有効性を示すために,ビュー結合スコアを導入し,検証する。
従来の手法は任意かつ好ましくない集合の下で解を退化させる。
この知見に基づいて,堅牢なビュー合成可能な表面再構成フレームワークであるUFOReconを提案する。
これを実現するために、ソース画像間の相互作用をモデル化するクロスビューマッチング変換器と、大域的な相関を捉えるための相関フラストラムを構築する。
さらに、ペアワイズ機能の類似性をビュー一貫性プリミティブとして明示的にエンコードする。
提案手法は,ビュー・コンビネーションの一般化可能性や,ビュー・コンビネーションを訓練した従来の一般化可能なプロトコルにおいて,従来の手法よりも優れていた。
コードはhttps://github.com/Youngju-Na/UFOReconで公開されている。 Generalizable neural implicit surface reconstruction aims to obtain an accurate underlying geometry given a limited number of multi-view images from unseen scenes. However, existing methods select only informative and relevant views using predefined scores for training and testing phases. This constraint renders the model impractical in real-world scenarios, where the availability of favorable combinations cannot always be ensured. We introduce and validate a view-combination score to indicate the effectiveness of the input view combination. We observe that previous methods output degenerate solutions under arbitrary and unfavorable sets. Building upon this finding, we propose UFORecon, a robust view-combination generalizable surface reconstruction framework. To achieve this, we apply cross-view matching transformers to model interactions between source images and build correlation frustums to capture global correlations. Additionally, we explicitly encode pairwise feature similarities as view-consistent priors. Our proposed framework significantly outperforms previous methods in terms of view-combination generalizability and also in the conventional generalizable protocol trained with favorable view-combinations. The code is available at https://github.com/Youngju-Na/UFORecon. | 翻訳日:2024-03-13 13:21:01 公開日:2024-03-11 |
# beyond mot: セマンティックなマルチオブジェクトトラッキング Beyond MOT: Semantic Multi-Object Tracking ( http://arxiv.org/abs/2403.05021v2 ) ライセンス: Link先を確認 | Yunhao Li, Hao Wang, Xue Ma, Jiali Yao, Shaohua Dong, Heng Fan, Libo Zhang | (参考訳) 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(つまり「場所」)の軌跡を予測することを目的としている。
しかし、単に "where" を知るだけでは、多くの重要なアプリケーションでは不十分である。
比較として、きめ細かな振る舞い、相互作用、そして全体的な要約されたキャプション(すなわち「どこ」に関連付けられたビデオの「何」)といった意味理解は、包括的ビデオ分析に強く望まれる。
そこで本研究では,セマンティック・マルチオブジェクト・トラッキング (SMOT) を導入し,オブジェクトの軌跡を推定し,関連するトラジェクトリの意味的詳細を理解するとともに,インスタンスキャプション,インスタンスインタラクション,ビデオキャプション全体を含むセマンティック・マルチオブジェクト・トラッキング(SMOT)を導入し,トラッキングのための"where"と"What"を統合した。
SMOTの探索を促進するため,大規模なセマンティックMOTベンチマークであるBenSMOTを提案する。
具体的には、BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。
BenSMOTは、自然言語の関連するインスタンスキャプション、インスタンスインタラクション、各ビデオシーケンスの全体的なキャプションと共に、ターゲットの軌跡に対するアノテーションを提供する。
私たちの知る限り、BenSMOTはSMOTの最初の公開ベンチマークです。
また,今後の研究を奨励するためにSMOTerという新しいトラッカーを提案し,SMOTのために特別に設計し,エンドツーエンドで訓練し,有望な性能を示す。
BenSMOTのリリースによって、私たちは従来のMOTを超えて、SMOTの"where"と"What"を予測し、ビデオ理解のための新たな方向性を開くことを期待しています。
BenSMOTとSMOTerはリリースされます。 Current multi-object tracking (MOT) aims to predict trajectories of targets (i.e.,"where") in videos. Yet, knowing merely "where" is insufficient in many crucial applications. In comparison, semantic understanding such as fine-grained behaviors, interactions, and overall summarized captions (i.e., "what") from videos, associated with "where", is highly-desired for comprehensive video analysis. Thus motivated, we introduce Semantic Multi-Object Tracking (SMOT), that aims to estimate object trajectories and meanwhile understand semantic details of associated trajectories including instance captions, instance interactions, and overall video captions, integrating "where" and "what" for tracking. In order to foster the exploration of SMOT, we propose BenSMOT, a large-scale Benchmark for Semantic MOT. Specifically, BenSMOT comprises 3,292 videos with 151K frames, covering various scenarios for semantic tracking of humans. BenSMOT provides annotations for the trajectories of targets, along with associated instance captions in natural language, instance interactions, and overall caption for each video sequence. To our best knowledge, BenSMOT is the first publicly available benchmark for SMOT. Besides, to encourage future research, we present a novel tracker named SMOTer, which is specially designed and end-to-end trained for SMOT, showing promising performance. By releasing BenSMOT, we expect to go beyond conventional MOT by predicting "where" and "what" for SMOT, opening up a new direction in tracking for video understanding. Our BenSMOT and SMOTer will be released. | 翻訳日:2024-03-13 13:20:44 公開日:2024-03-11 |
# 実を言うと:大規模言語モデルの信頼性を測定するシステム Tell me the truth: A system to measure the trustworthiness of Large Language Models ( http://arxiv.org/abs/2403.04964v2 ) ライセンス: Link先を確認 | Carlo Lipizzi | (参考訳) 大型言語モデル (LLM) は2022年11月にChatGPTが導入されて以来、ほとんどのニュースでトップに立った。
1年以上経った今、企業が採用に抵抗する主な理由の1つは、システムの信頼性に対する信頼度が限られていることだ。
(baymard, 2023) による研究で、chatgpt-4はウェブサイトのユーザビリティの問題を特定する際に80.1%の誤検出率を示した。
ヤン。
JAMA小児科の研究では、ChatGPTは小児科の患者(Barile et al., 2024)の診断の精度が17%であることが判明した。
では、"信頼"とは何か?
信頼は、文化、ドメイン、個人に基づいて変化できる相対的、主題的条件である。
そして、ドメインが与えられたら、システムの信頼性をどのように測定するか?
本稿では,ドメインの知識グラフとして表現された前提真理に基づいて信頼度を測定するための体系的なアプローチを提案する。
このアプローチは、ドメインの表現を検証し、システムを微調整するためのループに人間がいるプロセスである。
信頼度の測定は、医療、防衛、金融といった重要な環境で活動するすべてのエンティティにとって不可欠だが、LLMのすべてのユーザにとって非常に重要である。 Large Language Models (LLM) have taken the front seat in most of the news since November 2022, when ChatGPT was introduced. After more than one year, one of the major reasons companies are resistant to adopting them is the limited confidence they have in the trustworthiness of those systems. In a study by (Baymard, 2023), ChatGPT-4 showed an 80.1% false-positive error rate in identifying usability issues on websites. A Jan. '24 study by JAMA Pediatrics found that ChatGPT has an accuracy rate of 17% percent when diagnosing pediatric medical cases (Barile et al., 2024). But then, what is "trust"? Trust is a relative, subject condition that can change based on culture, domain, individuals. And then, given a domain, how can the trustworthiness of a system be measured? In this paper, I present a systematic approach to measure trustworthiness based on a predefined ground truth, represented as a knowledge graph of the domain. The approach is a process with humans in the loop to validate the representation of the domain and to fine-tune the system. Measuring the trustworthiness would be essential for all the entities operating in critical environments, such as healthcare, defense, finance, but it would be very relevant for all the users of LLMs. | 翻訳日:2024-03-13 13:20:02 公開日:2024-03-11 |
# 逆攻撃による動き予測のためのニューラルネットワークの操作 Fooling Neural Networks for Motion Forecasting via Adversarial Attacks ( http://arxiv.org/abs/2403.04954v2 ) ライセンス: Link先を確認 | Edgar Medina, Leyong Loh | (参考訳) 人間の動きの予測は依然としてオープンな問題であり、自動運転や安全アプリケーションにとって非常に重要である。
この領域には大きな進歩があるが、ヒトの動作予測におけるGCNやMLPベースのアーキテクチャのようなマルチ回帰モデルには、広く研究されている敵攻撃のトピックは適用されていない。
この研究は、画像分類における敵攻撃の初期段階と同様、最先端アーキテクチャにおける広範囲な定量的および定性的な実験を用いて、このギャップを減らすことを目的としている。
その結果、モデルが低レベルの摂動でも攻撃を受けやすいことが示唆された。
また,モデル性能に影響を与える3次元変換を用いた実験を行い,特に,ほとんどのモデルが関節間距離を変化させない単純な回転や翻訳に敏感であることを示した。
従来のCNNモデルと同様に、動き予測タスクは小さな摂動や単純な3次元変換の影響を受けやすい。 Human motion prediction is still an open problem, which is extremely important for autonomous driving and safety applications. Although there are great advances in this area, the widely studied topic of adversarial attacks has not been applied to multi-regression models such as GCNs and MLP-based architectures in human motion prediction. This work intends to reduce this gap using extensive quantitative and qualitative experiments in state-of-the-art architectures similar to the initial stages of adversarial attacks in image classification. The results suggest that models are susceptible to attacks even on low levels of perturbation. We also show experiments with 3D transformations that affect the model performance, in particular, we show that most models are sensitive to simple rotations and translations which do not alter joint distances. We conclude that similar to earlier CNN models, motion forecasting tasks are susceptible to small perturbations and simple 3D transformations. | 翻訳日:2024-03-13 13:19:43 公開日:2024-03-11 |
# 凸集合のグラフに基づく移動目標走行セールスマン問題に対する混合整数型conicプログラム A Mixed-Integer Conic Program for the Moving-Target Traveling Salesman Problem based on a Graph of Convex Sets ( http://arxiv.org/abs/2403.04917v2 ) ライセンス: Link先を確認 | Allen George Philip, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset | (参考訳) 本稿では,移動目標トラベリングセールスマン問題 (MT-TSP) の最適解を求める新たな定式化を提案する。
定式化は、目標が直線に沿って移動するとき、その軌道は時空座標系内の凸集合となるというキーアイデアに依存している。
問題は凸集合のグラフ内で最短経路を見つけることとなり、いくつかの速度制約が課される。
我々は,mt-tsp の現在の混合整数 conic プログラム (micp) 法との比較を行った。
実験結果から,提案手法は最大20のターゲット,最大2桁のランタイム削減,最大60\%の最適化ギャップを持つインスタンスに対して,micpよりも優れることがわかった。
また, この定式化の凸緩和による解コストは, MICP の解よりもMT-TSP の解コストがかなり低いことを示す。 This paper introduces a new formulation that finds the optimum for the Moving-Target Traveling Salesman Problem (MT-TSP), which seeks to find a shortest path for an agent, that starts at a depot, visits a set of moving targets exactly once within their assigned time-windows, and returns to the depot. The formulation relies on the key idea that when the targets move along lines, their trajectories become convex sets within the space-time coordinate system. The problem then reduces to finding the shortest path within a graph of convex sets, subject to some speed constraints. We compare our formulation with the current state-of-the-art Mixed Integer Conic Program (MICP) solver for the MT-TSP. The experimental results show that our formulation outperforms the MICP for instances with up to 20 targets, with up to two orders of magnitude reduction in runtime, and up to a 60\% tighter optimality gap. We also show that the solution cost from the convex relaxation of our formulation provides significantly tighter lower bounds for the MT-TSP than the ones from the MICP. | 翻訳日:2024-03-13 13:19:31 公開日:2024-03-11 |
# 衛星画像のセルフスーパービジョン(S3-TSS):衛星画像におけるSSL技術の新しい手法 Self-Supervision in Time for Satellite Images(S3-TSS): A novel method of SSL technique in Satellite images ( http://arxiv.org/abs/2403.04859v2 ) ライセンス: Link先を確認 | Akansh Maurya, Hewan Shrestha, Mohammad Munem Shahriar | (参考訳) リモートセンシング画像における様々な大気条件のラベル付きデータの可用性が制限されているため、自己教師付きアルゴリズムで作業することが有用である。
衛星画像には、回転、空間的文脈、ジグソーパズルなどのプリテキストベースのアルゴリズムが適していない。
しばしば、衛星画像は時間周波数が高い。
したがって、リモートセンシングデータの時間次元は、画像の人工的な拡張を必要とせずに自然な拡張を提供する。
本稿では,時間次元における自然増進を利用した自己教師型学習手法であるS3-TSSを提案する。
この結果と現在の最先端手法を比較し,様々な実験を行った。
提案手法は,4つの下流データセットにおいて,ベースラインSeCoよりも優れた性能を示した。
私たちの仕事のコードはこちら。 https://github.com/hewanshrestha/why-self-supervision-in-time。 With the limited availability of labeled data with various atmospheric conditions in remote sensing images, it seems useful to work with self-supervised algorithms. Few pretext-based algorithms, including from rotation, spatial context and jigsaw puzzles are not appropriate for satellite images. Often, satellite images have a higher temporal frequency. So, the temporal dimension of remote sensing data provides natural augmentation without requiring us to create artificial augmentation of images. Here, we propose S3-TSS, a novel method of self-supervised learning technique that leverages natural augmentation occurring in temporal dimension. We compare our results with current state-of-the-art methods and also perform various experiments. We observed that our method was able to perform better than baseline SeCo in four downstream datasets. Code for our work can be found here: https://github.com/hewanshrestha/Why-Self-Supervision-in-Time | 翻訳日:2024-03-13 13:19:13 公開日:2024-03-11 |
# TopicDiff:マルチモーダル会話感情検出のためのトピック強化拡散手法 TopicDiff: A Topic-enriched Diffusion Approach for Multimodal Conversational Emotion Detection ( http://arxiv.org/abs/2403.04789v2 ) ライセンス: Link先を確認 | Jiamin Luo, Jingjing Wang, Guodong Zhou | (参考訳) MCE(Multimodal Conversational Emotion)の検出は、一般的に音響、視覚、言語モダリティにまたがるものであり、マルチメディアコミュニティへの関心が高まっている。
従来の研究は主に、単一の言語モダリティにおける話題情報を考慮しつつ、音響的・視覚的な話題情報を常に無視しながら、会話の中で文脈的情報を学ぶことに集中していた。
そこで本研究では,MCEタスクのマルチモーダルトピック情報を取得するために,モデルに依存しないトピック拡張(TopicDiff)手法を提案する。
特に,拡散モデルとニューラルトピックモデルを統合することで,トピック情報の収集におけるニューラルトピックモデルの多様性不足問題を軽減する。
詳細な評価は、最先端のmceベースラインに対するトピックディフの大幅な改善を示し、mceに対するマルチモーダルなトピック情報の重要性と、そのような情報取得におけるトピックディフの有効性を正当化している。
さらに,音声と視覚における話題情報が,言語よりも識別的かつ頑健であることの興味深い発見を観察した。 Multimodal Conversational Emotion (MCE) detection, generally spanning across the acoustic, vision and language modalities, has attracted increasing interest in the multimedia community. Previous studies predominantly focus on learning contextual information in conversations with only a few considering the topic information in single language modality, while always neglecting the acoustic and vision topic information. On this basis, we propose a model-agnostic Topic-enriched Diffusion (TopicDiff) approach for capturing multimodal topic information in MCE tasks. Particularly, we integrate the diffusion model into neural topic model to alleviate the diversity deficiency problem of neural topic model in capturing topic information. Detailed evaluations demonstrate the significant improvements of TopicDiff over the state-of-the-art MCE baselines, justifying the importance of multimodal topic information to MCE and the effectiveness of TopicDiff in capturing such information. Furthermore, we observe an interesting finding that the topic information in acoustic and vision is more discriminative and robust compared to the language. | 翻訳日:2024-03-13 13:18:32 公開日:2024-03-11 |
# 幻覚を用いたgpt4フィルタのバイパス Using Hallucinations to Bypass GPT4's Filter ( http://arxiv.org/abs/2403.04769v2 ) ライセンス: Link先を確認 | Benjamin Lemkin | (参考訳) 大規模言語モデル(LLM)は、最初は大量のデータに基づいて訓練され、次に人間からのフィードバック(RLHF)からの強化学習を用いて微調整される。
本稿では, モデルフィルタを効果的に消去する手法として, GPT4 や Claude Sonnet , Inflection-2.5 などが提案されている。
他のジェイルブレイク(例えば、人気の高い"Do Anything Now"(DAN))とは異なり、我々の手法はLLMにRLHFポリシーをオーバーライドするように指示することに依存しないので、単にRLHFプロセスを変更するだけでは対処できない。
その代わりに、モデルがワードバケットに回帰する間、逆テキストを含む幻覚を誘導し、効果的にモデルのフィルタを一時停止する。
我々は,LLMの内部動作をよりよく理解する機会として,現在未適応のLLMに根本的な脆弱性が存在すると信じている。 Large language models (LLMs) are initially trained on vast amounts of data, then fine-tuned using reinforcement learning from human feedback (RLHF); this also serves to teach the LLM to provide appropriate and safe responses. In this paper, we present a novel method to manipulate the fine-tuned version into reverting to its pre-RLHF behavior, effectively erasing the model's filters; the exploit currently works for GPT4, Claude Sonnet, and (to some extent) for Inflection-2.5. Unlike other jailbreaks (for example, the popular "Do Anything Now" (DAN) ), our method does not rely on instructing the LLM to override its RLHF policy; hence, simply modifying the RLHF process is unlikely to address it. Instead, we induce a hallucination involving reversed text during which the model reverts to a word bucket, effectively pausing the model's filter. We believe that our exploit presents a fundamental vulnerability in LLMs currently unaddressed, as well as an opportunity to better understand the inner workings of LLMs during hallucinations. | 翻訳日:2024-03-13 13:18:13 公開日:2024-03-11 |
# GEAR: LLMのニアロスレス生成推論のための効率的なKVキャッシュ圧縮 GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM ( http://arxiv.org/abs/2403.05527v2 ) ライセンス: Link先を確認 | Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao | (参考訳) キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
しかし、シーケンス長の増加に伴うキャッシュ需要の増加は、LLM推論をメモリバウンド問題に転換し、システムのスループットを著しく制限している。
既存のメソッドは、重要でないトークンをドロップしたり、すべてのエントリを一様に定量化する。
しかし、そのような方法はしばしば圧縮行列を表現するために高い近似誤差を生じる。
自己回帰復号プロセスは、各ステップの誤差をさらに複雑にし、モデル生成と性能低下の致命的な偏差をもたらす。
そこで本研究では,高精細度圧縮を実現する効率的なkvキャッシュ圧縮フレームワークであるgearを提案する。
GEAR は最初、超低精度に近い大きさの成分のほとんどに量子化を適用する。
その後、量子化誤差を近似する低ランク行列と、外れたエントリから個々のエラーを修正できるスパース行列を用いる。
3つの技術を統合することで、GEARはシナジスティックなポテンシャルを完全に活用することができる。
我々の実験では、GEARは代替技術と比較して、最大2.38倍のスループット向上を実現し、ピークメモリサイズを2.29倍に削減した。
私たちのコードはhttps://github.com/HaoKang-Timmy/GEAR.comで公開されています。 Key-value (KV) caching has become the de-facto to accelerate generation speed for large language models (LLMs) inference. However, the growing cache demand with increasing sequence length has transformed LLM inference to be a memory bound problem, significantly constraining the system throughput. Existing methods rely on dropping unimportant tokens or quantizing all entries uniformly. Such methods, however, often incur high approximation errors to represent the compressed matrices. The autoregressive decoding process further compounds the error of each step, resulting in critical deviation in model generation and deterioration of performance. To tackle this challenge, we propose GEAR, an efficient KV cache compression framework that achieves near-lossless high-ratio compression. GEAR first applies quantization to majority of entries of similar magnitudes to ultra-low precision. It then employs a low rank matrix to approximate the quantization error, and a sparse matrix to remedy individual errors from outlier entries. By adeptly integrating three techniques, GEAR is able to fully exploit their synergistic potentials. Our experiments demonstrate that compared to alternatives, GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38x throughput improvement, while reducing peak-memory size up to 2.29x. Our code is publicly available at https://github.com/HaoKang-Timmy/GEAR. | 翻訳日:2024-03-13 13:09:32 公開日:2024-03-11 |
# DeepSeek-VL: 実世界のビジョンランゲージ理解を目指して DeepSeek-VL: Towards Real-World Vision-Language Understanding ( http://arxiv.org/abs/2403.05525v2 ) ライセンス: Link先を確認 | Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan | (参考訳) 本稿では、実世界のビジョンと言語理解アプリケーション用に設計されたオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
私たちは、Webスクリーンショット、PDF、OCR、チャート、知識ベースのコンテンツを含む現実世界のシナリオを幅広くカバーし、実用的なコンテキストの包括的な表現を目指しています。
さらに,実際のユーザシナリオからユースケース分類を作成し,それに応じて命令チューニングデータセットを構築する。
このデータセットによる微調整は、実用アプリケーションにおけるモデルのユーザエクスペリエンスを大幅に改善します。
DeepSeek-VLは高解像度画像(1024 x 1024)を効率よく処理するハイブリッドビジョンエンコーダを内蔵しており、計算オーバーヘッドは比較的低い。
この設計選択は、モデルが様々な視覚的タスクにまたがる重要な意味的および詳細な情報をキャプチャする能力を保証する。
我々は、有能な視覚言語モデルが言語能力を持つべきであると仮定する。
プレトレーニング中のLLM能力の維持を確保するため,LLMトレーニングを最初から統合し,視覚と言語モダリティの競合ダイナミクスを慎重に管理することにより,有効なVL事前訓練戦略を検討する。
DeepSeek-VLファミリ(バージョン1.3Bと7Bモデルの両方)は、現実のアプリケーションにおける視覚言語チャットボットとしての優れたユーザエクスペリエンスを示し、言語中心のベンチマークで堅牢なパフォーマンスを維持しながら、さまざまなビジュアル言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
我々は、この基盤モデルに基づいてイノベーションを促進するために、1.3Bモデルと7Bモデルの両方を一般公開した。 We present DeepSeek-VL, an open-source Vision-Language (VL) Model designed for real-world vision and language understanding applications. Our approach is structured around three key dimensions: We strive to ensure our data is diverse, scalable, and extensively covers real-world scenarios including web screenshots, PDFs, OCR, charts, and knowledge-based content, aiming for a comprehensive representation of practical contexts. Further, we create a use case taxonomy from real user scenarios and construct an instruction tuning dataset accordingly. The fine-tuning with this dataset substantially improves the model's user experience in practical applications. Considering efficiency and the demands of most real-world scenarios, DeepSeek-VL incorporates a hybrid vision encoder that efficiently processes high-resolution images (1024 x 1024), while maintaining a relatively low computational overhead. This design choice ensures the model's ability to capture critical semantic and detailed information across various visual tasks. We posit that a proficient Vision-Language Model should, foremost, possess strong language abilities. To ensure the preservation of LLM capabilities during pretraining, we investigate an effective VL pretraining strategy by integrating LLM training from the beginning and carefully managing the competitive dynamics observed between vision and language modalities. The DeepSeek-VL family (both 1.3B and 7B models) showcases superior user experiences as a vision-language chatbot in real-world applications, achieving state-of-the-art or competitive performance across a wide range of visual-language benchmarks at the same model size while maintaining robust performance on language-centric benchmarks. We have made both 1.3B and 7B models publicly accessible to foster innovations based on this foundation model. | 翻訳日:2024-03-13 13:09:10 公開日:2024-03-11 |
# 有限データを超えて:外挿によるデータ自由分散一般化に向けて Beyond Finite Data: Towards Data-free Out-of-distribution Generalization via Extrapolation ( http://arxiv.org/abs/2403.05523v2 ) ライセンス: Link先を確認 | Yijiang Li, Sucheng Ren, Weipeng Deng, Yuzhi Xu, Ying Gao, Edith Ngai and Haohan Wang | (参考訳) out-of-distribution (ood) 一般化はディープニューラルネットワークにとって好都合だが挑戦的な性質である。
主な課題は、モデルがスプリアスの特徴から不変表現を学ぶのを助ける、ソースドメインの可用性の制限にある。
様々なドメイン拡張が提案されているが、ほとんどが既存のドメインの補間に依存しており、真の"ノベル"ドメインを作成するのにしばしば困難に直面している。
一方、人間は簡単に新しいドメインを外挿できるため、興味深い疑問が生じる: ニューラルネットワークは人間のように外挿してOODの一般化を実現することができるのか?
本稿では,大言語モデル(LLM)にカプセル化された推論能力と広範な知識を活用して,全く新しいドメインを合成する領域外挿手法を提案する。
興味のクラスから始めて、これらの新しいドメインに関する関連知識を抽出するためにLLMに問い合わせる。
次に、LLMから導出されるテキスト中心の知識と、テキスト・画像生成技術を用いてモデルの画素入力空間とのギャップを埋める。
ドメイン一般化データセットのトレーニングセットを、これらの新しいドメインの高忠実で写実的な画像で拡張することにより、様々なベンチマークで示されるように、既存のすべてのメソッドよりも大幅に改善される。
任意のクラスの任意のドメインを外挿することができるので、このメソッドはデータなしで任意のタスクの一般化モデルを学ぶことができる。
そこで本研究では,収集データがない場合に一般化されたモデルを学習することを目的とした,データフリーな領域一般化という,はるかに難しい設定を述べる。
本手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2倍の精度で上回っても, この設定で満足できる性能を示す。 Out-of-distribution (OOD) generalization is a favorable yet challenging property for deep neural networks. The core challenges lie in the limited availability of source domains that help models learn an invariant representation from the spurious features. Various domain augmentation have been proposed but largely rely on interpolating existing domains and frequently face difficulties in creating truly "novel" domains. Humans, on the other hand, can easily extrapolate novel domains, thus, an intriguing question arises: How can neural networks extrapolate like humans and achieve OOD generalization? We introduce a novel approach to domain extrapolation that leverages reasoning ability and the extensive knowledge encapsulated within large language models (LLMs) to synthesize entirely new domains. Starting with the class of interest, we query the LLMs to extract relevant knowledge for these novel domains. We then bridge the gap between the text-centric knowledge derived from LLMs and the pixel input space of the model using text-to-image generation techniques. By augmenting the training set of domain generalization datasets with high-fidelity, photo-realistic images of these new domains, we achieve significant improvements over all existing methods, as demonstrated in both single and multi-domain generalization across various benchmarks. With the ability to extrapolate any domains for any class, our method has the potential to learn a generalized model for any task without any data. To illustrate, we put forth a much more difficult setting termed, data-free domain generalization, that aims to learn a generalized model in the absence of any collected data. Our empirical findings support the above argument and our methods exhibit commendable performance in this setting, even surpassing the supervised setting by approximately 1-2\% on datasets such as VLCS. | 翻訳日:2024-03-13 13:08:40 公開日:2024-03-11 |
# MOAB: 病理画像と脳腫瘍画像の融合のためのマルチモーダル・アウター・算術ブロック MOAB: Multi-Modal Outer Arithmetic Block For Fusion Of Histopathological Images And Genetic Data For Brain Tumor Grading ( http://arxiv.org/abs/2403.06349v1 ) ライセンス: Link先を確認 | Omnia Alwazzan (1 and 2), Abbas Khan (1 and 2), Ioannis Patras (1 and 2), Gregory Slabaugh (1 and 2) ((1) School of Electronic Engineering and Computer Science, Queen Mary University of London, UK, (2) Queen Mary Digital Environment Research Institute (DERI), London, UK) | (参考訳) 脳腫瘍は脳内の細胞の異常な増殖である。
成長によって異なる分類に分類することができる。
格付けは組織像に基づいて行われることが多く、患者の予後の最も重要な予測要因の1つであり、格付けが高いほど腫瘍が攻撃的になる。
悪性腫瘍の診断は依然として困難である。
病理組織学的グレーディングは予後を示すことが示されているが、経験豊富な病理学者の間でも、結果はオブザーバ間の多様性に左右される。
世界保健機関(who)は先日、分子遺伝学の進歩が腫瘍分類の改善につながったと報告した。
本稿では,組織像と遺伝子データを統合し,コンピュータ支援診断の改善を目指す。
腫瘍の悪性度を予測するために異なるモードの潜在表現を結合する演算演算に基づく新しい多モード外算術ブロック(moab)を提案する(gradle \rom{2}, \rom{3}, \rom{4})。
大規模な実験は我々のアプローチの有効性を評価する。
The Cancer Genome Atlas (TCGA) glioma データセットにMOABを適用することで、類似したクラス(Grade \rom{2} と \rom{3})の分離を改善し、最先端の分類技術より優れていることを示す。 Brain tumors are an abnormal growth of cells in the brain. They can be classified into distinct grades based on their growth. Often grading is performed based on a histological image and is one of the most significant predictors of a patients prognosis, the higher the grade, the more aggressive the tumor. Correct diagnosis of a tumor grade remains challenging. Though histopathological grading has been shown to be prognostic, results are subject to interobserver variability, even among experienced pathologists. Recently, the World Health Organization reported that advances in molecular genetics have led to improvements in tumor classification. This paper seeks to integrate histological images and genetic data for improved computer-aided diagnosis. We propose a novel Multi-modal Outer Arithmetic Block (MOAB) based on arithmetic operations to combine latent representations of the different modalities for predicting the tumor grade (Grade \rom{2}, \rom{3} and \rom{4}). Extensive experiments evaluate the effectiveness of our approach. By applying MOAB to The Cancer Genome Atlas (TCGA) glioma dataset, we show that it can improve separation between similar classes (Grade \rom{2} and \rom{3}) and outperform prior state-of-the-art grade classification techniques. | 翻訳日:2024-03-12 20:55:23 公開日:2024-03-11 |
# $n$-qubitsの量子系の有理不変量について On the rational invariants of quantum systems of $n$-qubits ( http://arxiv.org/abs/2403.06346v1 ) ライセンス: Link先を確認 | Luca Candelori, Vladimir Y. Chernyak, and John R. Klein | (参考訳) $n$-qubit 系の場合、局所対称性群の作用に関して不変な混合状態空間上の有理函数は絡み合いの詳細な測度と見なすことができる。
すべての不変有理関数の体は複素数上の純粋超越的であり、超越次数は 4^n - 2n-1$ である。
明示的な超越基底も示される。 For an $n$-qubit system, a rational function on the space of mixed states which is invariant with respect to the action of the group of local symmetries may be viewed as a detailed measure of entanglement. We show that the field of all such invariant rational functions is purely transcendental over the complex numbers and has transcendence degree $4^n - 2n-1$. An explicit transcendence basis is also exhibited. | 翻訳日:2024-03-12 20:54:55 公開日:2024-03-11 |
# 調和発振器から逆発振器への断熱と瞬時遷移 Adiabatic versus instantaneous transitions from a harmonic oscillator to an inverted oscillator ( http://arxiv.org/abs/2403.06377v1 ) ライセンス: Link先を確認 | Viktor V. Dodonov and Alexandre V. Dodonov | (参考訳) 周波数が0を経過した後の断熱状態において、量子調和振動子の平均エネルギーとその分散(エネルギーゆらぎの特徴)に関する明示的な解析式を得た。
エネルギーの挙動は、2つのケースで大きく異なることが判明した。
第1のケースでは、周波数が初期値に戻ると平均エネルギーは常に増加し、増分係数は周波数交差零点のパワー則の指数によって決定される。
一方、周波数が虚数になった場合、平均エネルギーはすべての初期フォック状態と任意のパワーロー指数の値に対して、正確に0に等しい。 We have obtained explicit analytical formulas for the mean energy and its variance (characterizing the energy fluctuations) of a quantum harmonic oscillator with time-dependent frequency in the adiabatic regimes after the frequency passes through zero. The behavior of energy turns out to be quite different in two cases: when the frequency remains real and when it becomes imaginary. In the first case, the mean energy always increases when the frequency returns to its initial value, and the increment coefficient is determined by the exponent in the power law of the frequency crossing zero. On the other hand, if the frequency becomes imaginary, the mean energy becomes equal to zero exactly, for all initial Fock states and for any value of the power law exponent. | 翻訳日:2024-03-12 20:44:47 公開日:2024-03-11 |
# FlowVQTalker: 正規化フローと量子化による高品質感情会話顔生成 FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization ( http://arxiv.org/abs/2403.06375v1 ) ライセンス: Link先を確認 | Shuai Tan, Bin Ji, Ye Pan | (参考訳) 感情的な話し顔の生成は、実用的だが挑戦的な取り組みである。
生命のようなアバターを作るには、人間の視点から2つの重要な洞察を導きます。
1) 音声と非決定論的顔のダイナミックスとの関係は, 表情, 瞬き, ポーズを包含し, 同期的かつ一対一のマッピングを示すべきである。
2) 鮮やかな表現には, 感情認識型ハイディフィニション(hd)テクスチャや細かい歯が伴うことが多い。
しかし、どちらの側面も既存の方法によってしばしば見過ごされる。
そこで本研究では,フローとベクトル量子化の正規化モデルを用いて,両方の洞察を同時に満たす感情的な発話顔を生成する(FlowVQTalker)。
具体的には、混合分布を表す多感情級潜伏空間に顔の感情のダイナミクスを符号化するフローベース係数生成器を開発する。
生成プロセスは、モデル化された分布からランダムサンプリングを行い、伴奏音声によって誘導され、リップ同期と不確定な非言語顔手がかりの生成を可能にする。
さらに, ベクトル量子化画像生成装置は, 学習したコードブックを用いて, 表情画像の作成をコードクエリタスクとして処理し, 結果の感情知覚を高めるリッチで高品質なテクスチャを提供する。
本手法の有効性を示すために広範な実験を行った。 Generating emotional talking faces is a practical yet challenging endeavor. To create a lifelike avatar, we draw upon two critical insights from a human perspective: 1) The connection between audio and the non-deterministic facial dynamics, encompassing expressions, blinks, poses, should exhibit synchronous and one-to-many mapping. 2) Vibrant expressions are often accompanied by emotion-aware high-definition (HD) textures and finely detailed teeth. However, both aspects are frequently overlooked by existing methods. To this end, this paper proposes using normalizing Flow and Vector-Quantization modeling to produce emotional talking faces that satisfy both insights concurrently (FlowVQTalker). Specifically, we develop a flow-based coefficient generator that encodes the dynamics of facial emotion into a multi-emotion-class latent space represented as a mixture distribution. The generation process commences with random sampling from the modeled distribution, guided by the accompanying audio, enabling both lip-synchronization and the uncertain nonverbal facial cues generation. Furthermore, our designed vector-quantization image generator treats the creation of expressive facial images as a code query task, utilizing a learned codebook to provide rich, high-quality textures that enhance the emotional perception of the results. Extensive experiments are conducted to showcase the effectiveness of our approach. | 翻訳日:2024-03-12 20:44:34 公開日:2024-03-11 |
# ソフトq学習の有限時間誤差解析:スイッチングシステムアプローチ Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach ( http://arxiv.org/abs/2403.06366v1 ) ライセンス: Link先を確認 | Narim Jeong and Donghwan Lee | (参考訳) ソフトQラーニングは、エージェントがエントロピー正規化値関数の最大化を目指すマルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
実証的な成功にもかかわらず、ソフトQラーニングの理論的な研究はこれまで限られている。
本稿では,ソフトqラーニングアルゴリズムの新しい有限時間制御理論解析を提案する。
我々は,log-sum-exp演算子とboltzmann演算子の2種類のソフトq学習アルゴリズムに注目した。
動的スイッチングシステムモデルを用いて,ソフトq学習アルゴリズムにおける新しい有限時間誤差境界を導出する。
システム切り替えモデルとの接続を確立することで,ソフトq-learningの現在の理解を深め,他の強化学習アルゴリズムの有限時間解析における新たなフレームワークへの道を開くことを期待する。 Soft Q-learning is a variation of Q-learning designed to solve entropy regularized Markov decision problems where an agent aims to maximize the entropy regularized value function. Despite its empirical success, there have been limited theoretical studies of soft Q-learning to date. This paper aims to offer a novel and unified finite-time, control-theoretic analysis of soft Q-learning algorithms. We focus on two types of soft Q-learning algorithms: one utilizing the log-sum-exp operator and the other employing the Boltzmann operator. By using dynamical switching system models, we derive novel finite-time error bounds for both soft Q-learning algorithms. We hope that our analysis will deepen the current understanding of soft Q-learning by establishing connections with switching system models and may even pave the way for new frameworks in the finite-time analysis of other reinforcement learning algorithms. | 翻訳日:2024-03-12 20:43:45 公開日:2024-03-11 |
# Style2Talker:感情スタイルとアートスタイルを備えた高解像度トーキングヘッドジェネレーション Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style ( http://arxiv.org/abs/2403.06365v1 ) ライセンス: Link先を確認 | Shuai Tan, Bin Ji, Ye Pan | (参考訳) 音声駆動音声ヘッドの自動アニメーションは近年注目されているが、従来の取り組みは主に、感情スタイルとアートスタイルという2つの重要な要素を無視して、音声と唇の同期を実現することに集中してきた。
本稿では,Style2Talkerという,革新的な音声駆動音声生成手法を提案する。
Style-EとStyle-Aという2つのスタイル化ステージがあり、テキストコントロールされた感情スタイルと絵コントロールされたアートスタイルを最終出力に統合する。
そこで本研究では,既存の映像データセットに対して感情的テキストラベルを自動アノテートする大規模事前学習モデルを用いた,無労働のパラダイムを提案する。
合成感情テキストを組み込んだStyle-Eステージでは、大規模CLIPモデルを用いて、音声と組み合わせた感情表現を抽出し、3DMMモデルの感情運動係数を生成するために設計された効率的な潜在拡散モデルの条件として機能する。
そこで我々は,Style-Aステージに進むことで,係数駆動型モーションジェネレータと,有名なStyleGANに埋め込まれたアート固有のスタイルパスを開発する。
これにより、生成した感情的動き係数とアートスタイルのソース画像を用いて、高解像度のトーキーヘッドビデオを合成することができる。
さらに,画像の詳細をよりよく保存し,アーティファクトを避けるために,識別画像から抽出したマルチスケールコンテンツ特徴をStyleGANに提供し,その中間特徴マップを設計したコンテンツエンコーダと精細化ネットワークで改良する。
本手法は,感情スタイルとアートスタイルの両方の音声-リップ同期とパフォーマンスにおいて,既存の最先端手法よりも優れた性能を示す。 Although automatically animating audio-driven talking heads has recently received growing interest, previous efforts have mainly concentrated on achieving lip synchronization with the audio, neglecting two crucial elements for generating expressive videos: emotion style and art style. In this paper, we present an innovative audio-driven talking face generation method called Style2Talker. It involves two stylized stages, namely Style-E and Style-A, which integrate text-controlled emotion style and picture-controlled art style into the final output. In order to prepare the scarce emotional text descriptions corresponding to the videos, we propose a labor-free paradigm that employs large-scale pretrained models to automatically annotate emotional text labels for existing audiovisual datasets. Incorporating the synthetic emotion texts, the Style-E stage utilizes a large-scale CLIP model to extract emotion representations, which are combined with the audio, serving as the condition for an efficient latent diffusion model designed to produce emotional motion coefficients of a 3DMM model. Moving on to the Style-A stage, we develop a coefficient-driven motion generator and an art-specific style path embedded in the well-known StyleGAN. This allows us to synthesize high-resolution artistically stylized talking head videos using the generated emotional motion coefficients and an art style source picture. Moreover, to better preserve image details and avoid artifacts, we provide StyleGAN with the multi-scale content features extracted from the identity image and refine its intermediate feature maps by the designed content encoder and refinement network, respectively. Extensive experimental results demonstrate our method outperforms existing state-of-the-art methods in terms of audio-lip synchronization and performance of both emotion style and art style. | 翻訳日:2024-03-12 20:43:30 公開日:2024-03-11 |
# mp2-based composite extrapolation schemesは、結合クラスタレベルの精度で第一列要素のコアイオン化エネルギーを予測できる MP2-based composite extrapolation schemes can predict core-ionization energies for first-row elements with coupled-cluster level accuracy ( http://arxiv.org/abs/2403.06364v1 ) ライセンス: Link先を確認 | Anton Morgunov, Henry K. Tran, Oinam Romesh Meitei, Yu-Che Chien, Troy Van Voorhis | (参考訳) X線光電子分光法(XPS)は核電子結合エネルギー(CEBE)を測定し、化学環境と結合に関する元素特異的な洞察を明らかにする。
正確な理論CEBE予測はXPS解釈に役立つが、軌道緩和とコアイオン化の電子相関の適切なモデリングを必要とする。
本研究は,様々な有機分子中の94kエッジにわたるcebeの完全基底集合 (cbs) 極限への外挿のための基底集合選択を体系的に検討するものである。
我々は、$\Delta$CC-$\Delta$MP2差分を大域的に補正した$\Delta$MP2を用いた別の合成スキームが、0.02 eVで最適に外挿された$\Delta$CC CEBEを定量的に回収できることを示した。
$\Delta$CCと異なり、MP2計算は収束問題に悩まされず、計算的に安価であるため、合成された$\Delta$MP2/$\Delta$CCスキームは精度とコストのバランスを保ち、どちらの方法を使うかという制限を克服する。
合成スキームの小型・大規模基本セットの選択を包括的に分析し、XPSスペクトルの初歩的予測を高精度(0.10-0.15 eV MAE)で行うための実践的レコメンデーションを提供する。 X-ray photoelectron spectroscopy (XPS) measures core-electron binding energies (CEBEs) to reveal element-specific insights into chemical environment and bonding. Accurate theoretical CEBE prediction aids XPS interpretation but requires proper modeling of orbital relaxation and electron correlation upon core-ionization. This work systematically investigates basis set selection for extrapolation to the complete basis set (CBS) limit of CEBEs from $\Delta$MP2 and $\Delta$CC energies across 94 K-edges in diverse organic molecules. We demonstrate that an alternative composite scheme using $\Delta$MP2 in a large basis corrected by $\Delta$CC-$\Delta$MP2 difference in a small basis can quantitatively recover optimally extrapolated $\Delta$CC CEBEs within 0.02 eV. Unlike $\Delta$CC, MP2 calculations do not suffer from convergence issues and are computationally cheaper, and, thus, the composite $\Delta$MP2/$\Delta$CC scheme balances accuracy and cost, overcoming limitations of solely using either method. We conclude by providing a comprehensive analysis of the choice of small and large basis sets for the composite schemes and provide practical recommendations for highly accurate (within 0.10-0.15 eV MAE) ab initio prediction of XPS spectra. | 翻訳日:2024-03-12 20:42:53 公開日:2024-03-11 |
# どんなスタイルでも何でも言う Say Anything with Any Style ( http://arxiv.org/abs/2403.06363v1 ) ライセンス: Link先を確認 | Shuai Tan and Bin Ji and Yu Ding and Ye Pan | (参考訳) さまざまな頭の動きでスタイリングされた頭を生成することは、自然なビデオを実現するには不可欠だが、それでも難しい。
以前の作品では、スピーキングスタイルをキャプチャする回帰的手法を採用するか、すべてのトレーニングデータで平均される粗いスタイルになるか、あるいはサブオプティマパフォーマンスを引き起こす異なるスタイルでビデオを合成するためにユニバーサルネットワークを使用するかのどちらかである。
そこで本研究では,学習スタイルのコードブックを用いて生成モデルを用いて個別のスタイル表現をクエリする,新しい動的重み付け手法であるSay Anything withAny Style (SAAS)を提案する。
具体的には,3つの密接に関連するタスクを組み込んだマルチタスクvq-vaeを開発し,スタイル抽出に先立ってスタイルコードブックを学習する。
この離散前は、生成モデルとともに、与えられたスタイルクリップのスピーキングスタイルを抽出する際の精度と頑健性を高める。
抽出されたスタイルを利用して、標準分岐とスタイル特化分岐とからなる残余アーキテクチャを用いて、ソースから所望の音声に話スタイルを転送しながら、任意の駆動オーディオに条件付けられた口形状を予測する。
異なる発話スタイルに適応するために,スタイルブランチをオフセットするスタイル固有の重み付けを生成するための精巧なハイパースタイルを探索することで,普遍的なネットワークを使わずにすむ。
さらに、ポーズ生成器とポーズコードブックを構築し、定量化されたポーズ表現を格納し、音声や抽出されたスタイルに合わせて多様な頭部の動きをサンプリングする。
実験により,我々はリップ同期とスタイリッシュな表現の両方の観点から,最先端の手法を超越した手法を実証した。
さらに,SAASをビデオ駆動型編集領域に拡張し,良好な性能を実現する。 Generating stylized talking head with diverse head motions is crucial for achieving natural-looking videos but still remains challenging. Previous works either adopt a regressive method to capture the speaking style, resulting in a coarse style that is averaged across all training data, or employ a universal network to synthesize videos with different styles which causes suboptimal performance. To address these, we propose a novel dynamic-weight method, namely Say Anything withAny Style (SAAS), which queries the discrete style representation via a generative model with a learned style codebook. Specifically, we develop a multi-task VQ-VAE that incorporates three closely related tasks to learn a style codebook as a prior for style extraction. This discrete prior, along with the generative model, enhances the precision and robustness when extracting the speaking styles of the given style clips. By utilizing the extracted style, a residual architecture comprising a canonical branch and style-specific branch is employed to predict the mouth shapes conditioned on any driving audio while transferring the speaking style from the source to any desired one. To adapt to different speaking styles, we steer clear of employing a universal network by exploring an elaborate HyperStyle to produce the style-specific weights offset for the style branch. Furthermore, we construct a pose generator and a pose codebook to store the quantized pose representation, allowing us to sample diverse head motions aligned with the audio and the extracted style. Experiments demonstrate that our approach surpasses state-of-theart methods in terms of both lip-synchronization and stylized expression. Besides, we extend our SAAS to video-driven style editing field and achieve satisfactory performance. | 翻訳日:2024-03-12 20:42:27 公開日:2024-03-11 |
# クロスオブジェクトfMRIによる伝達可能なニューラル表現の学習 See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI ( http://arxiv.org/abs/2403.06361v1 ) ライセンス: Link先を確認 | Yulong Liu, Yongqiang Ma, Guibo Zhu, Haodong Jing, Nanning Zheng | (参考訳) 機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
しかし、fMRIデータやノイズが乏しいため、脳復号モデルの性能は低下する。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,データ不足に対処するための,単純だが見過ごされたソリューションについて検討する。
本稿では,fMRIデータを統合表現にマッピングする浅層適応器を提案する。
その後、共有深度復号モデルは、対象のフィーチャ空間にクロスオブジェクト機能を復号する。
トレーニング中、視覚とテキストの両方の監督をマルチモーダル脳デコードに活用する。
我々のモデルは,高レベルの知覚復号パイプラインと高レベルの知覚によって導かれる画素ワイド再構築パイプラインを統合し,ボトムアップとトップダウンのプロセスをシミュレーションする。
実証実験は、両方のパイプラインの被験者間で堅牢な神経表現学習を示す。
さらに、ハイレベルと低レベルの情報をマージすることで、ローレベルとハイレベルの両方のレコンストラクションメトリクスが改善される。
さらに,訓練データに制限のある新しいアダプタをトレーニングすることで,学習全般の知識を新たな被験者に移すことに成功しました。
従来の最先端手法,特に事前学習法(Mind-Vis法とfMRI-PTE法)と比較して,本手法は多種多様なタスクに対して同等あるいは優れた結果が得られる。
私たちのコードとトレーニング済みのウェイトはhttps://github.com/YulongBonjour/See_Through_Their_Minds.comで公開されます。 Deciphering visual content from functional Magnetic Resonance Imaging (fMRI) helps illuminate the human vision system. However, the scarcity of fMRI data and noise hamper brain decoding model performance. Previous approaches primarily employ subject-specific models, sensitive to training sample size. In this paper, we explore a straightforward but overlooked solution to address data scarcity. We propose shallow subject-specific adapters to map cross-subject fMRI data into unified representations. Subsequently, a shared deeper decoding model decodes cross-subject features into the target feature space. During training, we leverage both visual and textual supervision for multi-modal brain decoding. Our model integrates a high-level perception decoding pipeline and a pixel-wise reconstruction pipeline guided by high-level perceptions, simulating bottom-up and top-down processes in neuroscience. Empirical experiments demonstrate robust neural representation learning across subjects for both pipelines. Moreover, merging high-level and low-level information improves both low-level and high-level reconstruction metrics. Additionally, we successfully transfer learned general knowledge to new subjects by training new adapters with limited training data. Compared to previous state-of-the-art methods, notably pre-training-based methods (Mind-Vis and fMRI-PTE), our approach achieves comparable or superior results across diverse tasks, showing promise as an alternative method for cross-subject fMRI data pre-training. Our code and pre-trained weights will be publicly released at https://github.com/YulongBonjour/See_Through_Their_Minds. | 翻訳日:2024-03-12 20:41:59 公開日:2024-03-11 |
# ルーマニアの名詞化合物の人間と自動解釈 Human and Automatic Interpretation of Romanian Noun Compounds ( http://arxiv.org/abs/2403.06360v1 ) ライセンス: Link先を確認 | Ioana Marinescu and Christiane Fellbaum | (参考訳) シューセール」や「ファイアセール」のような名詞の化合物の意図的、文脈に依存した意味を決定することは、NLPにとって課題である。
以前の研究は、複合メンバ間の異なる意味を捉える意味関係の在庫に依存していた。
ルーマニアの化合物に焦点をあて, モルフォシンタキシーはイングランドの化合物と異なるので, ヒトのアノテーションやニューラルネットの分類器を用いて新しい関係式を提案し, 検証する。
結果は、人間の合意率が低い場合でも、ネットワークの予測と人間の判断が一致していることを示している。
構造的差異に関係なく、選択された関係の頻度で合意が追跡される。
しかしながら、最も頻繁に選択された関係は16のラベル付き意味関係のいずれかではなく、より良い関係インベントリの必要性を示している。 Determining the intended, context-dependent meanings of noun compounds like "shoe sale" and "fire sale" remains a challenge for NLP. Previous work has relied on inventories of semantic relations that capture the different meanings between compound members. Focusing on Romanian compounds, whose morphosyntax differs from that of their English counterparts, we propose a new set of relations and test it with human annotators and a neural net classifier. Results show an alignment of the network's predictions and human judgments, even where the human agreement rate is low. Agreement tracks with the frequency of the selected relations, regardless of structural differences. However, the most frequently selected relation was none of the sixteen labeled semantic relations, indicating the need for a better relation inventory. | 翻訳日:2024-03-12 20:41:36 公開日:2024-03-11 |
# 一貫性調整による映像生成 Video Generation with Consistency Tuning ( http://arxiv.org/abs/2403.06356v1 ) ライセンス: Link先を確認 | Chaoyi Wang, Yaozhe Song, Yafeng Zhang, Jun Pei, Lijie Xia, Jianpo Liu | (参考訳) 現在、様々な研究が長いビデオの生成を探求している。
しかし、これらのビデオの生成されたフレームにはジッタとノイズがしばしば現れる。
そこで,これらのノイズを伴わない映像を生成するために,分離チューニングモジュール,平均融合モジュール,複合チューニングモジュール,フレーム間一貫性モジュールという4つのモジュールからなる新しいフレームワークを提案する。
その後,提案するモジュールを適用し,各フレームの背景と前景の一貫性を最適化した。
また,本手法が生成する映像は最先端の手法と比較して高い品質を示すことを示した。 Currently, various studies have been exploring generation of long videos. However, the generated frames in these videos often exhibit jitter and noise. Therefore, in order to generate the videos without these noise, we propose a novel framework composed of four modules: separate tuning module, average fusion module, combined tuning module, and inter-frame consistency module. By applying our newly proposed modules subsequently, the consistency of the background and foreground in each video frames is optimized. Besides, the experimental results demonstrate that videos generated by our method exhibit a high quality in comparison of the state-of-the-art methods. | 翻訳日:2024-03-12 20:41:22 公開日:2024-03-11 |
# 対比的クロスモーダル特徴アライメントを用いたマルチモーダル意味理解 Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment ( http://arxiv.org/abs/2403.06355v1 ) ライセンス: Link先を確認 | Ming Zhang, Ke Chang and Yunfang Wu | (参考訳) マルチモーダルセマンティクス理解は、ユーザの言葉の背後にある本当の意図を抽出するために、異なるモダリティからの情報を統合する必要がある。
これまでのほとんどの作業では、イメージとテキストを分離してエンコードするためにデュアルエンコーダ構造を適用していたが、クロスモーダルな特徴のアライメントを学習できず、クロスモーダルな深い情報インタラクションを実現するのが困難だった。
本稿では,異なるモダリティから得られた特徴を統一された深層空間に投影するマルチモーダル特徴アライメントを実現するための,クリップガイド型コントラスト学習ベースアーキテクチャを提案する。
マルチモーダルサーカズム検出 (mmsd) とマルチモーダル感情分析 (mmsa) のタスクにおいて, 提案手法がいくつかのベースラインを著しく上回っており, 機能アライメント戦略により, 異なる集約手法やモデルが知識に富んだモデルよりも明らかに性能が向上することを示した。
さらに重要なことに、このモデルはタスク固有の外部知識を使わずに簡単に実装でき、従って他のマルチモーダルタスクに容易に移行できます。
ソースコードはhttps://github.com/changke123/clfaで入手できます。 Multi-modal semantic understanding requires integrating information from different modalities to extract users' real intention behind words. Most previous work applies a dual-encoder structure to separately encode image and text, but fails to learn cross-modal feature alignment, making it hard to achieve cross-modal deep information interaction. This paper proposes a novel CLIP-guided contrastive-learning-based architecture to perform multi-modal feature alignment, which projects the features derived from different modalities into a unified deep space. On multi-modal sarcasm detection (MMSD) and multi-modal sentiment analysis (MMSA) tasks, the experimental results show that our proposed model significantly outperforms several baselines, and our feature alignment strategy brings obvious performance gain over models with different aggregating methods and models even enriched with knowledge. More importantly, our model is simple to implement without using task-specific external knowledge, and thus can easily migrate to other multi-modal tasks. Our source codes are available at https://github.com/ChangKe123/CLFA. | 翻訳日:2024-03-12 20:41:14 公開日:2024-03-11 |
# Amharic LLaMAとLLaVA:低資源言語のためのマルチモーダルLLM Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages ( http://arxiv.org/abs/2403.06354v1 ) ライセンス: Link先を確認 | Michael Andersland | (参考訳) gpt-4やllamaといった大規模言語モデル(llm)は、自然言語処理タスクに驚くほど熟練しており、視覚や音声といった他のモダリティを越えたタスクでも優れている。
その成功にもかかわらず、llmはトレーニングデータが少ないため、低リソース言語でうまく機能するのに苦労することが多い。
この欠点は特にオープンソースモデルに共通している。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
我々は、データ不足を伴う他の言語でのLLMのトレーニングに使用した手法を採用し、オープンソースの翻訳モデルを使用してデータ拡張を行い、数百万のトークンから数十億のトークンまでデータセットを成長させます。
我々は、画像エンコーダを接続し、LLaVAと同じ方法で翻訳された視覚的命令調律データセット上でトレーニングすることで、画像とテキストを同時に理解できるマルチモーダル・アンモリック・LLMを実現することにより、モデルの性能をさらに向上させる。
一般的なベンチマークデータセットのAmharicバージョンを導入し、作業を評価します。
私たちのモデルとデータセットはオープンソースで、GitHubから入手可能です。 Large Language Models (LLMs) like GPT-4 and LLaMA have shown incredible proficiency at natural language processing tasks and have even begun to excel at tasks across other modalities such as vision and audio. Despite their success, LLMs often struggle to perform well on low-resource languages because there is so little training data available. This shortcoming is especially prevalent with open source models. In this work, we explore training LLaMA-2 to speak Amharic, a language which is spoken by over 50 million people world wide, but has orders of magnitude less data available than languages like English. We employ methods previously used for training LLMs on other languages with data scarcity, and use open source translation models to perform data augmentation and grow our dataset from millions of tokens to billions. We further enhance the capabilities of our model by connecting an image encoder and training on a translated visual instruction tuning dataset in the same manner as LLaVA, resulting in a multimodal Amharic LLM that can understand images along with text. We introduce an Amharic version of a popular benchmarking dataset to evaluate our work. Our models and dataset are open sourced and available on GitHub. | 翻訳日:2024-03-12 20:40:49 公開日:2024-03-11 |
# 組み込みコンピューティングシステムのためのCNNにおけるハードウェアフレンドリーなBottleneckアーキテクチャの探索 Exploring Hardware Friendly Bottleneck Architecture in CNN for Embedded Computing Systems ( http://arxiv.org/abs/2403.06352v1 ) ライセンス: Link先を確認 | Xing Lei, Longjun Liu, Zhiheng Zhou, Hongbin Sun, Nanning Zheng | (参考訳) 本稿では,組み込みコンピューティングシステムのための軽量CNNアーキテクチャの設計方法について検討する。
ZYNQベースのハードウェアプラットフォームのためのL-Mobilenetモデルを提案する。
L-Mobilenetはハードウェア・コンピューティングに順応し、ネットワーク構造はInception-ResnetV1とMobilenetV2の最先端の業績にインスパイアされ、推論の精度を維持しながらパラメータや遅延を効果的に低減できる。
我々のL-MobilenetモデルをZYNQ組み込みプラットフォームにデプロイし、設計性能を十分に評価する。
cifar10とcifar100データセットの測定により、L-MobilenetモデルはMobileNetV2よりも3倍のスピードアップと3.7倍のパラメータを獲得でき、同様の精度を維持している。
また、ShufflenetV2と同じ精度を維持しながら、2倍のスピードアップと1.5倍のパラメータを得ることができる。
実験の結果,L-Mobilenetボトルネックアーキテクチャにおけるハードウェアの高速化とソフトウェアハードウェアの共同設計戦略を考慮すれば,ネットワークモデルの性能向上が期待できることがわかった。 In this paper, we explore how to design lightweight CNN architecture for embedded computing systems. We propose L-Mobilenet model for ZYNQ based hardware platform. L-Mobilenet can adapt well to the hardware computing and accelerating, and its network structure is inspired by the state-of-the-art work of Inception-ResnetV1 and MobilenetV2, which can effectively reduce parameters and delay while maintaining the accuracy of inference. We deploy our L-Mobilenet model to ZYNQ embedded platform for fully evaluating the performance of our design. By measuring in cifar10 and cifar100 datasets, L-Mobilenet model is able to gain 3x speed up and 3.7x fewer parameters than MobileNetV2 while maintaining a similar accuracy. It also can obtain 2x speed up and 1.5x fewer parameters than ShufflenetV2 while maintaining the same accuracy. Experiments show that our network model can obtain better performance because of the special considerations for hardware accelerating and software-hardware co-design strategies in our L-Mobilenet bottleneck architecture. | 翻訳日:2024-03-12 20:40:27 公開日:2024-03-11 |
# 靴に身を置く:エゴセントリックなビデオからエゴセントリックな視点を持ち上げる Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos ( http://arxiv.org/abs/2403.06351v1 ) ライセンス: Link先を確認 | Mi Luo, Zihui Xue, Alex Dimakis, Kristen Grauman | (参考訳) 本研究では,三人称視点から俳優を捉えた映像記録に基づいて,俳優のファーストパーソン(エゴセントリック)ビューを生成することを目的とした,エクソセントリックからエゴセントリックへのクロスビュー翻訳について検討する。
そこで本研究では,エキソセントリックビューとエゴセントリックビューとのクロスビュー対応を明示的に奨励する高レベル構造変換と,生成したエゴセントリックビューの忠実度を高める前にハンドレイアウトを組み込んだ拡散ベースのピクセルレベルの幻覚の2段階に翻訳プロセスを分離するexo2egoという生成フレームワークを提案する。
この分野での今後の進歩への道を開くため、私たちは包括的なexo-to-egoクロスビュー翻訳ベンチマークをキュレーションします。
それらは、h2o、aria pilot、assembly101の3つのパブリックデータセットからソースされた、同期したego-exoテーブルトップアクティビティビデオペアの多様なコレクションで構成されている。
実験結果から,Exo2Egoは手操作の詳細が明確で,合成品質と一般化能力の両面で,いくつかのベースラインに優れていた。 We investigate exocentric-to-egocentric cross-view translation, which aims to generate a first-person (egocentric) view of an actor based on a video recording that captures the actor from a third-person (exocentric) perspective. To this end, we propose a generative framework called Exo2Ego that decouples the translation process into two stages: high-level structure transformation, which explicitly encourages cross-view correspondence between exocentric and egocentric views, and a diffusion-based pixel-level hallucination, which incorporates a hand layout prior to enhance the fidelity of the generated egocentric view. To pave the way for future advancements in this field, we curate a comprehensive exo-to-ego cross-view translation benchmark. It consists of a diverse collection of synchronized ego-exo tabletop activity video pairs sourced from three public datasets: H2O, Aria Pilot, and Assembly101. The experimental results validate that Exo2Ego delivers photorealistic video results with clear hand manipulation details and outperforms several baselines in terms of both synthesis quality and generalization ability to new actions. | 翻訳日:2024-03-12 20:40:05 公開日:2024-03-11 |
# indicllmsuite: インド語の事前学習と微調整データセットを作成するための青写真 IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages ( http://arxiv.org/abs/2403.06350v1 ) ライセンス: Link先を確認 | Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar, Umashankar Kumaravelan, Sumanth Doddapaneni, Suriyaprasaad G, Varun Balan G, Sparsh Jain, Anoop Kunchukuttan, Pratyush Kumar, Raj Dabre, Mitesh M. Khapra | (参考訳) 英語 LLM の大幅な進歩にもかかわらず、他の言語に匹敵するモデルの構築の進歩は、調整されたリソースの不足により妨げられている。
我々の研究は、251bのトークンと74.8mの命令応答ペアを含む22の言語をカバーするindic llmの開発用に特別に設計されたリソーススイートを導入することで、この分断を埋めることを目的としています。
データの品質と量の重要性を認識し、高度にキュレートされた手作業による検証データ、未検証で価値のあるデータ、合成データを組み合わせる。
私たちは、webサイト、pdf、ビデオなど、さまざまなソースからの事前トレーニングデータをキュレートする、クリーンでオープンソースのパイプラインを構築し、クロール、クリーニング、フラグ付け、重複排除のベストプラクティスを取り入れています。
教師用チューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを用いて、インドのWikipediaやWikihowの記事に基づいた会話を生成する。
さらに,複数のシナリオに対して有毒なプロンプトを生成し,これらの有害なプロンプトをアライメントされたLLaMa2モデルに供給することで非有毒な応答を発生させることにより毒性アライメントに対処する。
この研究の一環としてリリースされたデータセット、ツール、リソースが、Indic LLMの研究と開発を促進するだけでなく、そのような取り組みを他の言語に拡張するためのオープンソースの青写真を確立することを願っています。
この作業の一部として作成されたデータやその他のアーティファクトは、許容ライセンスでリリースされます。 Despite the considerable advancements in English LLMs, the progress in building comparable models for other languages has been hindered due to the scarcity of tailored resources. Our work aims to bridge this divide by introducing an expansive suite of resources specifically designed for the development of Indic LLMs, covering 22 languages, containing a total of 251B tokens and 74.8M instruction-response pairs. Recognizing the importance of both data quality and quantity, our approach combines highly curated manually verified data, unverified yet valuable data, and synthetic data. We build a clean, open-source pipeline for curating pre-training data from diverse sources, including websites, PDFs, and videos, incorporating best practices for crawling, cleaning, flagging, and deduplication. For instruction-fine tuning, we amalgamate existing Indic datasets, translate/transliterate English datasets into Indian languages, and utilize LLaMa2 and Mixtral models to create conversations grounded in articles from Indian Wikipedia and Wikihow. Additionally, we address toxicity alignment by generating toxic prompts for multiple scenarios and then generate non-toxic responses by feeding these toxic prompts to an aligned LLaMa2 model. We hope that the datasets, tools, and resources released as a part of this work will not only propel the research and development of Indic LLMs but also establish an open-source blueprint for extending such efforts to other languages. The data and other artifacts created as part of this work are released with permissive licenses. | 翻訳日:2024-03-12 20:39:41 公開日:2024-03-11 |
# PointSeg: 基礎モデルによる3次元シーンセグメンテーションのためのトレーニングフリーパラダイム PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models ( http://arxiv.org/abs/2403.06403v1 ) ライセンス: Link先を確認 | Qingdong He, Jinlong Peng, Zhengkai Jiang, Xiaobin Hu, Jiangning Zhang, Qiang Nie, Yabiao Wang, Chengjie Wang | (参考訳) vision foundationモデルの成功は、2次元知覚タスクに有望なパフォーマンスを示している。
しかし、データセットが限られているため、直接3Dファウンデーションネットワークをトレーニングすることは困難であり、既存のファウンデーションモデルをシームレスに3D空間に持ち上げることができるかどうかはまだ検討されていない。
本稿では,市販の視覚基盤モデルを用いて3次元シーン知覚タスクに対処する,新しいトレーニングフリーパラダイムであるpointsegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
具体的には,3dポイントボックスプロンプトペアを構成するための2分岐プロンプト学習構造と,正確なポイントと提案プロンプト生成のための双方向マッチング戦略を組み合わせる。
そして,異なる視覚基盤モデルと協調して反復的ポストリファインメントを適応的に行う。
さらに,最終的なアンサンブルマスクを改善するために親和性を考慮したマージアルゴリズムを設計する。
PointSegは、トレーニングなしで、さまざまなデータセット間で印象的なセグメンテーションパフォーマンスを示す。
具体的には、ScanNet、ScanNet++、KITTI-360データセット上の13.4$\%$、11.3$\%$、12$\%$mAPで最先端のスペシャリストモデルを大幅に上回っている。
その上、PointSegは様々なセグメンテーションモデルに組み込むことができ、教師付きメソッドを超えます。 Recent success of vision foundation models have shown promising performance for the 2D perception tasks. However, it is difficult to train a 3D foundation network directly due to the limited dataset and it remains under explored whether existing foundation models can be lifted to 3D space seamlessly. In this paper, we present PointSeg, a novel training-free paradigm that leverages off-the-shelf vision foundation models to address 3D scene perception tasks. PointSeg can segment anything in 3D scene by acquiring accurate 3D prompts to align their corresponding pixels across frames. Concretely, we design a two-branch prompts learning structure to construct the 3D point-box prompts pairs, combining with the bidirectional matching strategy for accurate point and proposal prompts generation. Then, we perform the iterative post-refinement adaptively when cooperated with different vision foundation models. Moreover, we design a affinity-aware merging algorithm to improve the final ensemble masks. PointSeg demonstrates impressive segmentation performance across various datasets, all without training. Specifically, our approach significantly surpasses the state-of-the-art specialist model by 13.4$\%$, 11.3$\%$, and 12$\%$ mAP on ScanNet, ScanNet++, and KITTI-360 datasets, respectively. On top of that, PointSeg can incorporate with various segmentation models and even surpasses the supervised methods. | 翻訳日:2024-03-12 20:35:39 公開日:2024-03-11 |
# 'サイズがすべてに合わない': テキスト分類を改善するために、コンテキスト内学習に使用するサンプル数を学ぶ 'One size doesn't fit all': Learning how many Examples to use for In-Context Learning for Improved Text Classification ( http://arxiv.org/abs/2403.06402v1 ) ライセンス: Link先を確認 | Manish Chandra, Debasis Ganguly, Yiwen Li, Iadh Ounis | (参考訳) 自然言語処理(NLP)の予測モデルは、スクラッチからラベル付きデータによる微調整済みモデルまで進化してきた。
この微調整の極端な形式は、事前訓練された生成モデル(凍結デコーダパラメータ)の出力を入力文字列(命令またはプロンプトと呼ばれる)のバリエーションでのみ制御するインコンテキスト学習(ICL)である。
ICLの重要なコンポーネントは、少数のラベル付きデータインスタンスをプロンプトの例として使用することである。
既存の研究では,各データインスタンスの推論において,静的な例数を用いるが,本論文では,データごとの例数を動的に適応させる手法を提案する。
これはk-ネアレスト近傍(k-NN)分類器における可変サイズ近傍の使用と類似している。
適応型ICL(AICL)のワークフローでは、特定のデータインスタンスの推論中に使用するデモの数は、分類器のSoftmax後部によって予測される。
この分類器のパラメータは、トレーニングセット内の各インスタンスのラベルを正しく推測するために要求される icl の最適なサンプル数に適合し、トレーニングインスタンスに似たテストインスタンスは、同じ(または密接に一致する)数の少数ショットのサンプルを使用するべきであるという仮説を持つ。
実験の結果,AICL法はいくつかの標準データセットにおけるテキスト分類タスクの改善をもたらすことがわかった。 Predictive models in natural language processing (NLP) have evolved from training models from scratch to fine-tuning pre-trained models with labelled data. An extreme form of this fine-tuning involves in-context learning (ICL), where the output of a pre-trained generative model (frozen decoder parameters) is controlled only with variations in the input strings (called instructions or prompts). An important component of ICL is the use of a small number of labelled data instances as examples in the prompt. While existing work uses a static number of examples during inference for each data instance, in this paper we propose a novel methodology of dynamically adapting the number of examples as per the data. This is analogous to the use of a variable-sized neighborhood in k-nearest neighbors (k-NN) classifier. In our proposed workflow of adaptive ICL (AICL), the number of demonstrations to employ during the inference on a particular data instance is predicted by the Softmax posteriors of a classifier. The parameters of this classifier are fitted on the optimal number of examples in ICL required to correctly infer the label of each instance in the training set with the hypothesis that a test instance that is similar to a training instance should use the same (or a closely matching) number of few-shot examples. Our experiments show that our AICL method results in improvement in text classification task on several standard datasets. | 翻訳日:2024-03-12 20:35:12 公開日:2024-03-11 |
# ポイントクラウドセマンティックセマンティックセマンティックセマンティクスのためのインタラクティブフレームワークOn-the-Fly Refining Segmentation On-the-Fly: An Interactive Framework for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2403.06401v1 ) ライセンス: Link先を確認 | Peng Zhang and Ting Wu and Jinsheng Sun and Weiqing Li and Zhiyong Su | (参考訳) 既存のインタラクティブポイントクラウドセグメンテーションアプローチは、主にオブジェクトセグメンテーションに焦点を当て、ユーザインタラクションによって導かれる関心の対象に属するポイントを決定することを目的としている。
本稿では,対話的ポイントクラウドセマンティックセマンティックセグメンテーション(対話的ポイントクラウドセマンティックセマンティックセグメンテーション)という,未探索かつ有意義なタスクに焦点を合わせ,ユーザの修正クリックのあるシーンのすべてのポイントに高品質なセマンティックラベルを割り当てる。
具体的には、オフラインで再トレーニングすることなく、オフラインでセマンティクスセグメンテーションネットワークとシームレスに統合し、オンザフライで実行できるようにする、interpcsegという、ポイントクラウドセマンティクスセグメンテーションのための最初のインタラクティブフレームワークを提案する。
オンラインリファインメントを実現するため,テスト期間中のユーザインタラクションをスパーストレーニング例として扱う。
スパース管理による不安定性に対処するため,テストタイムトレーニングプロセスの安定化エネルギーを設計する。
客観的かつ再現可能な評価のために,対話型ポイントクラウドセマンティクスセグメンテーションタスクに適したインタラクションシミュレーションスキームを開発した。
我々は,S3DISおよびScanNetデータセットを市販セグメンテーションネットワークで評価し,提案したインタラクションシミュレータと実ユーザの両方のインタラクションを取り入れた。
定量的および定性的な実験結果から,セマンティックセグメンテーションの結果をユーザインタラクションで精査する際のフレームワークの有効性が示された。
ソースコードは公開される予定だ。 Existing interactive point cloud segmentation approaches primarily focus on the object segmentation, which aim to determine which points belong to the object of interest guided by user interactions. This paper concentrates on an unexplored yet meaningful task, i.e., interactive point cloud semantic segmentation, which assigns high-quality semantic labels to all points in a scene with user corrective clicks. Concretely, we presents the first interactive framework for point cloud semantic segmentation, named InterPCSeg, which seamlessly integrates with off-the-shelf semantic segmentation networks without offline re-training, enabling it to run in an on-the-fly manner. To achieve online refinement, we treat user interactions as sparse training examples during the test-time. To address the instability caused by the sparse supervision, we design a stabilization energy to regulate the test-time training process. For objective and reproducible evaluation, we develop an interaction simulation scheme tailored for the interactive point cloud semantic segmentation task. We evaluate our framework on the S3DIS and ScanNet datasets with off-the-shelf segmentation networks, incorporating interactions from both the proposed interaction simulator and real users. Quantitative and qualitative experimental results demonstrate the efficacy of our framework in refining the semantic segmentation results with user interactions. The source code will be publicly available. | 翻訳日:2024-03-12 20:34:47 公開日:2024-03-11 |
# DivCon: プログレッシブテキスト・画像生成のためのディバイドとコンバータ DivCon: Divide and Conquer for Progressive Text-to-Image Generation ( http://arxiv.org/abs/2403.06400v1 ) ライセンス: Link先を確認 | Yuhao Jia, Wenhan Tan | (参考訳) 拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
数値的および空間的推論におけるT2Iモデルの能力をさらに向上するため、レイアウトは大きな言語モデルとレイアウトに基づく拡散モデルを橋渡しするための中間体として使用される。
しかし、これらの手法は、複数のオブジェクトと複雑な空間関係を持つテキストプロンプトから画像を生成するのに苦労している。
この課題に取り組むために、t2i生成タスクを単純なサブタスクに分解する分割・結合アプローチを導入する。
提案手法では,レイアウト予測段階を数値計算と空間推論と境界ボックス予測に分割する。
そして、レイアウトから画像への生成段階を反復的に行い、簡単なものから難しいものへオブジェクトを再構築する。
我々はHRSとNSR-1Kベンチマークで実験を行い、従来の最先端モデルよりも顕著なマージンで性能を向上する。
さらに,視覚的な結果から,複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と一貫性が著しく向上することが示された。 Diffusion-driven text-to-image (T2I) generation has achieved remarkable advancements. To further improve T2I models' capability in numerical and spatial reasoning, the layout is employed as an intermedium to bridge large language models and layout-based diffusion models. However, these methods still struggle with generating images from textural prompts with multiple objects and complicated spatial relationships. To tackle this challenge, we introduce a divide-and-conquer approach which decouples the T2I generation task into simple subtasks. Our approach divides the layout prediction stage into numerical \& spatial reasoning and bounding box prediction. Then, the layout-to-image generation stage is conducted in an iterative manner to reconstruct objects from easy ones to difficult ones. We conduct experiments on the HRS and NSR-1K benchmarks and our approach outperforms previous state-of-the-art models with notable margins. In addition, visual results demonstrate that our approach significantly improves the controllability and consistency in generating multiple objects from complex textural prompts. | 翻訳日:2024-03-12 20:34:19 公開日:2024-03-11 |
# GlossLM:低リソースインターリニアグロースのための多言語事前学習 GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing ( http://arxiv.org/abs/2403.06399v1 ) ライセンス: Link先を確認 | Michael Ginn (1), Lindia Tjuatja (2), Taiqi He (2), Enora Rice (1), Graham Neubig (2), Alexis Palmer (1), Lori Levin (2) ((1) University of Colorado, (2) Carnegie Mellon University) | (参考訳) 言語ドキュメントの重要な側面は、interlinear glossed text (igt)のようなフォーマットで注釈付きテキストを作成することである。
従来の研究は、言語分析の時間的コストを削減するために、IGTを自動生成する方法を模索してきた。
しかし、多くの言語(特に保存を必要とする言語)は効果的なモデルを訓練するのに十分なIGTデータを持っておらず、この制限を克服する手法として言語間移動が提案されている。
我々は、さまざまなソースからIGTデータの最大のコーパスをコンパイルし、1.8k言語で450万以上のサンプルをカバーし、クロスリンガル転送とIGT生成の研究を可能にする。
そして、このコーパスの一部で大きな多言語モデルを事前学習し、さらにそれを特定の言語に微調整する。
セグメンテッドデータや大規模単言語データセットでは最先端の手法と競合する。
一方,本モデルは,未入力テキストと小コーパスのsotaモデルを最大6.6%のモーフェム精度で上回り,低リソース言語に対する言語間変換の有効性を示す。 A key aspect of language documentation is the creation of annotated text in a format such as interlinear glossed text (IGT), which captures fine-grained morphosyntactic analyses in a morpheme-by-morpheme format. Prior work has explored methods to automatically generate IGT in order to reduce the time cost of language analysis. However, many languages (particularly those requiring preservation) lack sufficient IGT data to train effective models, and crosslingual transfer has been proposed as a method to overcome this limitation. We compile the largest existing corpus of IGT data from a variety of sources, covering over 450k examples across 1.8k languages, to enable research on crosslingual transfer and IGT generation. Then, we pretrain a large multilingual model on a portion of this corpus, and further finetune it to specific languages. Our model is competitive with state-of-the-art methods for segmented data and large monolingual datasets. Meanwhile, our model outperforms SOTA models on unsegmented text and small corpora by up to 6.6% morpheme accuracy, demonstrating the effectiveness of crosslingual transfer for low-resource languages. | 翻訳日:2024-03-12 20:34:01 公開日:2024-03-11 |
# 連続学習における幅の回帰の低下について On the Diminishing Returns of Width for Continual Learning ( http://arxiv.org/abs/2403.06398v1 ) ライセンス: Link先を確認 | Etash Guha, Vihan Lakshman | (参考訳) ディープニューラルネットワークは様々な設定で画期的な性能を示してきたが、これらのモデルは、新しいタスクをシーケンスでトレーニングすると、しばしば 'emph{catastrophic forgetting' に悩まされる。
いくつかの研究は、ニューラルネットワークの幅の増大が破滅的な忘れ込みの減少につながることを実証しているが、幅と連続学習の正確な関係を特徴づけていないことを実証している。
本研究では,連続学習理論を解析するための最初のフレームワークの一つを設計し,フィードフォワードネットワーク(FFN)において,幅が直接関連していることを証明する。
具体的には,ネットワーク幅を増加させることで,再帰性が低下することを示す。
我々は,先行研究において,予測したように減少する回帰が明らかに観察されるような幅での主張を実証的に検証する。 While deep neural networks have demonstrated groundbreaking performance in various settings, these models often suffer from \emph{catastrophic forgetting} when trained on new tasks in sequence. Several works have empirically demonstrated that increasing the width of a neural network leads to a decrease in catastrophic forgetting but have yet to characterize the exact relationship between width and continual learning. We design one of the first frameworks to analyze Continual Learning Theory and prove that width is directly related to forgetting in Feed-Forward Networks (FFN). Specifically, we demonstrate that increasing network widths to reduce forgetting yields diminishing returns. We empirically verify our claims at widths hitherto unexplored in prior studies where the diminishing returns are clearly observed as predicted by our theory. | 翻訳日:2024-03-12 20:33:39 公開日:2024-03-11 |
# deepsafempc: 安全マルチエージェント強化学習のためのディープラーニングモデル予測制御 DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.06397v1 ) ライセンス: Link先を確認 | Xuefeng Wang, Henglin Pu, Hyung Jun Kim and Husheng Li | (参考訳) safe multi-agent reinforcement learning(safe marl)は近年注目を集めており、グローバルリターンを最適化するだけでなく、行動制約を通じて安全要件を遵守するエージェントの必要性を強調している。
近年の研究では、安全確保の課題に対処するため、制御理論とマルチエージェント強化学習を統合している。
しかし、モデル予測制御(MPC)の手法は、主にマルチエージェント環境の複雑で暗黙的な動的特性のために、非常に限定的な応用しかなかった。
このギャップを埋めるため,安全マルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
本手法は最適解探索に MARL の原理を適用した。
mpcの雇用を通じて、エージェントの行動は安全な状態内で同時に制限することができる。
安全マルチエージェント MuJoCo 環境を用いたアプローチの有効性を実証し,MARL の安全性問題に対処する上で大きな進歩を示す。 Safe Multi-agent reinforcement learning (safe MARL) has increasingly gained attention in recent years, emphasizing the need for agents to not only optimize the global return but also adhere to safety requirements through behavioral constraints. Some recent work has integrated control theory with multi-agent reinforcement learning to address the challenge of ensuring safety. However, there have been only very limited applications of Model Predictive Control (MPC) methods in this domain, primarily due to the complex and implicit dynamics characteristic of multi-agent environments. To bridge this gap, we propose a novel method called Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning (DeepSafeMPC). The key insight of DeepSafeMPC is leveraging a entralized deep learning model to well predict environmental dynamics. Our method applies MARL principles to search for optimal solutions. Through the employment of MPC, the actions of agents can be restricted within safe states concurrently. We demonstrate the effectiveness of our approach using the Safe Multi-agent MuJoCo environment, showcasing significant advancements in addressing safety concerns in MARL. | 翻訳日:2024-03-12 20:33:24 公開日:2024-03-11 |
# 多様な腫瘍に対するセグメンテーション基盤モデル A Segmentation Foundation Model for Diverse-type Tumors ( http://arxiv.org/abs/2403.06396v1 ) ライセンス: Link先を確認 | Jianhao Xie, Ziang Zhang, Guibo Luo, and Yuesheng Zhu | (参考訳) 多数のモデルパラメータと広範なトレーニングデータセットを持つ大規模事前学習モデルは、様々なタスクにおいて優れたパフォーマンスを示している。
多くの医用画像データセットは十分な量のデータを持っていないため、医用画像の大規模なモデルはほとんどない。
本稿では,resblock-backboneとtransformer-bottleneckを用いて,160億パラメータのtsfm(large-scale tumor segmentation foundation model)を提案する。
TSFMは, 医用画像における腫瘍と臓器間の強い空間的相関, 革新的に7つの腫瘍データセットと3つの多臓器データセットを融合させて, 3次元医用データセットプールを構築する。
TSFMは、医学画像セグメンテーションのための事前訓練されたモデルであり、微調整学習のために複数の下流タスクに転送することもできる。
プレトレーニングモデルの平均成績は,nnu-netより各種腫瘍タイプで2%高い値を示した。
トランスファーラーニングタスクでは、同様のパフォーマンスを達成するために、nU-Netのトレーニングエポックを5%しか必要とせず、トレーニングエポックを10%で平均で2%超えることができる。
事前訓練されたTSFMとそのコードはまもなくリリースされる。 Large pre-trained models with their numerous model parameters and extensive training datasets have shown excellent performance in various tasks. Many publicly available medical image datasets do not have a sufficient amount of data so there are few large-scale models in medical imaging. We propose a large-scale Tumor Segmentation Foundation Model (TSFM) with 1.6 billion parameters using Resblock-backbone and Transformer-bottleneck,which has good transfer ability for downstream tasks. To make TSFM exhibit good performance in tumor segmentation, we make full use of the strong spatial correlation between tumors and organs in the medical image, innovatively fuse 7 tumor datasets and 3 multi-organ datasets to build a 3D medical dataset pool, including 2779 cases with totally 300k medical images, whose size currently exceeds many other single publicly available datasets. TSFM is the pre-trained model for medical image segmentation, which also can be transferred to multiple downstream tasks for fine-tuning learning. The average performance of our pre-trained model is 2% higher than that of nnU-Net across various tumor types. In the transfer learning task, TSFM only needs 5% training epochs of nnU-Net to achieve similar performance and can surpass nnU-Net by 2% on average with 10% training epoch. Pre-trained TSFM and its code will be released soon. | 翻訳日:2024-03-12 20:33:03 公開日:2024-03-11 |
# FSViewFusion:新しいオブジェクトの生成を少し見る FSViewFusion: Few-Shots View Generation of Novel Objects ( http://arxiv.org/abs/2403.06394v1 ) ライセンス: Link先を確認 | Rukhshanda Hussain, Hui Xian Grace Lim, Borchun Chen, Mubarak Shah, Ser Nam Lim | (参考訳) 新規なビュー合成は、NeRFの到来以来、著しく発展してきた。
しかし、nerfモデルは単一のシーンに過剰に適合し、分散オブジェクトへの一般化を欠いている。
近年、拡散モデルは、ビュー合成における一般化の導入において顕著な性能を示した。
これらの進歩にインスパイアされ、3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルの能力について検討する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
我々の研究は2つの興味深い発見を明らかにした。
まず、Dreamboothは、大量のマルチビューデータ上で微細な拡散を伴うより複雑な戦略と比較して、ビューの高レベルな概念を学習することができることを観察する。
第2に、ビューの概念は、ビューが学習される元のオブジェクトの識別によらず、分離して、新しいオブジェクトに転送できることを確定する。
そこで我々は,単一のシーンの1つのイメージサンプルを通して特定のビューを継承する学習戦略FSViewFusionを導入し,その知識を新しいオブジェクトに転送し,低ランクのアダプタを用いて,少数のショットから学習する。
広範にわたる実験を通して,本手法が野生画像の信頼性の高いビューサンプルの生成に有効であることを示す。
コードとモデルはリリースされる。 Novel view synthesis has observed tremendous developments since the arrival of NeRFs. However, Nerf models overfit on a single scene, lacking generalization to out of distribution objects. Recently, diffusion models have exhibited remarkable performance on introducing generalization in view synthesis. Inspired by these advancements, we explore the capabilities of a pretrained stable diffusion model for view synthesis without explicit 3D priors. Specifically, we base our method on a personalized text to image model, Dreambooth, given its strong ability to adapt to specific novel objects with a few shots. Our research reveals two interesting findings. First, we observe that Dreambooth can learn the high level concept of a view, compared to arguably more complex strategies which involve finetuning diffusions on large amounts of multi-view data. Second, we establish that the concept of a view can be disentangled and transferred to a novel object irrespective of the original object's identify from which the views are learnt. Motivated by this, we introduce a learning strategy, FSViewFusion, which inherits a specific view through only one image sample of a single scene, and transfers the knowledge to a novel object, learnt from few shots, using low rank adapters. Through extensive experiments we demonstrate that our method, albeit simple, is efficient in generating reliable view samples for in the wild images. Code and models will be released. | 翻訳日:2024-03-12 20:32:40 公開日:2024-03-11 |
# シャープネスによる分布外一般化境界のロバスト化 Towards Robust Out-of-Distribution Generalization Bounds via Sharpness ( http://arxiv.org/abs/2403.06392v1 ) ライセンス: Link先を確認 | Yingtian Zou, Kenji Kawaguchi, Yingnan Liu, Jiashuo Liu, Mong-Li Lee, Wynne Hsu | (参考訳) オフ・オブ・ディストリビューション(OOD)データや未確認領域を一般化した OOD 一般化は、依然として適切な理論的保証を欠いている。
標準OODバウンダリは、ソースとターゲットドメイン間の異なる距離の測定に重点を置いているが、学習モデルの最適化特性を考慮できない。
最近の研究で実証的に示されているように、学習されたミニマの鋭さはOOD一般化に影響を及ぼす。
この最適化とOOD一般化のギャップを埋めるために、モデルが一般化において通常「ロバストネス」によって捉えられる領域シフトにおけるデータ変化を許容するシャープネスの効果について検討する。
本稿では,鋭さとロバスト性の間に厳密な関係を与え,ロバストなアルゴリズムに対するood保証を改善する。
また、"flat minima leads to better ood generalization"の理論的裏付けも提供する。
全体として,頑健性を考慮に入れて束縛したシャープネスに基づくood一般化を提案し,非ロバスト保証よりも厳密なバウンドを実現する。
本研究は,尾根回帰モデルによる実験と,深層学習分類タスクによる実験によって支援された。 Generalizing to out-of-distribution (OOD) data or unseen domain, termed OOD generalization, still lacks appropriate theoretical guarantees. Canonical OOD bounds focus on different distance measurements between source and target domains but fail to consider the optimization property of the learned model. As empirically shown in recent work, the sharpness of learned minima influences OOD generalization. To bridge this gap between optimization and OOD generalization, we study the effect of sharpness on how a model tolerates data change in domain shift which is usually captured by "robustness" in generalization. In this paper, we give a rigorous connection between sharpness and robustness, which gives better OOD guarantees for robust algorithms. It also provides a theoretical backing for "flat minima leads to better OOD generalization". Overall, we propose a sharpness-based OOD generalization bound by taking robustness into consideration, resulting in a tighter bound than non-robust guarantees. Our findings are supported by the experiments on a ridge regression model, as well as the experiments on deep learning classification tasks. | 翻訳日:2024-03-12 20:32:15 公開日:2024-03-11 |
# クリロフ複雑性の検証に向けて Towards verifications of Krylov complexity ( http://arxiv.org/abs/2403.06391v1 ) ライセンス: Link先を確認 | Ryu Sasaki | (参考訳) クリロフ複雑性はハミルトン力学の下で進化する作用素の成長の尺度であると考えられている。
主な戦略は、クリロフ部分空間 $\mathcal{K}_M(\mathcal{H},\eta)$ の構造解析であり、リウヴィル作用素 $\mathcal{L}$, $\mathcal{L}:=[\mathcal{H},\cdot]$ 演算子 $\eta$, $\mathcal{K}_M(\mathcal{H},\eta)=\text{span}\{\eta,\mathcal{L}\eta,\ldots,\mathcal{L}^{M-1}\eta\eta$ で定義される可換作用素 $\mathcal{L}$ の複数の応用によって構成される。
作用素の与えられた内部積 $(\cdot,\cdot)$ に対して、正規直交基底 $\{\mathcal{O}_n\}$ はランツォスアルゴリズムにより $\mathcal{O}_0=\eta/\sqrt{(\eta,\eta)}$ から構成される。
モーメント$\mu_m=(\mathcal{o}_0,\mathcal{l}^m\mathcal{o}_0)$は、lanczos係数と呼ばれる重要なデータ$\{b_n\}$と密接に関連している。
私は16の量子力学系のモーメントの完全かつ明示的な表現をSchr\odinger と Heisenberg の両方で正確に解けるように提示する。
作用素 $\eta$ は固有多項数 $\{p_n(\eta)\}$ の変数である正弦波座標である。 Krylov complexity is considered to provide a measure of the growth of operators evolving under Hamiltonian dynamics. The main strategy is the analysis of the structure of Krylov subspace $\mathcal{K}_M(\mathcal{H},\eta)$ spanned by the multiple applications of the Liouville operator $\mathcal{L}$ defined by the commutator in terms of a Hamiltonian $\mathcal{H}$, $\mathcal{L}:=[\mathcal{H},\cdot]$ acting on an operator $\eta$, $\mathcal{K}_M(\mathcal{H},\eta)=\text{span}\{\eta,\mathcal{L}\eta,\ldots,\mathcal{L}^{M-1}\eta\}$. For a given inner product $(\cdot,\cdot)$ of the operators, the orthonormal basis $\{\mathcal{O}_n\}$ is constructed from $\mathcal{O}_0=\eta/\sqrt{(\eta,\eta)}$ by Lanczos algorithm. The moments $\mu_m=(\mathcal{O}_0,\mathcal{L}^m\mathcal{O}_0)$ are closely related to the important data $\{b_n\}$ called Lanczos coefficients. I present the exact and explicit expressions of the moments $\{\mu_m\}$ for 16 quantum mechanical systems which are {\em exactly solvable both in the Schr\"odinger and Heisenberg pictures}. The operator $\eta$ is the sinusoidal coordinate which is the variable of the eigenpolynomials $\{P_n(\eta)\}$ of the exactly solvable Hamiltonian $\mathcal{H}$. | 翻訳日:2024-03-12 20:31:56 公開日:2024-03-11 |
# 電力グリッドにおける生成AI攻撃の実現と防御のためのゼロトラストフレームワーク A Zero Trust Framework for Realization and Defense Against Generative AI Attacks in Power Grid ( http://arxiv.org/abs/2403.06388v1 ) ライセンス: Link先を確認 | Md. Shirajum Munir, Sravanthi Proddatoori, Manjushree Muralidhara, Walid Saad, Zhu Han, Sachin Shetty | (参考訳) 発電網に対するジェネレーティブAI(GenAI)ベースの攻撃の可能性を理解することは、新しい攻撃ベクトルのリスクを認識し、検証することによって電力網を保護するために対処しなければならない根本的な課題である。
本稿では,電力グリッドサプライチェーン(PGSC)のための新しいゼロ信頼フレームワークを提案する。
このフレームワークは、潜在的なジェナイ駆動攻撃ベクトル(リプレイやプロトコルタイプの攻撃など)の早期検出、テールリスクに基づく安定性対策の評価、そのような脅威の緩和を促進する。
第一に、PGSCの新しいゼロ信頼システムモデルがゼロ信頼問題として設計され、GenAIによるサイバー攻撃の実現と防御によって安定したPGSCを保証する。
第2に、ドメイン固有の生成敵ネットワーク(GAN)ベースの攻撃生成機構を開発し、その脅威をさらに理解するための新たな脆弱性サイバースペースを作成する。
第3に、信頼度測定アプローチを連続検証に活用しつつ、潜在的攻撃の極端なリスクを定量化するために、テールベースのリスク実現メトリクスを開発し、実装する。
第4に,ユーザおよび分散型エネルギー資源デバイスプロファイルを説得することで,合成idを発生させる攻撃を検出するために,アンサンブル学習に基づくブートストラップアグリゲーションスキームが考案された。
実験の結果,攻撃ベクトル生成の精度95.7%,95%安定pgscのリスク尺度9.61%,ジェナイ駆動攻撃に対する防御信頼性99%のゼロ信頼フレームワークの有効性が示された。 Understanding the potential of generative AI (GenAI)-based attacks on the power grid is a fundamental challenge that must be addressed in order to protect the power grid by realizing and validating risk in new attack vectors. In this paper, a novel zero trust framework for a power grid supply chain (PGSC) is proposed. This framework facilitates early detection of potential GenAI-driven attack vectors (e.g., replay and protocol-type attacks), assessment of tail risk-based stability measures, and mitigation of such threats. First, a new zero trust system model of PGSC is designed and formulated as a zero-trust problem that seeks to guarantee for a stable PGSC by realizing and defending against GenAI-driven cyber attacks. Second, in which a domain-specific generative adversarial networks (GAN)-based attack generation mechanism is developed to create a new vulnerability cyberspace for further understanding that threat. Third, tail-based risk realization metrics are developed and implemented for quantifying the extreme risk of a potential attack while leveraging a trust measurement approach for continuous validation. Fourth, an ensemble learning-based bootstrap aggregation scheme is devised to detect the attacks that are generating synthetic identities with convincing user and distributed energy resources device profiles. Experimental results show the efficacy of the proposed zero trust framework that achieves an accuracy of 95.7% on attack vector generation, a risk measure of 9.61% for a 95% stable PGSC, and a 99% confidence in defense against GenAI-driven attack. | 翻訳日:2024-03-12 20:30:52 公開日:2024-03-11 |
# 下流微調整のための事前学習モデルレコメンデーション Pre-Trained Model Recommendation for Downstream Fine-tuning ( http://arxiv.org/abs/2403.06382v1 ) ライセンス: Link先を確認 | Jiameng Bai, Sai Wu, Jie Song, Junbo Zhao, Gang Chen | (参考訳) トランスファー学習の基本的な問題として、モデル選択は、既成の事前学習されたモデルをランク付けし、新しい対象タスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックは、しばしばそのスコープで制限され、モデルとタスクの間の微妙な関係を見落としがちである。
本稿では,タスクとモデル間の複雑な接続を慎重に検討しながら,多種多様な大規模モデルリポジトリを探索する実用的フレームワークであるtextbf{Fennec}を提案する。
重要な洞察は、すべてのモデルと過去のタスクを、モデルベクトルとタスクベクトルの間の距離が転送可能性の大きさを表す転送関連部分空間にマッピングすることである。
大きなビジョンモデルは、プロキシとして、転送空間における新しいタスクの表現を推論し、広範な前方パスの計算負荷を回避します。
また,モデル固有の帰納的バイアスが伝達結果に与える影響について検討し,モデルの複雑な構造を符号化する新しい方法である \textbf{archi2vec} を提案する。
転送スコアは直観的ベクトル演算によって計算され、時間複雑性は$\mathcal{o}(1)$である。
最後に、包括的なベンチマークをリリースすることによって、この分野にかなりの貢献をする。
2つのベンチマークで厳密なテストを行い、フレームワークの有効性を検証する。
ベンチマークとコードは、近い将来に公開される予定だ。 As a fundamental problem in transfer learning, model selection aims to rank off-the-shelf pre-trained models and select the most suitable one for the new target task. Existing model selection techniques are often constrained in their scope and tend to overlook the nuanced relationships between models and tasks. In this paper, we present a pragmatic framework \textbf{Fennec}, delving into a diverse, large-scale model repository while meticulously considering the intricate connections between tasks and models. The key insight is to map all models and historical tasks into a transfer-related subspace, where the distance between model vectors and task vectors represents the magnitude of transferability. A large vision model, as a proxy, infers a new task's representation in the transfer space, thereby circumventing the computational burden of extensive forward passes. We also investigate the impact of the inherent inductive bias of models on transfer results and propose a novel method called \textbf{archi2vec} to encode the intricate structures of models. The transfer score is computed through straightforward vector arithmetic with a time complexity of $\mathcal{O}(1)$. Finally, we make a substantial contribution to the field by releasing a comprehensive benchmark. We validate the effectiveness of our framework through rigorous testing on two benchmarks. The benchmark and the code will be publicly available in the near future. | 翻訳日:2024-03-12 20:30:26 公開日:2024-03-11 |
# テキスト・画像合成における意味的忠実度の向上:拡散モデルにおける注意制御 Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models ( http://arxiv.org/abs/2403.06381v1 ) ライセンス: Link先を確認 | Yang Zhang, Teoh Tze Tzun, Lim Wei Hern, Tiviatis Sim, Kenji Kawaguchi | (参考訳) 近年の拡散モデルの発展により,テキスト・画像合成作業における画像の知覚品質が向上した。
しかし拡散モデルは、しばしば関連するテキストプロンプトの意図した意味を正確に反映した画像を生成するのに苦労する。
拡散モデルにおけるクロスアテンション層を調べ,これらの層が生成過程において特定のトークンに不釣り合いに焦点を合わせ,意味的忠実性を損なう傾向を観察した。
そこで本研究では,アテンションマップを入力テキストプロンプトと整合させるために,アテンションレギュレーション(アテンションレギュレーション)という,オンザフライでの計算効率の高い最適化手法を導入する。
特にこの方法は,追加のトレーニングや微調整を必要とせず,モデルのプラグインモジュールとして機能する。
これにより、原モデルの生成能力は完全に保存される。
このアプローチを、さまざまなデータセット、評価指標、拡散モデルにまたがる代替アプローチと比較する。
実験の結果,提案手法は他のベースラインよりも一貫して優れており,計算オーバーヘッドの低減により望ましい概念をより忠実に反映する画像が得られることがわかった。
コードはhttps://github.com/yangzhang-v5/attention_ regulationで入手できる。 Recent advancements in diffusion models have notably improved the perceptual quality of generated images in text-to-image synthesis tasks. However, diffusion models often struggle to produce images that accurately reflect the intended semantics of the associated text prompts. We examine cross-attention layers in diffusion models and observe a propensity for these layers to disproportionately focus on certain tokens during the generation process, thereby undermining semantic fidelity. To address the issue of dominant attention, we introduce attention regulation, a computation-efficient on-the-fly optimization approach at inference time to align attention maps with the input text prompt. Notably, our method requires no additional training or fine-tuning and serves as a plug-in module on a model. Hence, the generation capacity of the original model is fully preserved. We compare our approach with alternative approaches across various datasets, evaluation metrics, and diffusion models. Experiment results show that our method consistently outperforms other baselines, yielding images that more faithfully reflect the desired concepts with reduced computation overhead. Code is available at https://github.com/YaNgZhAnG-V5/attention_regulation. | 翻訳日:2024-03-12 20:30:04 公開日:2024-03-11 |
# 教師なしオンラインビデオストッチングのためのウォーピングシェイクの除去 Eliminating Warping Shakes for Unsupervised Online Video Stitching ( http://arxiv.org/abs/2403.06378v1 ) ライセンス: Link先を確認 | Lang Nie, Chunyu Lin, Kang Liao, Yun Zhang, Shuaicheng Liu, Yao Zhao | (参考訳) 本稿では,画像縫合からビデオ縫合までを延ばす際に,ワープシェイクと呼ばれる新たな問題にビデオ縫合を向ける。
画像のステッチが自然構造を保存しようと努力しているにもかかわらず、重複しない領域における反りのあるコンテンツの時間的不安定性を明らかにする。
したがって、縫合すべき入力ビデオが安定している場合でも、縫合されたビデオは必然的に望ましくない反動を引き起こし、視覚体験に影響を与える。
揺らぎをなくすため,一貫した教師なし学習フレームワークにおいて,ビデオステッチとビデオ安定化を同時に実現するためのStabStitchを提案する。
まず,映像安定化におけるカメラパスから,空間的および時間的ワープを精巧に統合することにより,映像縫合における縫合軌跡の表現を導出する。
次に,コンテンツアライメント,軌跡平滑性,空間的一貫性,オンラインコラボレーションに関する包括的考察を加えて,warp平滑化モデルを提案する。
評価ベンチマークを確立し,学習フレームワークを訓練するために,カメラの動きやシーンの多様性に富んだビデオステッチデータセットを構築した。
既存の縫合法と比較して、StabStitchは、縫合と安定化性能に加えて、シーンの堅牢性と推論速度に大きな優位性を示し、堅牢でリアルタイムなオンラインビデオ縫合システムに寄与する。
コードとデータセットはhttps://github.com/nie-lang/StabStitch.comから入手できる。 In this paper, we retarget video stitching to an emerging issue, named warping shake, when extending image stitching to video stitching. It unveils the temporal instability of warped content in non-overlapping regions, despite image stitching having endeavored to preserve the natural structures. Therefore, in most cases, even if the input videos to be stitched are stable, the stitched video will inevitably cause undesired warping shakes and affect the visual experience. To eliminate the shakes, we propose StabStitch to simultaneously realize video stitching and video stabilization in a unified unsupervised learning framework. Starting from the camera paths in video stabilization, we first derive the expression of stitching trajectories in video stitching by elaborately integrating spatial and temporal warps. Then a warp smoothing model is presented to optimize them with a comprehensive consideration regarding content alignment, trajectory smoothness, spatial consistency, and online collaboration. To establish an evaluation benchmark and train the learning framework, we build a video stitching dataset with a rich diversity in camera motions and scenes. Compared with existing stitching solutions, StabStitch exhibits significant superiority in scene robustness and inference speed in addition to stitching and stabilization performance, contributing to a robust and real-time online video stitching system. The code and dataset will be available at https://github.com/nie-lang/StabStitch. | 翻訳日:2024-03-12 20:29:42 公開日:2024-03-11 |
# 参加活動から鍛造関係へ:参加型MLの技法 From Fitting Participation to Forging Relationships: The Art of Participatory ML ( http://arxiv.org/abs/2403.06431v1 ) ライセンス: Link先を確認 | Ned Cooper and Alex Zafiroglu | (参考訳) 参加型機械学習(Participatory Machine Learning, ML)は、設計および開発プロセスにおいて、エンドユーザーとMLシステムに影響された人々の参加を促進する。
参加者の労働力の製品をMLアーティファクトやシステムへの入力に変換する18人の参加ブローカーを、さまざまな組織的な設定やプロジェクトロケーションでインタビューしました。
この結果から,MLワークフローに必要な構造化データ形式や,プロジェクトコンテキストにおける不均一なパワーダイナミクスへの参加を通じて発生する乱雑なコンテキスト情報を統合するという,固有の課題が示された。
参加型mlプロジェクトで生成した価値をより公平にバランスし、デザインと開発チームに価値を提供するブローカーの役割の進化を提唱する。
既存のプロセスへの'フィッティング'参加を超えて、mlを通じて参加者に代替未来を思い描いてもらうためには、ブローカーは、間接的な利害関係者からの不満や不満に応えながら、エンドユーザのための教育者や擁護者になる必要がある。 Participatory machine learning (ML) encourages the inclusion of end users and people affected by ML systems in design and development processes. We interviewed 18 participation brokers -- individuals who facilitate such inclusion and transform the products of participants' labour into inputs for an ML artefact or system -- across a range of organisational settings and project locations. Our findings demonstrate the inherent challenges of integrating messy contextual information generated through participation with the structured data formats required by ML workflows and the uneven power dynamics in project contexts. We advocate for evolution in the role of brokers to more equitably balance value generated in Participatory ML projects for design and development teams with value created for participants. To move beyond `fitting' participation to existing processes and empower participants to envision alternative futures through ML, brokers must become educators and advocates for end users, while attending to frustration and dissent from indirect stakeholders. | 翻訳日:2024-03-12 20:25:43 公開日:2024-03-11 |
# AS-FIBA: 深部顔面修復に対するバックドアアタックのための適応選択的選択周波数注入法 AS-FIBA: Adaptive Selective Frequency-Injection for Backdoor Attack on Deep Face Restoration ( http://arxiv.org/abs/2403.06430v1 ) ライセンス: Link先を確認 | Zhenbo Song, Wenhao Gao, Kaihao Zhang, Wenhan Luo, Zhaoxin Fan, Jianfeng Lu | (参考訳) スマートデバイスでますます普及しているディープラーニングベースの顔復元モデルは、高度なバックドア攻撃のターゲットとなっている。
これらの攻撃は、入力された顔画像に微妙なトリガーを注入することで、予期せぬ修復結果をもたらす可能性がある。
従来の分類課題に焦点をあてた手法とは異なり,本手法では,復元モデルに対する一意な劣化目標を導入する。
さらに,周波数領域における入力特異的トリガー生成のためのニューラルネットワークを用いた適応型選択的周波数注入バックドアアタック(as-fiba)フレームワークを提案し,トリガと良性イメージをシームレスに混合する。
この結果は、目立った目標ではなく、微弱に劣化した出力に対する復元予測を導くために、知覚できないが効果的な攻撃をもたらす。
広範な実験により, 劣化目標が最先端顔復元モデルに及ぼす影響が実証された。
さらに、AS-FIBAは、WANet、ISSBA、FIBAなど、既存のバックドア攻撃方法よりも知覚できない効果的なバックドアを挿入できることも注目に値する。 Deep learning-based face restoration models, increasingly prevalent in smart devices, have become targets for sophisticated backdoor attacks. These attacks, through subtle trigger injection into input face images, can lead to unexpected restoration outcomes. Unlike conventional methods focused on classification tasks, our approach introduces a unique degradation objective tailored for attacking restoration models. Moreover, we propose the Adaptive Selective Frequency Injection Backdoor Attack (AS-FIBA) framework, employing a neural network for input-specific trigger generation in the frequency domain, seamlessly blending triggers with benign images. This results in imperceptible yet effective attacks, guiding restoration predictions towards subtly degraded outputs rather than conspicuous targets. Extensive experiments demonstrate the efficacy of the degradation objective on state-of-the-art face restoration models. Additionally, it is notable that AS-FIBA can insert effective backdoors that are more imperceptible than existing backdoor attack methods, including WaNet, ISSBA, and FIBA. | 翻訳日:2024-03-12 20:25:14 公開日:2024-03-11 |
# 進化グラフ上のGNNの微分幾何学的視点と説明可能性 A Differential Geometric View and Explainability of GNN on Evolving Graphs ( http://arxiv.org/abs/2403.06425v1 ) ライセンス: Link先を確認 | Yazheng Liu, Xi Zhang, Sihong Xie | (参考訳) グラフはソーシャルネットワークや生化学においてユビキタスであり、グラフニューラルネットワーク(GNN)は予測のための最先端のモデルである。
グラフは進化しており、トレーニングされたGNNがグラフの進化にどのように反応するかを正式にモデル化し理解することが不可欠である。
本稿では,高次元埋め込み空間内の低次元多様体上に分布を持つ公理属性を用いたGNN予測分布のスムーズなパラメータ化を提案する。
微分幾何学的視点を用いて多様体上の滑らかな曲線として分布進化をモデル化する。
多様体上の曲線の族を再パラメータ化し、凸最適化問題を設計し、人間の解釈の分布進化を簡潔に近似するユニークな曲線を求める。
グラフの進化に伴うノード分類,リンク予測,グラフ分類タスクに関する広範囲な実験により,提案手法が最先端手法よりも親密性,忠実性,直感性が向上したことを示す。 Graphs are ubiquitous in social networks and biochemistry, where Graph Neural Networks (GNN) are the state-of-the-art models for prediction. Graphs can be evolving and it is vital to formally model and understand how a trained GNN responds to graph evolution. We propose a smooth parameterization of the GNN predicted distributions using axiomatic attribution, where the distributions are on a low-dimensional manifold within a high-dimensional embedding space. We exploit the differential geometric viewpoint to model distributional evolution as smooth curves on the manifold. We reparameterize families of curves on the manifold and design a convex optimization problem to find a unique curve that concisely approximates the distributional evolution for human interpretation. Extensive experiments on node classification, link prediction, and graph classification tasks with evolving graphs demonstrate the better sparsity, faithfulness, and intuitiveness of the proposed method over the state-of-the-art methods. | 翻訳日:2024-03-12 20:24:45 公開日:2024-03-11 |
# 約共有特徴を持つブリッジドメイン Bridging Domains with Approximately Shared Features ( http://arxiv.org/abs/2403.06424v1 ) ライセンス: Link先を確認 | Ziliang Samuel Zhong, Xiang Pan, Qi Lei | (参考訳) マルチソースドメイン適応は、未知のドメインに機械学習モデルを適用する際のパフォーマンス劣化を低減することを目的としている。
基本的な課題は、機能選択のための最適な戦略を考案することだ。
ソースドメインから不変な特徴を学ぶことを提唱する者もいれば、より多様な特徴を好む者もいる。
この課題に対処するために,各ドメイン間のラベル$y$との相関関係のばらつきに基づいて特徴の効用を識別する統計的枠組みを提案する。
本フレームワークでは,ソースタスクからほぼ共有された特徴表現を学習し,ターゲットタスクで微調整する学習手順を設計し,分析する。
本理論解析は,厳密な不変特徴のみでなく,概ね共有された特徴を学習することの重要性を前提とし,先述のパラドックスを部分的に解き明かした。
この理論に触発されて我々は,より実用的なコンテンツ(不変+近似共有)を環境特性から分離する方法を提案し,理論的な知見をさらに統合した。 Multi-source domain adaptation aims to reduce performance degradation when applying machine learning models to unseen domains. A fundamental challenge is devising the optimal strategy for feature selection. Existing literature is somewhat paradoxical: some advocate for learning invariant features from source domains, while others favor more diverse features. To address the challenge, we propose a statistical framework that distinguishes the utilities of features based on the variance of their correlation to label $y$ across domains. Under our framework, we design and analyze a learning procedure consisting of learning approximately shared feature representation from source tasks and fine-tuning it on the target task. Our theoretical analysis necessitates the importance of learning approximately shared features instead of only the strictly invariant features and yields an improved population risk compared to previous results on both source and target tasks, thus partly resolving the paradox mentioned above. Inspired by our theory, we proposed a more practical way to isolate the content (invariant+approximately shared) from environmental features and further consolidate our theoretical findings. | 翻訳日:2024-03-12 20:24:18 公開日:2024-03-11 |
# 音声駆動音声ヘッドビデオにおける知覚品質指標の比較検討 A Comparative Study of Perceptual Quality Metrics for Audio-driven Talking Head Videos ( http://arxiv.org/abs/2403.06421v1 ) ライセンス: Link先を確認 | Weixia Zhang and Chengguang Zhu and Jingnan Gao and Yichao Yan and Guangtao Zhai and Xiaokang Yang | (参考訳) 人工知能生成コンテンツ(AIGC)技術の急速な進歩は、音声駆動型音声ヘッド生成を推進し、実用的な用途においてかなりの研究の注目を集めている。
しかし,音声ヘッド生成技術の開発には,性能評価研究が遅れている。
既存の文献は人間の検証のないヒューリスティックな定量的指標に依存しており、正確な進捗評価を妨げる。
このギャップに対処するために,4つの生成法から生成された対話型頭部映像を収集し,視覚品質,口唇同期,頭部運動自然性に関する心理物理学実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
私たちの仕事は、パフォーマンス評価とモデル開発を促進し、より広い文脈でAIGCに関する洞察を提供すると思います。
コードとデータはhttps://github.com/zwx8981/ADTH-QAで公開される。 The rapid advancement of Artificial Intelligence Generated Content (AIGC) technology has propelled audio-driven talking head generation, gaining considerable research attention for practical applications. However, performance evaluation research lags behind the development of talking head generation techniques. Existing literature relies on heuristic quantitative metrics without human validation, hindering accurate progress assessment. To address this gap, we collect talking head videos generated from four generative methods and conduct controlled psychophysical experiments on visual quality, lip-audio synchronization, and head movement naturalness. Our experiments validate consistency between model predictions and human annotations, identifying metrics that align better with human opinions than widely-used measures. We believe our work will facilitate performance evaluation and model development, providing insights into AIGC in a broader context. Code and data will be made available at https://github.com/zwx8981/ADTH-QA. | 翻訳日:2024-03-12 20:23:45 公開日:2024-03-11 |
# RLingua:大規模言語モデルを用いたロボットマニピュレーションにおける強化学習サンプル効率の改善 RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models ( http://arxiv.org/abs/2403.06420v1 ) ライセンス: Link先を確認 | Liangliang Chen, Yutian Lei, Shiyu Jin, Ying Zhang, Liangjun Zhang | (参考訳) 強化学習(rl)は様々なタスクを解決する能力を示しているが、サンプル効率が低いことで有名である。
本稿では,大規模言語モデル(LLM)の内部知識を活用し,ロボット操作におけるRLの複雑さを軽減するフレームワークであるRLinguaを提案する。
そこで、本研究では、まず、特定のタスクのための予備ルールベースロボットコントローラを作成できるように、プロンプトエンジニアリングによるllmの事前知識の抽出方法について述べる。
不完全にもかかわらず、LLM生成ロボットコントローラを使用して、ロールアウト中の動作サンプルを減衰確率で生成し、RLのサンプル効率を向上させる。
我々はアクター批判フレームワークを使用し、LCM生成コントローラに向けたポリシー学習を規則化するためにアクター損失を変更する。
RLinguaはまた、不完全なLLM生成ロボットコントローラをRLにより改善する新しい方法を提供する。
rlingua は panda_gym のロボットタスクにおける td3 のサンプルの複雑さを著しく減少させ、標準の td3 が失敗した rlbench のロボットタスクにおいて高い成功率を達成できることを実証した。
さらに,実世界のロボット実験におけるRLinguaの有効性をSim2Realを通じて検証し,学習方針が実ロボットに効果的に伝達可能であることを示した。
私たちの仕事に関する詳細とビデオは、私たちのプロジェクトwebサイトhttps://rlingua.github.io.comで閲覧できます。 Reinforcement learning (RL) has demonstrated its capability in solving various tasks but is notorious for its low sample efficiency. In this paper, we propose RLingua, a framework that can leverage the internal knowledge of large language models (LLMs) to reduce the sample complexity of RL in robotic manipulations. To this end, we first present how to extract the prior knowledge of LLMs by prompt engineering so that a preliminary rule-based robot controller for a specific task can be generated. Despite being imperfect, the LLM-generated robot controller is utilized to produce action samples during rollouts with a decaying probability, thereby improving RL's sample efficiency. We employ the actor-critic framework and modify the actor loss to regularize the policy learning towards the LLM-generated controller. RLingua also provides a novel method of improving the imperfect LLM-generated robot controllers by RL. We demonstrated that RLingua can significantly reduce the sample complexity of TD3 in the robot tasks of panda_gym and achieve high success rates in sparsely rewarded robot tasks in RLBench, where the standard TD3 fails. Additionally, We validated RLingua's effectiveness in real-world robot experiments through Sim2Real, demonstrating that the learned policies are effectively transferable to real robot tasks. Further details and videos about our work are available at our project website https://rlingua.github.io. | 翻訳日:2024-03-12 20:23:24 公開日:2024-03-11 |
# フェデレーション設定における因果的マルチラベル特徴選択 Causal Multi-Label Feature Selection in Federated Setting ( http://arxiv.org/abs/2403.06419v1 ) ライセンス: Link先を確認 | Yukun Song, Dayuan Cao, Jiali Miao, Shuai Yang, Kui Yu | (参考訳) マルチラベル特徴選択は、高次元のマルチラベルデータを扱う効果的な手段となる。
良好な性能を達成するために、既存のマルチラベル特徴選択法では、複数のソースから大量のデータを集中化する必要があることが多い。
しかし、フェデレーション設定では、すべてのソースからデータを集中して単一のデータセットにマージすることは不可能である。
本稿では,フェデレーション設定における因果的マルチラベル特徴選択の課題について検討し,3つの新しいサブルーチンを用いたフェデレーション因果的多ラベル特徴選択(fedcmfs)アルゴリズムを提案する。
具体的には、federcflサブルーチンを使用して、ラベルラベル、ラベル機能、フィーチャー機能間の相関を考慮し、データを集中化せずにデータプライバシを維持しながら、各クラスラベルの関連機能(親子候補)を学習する。
第二に、FedCMFSはFedCFRサブルーチンを使用して、失敗した真の関連する機能を選択的に回収する。
最後に、FedCMFSはFedCFCサブルーチンを使用して、偽の関連機能を除去する。
8つのデータセットに対する広範な実験により、フェデレーションがフェデレーション設定における因果多ラベル特徴の選択に有効であることが示されている。 Multi-label feature selection serves as an effective mean for dealing with high-dimensional multi-label data. To achieve satisfactory performance, existing methods for multi-label feature selection often require the centralization of substantial data from multiple sources. However, in Federated setting, centralizing data from all sources and merging them into a single dataset is not feasible. To tackle this issue, in this paper, we study a challenging problem of causal multi-label feature selection in federated setting and propose a Federated Causal Multi-label Feature Selection (FedCMFS) algorithm with three novel subroutines. Specifically, FedCMFS first uses the FedCFL subroutine that considers the correlations among label-label, label-feature, and feature-feature to learn the relevant features (candidate parents and children) of each class label while preserving data privacy without centralizing data. Second, FedCMFS employs the FedCFR subroutine to selectively recover the missed true relevant features. Finally, FedCMFS utilizes the FedCFC subroutine to remove false relevant features. The extensive experiments on 8 datasets have shown that FedCMFS is effect for causal multi-label feature selection in federated setting. | 翻訳日:2024-03-12 20:22:41 公開日:2024-03-11 |
# 刺激訓練によるスパーシフィケーションの強化 Enhanced Sparsification via Stimulative Training ( http://arxiv.org/abs/2403.06417v1 ) ライセンス: Link先を確認 | Shengji Tang, Weihao Lin, Hancheng Ye, Peng Ye, Chong Yu, Baopu Li, Tao Chen | (参考訳) スパーシフィケーションに基づくプルーニングはモデル圧縮において重要なカテゴリである。
既存の手法では、減量重みの重要性を抑えるために、余剰誘導刑法が一般的であり、これは抑制された減量パラダイムと見なされている。
しかし、このパラダイムは刈り取り前にキャパシティ損傷を引き起こすネットワークの低下部分を不活性化し、性能劣化を引き起こす。
この問題を緩和するため,我々はまず,創発的刺激訓練における相対的スパース性効果を解明し,次に,脱落重量の大きさを維持し,自己蒸留による保持重量の表現性を高める拡張スパース化パラダイムに基づいた構造的プルーニングフレームワークであるstpを提案する。
さらに,prunedネットワークのための最適なアーキテクチャを見出すために,多次元アーキテクチャ空間と知識蒸留誘導探索戦略を提案する。
そこで, 蒸留の容量ギャップを小さくするため, サブネット変異拡大法を提案する。
様々なベンチマークでの大規模な実験は、STPの有効性を示している。
具体的には、特に95.11%のTop-1精度(76.15%で72.43%)を保ちながら、ImageNet上のResNet-50では85%のFLOPを削減している。
コードはまもなくリリースされる予定だ。 Sparsification-based pruning has been an important category in model compression. Existing methods commonly set sparsity-inducing penalty terms to suppress the importance of dropped weights, which is regarded as the suppressed sparsification paradigm. However, this paradigm inactivates the dropped parts of networks causing capacity damage before pruning, thereby leading to performance degradation. To alleviate this issue, we first study and reveal the relative sparsity effect in emerging stimulative training and then propose a structured pruning framework, named STP, based on an enhanced sparsification paradigm which maintains the magnitude of dropped weights and enhances the expressivity of kept weights by self-distillation. Besides, to find an optimal architecture for the pruned network, we propose a multi-dimension architecture space and a knowledge distillation-guided exploration strategy. To reduce the huge capacity gap of distillation, we propose a subnet mutating expansion technique. Extensive experiments on various benchmarks indicate the effectiveness of STP. Specifically, without fine-tuning, our method consistently achieves superior performance at different budgets, especially under extremely aggressive pruning scenarios, e.g., remaining 95.11% Top-1 accuracy (72.43% in 76.15%) while reducing 85% FLOPs for ResNet-50 on ImageNet. Codes will be released soon. | 翻訳日:2024-03-12 20:22:14 公開日:2024-03-11 |
# 大規模言語モデルとアクティブラーニングによる知識蒸留の進化 Evolving Knowledge Distillation with Large Language Models and Active Learning ( http://arxiv.org/abs/2403.06414v1 ) ライセンス: Link先を確認 | Chengyuan Liu, Yangyang Kang, Fubang Zhao, Kun Kuang, Zhuoren Jiang, Changlong Sun, Fei Wu | (参考訳) 大規模言語モデル (llm) は様々な nlp タスクで顕著な性能を示している。
しかし、計算コストは極めて高い。
この問題に対処するために、以前の研究は、注釈付きデータを生成することによってllmの知識をより小さなモデルに絞り込もうと試みている。
しかしながら、これらの研究は主にテキスト生成とラベリングにLLMを直接使用することに焦点を当てており、目的のタスクを理解して貴重な知識を得る可能性を十分に探求していない。
本稿では,大規模言語モデルを用いたデータ生成過程を対話的に改善するためにアクティブラーニングという概念を活用し,小型ドメインモデルのタスク能力向上を同時に行う,evokd: evolution knowledge distillationを提案する。
従来の研究と異なり,学生モデルの弱点を積極的に分析し,分析に基づいてラベル付きサンプルを合成する。
さらに,学生モデルの性能に関するllmに反復的なフィードバックを提供し,多様で難解なサンプルを継続的に構築する。
異なるNLPタスク、すなわちテキスト分類と名前付きエンティティ認識の実験と分析は、EvoKDの有効性を示している。 Large language models (LLMs) have demonstrated remarkable capabilities across various NLP tasks. However, their computational costs are prohibitively high. To address this issue, previous research has attempted to distill the knowledge of LLMs into smaller models by generating annotated data. Nonetheless, these works have mainly focused on the direct use of LLMs for text generation and labeling, without fully exploring their potential to comprehend the target task and acquire valuable knowledge. In this paper, we propose EvoKD: Evolving Knowledge Distillation, which leverages the concept of active learning to interactively enhance the process of data generation using large language models, simultaneously improving the task capabilities of small domain model (student model). Different from previous work, we actively analyze the student model's weaknesses, and then synthesize labeled samples based on the analysis. In addition, we provide iterative feedback to the LLMs regarding the student model's performance to continuously construct diversified and challenging samples. Experiments and analysis on different NLP tasks, namely, text classification and named entity recognition show the effectiveness of EvoKD. | 翻訳日:2024-03-12 20:21:43 公開日:2024-03-11 |
# CLIcK:韓国における文化的・言語知能のベンチマークデータセット CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean ( http://arxiv.org/abs/2403.06412v1 ) ライセンス: Link先を確認 | Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice Oh | (参考訳) 韓国語のための大規模言語モデル(llm)の急速な発展にもかかわらず、必要な韓国文化と言語知識をテストするベンチマークデータセットが明らかに欠如している。
既存の朝鮮語のベンチマークデータセットの多くは英語の翻訳から派生しているため、異なる文化的文脈を見落としていることが多い。
韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。
このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKの各事例について,その疑問に正しく答えるためには,文化知識と言語知識が必要である,詳細なアノテーションを提供する。
CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。
評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。
CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。 Despite the rapid development of large language models (LLMs) for the Korean language, there remains an obvious lack of benchmark datasets that test the requisite Korean cultural and linguistic knowledge. Because many existing Korean benchmark datasets are derived from the English counterparts through translation, they often overlook the different cultural contexts. For the few benchmark datasets that are sourced from Korean data capturing cultural knowledge, only narrow tasks such as bias and hate speech detection are offered. To address this gap, we introduce a benchmark of Cultural and Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs. CLIcK sources its data from official Korean exams and textbooks, partitioning the questions into eleven categories under the two main categories of language and culture. For each instance in CLIcK, we provide fine-grained annotation of which cultural and linguistic knowledge is required to answer the question correctly. Using CLIcK, we test 13 language models to assess their performance. Our evaluation uncovers insights into their performances across the categories, as well as the diverse factors affecting their comprehension. CLIcK offers the first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in Korean culture and language. | 翻訳日:2024-03-12 20:21:24 公開日:2024-03-11 |
# 制約木生成のための論理パターンメモリ事前学習モデル A Logical Pattern Memory Pre-trained Model for Entailment Tree Generation ( http://arxiv.org/abs/2403.06410v1 ) ライセンス: Link先を確認 | Li Yuan, Yi Cai, Haopeng Ren, Jiexin Wang | (参考訳) コヒーレントで信頼できる説明を生成することは、AI分野における重要な課題である。
近年、研究者は、仮説が支持事実からどのように導かれるかの推論過程を示す説明を記述するために、entailment treeの利用について研究している。
しかし、既存のモデルは、与えられた事実から論理的整合性のある中間的な結論を生成することの重要性をしばしば見落とし、不正確な結論を導き、包含木全体の信頼性を損なう。
この制限に対処するため、論理パターンメモリ事前学習モデル(LMPM)を提案する。
LMPMは論理パターンの潜在表現を学習し、記憶するために外部メモリ構造を組み込んでおり、論理的に一貫した結論を生成するのに役立つ。
さらに、wikipediaベースのデータにおける論理的に無関係なドメイン知識の影響を軽減するため、lmpmを事前学習するためのデータセットを構築するためのエンティティ抽象化アプローチを提案する。
実験結果から,本手法が樹質向上に有効であることが示された。
論理的包含パターンを活用することで、我々のモデルは、基礎となる前提と密接に一致したより一貫性があり合理的な結論を生み出す。
CodeとDataはhttps://github.com/YuanLi95/T5-LMPMでリリースされる Generating coherent and credible explanations remains a significant challenge in the field of AI. In recent years, researchers have delved into the utilization of entailment trees to depict explanations, which exhibit a reasoning process of how a hypothesis is deduced from the supporting facts. However, existing models often overlook the importance of generating intermediate conclusions with logical consistency from the given facts, leading to inaccurate conclusions and undermining the overall credibility of entailment trees. To address this limitation, we propose the logical pattern memory pre-trained model (LMPM). LMPM incorporates an external memory structure to learn and store the latent representations of logical patterns, which aids in generating logically consistent conclusions. Furthermore, to mitigate the influence of logically irrelevant domain knowledge in the Wikipedia-based data, we introduce an entity abstraction approach to construct the dataset for pre-training LMPM. The experimental results highlight the effectiveness of our approach in improving the quality of entailment tree generation. By leveraging logical entailment patterns, our model produces more coherent and reasonable conclusions that closely align with the underlying premises. Code and Data are released at https://github.com/YuanLi95/T5-LMPM | 翻訳日:2024-03-12 20:21:03 公開日:2024-03-11 |
# 大規模言語モデルの量子化はなぜ難しいのか?
摂動レンズを用いた実証的研究 What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation ( http://arxiv.org/abs/2403.06408v1 ) ライセンス: Link先を確認 | Zhuocheng Gong, Jiahao Liu, Jingang Wang, Xunliang Cai, Dongyan Zhao, Rui Yan | (参考訳) 量子化は、大規模言語モデル(llm)のメモリと計算効率を改善する有望な技術として登場した。
性能と効率のトレードオフはよく知られているが、量子化とLCMの性能の関係について学ぶことはまだまだ多い。
この関係を明らかにするために,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
我々はこのアプローチを「摂動のレンズ」と呼んでいる。
このレンズを用いて, 各種人工摂動実験を行い, LLM性能への影響を調べた。
本研究は, 摂動特性とLLM性能の関連性を明らかにし, 均一量子化の故障事例を考察し, LLM量子化の堅牢性向上のための潜在的解決策を提案する。
本研究の意義を実証するため,我々は洞察に基づく単純な非一様量子化手法を実装した。
提案手法は,4ビット重み量子化と8ビット量子化の両方において,重みとアクティベーションの性能低下を最小限に抑えることを実証する。
これらの結果は,本手法の正しさを検証し,性能を犠牲にすることなくLCMの効率を向上させる可能性を強調した。 Quantization has emerged as a promising technique for improving the memory and computational efficiency of large language models (LLMs). Though the trade-off between performance and efficiency is well-known, there is still much to be learned about the relationship between quantization and LLM performance. To shed light on this relationship, we propose a new perspective on quantization, viewing it as perturbations added to the weights and activations of LLMs. We call this approach "the lens of perturbation". Using this lens, we conduct experiments with various artificial perturbations to explore their impact on LLM performance. Our findings reveal several connections between the properties of perturbations and LLM performance, providing insights into the failure cases of uniform quantization and suggesting potential solutions to improve the robustness of LLM quantization. To demonstrate the significance of our findings, we implement a simple non-uniform quantization approach based on our insights. Our experiments show that this approach achieves minimal performance degradation on both 4-bit weight quantization and 8-bit quantization for weights and activations. These results validate the correctness of our approach and highlight its potential to improve the efficiency of LLMs without sacrificing performance. | 翻訳日:2024-03-12 20:20:46 公開日:2024-03-11 |
# LLMのチューニング手法は医療マルチモーダル領域で有効か? Can LLMs' Tuning Methods Work in Medical Multimodal Domain? ( http://arxiv.org/abs/2403.06407v1 ) ライセンス: Link先を確認 | Jiawei Chen and Yue Jiang and Dingkang Yang and Mingcheng Li and Jinjie Wei and Ziyun Qian and Lihua Zhang | (参考訳) 大きな言語モデル(LLM)は世界の知識理解に優れているが、特定のサブフィールドに適応するには正確な調整が必要である。
モデルの規模が広いため、大規模モデルに対する従来のグローバル微調整手法は計算コストがかかり、影響の一般化が期待できる。
この課題に対処するために,LLMとLVLM(Large Vision-Language Models)の両分野で,革新的なパラメータ・効率的なファインチューニング(PEFT)手法が出現し,大きな成功を収めている。
医療領域では、医療視覚言語事前学習モデル(vlp)の微調整が、特定のタスクに適応するために不可欠である。
転帰学習効率を高めるため,大規模モデルの微調整法を医療分野に移行することは可能か?
本稿では, LLMの微調整法について検討し, トレーニングデータレベルとモデル構造レベルから, 医療領域における既存マルチモーダルモデルに対する大規模モデルの微調整法の影響について検討する。
医療用VLMにおける大規模モデルの微調整方法の違いを示し,医療用VLPモデルを微調整する最も効率的な方法を開発した。
本研究は, VLMのトレーニングコストを最適化し, 医療分野におけるVLMの幅広い応用を促進するために, 医療領域研究者を導くことができることを願っている。
コードとデータセットは受け入れ次第リリースされる。 While large language models (LLMs) excel in world knowledge understanding, adapting them to specific subfields requires precise adjustments. Due to the model's vast scale, traditional global fine-tuning methods for large models can be computationally expensive and impact generalization. To address this challenge, a range of innovative Parameters-Efficient Fine-Tuning (PEFT) methods have emerged and achieved remarkable success in both LLMs and Large Vision-Language Models (LVLMs). In the medical domain, fine-tuning a medical Vision-Language Pretrained (VLP) model is essential for adapting it to specific tasks. Can the fine-tuning methods for large models be transferred to the medical field to enhance transfer learning efficiency? In this paper, we delve into the fine-tuning methods of LLMs and conduct extensive experiments to investigate the impact of fine-tuning methods for large models on existing multimodal models in the medical domain from the training data level and the model structure level. We show the different impacts of fine-tuning methods for large models on medical VLMs and develop the most efficient ways to fine-tune medical VLP models. We hope this research can guide medical domain researchers in optimizing VLMs' training costs, fostering the broader application of VLMs in healthcare fields. Code and dataset will be released upon acceptance. | 翻訳日:2024-03-12 20:20:24 公開日:2024-03-11 |
# 拡散潜時マップ推定による非参照画像品質モデルの比較 Comparison of No-Reference Image Quality Models via MAP Estimation in Diffusion Latents ( http://arxiv.org/abs/2403.06406v1 ) ライセンス: Link先を確認 | Weixia Zhang and Dingquan Li and Guangtao Zhai and Xiaokang Yang and Kede Ma | (参考訳) 現代の非参照画像品質評価(NR-IQA)モデルは、モデル予測と固定テストセット上の人間の知覚スコアとの間に高い相関関係を持ち、知覚された画像品質を効果的に定量化することができる。
しかし, NR-IQAモデルの比較は, 知覚的最適化の観点からはほとんど進展していない。
ここでは、NR-IQAモデルが初めて、画像強調のための最大アフターリ(MAP)推定フレームワークにプラグインできることを実証する。
これは、原画素領域ではなく、微分可能で単射的な拡散潜在値の勾配を取ることで達成される。
異なるNR-IQAモデルは異なる拡張イメージを誘導し、最終的には精神物理学的なテストを受ける。
これにより, NR-IQAモデルの比較を行う新たな計算手法が提案される。
従来の相関ベースメトリクスと比較して,nr-iqaモデルの相対的強みと弱みを知覚的最適化の文脈で補足的な洞察を与える。 Contemporary no-reference image quality assessment (NR-IQA) models can effectively quantify the perceived image quality, with high correlations between model predictions and human perceptual scores on fixed test sets. However, little progress has been made in comparing NR-IQA models from a perceptual optimization perspective. Here, for the first time, we demonstrate that NR-IQA models can be plugged into the maximum a posteriori (MAP) estimation framework for image enhancement. This is achieved by taking the gradients in differentiable and bijective diffusion latents rather than in the raw pixel domain. Different NR-IQA models are likely to induce different enhanced images, which are ultimately subject to psychophysical testing. This leads to a new computational method for comparing NR-IQA models within the analysis-by-synthesis framework. Compared to conventional correlation-based metrics, our method provides complementary insights into the relative strengths and weaknesses of the competing NR-IQA models in the context of perceptual optimization. | 翻訳日:2024-03-12 20:19:57 公開日:2024-03-11 |
# ニューラルスピーカーの埋め込みにおける不確かさによるコサインスコーリング Cosine Scoring with Uncertainty for Neural Speaker Embedding ( http://arxiv.org/abs/2403.06404v1 ) ライセンス: Link先を確認 | Qiongqiong Wang, Kong Aik Lee | (参考訳) 話者表現における不確かさのモデル化は,発話の変動を学習することを目的としている。
従来のcosine-scoringは、話者認識において計算効率が高く普及しているが、不確実性を扱う能力に欠ける。
この課題に対処するため,本論文では,フロントエンドを埋め込んだ話者の不確かさを推定し,コーズンスコアリングバックエンドに伝播する手法を提案する。
VoxCelebおよびSITWデータセットを用いて行った実験により,埋め込み推定による不確実性に対処する上で,提案手法の有効性が確認された。
従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%であった。
実際に計算的にも効率的である。 Uncertainty modeling in speaker representation aims to learn the variability present in speech utterances. While the conventional cosine-scoring is computationally efficient and prevalent in speaker recognition, it lacks the capability to handle uncertainty. To address this challenge, this paper proposes an approach for estimating uncertainty at the speaker embedding front-end and propagating it to the cosine scoring back-end. Experiments conducted on the VoxCeleb and SITW datasets confirmed the efficacy of the proposed method in handling uncertainty arising from embedding estimation. It achieved improvement with 8.5% and 9.8% average reductions in EER and minDCF compared to the conventional cosine similarity. It is also computationally efficient in practice. | 翻訳日:2024-03-12 20:19:41 公開日:2024-03-11 |
# 半教師なしセマンティクスセグメンテーションのための非チャーテッド・デシデント特徴摂動に向けて Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2403.06462v1 ) ライセンス: Link先を確認 | Xiaoyang Wang, Huihui Bai, Limin Yu, Yao Zhao, Jimin Xiao | (参考訳) 半教師なしセマンティクスセグメンテーションは、ラベル付きトレーニングを補完するためにラベルなしデータから効果的な監督をマイニングすることができる。
近年の研究では、画像と特徴レベルでの摂動不変トレーニングを探求し、一貫性の正規化技術に重点が置かれている。
本研究では,DDFP(Dedentity-Descending Feature Perturbation)と呼ばれる特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた重要な洞察は、特徴密度は、より低い密度の領域であるセグメンテーション分類器が探索する最も有望な方向に光を放つことができるということである。
摂動注入による低密度領域への確実な予測を伴う特徴のシフトを提案する。
摂動特性は元の特徴の予測によって監視され、分類器はより密度の低い領域を探索して決定境界を効果的に定式化する。
我々の手法の中心は特徴密度の推定である。
そこで本研究では,フローの正規化に基づく軽量密度推定器を導入し,特徴密度分布をオンライン的に効率的に把握する。
密度推定器から勾配を抽出することで、各特徴の密度の低い領域への方向を決定することができる。
提案したDFFPは機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesの両方のデータセットにおける様々なパーティションプロトコルによるアートパフォーマンスの状況を示している。
プロジェクトはhttps://github.com/gavinwxy/ddfpで入手できる。 Semi-supervised semantic segmentation allows model to mine effective supervision from unlabeled data to complement label-guided training. Recent research has primarily focused on consistency regularization techniques, exploring perturbation-invariant training at both the image and feature levels. In this work, we proposed a novel feature-level consistency learning framework named Density-Descending Feature Perturbation (DDFP). Inspired by the low-density separation assumption in semi-supervised learning, our key insight is that feature density can shed a light on the most promising direction for the segmentation classifier to explore, which is the regions with lower density. We propose to shift features with confident predictions towards lower-density regions by perturbation injection. The perturbed features are then supervised by the predictions on the original features, thereby compelling the classifier to explore less dense regions to effectively regularize the decision boundary. Central to our method is the estimation of feature density. To this end, we introduce a lightweight density estimator based on normalizing flow, allowing for efficient capture of the feature density distribution in an online manner. By extracting gradients from the density estimator, we can determine the direction towards less dense regions for each feature. The proposed DDFP outperforms other designs on feature-level perturbations and shows state of the art performances on both Pascal VOC and Cityscapes dataset under various partition protocols. The project is available at https://github.com/Gavinwxy/DDFP. | 翻訳日:2024-03-12 20:14:53 公開日:2024-03-11 |
# マルチモーダルテスト時間適応のための信頼性の高い時空間ボクセル Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation ( http://arxiv.org/abs/2403.06461v1 ) ライセンス: Link先を確認 | Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie | (参考訳) マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン方式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法では,連続フレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し,時間とともに不安定な予測を導いた。
このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。
信頼できる予測は、空間的-時間的対応と一致すべきであるという事実に動機づけられ、ラッテは連続したフレームをスライドウィンドウ形式で集約し、各モダリティに対する時間的局所的な予測一貫性をキャプチャするst voxelを構築する。
高いstエントロピーでstボクセルをフィルタリングした後、ラッテは、空間的および時間的近傍の両方で信頼できる一貫した予測を持つものに従うことによって、各点と画素についてクロスモーダル学習を行う。
実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。 Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs ST voxel to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. | 翻訳日:2024-03-12 20:14:27 公開日:2024-03-11 |
# Pixelから癌へ:CTにおけるセルオートマタ From Pixel to Cancer: Cellular Automata in Computed Tomography ( http://arxiv.org/abs/2403.06459v1 ) ライセンス: Link先を確認 | Yuxiang Lai, Xiaoxi Chen, Angtian Wang, Alan Yuille, Zongwei Zhou | (参考訳) がん検出のためのAIは、データの不足、アノテーションの難しさ、早期腫瘍の頻度の低いボトルネックに遭遇する。
腫瘍合成は、医療画像に人工腫瘍を作り、aiトレーニングのためのデータとアノテーションを大幅に多様化することを目指している。
しかしながら、現在の腫瘍合成アプローチは、特定の専門知識と設計を必要とするため、異なる臓器に適用できない。
本稿では腫瘍発生をシミュレートする汎用ルールのセットを確立する。
各細胞(ピクセル)は最初、腫瘍の集団を表すために0から10の状態を割り当てられ、成長、浸潤、死の過程を記述する3つの規則に基づいて腫瘍を発生させることができる。
細胞オートマトンを用いて,pixelから癌への腫瘍進展をシミュレートするために,これら3つの汎用ルールを適用した。
次に,腫瘍状態をCT画像に統合し,異なる臓器にわたって合成腫瘍を生成する。
この腫瘍合成アプローチにより、複数の段階の腫瘍をサンプリングし、腫瘍とホルモンの相互作用を分析することができる。
臨床的に、専門家3人の放射線技師による読者調査により、合成腫瘍とその発達過程は説得力強く現実的であることが判明した。
臨床的には, 世界中の68の病院から採取した, 9,262個の未表示CT画像から, 様々な段階の腫瘍を発生させる。
肝臓、膵臓、腎臓の分節性腫瘍のパフォーマンスは、従来の文献上のベンチマークを上回り、腫瘍合成の膨大な可能性、特に早期のがん検出の可能性を強調している。
コードとモデルはhttps://github.com/mrgiovanni/pixel2cancerで入手できる。 AI for cancer detection encounters the bottleneck of data scarcity, annotation difficulty, and low prevalence of early tumors. Tumor synthesis seeks to create artificial tumors in medical images, which can greatly diversify the data and annotations for AI training. However, current tumor synthesis approaches are not applicable across different organs due to their need for specific expertise and design. This paper establishes a set of generic rules to simulate tumor development. Each cell (pixel) is initially assigned a state between zero and ten to represent the tumor population, and a tumor can be developed based on three rules to describe the process of growth, invasion, and death. We apply these three generic rules to simulate tumor development--from pixel to cancer--using cellular automata. We then integrate the tumor state into the original computed tomography (CT) images to generate synthetic tumors across different organs. This tumor synthesis approach allows for sampling tumors at multiple stages and analyzing tumor-organ interaction. Clinically, a reader study involving three expert radiologists reveals that the synthetic tumors and their developing trajectories are convincingly realistic. Technically, we generate tumors at varied stages in 9,262 raw, unlabeled CT images sourced from 68 hospitals worldwide. The performance in segmenting tumors in the liver, pancreas, and kidneys exceeds prevailing literature benchmarks, underlining the immense potential of tumor synthesis, especially for earlier cancer detection. The code and models are available at https://github.com/MrGiovanni/Pixel2Cancer | 翻訳日:2024-03-12 20:14:02 公開日:2024-03-11 |
# lstmネットワークによるwort密度の予測 Prediction of Wort Density with LSTM Network ( http://arxiv.org/abs/2403.06458v1 ) ライセンス: Link先を確認 | Derk Rembold, Bernd Stauss, Stefan Schwarzkopf | (参考訳) 技術的プロセスにおける多くの物理的ターゲット値は、エラーが発生しやすく、面倒で、自動的に測定するのにコストがかかる。
物理目標値の例として、ビール生産に必要な重要な値であるウート密度がある。
本稿では,手動データ収集における誤差を低減するために,センサによるウール密度測定を支援するシステムを提案する。
ワート密度を直接測定する代わりに、圧力や温度などの安価な標準センサーによって得られた測定値から密度を計算する方法を開発した。
計算の背後にあるモデルは、LSTMとして知られるニューラルネットワークである。 Many physical target values in technical processes are error-prone, cumbersome, or expensive to measure automatically. One example of a physical target value is the wort density, which is an important value needed for beer production. This article introduces a system that helps the brewer measure wort density through sensors in order to reduce errors in manual data collection. Instead of a direct measurement of wort density, a method is developed that calculates the density from measured values acquired by inexpensive standard sensors such as pressure or temperature. The model behind the calculation is a neural network, known as LSTM. | 翻訳日:2024-03-12 20:13:39 公開日:2024-03-11 |
# グラフマッチングのためのエンサンブル擬似アサインメントネットワーク Ensemble Quadratic Assignment Network for Graph Matching ( http://arxiv.org/abs/2403.06457v1 ) ライセンス: Link先を確認 | Haoru Tan, Chuang Wang, Sitong Wu, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu | (参考訳) グラフマッチングはコンピュータビジョンやパターン認識において一般的に用いられる技法である。
最近のデータ駆動アプローチではグラフマッチングの精度が著しく改善されているが、従来のアルゴリズムベースの手法ではノイズ、外れ値ノード、大域変換(例えばローテーション)が特徴的である。
本稿では,データ駆動手法と従来の手法の利点を組み合わせたグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
GNNフレームワークでは,従来のグラフマッチングを関連グラフ上の単一チャネルGNNとして変換し,単一チャネルアーキテクチャをマルチチャネルネットワークに拡張する。
提案したモデルは,反復毎に複数のアルゴリズムを融合するアンサンブル手法とみなすことができる。
アンサンブルの最後に見積を平均化する代わりに、我々のアプローチでは、アンサンブルされたアルゴリズムの独立したイテレーションは、1x1チャネルワイドの畳み込み層を介して各イテレーション後に情報を交換する。
実験の結果,従来のアルゴリズムの性能は大幅に向上した。
さらに,計算複雑性とGPUメモリ使用量を削減するためのランダムサンプリング手法を提案する。
本手法は,幾何学的グラフマッチング,意味的特徴マッチング,数発3次元形状分類の3つのタスクでの性能評価を行う。
提案手法は,既存のGNN手法を比較または比較し,性能を向上する。 Graph matching is a commonly used technique in computer vision and pattern recognition. Recent data-driven approaches have improved the graph matching accuracy remarkably, whereas some traditional algorithm-based methods are more robust to feature noises, outlier nodes, and global transformation (e.g.~rotation). In this paper, we propose a graph neural network (GNN) based approach to combine the advantages of data-driven and traditional methods. In the GNN framework, we transform traditional graph-matching solvers as single-channel GNNs on the association graph and extend the single-channel architecture to the multi-channel network. The proposed model can be seen as an ensemble method that fuses multiple algorithms at every iteration. Instead of averaging the estimates at the end of the ensemble, in our approach, the independent iterations of the ensembled algorithms exchange their information after each iteration via a 1x1 channel-wise convolution layer. Experiments show that our model improves the performance of traditional algorithms significantly. In addition, we propose a random sampling strategy to reduce the computational complexity and GPU memory usage, so the model applies to matching graphs with thousands of nodes. We evaluate the performance of our method on three tasks: geometric graph matching, semantic feature matching, and few-shot 3D shape classification. The proposed model performs comparably or outperforms the best existing GNN-based methods. | 翻訳日:2024-03-12 20:13:30 公開日:2024-03-11 |
# 多次元空間における学習指標の検討 A Survey of Learned Indexes for the Multi-dimensional Space ( http://arxiv.org/abs/2403.06456v1 ) ライセンス: Link先を確認 | Abdullah Al-Mamun, Hao Wu, Qiyang He, Jianguo Wang, Walid G. Aref | (参考訳) 最近の研究トレンドは、データベースインデックス構造を機械学習(ML)モデルとして扱うことである。
このドメインでは、単一または複数のMLモデルを使用して、データセット内のキーから位置へのマッピングを学習する。
このインデックスのクラスは"Learned Indexes"として知られている。
学習インデックスは検索性能の向上と1次元データの空間要求の低減を実証している。
一次元学習指標の概念は自然に多次元データ(例えば空間データ)に拡張され、「学習された多次元指標」の開発に繋がった。
本調査は学習した多次元インデックス構造に焦点を当てる。
具体的には,本研究領域の現状を概観し,提案手法の背景にある中核概念を説明し,いくつかの明確な基準に基づいてこれらの手法を分類する。
本稿では,各学習された多次元指標を分類・分類し,この分類法に従って学習された多次元指標に関する既存の文献を調査した。
さらに,学習指標の研究の進展を示すタイムラインを提示する。
最後に,この新興かつ高度に活発な分野における,いくつかのオープンチャレンジと今後の研究方向性について紹介する。 A recent research trend involves treating database index structures as Machine Learning (ML) models. In this domain, single or multiple ML models are trained to learn the mapping from keys to positions inside a data set. This class of indexes is known as "Learned Indexes." Learned indexes have demonstrated improved search performance and reduced space requirements for one-dimensional data. The concept of one-dimensional learned indexes has naturally been extended to multi-dimensional (e.g., spatial) data, leading to the development of "Learned Multi-dimensional Indexes". This survey focuses on learned multi-dimensional index structures. Specifically, it reviews the current state of this research area, explains the core concepts behind each proposed method, and classifies these methods based on several well-defined criteria. We present a taxonomy that classifies and categorizes each learned multi-dimensional index, and survey the existing literature on learned multi-dimensional indexes according to this taxonomy. Additionally, we present a timeline to illustrate the evolution of research on learned indexes. Finally, we highlight several open challenges and future research directions in this emerging and highly active field. | 翻訳日:2024-03-12 20:13:07 公開日:2024-03-11 |
# FontCLIP:多言語フォントアプリケーションのためのセマンティックタイポグラフィ視覚言語モデル FontCLIP: A Semantic Typography Visual-Language Model for Multilingual Font Applications ( http://arxiv.org/abs/2403.06453v1 ) ライセンス: Link先を確認 | Yuki Tatsukawa, I-Chao Shen, Anran Qi, Yuki Koyama, Takeo Igarashi, Ariel Shamir | (参考訳) 様々なデザインタスクに所望のフォントを取得することは困難であり、専門的なタイポグラフィーの知識を必要とする。
以前のフォント検索や生成作業はこれらの困難を緩和したものの、トレーニングデータドメイン以外の複数の言語やセマンティック属性をサポートしていないことが多い。
この問題を解決するために,大規模な視覚言語モデルの意味的理解とタイポグラフィ的知識を結びつけるモデルFontCLIPを提案する。
タイポグラフィー固有の知識を,新しい微調整手法により事前学習したCLIPモデルの包括的視覚言語知識に統合する。
ローマ字文字に着目したフォント属性データセットから適応的な属性をカプセル化する複合記述プロンプトを提案する。
FontCLIPのセマンティックタイポグラフィー潜在空間は、2つの前例のない一般化能力を示している。
まず、FontCLIPは中国語、日本語、韓国語(CJK)などさまざまな言語に一般化し、ローマ字のフォントを微調整したものの、異なる言語にまたがるフォントの特徴を捉えている。
第二に、FontCLIPはトレーニングデータに表示されていないセマンティック属性を認識することができる。
fontclipのデュアルモダリティと一般化機能は多言語・多言語フォント検索と文字形状最適化を可能にし、所望のフォント獲得の負担を軽減している。 Acquiring the desired font for various design tasks can be challenging and requires professional typographic knowledge. While previous font retrieval or generation works have alleviated some of these difficulties, they often lack support for multiple languages and semantic attributes beyond the training data domains. To solve this problem, we present FontCLIP: a model that connects the semantic understanding of a large vision-language model with typographical knowledge. We integrate typography-specific knowledge into the comprehensive vision-language knowledge of a pretrained CLIP model through a novel finetuning approach. We propose to use a compound descriptive prompt that encapsulates adaptively sampled attributes from a font attribute dataset focusing on Roman alphabet characters. FontCLIP's semantic typographic latent space demonstrates two unprecedented generalization abilities. First, FontCLIP generalizes to different languages including Chinese, Japanese, and Korean (CJK), capturing the typographical features of fonts across different languages, even though it was only finetuned using fonts of Roman characters. Second, FontCLIP can recognize the semantic attributes that are not presented in the training data. FontCLIP's dual-modality and generalization abilities enable multilingual and cross-lingual font retrieval and letter shape optimization, reducing the burden of obtaining desired fonts. | 翻訳日:2024-03-12 20:12:52 公開日:2024-03-11 |
# text2qr:テキスト誘導qrコード生成のための美的カスタマイズとスキャニングロバストネスの調和 Text2QR: Harmonizing Aesthetic Customization and Scanning Robustness for Text-Guided QR Code Generation ( http://arxiv.org/abs/2403.06452v1 ) ライセンス: Link先を確認 | Guangyang Wu, Xiaohong Liu, Jun Jia, Xuehao Cui, Guangtao Zhai | (参考訳) デジタル時代には、QRコードは仮想空間と物理領域を繋ぐリンチピンとして機能する。
さまざまなアプリケーションにまたがる広範囲な統合は、スカンサビリティを損なうことなく、美的なコードに対する需要を強調している。
しかし、一般的な手法は、カスタマイズとスキャスタビリティのバランスをとるという本質的な課題に対処する。
特にstable-diffusionモデルは、高品質でカスタマイズ可能なコンテンツ生成の時代を迎えています。
本稿では,ユーザ定義美学とスキャニングロバストネスの同時実現という,これらの進歩を活用する先駆的なアプローチであるText2QRを紹介する。
審美的QRコードの安定した生成を保証するため,QR Aesthetic Blueprint (QAB) モジュールを導入し,生成プロセス全体の制御を行うブループリント画像を生成する。
その後、Scanannability Enhancing Latent Refinement (SELR)プロセスは潜在空間における出力を反復的に洗練し、走査堅牢性を高める。
このアプローチは、安定拡散モデルの強力な生成能力を利用し、画像美学とqrコードスキャン可能性のトレードオフをナビゲートする。
本実験では,視覚的な魅力と美的qrコードの実用性とのシームレスな融合を実証する。
コードは \url{https://github.com/mulns/Text2QR} で入手できる。 In the digital era, QR codes serve as a linchpin connecting virtual and physical realms. Their pervasive integration across various applications highlights the demand for aesthetically pleasing codes without compromised scannability. However, prevailing methods grapple with the intrinsic challenge of balancing customization and scannability. Notably, stable-diffusion models have ushered in an epoch of high-quality, customizable content generation. This paper introduces Text2QR, a pioneering approach leveraging these advancements to address a fundamental challenge: concurrently achieving user-defined aesthetics and scanning robustness. To ensure stable generation of aesthetic QR codes, we introduce the QR Aesthetic Blueprint (QAB) module, generating a blueprint image exerting control over the entire generation process. Subsequently, the Scannability Enhancing Latent Refinement (SELR) process refines the output iteratively in the latent space, enhancing scanning robustness. This approach harnesses the potent generation capabilities of stable-diffusion models, navigating the trade-off between image aesthetics and QR code scannability. Our experiments demonstrate the seamless fusion of visual appeal with the practical utility of aesthetic QR codes, markedly outperforming prior methods. Codes are available at \url{https://github.com/mulns/Text2QR} | 翻訳日:2024-03-12 20:12:29 公開日:2024-03-11 |
# 大規模言語モデルの内部状態に基づく教師なしリアルタイム幻覚検出 Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models ( http://arxiv.org/abs/2403.06448v1 ) ライセンス: Link先を確認 | Weihang Su, Changyue Wang, Qingyao Ai, Yiran HU, Zhijing Wu, Yujia Zhou, Yiqun Liu | (参考訳) 大型言語モデル (LLMs) における幻覚とは、コヒーレントで事実上不正確な応答を生成する LLM 現象を指す。
本課題は, LLMの幻覚の検出・緩和に関する研究を要し, 実用化におけるLLMの有効性を損なうものである。
これまでの研究は主に幻覚検出のための後処理技術に焦点を合わせてきたが、これは計算集約的であり、LLMの推論プロセスからの分離により有効性が制限される傾向にある。
これらの制限を克服するため,我々は,手動アノテーションを必要とせず,リアルタイム幻覚検出にllmsの内部状態を活用する教師なしトレーニングフレームワークであるmindを紹介する。
さらに,複数のLLMにおける幻覚検出のための新しいベンチマークであるHELMについて述べる。
実験の結果,マインドは幻覚検出において既存の最先端手法よりも優れていることが示された。 Hallucinations in large language models (LLMs) refer to the phenomenon of LLMs producing responses that are coherent yet factually inaccurate. This issue undermines the effectiveness of LLMs in practical applications, necessitating research into detecting and mitigating hallucinations of LLMs. Previous studies have mainly concentrated on post-processing techniques for hallucination detection, which tend to be computationally intensive and limited in effectiveness due to their separation from the LLM's inference process. To overcome these limitations, we introduce MIND, an unsupervised training framework that leverages the internal states of LLMs for real-time hallucination detection without requiring manual annotations. Additionally, we present HELM, a new benchmark for evaluating hallucination detection across multiple LLMs, featuring diverse LLM outputs and the internal states of LLMs during their inference process. Our experiments demonstrate that MIND outperforms existing state-of-the-art methods in hallucination detection. | 翻訳日:2024-03-12 20:12:07 公開日:2024-03-11 |
# Coral: 長期推奨を改善する共同検索強化大規模言語モデル CoRAL: Collaborative Retrieval-Augmented Large Language Models Improve Long-tail Recommendation ( http://arxiv.org/abs/2403.06447v1 ) ライセンス: Link先を確認 | Junda Wu, Cheng-Chun Chang, Tong Yu, Zhankui He, Jianing Wang, Yupeng Hou, Julian McAuley | (参考訳) ロングテールレコメンデーションは、データの分散性とデータ不均衡の問題により、従来のレコメンデーションシステムにとって難しいタスクである。
近年の大規模言語モデル (LLM) の開発により, 複雑な推論能力が示され, ユーザの好みを推定する上で有効であることがわかった。
しかし、ほとんどのLCMベースのシステムは、推論の唯一の証拠としてアイテムの意味を頼りにしているため、ユーザとイテムのインタラクションの協調情報は無視されるため、LCMの推論はデータセットのタスク固有の協調情報と不一致となる可能性がある。
タスク固有のユーザ・イテムインタラクション知識に対するLLMの推論をさらに整合させるため,協調的検索強化型LLMであるCoRALを導入し,協調的エビデンスを直接プロンプトに組み込む。
検索したユーザとイテムのインタラクションに基づいて、LLMはユーザ間の共有や異なる好みを分析し、特定のアイテムにどのタイプのユーザを引き付けるかを示すパターンを要約する。
検索されたコラボレーティブエビデンスにより、LLMは、その推論をデータセット内のユーザとイテムのインタラクションパターンと整合させる。
しかし、入力プロンプトの容量は限られているため、レコメンデーションタスクのための最小限のコラボレーティブ情報を見つけるのは困難である。
本稿では,逐次的意思決定プロセスを通じて設定された最適なインタラクションを見つけ,強化学習(RL)フレームワークであるCoRALを用いて学習した検索ポリシーを開発することを提案する。
実験の結果,コラルは特定のレコメンデーションタスクにおけるLLMの推論能力を大幅に向上させることができることがわかった。
分析の結果、Coralは強化学習によってより効率的に協調情報を探索できることがわかった。 The long-tail recommendation is a challenging task for traditional recommender systems, due to data sparsity and data imbalance issues. The recent development of large language models (LLMs) has shown their abilities in complex reasoning, which can help to deduce users' preferences based on very few previous interactions. However, since most LLM-based systems rely on items' semantic meaning as the sole evidence for reasoning, the collaborative information of user-item interactions is neglected, which can cause the LLM's reasoning to be misaligned with task-specific collaborative information of the dataset. To further align LLMs' reasoning to task-specific user-item interaction knowledge, we introduce collaborative retrieval-augmented LLMs, CoRAL, which directly incorporate collaborative evidence into the prompts. Based on the retrieved user-item interactions, the LLM can analyze shared and distinct preferences among users, and summarize the patterns indicating which types of users would be attracted by certain items. The retrieved collaborative evidence prompts the LLM to align its reasoning with the user-item interaction patterns in the dataset. However, since the capacity of the input prompt is limited, finding the minimally-sufficient collaborative information for recommendation tasks can be challenging. We propose to find the optimal interaction set through a sequential decision-making process and develop a retrieval policy learned through a reinforcement learning (RL) framework, CoRAL. Our experimental results show that CoRAL can significantly improve LLMs' reasoning abilities on specific recommendation tasks. Our analysis also reveals that CoRAL can more efficiently explore collaborative information through reinforcement learning. | 翻訳日:2024-03-12 20:11:52 公開日:2024-03-11 |
# 決定論的幾何モデルフィッティングのための潜在セマンティックコンセンサス Latent Semantic Consensus For Deterministic Geometric Model Fitting ( http://arxiv.org/abs/2403.06444v1 ) ライセンス: Link先を確認 | Guobao Xiao and Jun Yu and Jiayi Ma and Deng-Ping Fan and Ling Shao | (参考訳) 重度の異常値を持つデータから信頼できる幾何モデルパラメータを推定することは、コンピュータビジョンにおいて基本的かつ重要なタスクである。
本稿では,高品質なサブセットをサンプリングし,モデルインスタンスを選択し,マルチストラクショナルデータのパラメータを推定する。
そこで本研究では,Latent Semantic Consensus (LSC) という手法を提案する。
LSCの原理は、データポイントとモデル仮説の両方において潜在意味的コンセンサスを維持することである。
具体的には、LCCはデータポイントとモデル仮説に基づいて、モデル適合問題を2つの潜在意味空間に定式化する。
次に、LCCは2つの潜在意味空間における点の分布を探索し、外れ値を取り除き、高品質なモデル仮説を生成し、モデルインスタンスを効果的に推定する。
最後に、LCCはその決定論的適合性や効率性のために、一般的な多構造モデルフィッティングのために数ミリ秒以内で一貫性のあるソリューションを提供することができる。
いくつかの最先端モデルフィッティング法と比較して,本手法は合成データと実画像の精度と速度の両性能において有意な優位性を実現した。
コードはhttps://github.com/guobaoxiao/LSCで入手できる。 Estimating reliable geometric model parameters from the data with severe outliers is a fundamental and important task in computer vision. This paper attempts to sample high-quality subsets and select model instances to estimate parameters in the multi-structural data. To address this, we propose an effective method called Latent Semantic Consensus (LSC). The principle of LSC is to preserve the latent semantic consensus in both data points and model hypotheses. Specifically, LSC formulates the model fitting problem into two latent semantic spaces based on data points and model hypotheses, respectively. Then, LSC explores the distributions of points in the two latent semantic spaces, to remove outliers, generate high-quality model hypotheses, and effectively estimate model instances. Finally, LSC is able to provide consistent and reliable solutions within only a few milliseconds for general multi-structural model fitting, due to its deterministic fitting nature and efficiency. Compared with several state-of-the-art model fitting methods, our LSC achieves significant superiority for the performance of both accuracy and speed on synthetic data and real images. The code will be available at https://github.com/guobaoxiao/LSC. | 翻訳日:2024-03-12 20:11:21 公開日:2024-03-11 |
# イベントカメラの時間マップ撮影 Temporal-Mapping Photography for Event Cameras ( http://arxiv.org/abs/2403.06443v1 ) ライセンス: Link先を確認 | Yuhan Bao, Lei Sun, Yuqin Ma, Kaiwei Wang | (参考訳) イベントカメラ(Dynamic Vision Sensors、DVS)は、従来の強度フレームではなく、'events'の連続ストリームとして明るさ変化を捉える新しいニューロモルフィックセンサーである。
スパース事象を高密度フレームに忠実に変換することは、長い間不適切な問題であった。
これまでは、ダイナミックなシーンや動くカメラでイベントをビデオに変換する方法が主だった。
本稿では,静的なシーンにおける静止イベントカメラを用いて,高密度画像変換を行うイベントを初めて実現した。
イベント統合を主に依存する従来の方法とは異なり、evtemmap(event-based temporal mapping photography)は各ピクセルのイベント放出時間を測定する。
そして、得られた時間行列を、時間マッピングニューラルネットワークを備えた強度フレームに変換する。
ハードウェアレベルでは、提案したEvTemMapは、Adjustable Transmittance Dynamic Vision Sensorと呼ばれるDVSと送信調整装置を組み合わせて実装されている。
さらに、低照度および高ダイナミックレンジシーンを含む様々な条件下でTemMatデータセットを収集した。
実験では,提案するevtemmapの高ダイナミックレンジ,細粒度,高グレースケール解像度,下流コンピュータビジョンタスクの性能向上を他の手法と比較した。
コードとtemmatデータセットは公開される予定だ。 Event cameras, or Dynamic Vision Sensors (DVS) are novel neuromorphic sensors that capture brightness changes as a continuous stream of ``events'' rather than traditional intensity frames. Converting sparse events to dense intensity frames faithfully has long been an ill-posed problem. Previous methods have primarily focused on converting events to video in dynamic scenes or with a moving camera. In this paper, for the first time, we realize events to dense intensity image conversion using a stationary event camera in static scenes. Different from traditional methods that mainly rely on event integration, the proposed Event-Based Temporal Mapping Photography (EvTemMap) measures the time of event emitting for each pixel. Then, the resulting Temporal Matrix is converted to an intensity frame with a temporal mapping neural network. At the hardware level, the proposed EvTemMap is implemented by combining a transmittance adjustment device with a DVS, named Adjustable Transmittance Dynamic Vision Sensor. Additionally, we collected TemMat dataset under various conditions including low-light and high dynamic range scenes. The experimental results showcase the high dynamic range, fine-grained details, and high-grayscale-resolution of the proposed EvTemMap, as well as the enhanced performance on downstream computer vision tasks compared to other methods. The code and TemMat dataset will be made publicly available. | 翻訳日:2024-03-12 20:11:01 公開日:2024-03-11 |
# 長い管内を移動する量子渦ループのエネルギースペクトル The energy spectrum of a quantum vortex loop moving in a long pipe ( http://arxiv.org/abs/2403.06441v1 ) ライセンス: Link先を確認 | S.V. Talalov | (参考訳) 本研究では,r_1$が管内半径を意味する長さ$l >> r_1$の管内を移動する閉渦フィラメントを考える。
渦フィラメントは局所誘導近似に記述されている。
この力学系を定量化し、循環とエネルギーの両方のスペクトルを計算する。
この研究では、$L \to \infty$ の場合に焦点を当てる。 In this study we consider the closed vortex filament that moves in a pipe of length $L >> R_1$, where $R_1$ means inner radius of the pipe. The vortex filament is described in the Local Induction Approximation. We quantize this dynamical system and calculate the spectrum both circulation and energy. In the study, we focus on the case $L \to \infty$. | 翻訳日:2024-03-12 20:10:38 公開日:2024-03-11 |
# 3次元物体検出のための時空間仮想グリッドを用いた細粒化ピラー特徴符号化 Fine-Grained Pillar Feature Encoding Via Spatio-Temporal Virtual Grid for 3D Object Detection ( http://arxiv.org/abs/2403.06433v1 ) ライセンス: Link先を確認 | Konyul Park, Yecheol Kim, Junho Koh, Byungwoo Park, Jun Won Choi | (参考訳) LiDARベースの3Dオブジェクト検出器のための高性能リアルタイムアーキテクチャの開発は、自動運転車の商業化の成功に不可欠である。
Pillarベースの手法は、その計算効率のため、オンボードデプロイメントの実践的な選択である。
しかし、その効率にもかかわらず、これらの手法はVoxel-encodingやPointNet++のような代替のポイントエンコーディング技術に比べて性能が劣ることがある。
現在の柱ベース手法では各柱構造内のライダー点の細粒度分布を十分に捉えていない。
したがって、柱の特徴エンコーディングを改善する余地は十分にある。
本稿では,ファイングラインドピラー特徴符号化(FG-PFE)と呼ばれる新しい柱符号化アーキテクチャを提案する。
FG-PFEは、垂直次元、時間次元、水平次元にまたがる各柱内の点雲の分布を捉えるために、時空間(STV)グリッドを使用する。
STVグリッドを通じて、各柱内の点を垂直PFE(V-PFE)、時間PFE(T-PFE)、水平PFE(H-PFE)を用いて個別に符号化する。
これらの符号化された機能は、Attentive Pillar Aggregationメソッドを通じて集約される。
nuScenesデータセットを用いて行った実験により、FG-PFEはPointPillar、CenterPoint-Pillar、PillarNetといったベースラインモデルよりも大幅に性能が向上し、計算オーバーヘッドはわずかに増加した。 Developing high-performance, real-time architectures for LiDAR-based 3D object detectors is essential for the successful commercialization of autonomous vehicles. Pillar-based methods stand out as a practical choice for onboard deployment due to their computational efficiency. However, despite their efficiency, these methods can sometimes underperform compared to alternative point encoding techniques such as Voxel-encoding or PointNet++. We argue that current pillar-based methods have not sufficiently captured the fine-grained distributions of LiDAR points within each pillar structure. Consequently, there exists considerable room for improvement in pillar feature encoding. In this paper, we introduce a novel pillar encoding architecture referred to as Fine-Grained Pillar Feature Encoding (FG-PFE). FG-PFE utilizes Spatio-Temporal Virtual (STV) grids to capture the distribution of point clouds within each pillar across vertical, temporal, and horizontal dimensions. Through STV grids, points within each pillar are individually encoded using Vertical PFE (V-PFE), Temporal PFE (T-PFE), and Horizontal PFE (H-PFE). These encoded features are then aggregated through an Attentive Pillar Aggregation method. Our experiments conducted on the nuScenes dataset demonstrate that FG-PFE achieves significant performance improvements over baseline models such as PointPillar, CenterPoint-Pillar, and PillarNet, with only a minor increase in computational overhead. | 翻訳日:2024-03-12 20:10:33 公開日:2024-03-11 |
# ヒト脳からの動的機能接続の自己教師付き学習のためのジョイントエンベディングマスクオートエンコーダ Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain ( http://arxiv.org/abs/2403.06432v1 ) ライセンス: Link先を確認 | Jungwon Choi, Hyungi Lee, Byung-Hoon Kim, Juho Lee | (参考訳) グラフニューラルネットワーク(gnns)は、人間の脳のネットワークから表現型を区別するために、動的機能接続を学ぶことに有望である。
しかしながら、トレーニングのための広範なラベル付き臨床データを得ることは、しばしばリソース集約的であり、実用的な応用は困難である。
これによりラベル付きデータを活用することは、ラベルスカース設定での表現学習に不可欠となる。
生成的自己教師あり学習技術、特にマスク付き自己エンコーダは、様々な領域における表現学習において有望な結果を示しているが、それらの動的機能接続のための動的グラフへの応用は、ハイレベルなセマンティック表現の取得において課題に直面している。
本稿では、コンピュータビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た、時空間共用マスク付き自動エンコーダ(ST-JEMA)を紹介する。
ST-JEMAは動的グラフを再構築するためのJEPAにインスパイアされた戦略を採用しており、時間的視点を考慮した高度な意味表現の学習を可能にし、fMRIデータ表現学習の課題に対処する。
st-jemaは,自己教師付き学習のための大規模英国バイオバンクデータセットを用いて,8つのベンチマークfmriデータセットにまたがる表現型および精神医学的診断の予測において,それまでの方法よりも優れていることを示す動的機能接続における例外的な表現学習性能を示す。
これらの知見は,ラベルスカースfMRIデータを活用するための頑健な表現学習手法としてのアプローチの可能性を強調した。 Graph Neural Networks (GNNs) have shown promise in learning dynamic functional connectivity for distinguishing phenotypes from human brain networks. However, obtaining extensive labeled clinical data for training is often resource-intensive, making practical application difficult. Leveraging unlabeled data thus becomes crucial for representation learning in a label-scarce setting. Although generative self-supervised learning techniques, especially masked autoencoders, have shown promising results in representation learning in various domains, their application to dynamic graphs for dynamic functional connectivity remains underexplored, facing challenges in capturing high-level semantic representations. Here, we introduce the Spatio-Temporal Joint Embedding Masked Autoencoder (ST-JEMA), drawing inspiration from the Joint Embedding Predictive Architecture (JEPA) in computer vision. ST-JEMA employs a JEPA-inspired strategy for reconstructing dynamic graphs, which enables the learning of higher-level semantic representations considering temporal perspectives, addressing the challenges in fMRI data representation learning. Utilizing the large-scale UK Biobank dataset for self-supervised learning, ST-JEMA shows exceptional representation learning performance on dynamic functional connectivity demonstrating superiority over previous methods in predicting phenotypes and psychiatric diagnoses across eight benchmark fMRI datasets even with limited samples and effectiveness of temporal reconstruction on missing data scenarios. These findings highlight the potential of our approach as a robust representation learning method for leveraging label-scarce fMRI data. | 翻訳日:2024-03-12 20:10:10 公開日:2024-03-11 |
# QuantTune:Adaptive Outlier-Driven Fine Tuningによるモデル量子化の最適化 QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning ( http://arxiv.org/abs/2403.06497v1 ) ライセンス: Link先を確認 | Jiun-Man Chen, Yu-Hsuan Chao, Yu-Jie Wang, Ming-Der Shieh, Chih-Chung Hsu, and Wei-Fen Lin | (参考訳) トランスフォーマーベースのモデルはコンピュータビジョン(CV)と自然言語処理(NLP)の両方で広く普及している。
しかし、訓練後の線形量子化において重大な課題が生じ、推論精度が著しく低下する。
本研究は,これらの精度低下の原因を明らかにし,量子化に親しみやすい微調整法である \textbf{QuantTune} を提案する。
解析の結果,平均65 %の量子化誤差は,ターゲットトランスフォーマーモデルにおけるアウトレーヤのダイナミックレンジ増幅効果によって生じる精度低下の結果であることがわかった。
第二に、textbf{QuantTune} は外れ値のアクティベーションの偏差に基づいて重みを調整し、問題のあるアクティベーションの動的範囲を効果的に制限する。
その結果、量子化モデルの推論精度に対する異常値の負の影響を軽減できた。
最後に、 \textbf{QuantTune} は、推論ソフトウェアやハードウェア設計の複雑さを余分に必要とせずに、微調整プロセスのバックプロパゲーションパスにシームレスに統合することができる。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
quanttuneは8ビットの量子化では12.09\%、トップキャリブレーション法と比較して33.8\%、vitモデルでは18.84\%以上精度低下する。 Transformer-based models have gained widespread popularity in both the computer vision (CV) and natural language processing (NLP) fields. However, significant challenges arise during post-training linear quantization, leading to noticeable reductions in inference accuracy. Our study focuses on uncovering the underlying causes of these accuracy drops and proposing a quantization-friendly fine-tuning method, \textbf{QuantTune}. Firstly, our analysis revealed that, on average, 65\% of quantization errors result from the precision loss incurred by the dynamic range amplification effect of outliers across the target Transformer-based models. Secondly, \textbf{QuantTune} adjusts weights based on the deviation of outlier activations and effectively constrains the dynamic ranges of the problematic activations. As a result, it successfully mitigates the negative impact of outliers on the inference accuracy of quantized models. Lastly, \textbf{QuantTune} can be seamlessly integrated into the back-propagation pass in the fine-tuning process without requiring extra complexity in inference software and hardware design. Our approach showcases significant improvements in post-training quantization across a range of Transformer-based models, including ViT, Bert-base, and OPT. QuantTune reduces accuracy drops by 12.09\% at 8-bit quantization and 33.8\% at 7-bit compared to top calibration methods, outperforming state-of-the-art solutions by over 18.84\% across ViT models. | 翻訳日:2024-03-12 20:05:06 公開日:2024-03-11 |
# サンプルプロンプを用いたコンテキスト内残差学習による一般異常検出に向けて Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts ( http://arxiv.org/abs/2403.06495v1 ) ライセンス: Link先を確認 | Jiawen Zhu and Guansong Pang | (参考訳) 本稿では,GAD(Generalist Anomaly Detection)の問題点を考察し,対象データに対するさらなるトレーニングを行なわずに,異なるアプリケーションドメインからさまざまなデータセットの異常を検出するための1つの単一検出モデルを訓練することを目的とする。
最近の研究により、CLIPのような大規模な事前学習された視覚言語モデル(VLM)は、様々なデータセットから産業的欠陥を検出するための強力な一般化能力を持っていることが示されているが、それらの手法は欠陥に関する手作りのテキストプロンプトに大きく依存しているため、自然画像の医学的画像異常や意味的異常など他のアプリケーションでの異常への一般化が困難である。
そこで本研究では,様々なデータセットにおける広告のサンプルプロンプトとして,低ショット正規画像を用いたgadモデルを訓練することを提案する。
そこで本研究では,gadの文脈内残差学習モデルであるinctrlを学習する新しい手法を提案する。
クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。
データセットにかかわらず、異常の定義に従って、通常のサンプルよりも大きな残基が異常に対して期待されているため、InCTRLはさらなるトレーニングをすることなく、異なるドメインをまたいで一般化することができる。 This paper explores the problem of Generalist Anomaly Detection (GAD), aiming to train one single detection model that can generalize to detect anomalies in diverse datasets from different application domains without any further training on the target data. Some recent studies have shown that large pre-trained Visual-Language Models (VLMs) like CLIP have strong generalization capabilities on detecting industrial defects from various datasets, but their methods rely heavily on handcrafted text prompts about defects, making them difficult to generalize to anomalies in other applications, e.g., medical image anomalies or semantic anomalies in natural images. In this work, we propose to train a GAD model with few-shot normal images as sample prompts for AD on diverse datasets on the fly. To this end, we introduce a novel approach that learns an in-context residual learning model for GAD, termed InCTRL. It is trained on an auxiliary dataset to discriminate anomalies from normal samples based on a holistic evaluation of the residuals between query images and few-shot normal sample prompts. Regardless of the datasets, per definition of anomaly, larger residuals are expected for anomalies than normal samples, thereby enabling InCTRL to generalize across different domains without further training. | 翻訳日:2024-03-12 20:04:37 公開日:2024-03-11 |
# ラベル・スカーシティ個人昇降モデルのための2つの昇降推定器を用いたグラフニューラルネットワーク Graph Neural Network with Two Uplift Estimators for Label-Scarcity Individual Uplift Modeling ( http://arxiv.org/abs/2403.06489v1 ) ライセンス: Link先を確認 | Dingyuan Zhu, Daixin Wang, Zhiqiang Zhang, Kun Kuang, Yan Zhang, Yulin Kang, Jun Zhou | (参考訳) アップリフトモデリングは、ランダム化実験や観測データからユーザに対する戦略や行動の漸進的な効果を測定することを目的としている。
既存のアップリフトメソッドは個々のデータのみを使用するが、これは通常、アップリフトに関する観測不能で複雑な隠れた要素をキャプチャするのに十分な情報ではない。
さらに、アップリフト・モデリングのシナリオは、通常、ラベル付きデータが少なく、特に治療グループでは、モデルトレーニングにとって大きな課題となる。
近隣住民の特徴や社会的関係がユーザの隆起を特徴付けるのに非常に有意義であることを考えると,GNUMと呼ばれる2つの隆起推定器を備えたグラフニューラルネットワークベースのフレームワークを提案する。
具体的には、クラス変換されたターゲットに基づいて、最初の推定器を設計する。
推定器はあらゆる種類の結果に対して一般的であり、グループデータの処理と制御を包括的にモデル化し、上昇にアプローチすることができる。
結果が離散的であれば,定義した部分ラベルに基づいて,ラベル不足問題を軽減するために,処理群と制御群の両方のラベル付きデータを利用することのできる,他のアップリフト推定器をさらに設計する。
公開データセットと2つの産業データセットに関する包括的実験は、様々な評価指標において、最先端手法よりも優れた性能を示す。
提案アルゴリズムは,実世界のアップリフト推定シナリオを提供するために,オンラインで展開されている。 Uplift modeling aims to measure the incremental effect, which we call uplift, of a strategy or action on the users from randomized experiments or observational data. Most existing uplift methods only use individual data, which are usually not informative enough to capture the unobserved and complex hidden factors regarding the uplift. Furthermore, uplift modeling scenario usually has scarce labeled data, especially for the treatment group, which also poses a great challenge for model training. Considering that the neighbors' features and the social relationships are very informative to characterize a user's uplift, we propose a graph neural network-based framework with two uplift estimators, called GNUM, to learn from the social graph for uplift estimation. Specifically, we design the first estimator based on a class-transformed target. The estimator is general for all types of outcomes, and is able to comprehensively model the treatment and control group data together to approach the uplift. When the outcome is discrete, we further design the other uplift estimator based on our defined partial labels, which is able to utilize more labeled data from both the treatment and control groups, to further alleviate the label scarcity problem. Comprehensive experiments on a public dataset and two industrial datasets show a superior performance of our proposed framework over state-of-the-art methods under various evaluation metrics. The proposed algorithms have been deployed online to serve real-world uplift estimation scenarios. | 翻訳日:2024-03-12 20:04:01 公開日:2024-03-11 |
# Few-Shotセグメンテーションのためのクエリ誘導プロトタイプ進化ネットワーク Query-guided Prototype Evolution Network for Few-Shot Segmentation ( http://arxiv.org/abs/2403.06488v1 ) ライセンス: Link先を確認 | Runmin Cong, Hang Xiong, Jinpeng Chen, Wei Zhang, Qingming Huang, and Yao Zhao | (参考訳) 以前のfront few-shot segmentation (fss)アプローチはプロトタイプ生成のサポート機能を排他的に利用し、クエリの特定の要件を無視する。
そこで本稿では,クエリ機能をフォアグラウンドとバックグラウンドプロトタイプの生成プロセスに統合し,特定のクエリに合わせてカスタマイズされたプロトタイプを生成する,クエリガイド付きプロトタイプ進化ネットワーク(qpenet)を提案する。
前景プロトタイプの進化は、pseudo-prototype generation (ppg) と dual prototype evolution (dpe) という2つの新しいモジュールを含む \textit{support-query-support} 反復プロセスによって達成される。
PPGモジュールは、クエリイメージの初期セグメンテーションのプロトタイプを作成するためにサポート機能を使用し、結果として、現在のクエリのユニークなニーズを反映した擬似プロトタイプが生成される。
その後、DPEモジュールは、この擬似プロトタイプを使用してサポートイメージのリバースセグメンテーションを行い、カスタムソリューションとみなすことができる進化したプロトタイプを生成する。
背景のプロトタイプは、すべてのトレーニングイメージの一般化された特徴を表すグローバルな背景のプロトタイプから始まります。
また,現在のフォアグラウンドクラスの特徴を反映する潜在的な有害成分を除去するために,グローバルバックグラウンドクリーニング(gbc)モジュールを設計した。
PASCAL-$5^i$およびCOCO-$20^i$データセットの実験結果は、最先端技術に対するQPENetの達成した実質的な拡張を証明し、私たちのアイデアの有効性を裏付けるものである。 Previous Few-Shot Segmentation (FSS) approaches exclusively utilize support features for prototype generation, neglecting the specific requirements of the query. To address this, we present the Query-guided Prototype Evolution Network (QPENet), a new method that integrates query features into the generation process of foreground and background prototypes, thereby yielding customized prototypes attuned to specific queries. The evolution of the foreground prototype is accomplished through a \textit{support-query-support} iterative process involving two new modules: Pseudo-prototype Generation (PPG) and Dual Prototype Evolution (DPE). The PPG module employs support features to create an initial prototype for the preliminary segmentation of the query image, resulting in a pseudo-prototype reflecting the unique needs of the current query. Subsequently, the DPE module performs reverse segmentation on support images using this pseudo-prototype, leading to the generation of evolved prototypes, which can be considered as custom solutions. As for the background prototype, the evolution begins with a global background prototype that represents the generalized features of all training images. We also design a Global Background Cleansing (GBC) module to eliminate potential adverse components mirroring the characteristics of the current foreground class. Experimental results on the PASCAL-$5^i$ and COCO-$20^i$ datasets attest to the substantial enhancements achieved by QPENet over prevailing state-of-the-art techniques, underscoring the validity of our ideas. | 翻訳日:2024-03-12 20:03:38 公開日:2024-03-11 |
# 音声活動投影を用いた多言語ターンテイク予測 Multilingual Turn-taking Prediction Using Voice Activity Projection ( http://arxiv.org/abs/2403.06487v1 ) ライセンス: Link先を確認 | Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze | (参考訳) 本稿では,音声対話のための予測ターンテイクモデルである音声アクティビティプロジェクション(vap)について,英語,中国語,日本語を包含する多言語データを用いて検討する。
VAPモデルは、対話における参加者の今後の音声活動を継続的に予測し、参加者間の動的相互作用を捉えるために、相互注意変換器を活用する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測ができないことがわかった。
しかし、3つの言語すべてで訓練された多言語モデルは、すべての言語にわたる単言語モデルと同等の予測性能を示す。
さらに分析した結果、多言語モデルは入力信号の言語を識別することを学んだ。
また,ターンテイキングに重要であると考えられる韻律的キューであるピッチに対する感度も分析した。
最後に、英語で事前学習したコントラスト予測符号化(CPC)と、多言語wav2vec 2.0(MMS)に基づく最近のモデルを比較した。 This paper investigates the application of voice activity projection (VAP), a predictive turn-taking model for spoken dialogue, on multilingual data, encompassing English, Mandarin, and Japanese. The VAP model continuously predicts the upcoming voice activities of participants in dyadic dialogue, leveraging a cross-attention Transformer to capture the dynamic interplay between participants. The results show that a monolingual VAP model trained on one language does not make good predictions when applied to other languages. However, a multilingual model, trained on all three languages, demonstrates predictive performance on par with monolingual models across all languages. Further analyses show that the multilingual model has learned to discern the language of the input signal. We also analyze the sensitivity to pitch, a prosodic cue that is thought to be important for turn-taking. Finally, we compare two different audio encoders, contrastive predictive coding (CPC) pre-trained on English, with a recent model based on multilingual wav2vec 2.0 (MMS). | 翻訳日:2024-03-12 20:03:08 公開日:2024-03-11 |
# 大規模クラウドシステムにおける知識認識型アラート集約:ハイブリッドアプローチ Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach ( http://arxiv.org/abs/2403.06485v1 ) ライセンス: Link先を確認 | Jinxi Kuang, Jinyang Liu, Junjie Huang, Renyi Zhong, Jiazhen Gu, Lan Yu, Rui Tan, Zengyin Yang, Michael R. Lyu | (参考訳) クラウドシステムのスケールと複雑さのため、システム障害は"alert storm"、すなわち大規模に相関したアラートを発生させる。
これらのアラートはいくつかの根本原因に遡ることができるが、圧倒的な数は手動処理には役に立たない。
したがって、警告アグリゲーションは、エンジニアが根本原因に集中し、障害解決を容易にするために重要である。
既存の手法は通常、意味的類似性に基づく手法や統計手法を使ってアラートを集約する。
しかし、意味的類似性に基づく手法は警告の因果的理性を見落とし、統計的手法は頻繁なアラートをほとんど扱えない。
これらの制約に対処するために,アラートの標準操作手順(sop)を補足として,外部知識の活用を提案する。
相関マイニングに基づく新しいハイブリッド手法であるCOLAと,オンラインアラートアグリゲーションのためのLLM(Large Language Model)を提案する。
相関マイニングモジュールは、アラート間の時間的および空間的関係を効果的に捉え、それらの相関を効率的に測定する。
その後、信頼性の低い不確実なペアのみが、詳細な解析のためにLSM推論モジュールに転送される。
このハイブリッド設計は、頻繁なアラートの統計的証拠と計算集約的なLCMの推論能力の両方を活用し、実用的なシナリオで大量のアラートを処理するCOLAの全体的な効率を確実にする。
大規模クラウドプラットフォームの生産環境から収集した3つのデータセットに対してCOLAを評価する。
実験の結果, COLA は 0.901 から 0.930 までの F1 スコアを達成し, 最先端の手法より優れ, 同等の効率を実現した。
実際のクラウドシステムであるCloud XにCOLAをデプロイした経験も共有しています。 Due to the scale and complexity of cloud systems, a system failure would trigger an "alert storm", i.e., massive correlated alerts. Although these alerts can be traced back to a few root causes, the overwhelming number makes it infeasible for manual handling. Alert aggregation is thus critical to help engineers concentrate on the root cause and facilitate failure resolution. Existing methods typically utilize semantic similarity-based methods or statistical methods to aggregate alerts. However, semantic similarity-based methods overlook the causal rationale of alerts, while statistical methods can hardly handle infrequent alerts. To tackle these limitations, we introduce leveraging external knowledge, i.e., Standard Operation Procedure (SOP) of alerts as a supplement. We propose COLA, a novel hybrid approach based on correlation mining and LLM (Large Language Model) reasoning for online alert aggregation. The correlation mining module effectively captures the temporal and spatial relations between alerts, measuring their correlations in an efficient manner. Subsequently, only uncertain pairs with low confidence are forwarded to the LLM reasoning module for detailed analysis. This hybrid design harnesses both statistical evidence for frequent alerts and the reasoning capabilities of computationally intensive LLMs, ensuring the overall efficiency of COLA in handling large volumes of alerts in practical scenarios. We evaluate COLA on three datasets collected from the production environment of a large-scale cloud platform. The experimental results show COLA achieves F1-scores from 0.901 to 0.930, outperforming state-of-the-art methods and achieving comparable efficiency. We also share our experience in deploying COLA in our real-world cloud system, Cloud X. | 翻訳日:2024-03-12 20:02:48 公開日:2024-03-11 |
# 技術的負債管理: ソフトウェアデリバリの成功への道 Technical Debt Management: The Road Ahead for Successful Software Delivery ( http://arxiv.org/abs/2403.06484v1 ) ライセンス: Link先を確認 | Paris Avgeriou, Ipek Ozkaya, Alexander Chatzigeorgiou, Marcus Ciolkowski, Neil A. Ernst, Ronald J. Koontz, Eltjo Poort, Forrest Shull | (参考訳) 技術的負債はソフトウェアプロジェクトの'サイレントキラー'と見なされることが多いが、ソフトウェア技術者の日常的な語彙の一部となっている。
システムの内部品質を意図的に、あるいは不注意に損なうことは分かっています。
技術的負債は必ずしも軽蔑的ではなく、しばしば迅速性のために役立ちます。
しかし、特にサービス寿命が長い大規模で複雑なシステムには、明確なリスクが伴います。 技術的負債を適切に管理しなければ、それらのシステムを"破産"する恐れがあります。
ソフトウェア集約型システムを開発するソフトウェアエンジニアや組織は、日々のプラクティスに技術的負債の管理を組み込まなければ、これらのシステムのより恐ろしい未来に直面している。
でも どうやって?
技術的負債の管理における過去10年間の研究と実践の成果と損失は、私たちに何を教えてくれたのでしょう?
本稿では,産業と研究コミュニティの技術的負債管理における技術の現状について検討し,その後,産業実践と研究の欠点のギャップを精査し,それらを組み合わせて,技術的負債管理が5年にわたってどのように見えるかというビジョンを定義し,明確化する。 Technical Debt, considered by many to be the 'silent killer' of software projects, has undeniably become part of the everyday vocabulary of software engineers. We know it compromises the internal quality of a system, either deliberately or inadvertently. We understand Technical Debt is not all derogatory, often serving the purpose of expediency. But, it is associated with a clear risk, especially for large and complex systems with extended service life: if we do not properly manage Technical Debt, it threatens to "bankrupt" those systems. Software engineers and organizations that develop software-intensive systems are facing an increasingly more dire future state of those systems if they do not start incorporating Technical Debt management into their day to day practice. But how? What have the wins and losses of the past decade of research and practice in managing Technical Debt taught us and where should we focus next? In this paper, we examine the state of the art in both industry and research communities in managing Technical Debt; we subsequently distill the gaps in industrial practice and the research shortcomings, and synthesize them to define and articulate a vision for what Technical Debt management looks like five years hence. | 翻訳日:2024-03-12 20:02:18 公開日:2024-03-11 |
# 置換質量関数の否定 The negation of permutation mass function ( http://arxiv.org/abs/2403.06483v1 ) ライセンス: Link先を確認 | Yongchuan Tang, Rongfei Li | (参考訳) 否定は知識表現の重要な視点である。
既存の否定法は主に確率論、エビデンス理論、複雑なエビデンス理論に適用される。
証拠理論の一般化として、ランダムな置換集合論は情報をより正確に表現することができる。
しかし、ランダムな置換集合論に否定の概念を適用する方法はまだ研究されていない。
本稿では,置換質量関数の否定について述べる。
さらに, 否定過程において, 提案手法の収束性を検証する。
各否定操作後の不確実性と相違傾向について検討した。
数値例は,提案手法の合理性を示すために用いられる。 Negation is a important perspective of knowledge representation. Existing negation methods are mainly applied in probability theory, evidence theory and complex evidence theory. As a generalization of evidence theory, random permutation sets theory may represent information more precisely. However, how to apply the concept of negation to random permutation sets theory has not been studied. In this paper, the negation of permutation mass function is proposed. Moreover, in the negation process, the convergence of proposed negation method is verified. The trends of uncertainty and dissimilarity after each negation operation are investigated. Numerical examples are used to demonstrate the rationality of the proposed method. | 翻訳日:2024-03-12 20:01:57 公開日:2024-03-11 |
# カリキュラム学習を用いたモチーフ保存グラフニューラルネットワークによる金融デフォルト予測 Financial Default Prediction via Motif-preserving Graph Neural Network with Curriculum Learning ( http://arxiv.org/abs/2403.06482v1 ) ライセンス: Link先を確認 | Daixin Wang, Zhiqiang Zhang, Yeyu Zhao, Kai Huang, Yulin Kang, Jun Zhou | (参考訳) ユーザ財務のデフォルト予測は、信用リスクの予測と管理において重要な役割を果たす。
これは、ユーザーが将来その返済に失敗する確率を予測することを目的としている。
以前の方法では主に、自身のプロファイルと振る舞いに関するユーザ個々の機能セットを抽出し、デフォルトの予測を行うバイナリ分類モデルを構築する。
しかし,これらの手法は,特に限られた情報を持つユーザに対しては,満足な結果を得ることができない。
近年、社会的関係によってデフォルト予測が改善される可能性が示唆されているが、それらは小さな部分グラフパターンのレベルで高次トポロジ構造を捉えられていない。
本稿では,モチーフ保存型グラフニューラルネットワークとカリキュラム学習(motifgnn)を併用して,原グラフから低次構造と多視点モチーフに基づくグラフから高次構造を共同学習し,金銭的デフォルト予測を行うことにより,このギャップを埋める。
具体的には,モチーフベースグラフにおける弱い接続性の問題を解決するために,モチーフベースのゲーティング機構を設計する。
元のグラフから得られた情報を良い接続性で活用し、高次構造の学習を強化する。
また,異なるサンプルのモチーフパターンが高度にバランスしていないことを考慮し,不規則なモチーフ分布を持つサンプルに着目した学習過程全体のカリキュラム学習機構を提案する。
1つの公開データセットと2つの産業データセットに関する広範囲な実験により,提案手法の有効性が実証された。 User financial default prediction plays a critical role in credit risk forecasting and management. It aims at predicting the probability that the user will fail to make the repayments in the future. Previous methods mainly extract a set of user individual features regarding his own profiles and behaviors and build a binary-classification model to make default predictions. However, these methods cannot get satisfied results, especially for users with limited information. Although recent efforts suggest that default prediction can be improved by social relations, they fail to capture the higher-order topology structure at the level of small subgraph patterns. In this paper, we fill in this gap by proposing a motif-preserving Graph Neural Network with curriculum learning (MotifGNN) to jointly learn the lower-order structures from the original graph and higherorder structures from multi-view motif-based graphs for financial default prediction. Specifically, to solve the problem of weak connectivity in motif-based graphs, we design the motif-based gating mechanism. It utilizes the information learned from the original graph with good connectivity to strengthen the learning of the higher-order structure. And considering that the motif patterns of different samples are highly unbalanced, we propose a curriculum learning mechanism on the whole learning process to more focus on the samples with uncommon motif distributions. Extensive experiments on one public dataset and two industrial datasets all demonstrate the effectiveness of our proposed method. | 翻訳日:2024-03-12 20:01:51 公開日:2024-03-11 |
# Ada-Tracker:フレーム間および適応テンプレートマッチングによる軟部組織追跡 Ada-Tracker: Soft Tissue Tracking via Inter-Frame and Adaptive-Template Matching ( http://arxiv.org/abs/2403.06479v1 ) ライセンス: Link先を確認 | Jiaxin Guo, Jiangliu Wang, Zhaoshuo Li, Tongyu Jia, Qi Dou, Yun-Hui Liu | (参考訳) 軟部組織追跡はコンピュータによる介入に不可欠である。
既存のアプローチでは、テンプレートやビデオから識別的な特徴を抽出することで、マッチを復元する。
しかし, 手術現場では, 組織の形態や外観が変化しているため, 手術現場での応用は困難である。
この問題に対処するため,我々は光学フローを利用して,画素単位の組織変形を自然に捉え,追跡されたテンプレートを適応的に補正する。
具体的には、まずフレーム間マッチング機構を実装し、連続するフレームから光の流れに基づいて、粗い関心領域を抽出する。
次に,出現変化を緩和しドリフトを緩和するために,推定値の信頼性に基づいて追跡テンプレートを更新する適応テンプレートマッチング手法を提案する。
提案手法であるada-trackerは,局所変形を捉えた短期ダイナミクスモデリングと,大域的時間補償の導入による長期ダイナミクスモデリングを両立する。
我々は、Hamlyn、SCARED、Kidney境界データセットから生成される公開SurgTベンチマークに対する我々のアプローチを評価する。
実験の結果,ada-trackerの精度は良好であり,従来よりも頑健であることがわかった。
コードはhttps://github.com/wrld/ada-trackerで入手できる。 Soft tissue tracking is crucial for computer-assisted interventions. Existing approaches mainly rely on extracting discriminative features from the template and videos to recover corresponding matches. However, it is difficult to adopt these techniques in surgical scenes, where tissues are changing in shape and appearance throughout the surgery. To address this problem, we exploit optical flow to naturally capture the pixel-wise tissue deformations and adaptively correct the tracked template. Specifically, we first implement an inter-frame matching mechanism to extract a coarse region of interest based on optical flow from consecutive frames. To accommodate appearance change and alleviate drift, we then propose an adaptive-template matching method, which updates the tracked template based on the reliability of the estimates. Our approach, Ada-Tracker, enjoys both short-term dynamics modeling by capturing local deformations and long-term dynamics modeling by introducing global temporal compensation. We evaluate our approach on the public SurgT benchmark, which is generated from Hamlyn, SCARED, and Kidney boundary datasets. The experimental results show that Ada-Tracker achieves superior accuracy and performs more robustly against prior works. Code is available at https://github.com/wrld/Ada-Tracker. | 翻訳日:2024-03-12 20:01:30 公開日:2024-03-11 |
# 犬の心臓のロバスト診断に向けて : 深部原型アライメントネットワークを用いた獣医学におけるFew-Shotセグメンテーション Toward Robust Canine Cardiac Diagnosis: Deep Prototype Alignment Network-Based Few-Shot Segmentation in Veterinary Medicine ( http://arxiv.org/abs/2403.06471v1 ) ライセンス: Link先を確認 | Jun-Young Oh, In-Gyu Lee, Tae-Eui Kam, Ji-Hoon Jeong | (参考訳) 医学人工知能(AI)の最先端領域では、診断、予測、治療介入などの分野で顕著な進歩が達成されている。
これらの進歩にもかかわらず、画像分割技術は広範囲に注釈付きデータセットを作成するという大きな障壁に直面している。
この課題に対処するため、FSSは革新的な解決策の1つとして認識されている。
FSSの研究のほとんどは人間の医療に焦点を当てているが、獣医学、特にペットケアへの応用は依然として限られている。
本研究では,dpanet (deep prototype alignment network) を用いて,犬胸部x線写真における心臓と左房の正確な分節化について検討した。
PANetアーキテクチャはバックボーンモデルとして採用され、VGG-19、ResNet-18、ResNet-50に基づく様々なエンコーダを用いて機能抽出を行う。
実験の結果,提案したDPANetが最も高い性能を示した。
2way-1ショットでは、結合(IoU)の値が0.6966で、2way-5ショットでは最高IoUの値が0.797である。
DPANetはパフォーマンスの改善を示すだけでなく、2way-5shotシナリオのトレーニング速度も向上している。
これらの結果は, 心の分節と左心房拡張をFSSを介して行うこと, 獣医学研究における新たなベンチマークを設定し, 獣医学の進歩に優れた可能性を示すこと, という, 我々のモデルが持つ異常な能力を強調している。 In the cutting-edge domain of medical artificial intelligence (AI), remarkable advances have been achieved in areas such as diagnosis, prediction, and therapeutic interventions. Despite these advances, the technology for image segmentation faces the significant barrier of having to produce extensively annotated datasets. To address this challenge, few-shot segmentation (FSS) has been recognized as one of the innovative solutions. Although most of the FSS research has focused on human health care, its application in veterinary medicine, particularly for pet care, remains largely limited. This study has focused on accurate segmentation of the heart and left atrial enlargement on canine chest radiographs using the proposed deep prototype alignment network (DPANet). The PANet architecture is adopted as the backbone model, and experiments are conducted using various encoders based on VGG-19, ResNet-18, and ResNet-50 to extract features. Experimental results demonstrate that the proposed DPANet achieves the highest performance. In the 2way-1shot scenario, it achieves the highest intersection over union (IoU) value of 0.6966, and in the 2way-5shot scenario, it achieves the highest IoU value of 0.797. The DPANet not only signifies a performance improvement, but also shows an improved training speed in the 2way-5shot scenario. These results highlight our model's exceptional capability as a trailblazing solution for segmenting the heart and left atrial enlargement in veterinary applications through FSS, setting a new benchmark in veterinary AI research, and demonstrating its superior potential to veterinary medicine advances. | 翻訳日:2024-03-12 20:01:06 公開日:2024-03-11 |
# マルチモーダル条件による3次元画像生成と編集 3D-aware Image Generation and Editing with Multi-modal Conditions ( http://arxiv.org/abs/2403.06470v1 ) ライセンス: Link先を確認 | Bo Li, Yi-ke Li, Zhi-fen He, Bin Liu, and Yun-Kun Lai | (参考訳) 単一の2d意味ラベルからの3d一貫性のある画像生成は、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ挑戦的な研究テーマである。
この分野ではいくつかの関連研究が大きな進歩を遂げているが、既存の手法のほとんどは形状と外観の歪曲性能が悪く、マルチモーダル制御が欠如している。
本稿では,純雑音,テキスト,参照画像を含む複数の条件入力を組み込んだ,エンドツーエンドの3D画像生成・編集モデルを提案する。
一方,3次元生成共役ネットワーク(GAN)の潜伏空間に潜り込み,生成過程における外観特徴と形状特徴とを分離する新たなアンタングル化戦略を提案する。
一方,マルチモーダルな条件下で柔軟な画像生成と編集を行うための統一フレームワークを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
大規模な実験により,提案手法は画像生成と編集において定性的かつ定量的に代替手法より優れていることが示された。 3D-consistent image generation from a single 2D semantic label is an important and challenging research topic in computer graphics and computer vision. Although some related works have made great progress in this field, most of the existing methods suffer from poor disentanglement performance of shape and appearance, and lack multi-modal control. In this paper, we propose a novel end-to-end 3D-aware image generation and editing model incorporating multiple types of conditional inputs, including pure noise, text and reference image. On the one hand, we dive into the latent space of 3D Generative Adversarial Networks (GANs) and propose a novel disentanglement strategy to separate appearance features from shape features during the generation process. On the other hand, we propose a unified framework for flexible image generation and editing tasks with multi-modal conditions. Our method can generate diverse images with distinct noises, edit the attribute through a text description and conduct style transfer by giving a reference RGB image. Extensive experiments demonstrate that the proposed method outperforms alternative approaches both qualitatively and quantitatively on image generation and editing. | 翻訳日:2024-03-12 20:00:38 公開日:2024-03-11 |
# Point Mamba:Octreeベースの順序付け戦略を備えた状態空間モデルに基づく新しいポイントクラウドバックボーン Point Mamba: A Novel Point Cloud Backbone Based on State Space Model with Octree-Based Ordering Strategy ( http://arxiv.org/abs/2403.06467v1 ) ライセンス: Link先を確認 | Jiuming Liu, Ruiji Yu, Yian Wang, Yu Zheng, Tianchen Deng, Weicai Ye, Hesheng Wang | (参考訳) 近年、状態空間モデル (SSM) が注目されているのは、言語領域と画像領域の両方において、その有望な性能、線形複雑性、長いシーケンスモデリング能力である。
しかし、ssmの因果性要件と点雲の不規則性と不規則性のため、ssmを点クラウドフィールドに拡張するのは自明ではない。
本稿では,因果性を考慮した順序付け機構を備えた,新しいSSMベースのポイントクラウド処理バックボーンであるPoint Mambaを提案する。
因果関係を構築するために, 生不規則点上のオクツリーに基づく順序付け戦略を設計し, z-次列内の点をグローバルにソートし, 空間的近接性を保持する。
本手法は,modelnet40分類データセットとscannetセマンティクスセグメンテーションデータセットにおいて,93.4%の精度と75.7miouのトランスフォーマに基づいて,最先端の性能を実現する。
さらに, 点mambaは線形複雑性を持ち, トランスフォーマー法よりも効率的である。
提案手法は,SSMが点雲理解において一般的なバックボーンとして機能する可能性を示す。
コードはhttps://github.com/irmvlab/point-mambaでリリースされる。 Recently, state space model (SSM) has gained great attention due to its promising performance, linear complexity, and long sequence modeling ability in both language and image domains. However, it is non-trivial to extend SSM to the point cloud field, because of the causality requirement of SSM and the disorder and irregularity nature of point clouds. In this paper, we propose a novel SSM-based point cloud processing backbone, named Point Mamba, with a causality-aware ordering mechanism. To construct the causal dependency relationship, we design an octree-based ordering strategy on raw irregular points, globally sorting points in a z-order sequence and also retaining their spatial proximity. Our method achieves state-of-the-art performance compared with transformer-based counterparts, with 93.4% accuracy and 75.7 mIOU respectively on the ModelNet40 classification dataset and ScanNet semantic segmentation dataset. Furthermore, our Point Mamba has linear complexity, which is more efficient than transformer-based methods. Our method demonstrates the great potential that SSM can serve as a generic backbone in point cloud understanding. Codes are released at https://github.com/IRMVLab/Point-Mamba. | 翻訳日:2024-03-12 20:00:18 公開日:2024-03-11 |
# RL-MSA:強化学習に基づくマルチラインバススケジューリング手法 RL-MSA: a Reinforcement Learning-based Multi-line bus Scheduling Approach ( http://arxiv.org/abs/2403.06466v1 ) ライセンス: Link先を確認 | Yingzhuo Liu | (参考訳) 複数路線バススケジューリング問題(MLBSP)は、バス会社の運用コストを削減し、乗客のサービス品質を保証するために不可欠である。
既存のアプローチは、通常、オフラインでバススケジューリングスキームを生成し、そのスキームに従ってバスをスケジュールする。
実際には、渋滞などの不確実なイベントが頻繁に発生し、事前決定されたバス計画が実現不可能になる可能性がある。
本稿では,MLBSPをマルコフ決定過程(MDP)としてモデル化する。
オフラインとオンラインの両方でバススケジューリングを行うための強化学習型マルチラインバススケジューリング手法(rl-msa)を提案する。
オフライン段階では、デッドヘッド決定を初めてバス選択決定に統合して学習問題を単純化する。
オンラインフェーズでは、オフラインフェーズで学んだポリシーに基づいたタイムウィンドウ機構によってデッドヘッド決定が行われる。
我々は,制御ポイント,バス路線,バスなどの機能を含む,新しく有用な状態機能をいくつか開発する。
バス関連機能を構築するために、バス優先スクリーニング機構を発明する。
バス会社と乗客の双方の利益を考えると、最終報酬とステップワイド報酬を組み合わせた報酬機能が考案されている。
オフライン位相における実験により, RL-MSAを使用するバスの数は, オフライン最適化手法と比較して減少した。
オンライン段階では、RL-MSAは使用したバスの数(運用コスト)を増やすことなく、タイムテーブル(サービス品質)ですべての出発時間をカバーできる。 Multiple Line Bus Scheduling Problem (MLBSP) is vital to save operational cost of bus company and guarantee service quality for passengers. Existing approaches typically generate a bus scheduling scheme in an offline manner and then schedule buses according to the scheme. In practice, uncertain events such as traffic congestion occur frequently, which may make the pre-determined bus scheduling scheme infeasible. In this paper, MLBSP is modeled as a Markov Decision Process (MDP). A Reinforcement Learning-based Multi-line bus Scheduling Approach (RL-MSA) is proposed for bus scheduling at both the offline and online phases. At the offline phase, deadhead decision is integrated into bus selection decision for the first time to simplify the learning problem. At the online phase, deadhead decision is made through a time window mechanism based on the policy learned at the offline phase. We develop several new and useful state features including the features for control points, bus lines and buses. A bus priority screening mechanism is invented to construct bus-related features. Considering the interests of both the bus company and passengers, a reward function combining the final reward and the step-wise reward is devised. Experiments at the offline phase demonstrate that the number of buses used of RL-MSA is decreased compared with offline optimization approaches. At the online phase, RL-MSA can cover all departure times in a timetable (i.e., service quality) without increasing the number of buses used (i.e., operational cost). | 翻訳日:2024-03-12 19:59:53 公開日:2024-03-11 |
# RecAI:次世代レコメンダシステムのための大規模言語モデルの活用 RecAI: Leveraging Large Language Models for Next-Generation Recommender Systems ( http://arxiv.org/abs/2403.06465v1 ) ライセンス: Link先を確認 | Jianxun Lian, Yuxuan Lei, Xu Huang, Jing Yao, Wei Xu, Xing Xie | (参考訳) 本稿では,Large Language Models (LLMs) の高度な機能を備えたレコメンデータシステムの拡張や革新を目的とした実用的なツールキットであるRecAIを紹介する。
RecAIは、Recommender AI Agent、Recommendation-oriented Language Models、Knowledge Plugin、RecExplainer、Evaluatorを含む一連のツールを提供し、多面的な視点からレコメンダシステムへのLLMの統合を容易にする。
LLMによって強化された新世代のレコメンデーターシステムは、より汎用性があり、説明可能で、会話可能で、制御可能であり、よりインテリジェントでユーザー中心のレコメンデーションエクスペリエンスを実現する。
recaiのオープンソースが、新しい高度なレコメンデーションシステムの進化を加速できることを願っている。
RecAIのソースコードは \url{https://github.com/microsoft/RecAI} で入手できる。 This paper introduces RecAI, a practical toolkit designed to augment or even revolutionize recommender systems with the advanced capabilities of Large Language Models (LLMs). RecAI provides a suite of tools, including Recommender AI Agent, Recommendation-oriented Language Models, Knowledge Plugin, RecExplainer, and Evaluator, to facilitate the integration of LLMs into recommender systems from multifaceted perspectives. The new generation of recommender systems, empowered by LLMs, are expected to be more versatile, explainable, conversational, and controllable, paving the way for more intelligent and user-centric recommendation experiences. We hope the open-source of RecAI can help accelerate evolution of new advanced recommender systems. The source code of RecAI is available at \url{https://github.com/microsoft/RecAI}. | 翻訳日:2024-03-12 19:59:31 公開日:2024-03-11 |
# 名前付きエンティティの理解方法:ニュースキャプションにコモンセンスを使う How to Understand Named Entities: Using Common Sense for News Captioning ( http://arxiv.org/abs/2403.06520v1 ) ライセンス: Link先を確認 | Ning Xu, Yanhui Wang, Tingting Zhang, Hongshuo Tian, Mohan Kankanhalli, An-An Liu | (参考訳) ニュースキャプションは、記事本体を入力としてイメージを記述することを目的としている。
それは、現実世界の人々、組織、そして場所を含む、検出された名前付きエンティティセットに大きく依存している。
本稿では,ニュースキャプションのための名前付きエンティティを理解するために,常識知識を活用する。
understand' によって、我々はニュースコンテンツと野生の常識を関連づけることであり、エージェントがそれを行うのに役立つ。
1)意味的に類似した名称の実体を区別し
2) 訓練コーパスの外部の単語を用いて名前付きエンティティを記述する。
私たちのアプローチは3つのモジュールで構成されています。
(a)フィルタモジュールは、名前付きエンティティに関する常識を2つの側面から明確にすることを目的としている。
それは何に関連していますか?
共通認識を説明的知識と関連する知識にそれぞれ分割する。
(b)モジュールをノード次数、依存性、および3つの側面から説明知識を集約し、意味的に類似した名前付きエンティティを区別する。
(c)エンリッチモジュールは、名前付きエンティティに関連知識を付加し、コモンセンス情報(アイデンティティや社会的位置など)によるエンティティ記述を充実させる。
最後に、両モジュールからの確率分布を統合してニュースキャプションを生成する。
2つの挑戦的データセット(GoodNewsとNYTimes)に対する大規模な実験は、我々の手法の優位性を実証している。
アブレーション研究と可視化は、名前付き実体を理解する上での有効性をさらに検証する。 News captioning aims to describe an image with its news article body as input. It greatly relies on a set of detected named entities, including real-world people, organizations, and places. This paper exploits commonsense knowledge to understand named entities for news captioning. By ``understand'', we mean correlating the news content with common sense in the wild, which helps an agent to 1) distinguish semantically similar named entities and 2) describe named entities using words outside of training corpora. Our approach consists of three modules: (a) Filter Module aims to clarify the common sense concerning a named entity from two aspects: what does it mean? and what is it related to?, which divide the common sense into explanatory knowledge and relevant knowledge, respectively. (b) Distinguish Module aggregates explanatory knowledge from node-degree, dependency, and distinguish three aspects to distinguish semantically similar named entities. (c) Enrich Module attaches relevant knowledge to named entities to enrich the entity description by commonsense information (e.g., identity and social position). Finally, the probability distributions from both modules are integrated to generate the news captions. Extensive experiments on two challenging datasets (i.e., GoodNews and NYTimes) demonstrate the superiority of our method. Ablation studies and visualization further validate its effectiveness in understanding named entities. | 翻訳日:2024-03-12 19:55:44 公開日:2024-03-11 |
# n$-body system の閉じこもりと非整数次元 Confinement of $N$-body systems and non-integer dimensions ( http://arxiv.org/abs/2403.06519v1 ) ライセンス: Link先を確認 | E. Garrido and A.S. Jensen | (参考訳) 外部変形した一体発振子ポテンシャルを用いた3次元量子システムのスクイーズ過程は、外部磁場がなく、次元が非整数値を取ることのできる、$d$-メソッドでも記述できる。
この研究において、まず両方の手法をN$粒子に一般化し、次元間の遷移を3$以下にする。
これが終わったら、粒子間の調和振動子相互作用を用いることで、両方の方法の完全な解析解が得られ、それらの直接比較が可能となる。
両方の手法が同じ過程を記述し、同じ基底状態エネルギーと波動関数をもたらすと仮定すると、方法間の解析的等価性が生じる。
2つの同一のボソンと3次元から2次元と1次元の遷移を縮めるために、2次元から1次元まで、両方の方法とそれらの導出分析関係の妥当性の等価性を最初にテストした。
また、3つの同一ボソンからなる系の3次元から1次元の対称的スクイーズについても検討する。
いずれの場合も、この2つの手法の導出した解析関係は非常にうまく機能することがわかった。
この事実は、特に2つ以上の粒子を持つ系において、外界でのブルート力の数値計算が数値的な観点から要求される場合、大きなスクイーズシナリオにおいても両方の手法を関連付けることができる。 The squeezing process of a three-dimensional quantum system by use of an external deformed one-body oscillator potential can also be described by the $d$-method, without external field and where the dimension can take non-integer values. In this work we first generalize both methods to $N$ particles and any transition between dimensions below $3$. Once this is done, the use of harmonic oscillator interactions between the particles allows complete analytic solutions of both methods, and a direct comparison between them is possible. Assuming that both methods describe the same process, leading to the same ground state energy and wave function, an analytic equivalence between the methods arises. The equivalence between both methods and the validity of the derived analytic relation between them is first tested for two identical bosons and for squeezing transitions from 3 to 2 and 1 dimensions, as well as from 2 to 1 dimension. We also investigate the symmetric squeezing from 3 to 1 dimensions of a system made of three identical bosons. We have in all the cases found that the derived analytic relations between the two methods work very well. This fact permits to relate both methods also for large squeezing scenarios, where the brute force numerical calculation with the external field is too much demanding from the numerical point of view, especially for systems with more than two particles. | 翻訳日:2024-03-12 19:55:16 公開日:2024-03-11 |
# 一般化エンタングルメントスワップにおけるエンタングルメントの活性化 Activation of entanglement in generalized entanglement swapping ( http://arxiv.org/abs/2403.06518v1 ) ライセンス: Link先を確認 | Pratapaditya Bej, and Abhishek Banerjee | (参考訳) 2つのベル対と一般化された測定を含む一般化された絡み合い交換過程における絡み合い活性化について検討した。
従来の理解では、遠方の当事者間の絡み合いを確立するのに必要かつ十分である。
本研究では,一般化エンタングルメントスワッピングプロセスにおいて,エンタングルメント生成における測定演算子の役割を再評価する。
本研究では,最大絡み合う2ビット初期状態と一般化された測定値に着目し,絡み合う測定演算子の必要性と充足条件について検討する。
2つのベルペア (1, 2) をアリスとボブで共有し, 3, 4) をボブとチャーリーで共有することにより, エンタングル測定は十分であるが, 空間的に分離した観測者間の絡み合いを確立するためには必須ではないことを示す。
逐次的アプローチにより、ボブが絡み合いを確立できない初期測定を行い、続いて最初の測定を後処理した後で別の測定を行い、絡み合いを確立することができる。
我々は,第2の測定を行なえる可能性を実現するために,異なる測定演算子の特定の基準を同定する。
本研究は,量子ネットワークの絡み合い分布に新たな光を流すことにより,遠方部同士の絡み合いの発生の可能性を明らかにするものである。
さらに, 連続測定が単一の測定値と比較して絡み合いを高めた例を紹介し, 絡み合いを高めるためのアプローチの実践的メリットを明らかにした。
さらに,本プロトコルは2成分量子ビット状態から高次元の最大絡み合い状態まで拡張し,その汎用性と適用性を強調している。 We study entanglement activation in a generalized entanglement swapping process involving two Bell pairs and generalized measurements. The conventional understanding posits entangled measurements as both necessary and sufficient for establishing entanglement between distant parties. In this study, we reassess the role of measurement operators in entanglement generation within a generalized entanglement swapping process. We focus on maximally entangled two-qubit initial states and generalized measurements, investigating the necessity and sufficiency conditions for entangled measurement operators. By utilizing two Bell pairs, (1, 2) shared between Alice and Bob, and (3, 4) shared between Bob and Charlie, we demonstrate that while entangled measurements are sufficient, they are not indispensable for establishing entanglement between spatially separated observers. Through a sequential approach, if Bob performs an initial measurement which is not able to establish entanglement then followed by another measurement after post-processing the first measurement it is possible to establish entanglement. We identify specific criteria for different measurement operators that enable the potential for performing a second measurement to establish entanglement. Our findings highlight the feasibility of generating entanglement between distant parties through a combination of measurements, shedding new light on entanglement distribution in quantum networks. Additionally, we showcase through illustrative examples how successive measurements enhance entanglement compared to single measurements, underscoring the practical benefits of our approach in enhancing entanglement. Moreover, our protocol extends beyond bipartite qubit states to higher-dimensional maximally entangled states, emphasizing its versatility and applicability. | 翻訳日:2024-03-12 19:54:42 公開日:2024-03-11 |
# 画像分類のためのアクティブジェネレーション Active Generation for Image Classification ( http://arxiv.org/abs/2403.06517v1 ) ライセンス: Link先を確認 | Tao Huang, Jiaqi Liu, Shan You, Chang Xu | (参考訳) 近年, 深部生成モデルの能力向上により, 画像分類精度の向上が図られている。
しかし、既存の手法では、元のデータセットに比べて不釣り合いに多くの画像を生成する必要があるが、精度はわずかに改善されている。
この計算的コストと時間のかかるプロセスは、そのようなアプローチの実践性を損なう。
本稿では,モデルの特定のニーズと特性に着目し,画像生成の効率性について考察する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
それは、現在のモデルで遭遇した困難または分類ミスのサンプルに似たイメージを作成し、これらの生成されたイメージをトレーニングセットに組み込んでモデルパフォーマンスを向上させることを目的としている。
actgenは、拡散モデルの雑音化過程において、実画像をガイドとして使用する、注意的な画像誘導技術を導入する。
モデルのクラスプロンプトに対する注意は、背景を多様化しながら、同様の前景オブジェクトの保存を保証するために活用される。
さらに, 2つの損失を用いてより困難なサンプルを生成し, 生成された画像が以前生成した画像と類似しすぎることを防止した, 勾配に基づく生成指導手法を提案する。
CIFAR と ImageNet のデータセットを用いた実験結果から,本手法は生成した画像の数を大幅に減らし,性能が向上することが示された。 Recently, the growing capabilities of deep generative models have underscored their potential in enhancing image classification accuracy. However, existing methods often demand the generation of a disproportionately large number of images compared to the original dataset, while having only marginal improvements in accuracy. This computationally expensive and time-consuming process hampers the practicality of such approaches. In this paper, we propose to address the efficiency of image generation by focusing on the specific needs and characteristics of the model. With a central tenet of active learning, our method, named ActGen, takes a training-aware approach to image generation. It aims to create images akin to the challenging or misclassified samples encountered by the current model and incorporates these generated images into the training set to augment model performance. ActGen introduces an attentive image guidance technique, using real images as guides during the denoising process of a diffusion model. The model's attention on class prompt is leveraged to ensure the preservation of similar foreground object while diversifying the background. Furthermore, we introduce a gradient-based generation guidance method, which employs two losses to generate more challenging samples and prevent the generated images from being too similar to previously generated ones. Experimental results on the CIFAR and ImageNet datasets demonstrate that our method achieves better performance with a significantly reduced number of generated images. | 翻訳日:2024-03-12 19:54:11 公開日:2024-03-11 |
# ポリシーベース強化学習によるテキスト駆動胸部x線生成の進歩 Advancing Text-Driven Chest X-Ray Generation with Policy-Based Reinforcement Learning ( http://arxiv.org/abs/2403.06516v1 ) ライセンス: Link先を確認 | Woojung Han, Chanyoung Kim, Dayun Ju, Yumin Shim, Seong Jae Hwang | (参考訳) テキストコンディショニング画像生成拡散モデルの最近の進歩は、現代医学領域、特に診断報告から胸部X線(CXR)を発生させる新たな機会を開拓し始めている。
それにもかかわらず、拡散モデルをさらに推し進めて、実際のデータの複雑さと多様性を忠実に反映したCXRを生成するためには、非自明な学習アプローチが必要であることが明らかになっている。
そこで我々は,強化学習(RL)の可能性に動機付けられたフレームワークであるCXRLを提案する。
具体的には、ポリシー勾配RLアプローチと、よく設計された複数のCXRドメイン固有の報酬モデルを統合する。
このアプローチは拡散分極軌道を誘導し、正確なcxr姿勢と病理的詳細を達成する。
ここでは、複雑な医療画像環境を考慮し、報酬メカニズムの「RL with Comparison Feedback」(RLCF)について述べる。
我々のCXRLフレームワークは、学習可能な適応条件埋め込み(ACE)と画像生成器を協調的に最適化し、モデルがより正確で知覚上のCXRの品質を得られるようにする。
我々はMIMIC-CXR-JPGデータセットを広範囲に評価し,RLに基づくチューニング手法の有効性を示した。
その結果,CXRLは病理学的に現実的なCXRを生成し,臨床シナリオに忠実なCXRを生成するための新たな標準を確立した。 Recent advances in text-conditioned image generation diffusion models have begun paving the way for new opportunities in modern medical domain, in particular, generating Chest X-rays (CXRs) from diagnostic reports. Nonetheless, to further drive the diffusion models to generate CXRs that faithfully reflect the complexity and diversity of real data, it has become evident that a nontrivial learning approach is needed. In light of this, we propose CXRL, a framework motivated by the potential of reinforcement learning (RL). Specifically, we integrate a policy gradient RL approach with well-designed multiple distinctive CXR-domain specific reward models. This approach guides the diffusion denoising trajectory, achieving precise CXR posture and pathological details. Here, considering the complex medical image environment, we present "RL with Comparative Feedback" (RLCF) for the reward mechanism, a human-like comparative evaluation that is known to be more effective and reliable in complex scenarios compared to direct evaluation. Our CXRL framework includes jointly optimizing learnable adaptive condition embeddings (ACE) and the image generator, enabling the model to produce more accurate and higher perceptual CXR quality. Our extensive evaluation of the MIMIC-CXR-JPG dataset demonstrates the effectiveness of our RL-based tuning approach. Consequently, our CXRL generates pathologically realistic CXRs, establishing a new standard for generating CXRs with high fidelity to real-world clinical scenarios. | 翻訳日:2024-03-12 19:53:48 公開日:2024-03-11 |
# データの構造: セマンティックグラフのカウンターファクトへ Structure Your Data: Towards Semantic Graph Counterfactuals ( http://arxiv.org/abs/2403.06514v1 ) ライセンス: Link先を確認 | Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos, Konstantinos Thomas, Giorgos Stamou | (参考訳) 概念に基づく対実的説明(CE)は、特定のモデル予測にどの高度な意味的特徴が寄与するかを理解するための代替シナリオを考える説明である。
本研究では,入力データに付随する意味グラフに基づくCEを提案する。
最新技術(SoTA)の概念的試みに基づいて,モデルに依存しない編集アプローチを採用し,グラフ編集距離(GED)の効率的な計算にGNNを活用する。
視覚領域に焦点をあてて、画像をシーングラフとして表現し、そのGNN埋め込みを取得し、全ての入力ペアに対するNP-ハードグラフ類似性問題を回避し、CE計算プロセスの不可欠な部分となる。
提案手法は,セマンティックアノテーションの難易度と可用性の異なる実世界のデータセットのベンチマークに応用する。
多様な分類器を試験したところ、CEは、概念的およびピクセルレベルのアプローチだけでなく、ホワイトボックスとブラックボックスの両方を含むセマンティクスに基づく従来のSoTA説明モデルよりも優れていることがわかった。
彼らの優位性は定量的かつ質的に証明され、人間によって検証され、複雑な関係の存在下で意味的エッジを活用することの重要性を強調している。
モデルに依存しないグラフベースのアプローチは広く適用可能で、容易に拡張できます。 Counterfactual explanations (CEs) based on concepts are explanations that consider alternative scenarios to understand which high-level semantic features contributed to particular model predictions. In this work, we propose CEs based on the semantic graphs accompanying input data to achieve more descriptive, accurate, and human-aligned explanations. Building upon state-of-the-art (SoTA) conceptual attempts, we adopt a model-agnostic edit-based approach and introduce leveraging GNNs for efficient Graph Edit Distance (GED) computation. With a focus on the visual domain, we represent images as scene graphs and obtain their GNN embeddings to bypass solving the NP-hard graph similarity problem for all input pairs, an integral part of the CE computation process. We apply our method to benchmark and real-world datasets with varying difficulty and availability of semantic annotations. Testing on diverse classifiers, we find that our CEs outperform previous SoTA explanation models based on semantics, including both white and black-box as well as conceptual and pixel-level approaches. Their superiority is proven quantitatively and qualitatively, as validated by human subjects, highlighting the significance of leveraging semantic edges in the presence of intricate relationships. Our model-agnostic graph-based approach is widely applicable and easily extensible, producing actionable explanations across different contexts. | 翻訳日:2024-03-12 19:53:25 公開日:2024-03-11 |
# aiシステムのためのアセット駆動脅威モデリング Asset-driven Threat Modeling for AI-based Systems ( http://arxiv.org/abs/2403.06512v1 ) ライセンス: Link先を確認 | Jan von der Assen, Jamo Sharif, Chao Feng, G\'er\^ome Bovet, Burkhard Stiller | (参考訳) 脅威モデリングは、敵による将来の損害の潜在的な領域を認識させることにより、システム開発を確実にするための一般的な手法である。
脅威モデリングの利点は、関心領域を示す能力であり、設計段階における緩和を考える方法である。
しかし、人工知能に依存するシステムの脅威モデリングはまだ十分に研究されていない。
従来の脅威モデリング手法とツールはAI関連の脅威には対処しなかったが、この融合の研究には、プロセスのガイドと自動化が可能なソリューションがまだ欠けている。
アーキテクチャ定義段階で、手作業がAI関連の脅威をガイドし、自動的に識別できることを評価するために、いくつかの専門家がヘルスケアドメインで設計されたAIシステムの脅威モデルの作成を任された。
ソリューションのユーザビリティは十分に認識されており,その結果,脅威識別に有効であることが示唆された。 Threat modeling is a popular method to securely develop systems by achieving awareness of potential areas of future damage caused by adversaries. The benefit of threat modeling lies in its ability to indicate areas of concern, paving the way to consider mitigation during the design stage. However, threat modeling for systems relying on Artificial Intelligence is still not well explored. While conventional threat modeling methods and tools did not address AI-related threats, research on this amalgamation still lacks solutions capable of guiding and automating the process, as well as providing evidence that the methods hold up in practice. To evaluate that the work at hand is able to guide and automatically identify AI-related threats during the architecture definition stage, several experts were tasked to create a threat model of an AI system designed in the healthcare domain. The usability of the solution was well-perceived, and the results indicate that it is effective for threat identification. | 翻訳日:2024-03-12 19:53:00 公開日:2024-03-11 |
# スケルトン監視エアウェイセグメンテーション Skeleton Supervised Airway Segmentation ( http://arxiv.org/abs/2403.06510v1 ) ライセンス: Link先を確認 | Mingyue Zhao and Han Li and Li Fan and Shiyuan Liu and Xiaolan Qiu and S.Kevin Zhou | (参考訳) 手術前診断や術中ナビゲーションの補助として, 長年にわたり, 航空路の完全管理が大きな成果を上げてきた。
しかしながら、フルボクセルレベルのアノテーションは労働集約的で時間を要するタスクであり、しばしば枝の欠如、分岐アノテーションの不連続性、誤ったエッジのデライン化といった問題に悩まされる。
気道抽出のためのラベル効率のよいソリューションは、ほとんど研究されていないが、主に医学的な実践を必要とする。
この目的のために,アノテーションの一貫性と精度を高めつつ,アノテーションのワークフローを簡素化し,完全なトポロジを保存する新しいスケルトンレベルのアノテーション(SkA)を導入する。
さらに,正確な気道セグメンテーションを実現するための骨格教師あり学習フレームワークを提案する。
まず、SkAからの直接学習の崩壊を回避し、SkAからの初期ラベル伝搬を実現するために、デュアルストリームバッファ推論を導入する。
そこで我々は,ハードジオメトリ対応の伝搬学習とソフトジオメトリ対応の伝搬指導を組み合わせた,補完的な伝搬学習を促進するために,幾何対応のデュアルパス伝搬フレームワーク(GDP)を構築した。
実験により,提案手法がskaと競合する手法を上回り,100%の気道で完全に監視されたベースラインモデルと同等の性能を達成し,船舶等の他の管状構造物に対してラベル効率の良いセグメンテーションを実現する上で有意な可能性を示した。 Fully-supervised airway segmentation has accomplished significant triumphs over the years in aiding pre-operative diagnosis and intra-operative navigation. However, full voxel-level annotation constitutes a labor-intensive and time-consuming task, often plagued by issues such as missing branches, branch annotation discontinuity, or erroneous edge delineation. label-efficient solutions for airway extraction are rarely explored yet primarily demanding in medical practice. To this end, we introduce a novel skeleton-level annotation (SkA) tailored to the airway, which simplifies the annotation workflow while enhancing annotation consistency and accuracy, preserving the complete topology. Furthermore, we propose a skeleton-supervised learning framework to achieve accurate airway segmentation. Firstly, a dual-stream buffer inference is introduced to realize initial label propagation from SkA, avoiding the collapse of direct learning from SkA. Then, we construct a geometry-aware dual-path propagation framework (GDP) to further promote complementary propagation learning, composed of hard geometry-aware propagation learning and soft geometry-aware propagation guidance. Experiments reveal that our proposed framework outperforms the competing methods with SKA, which amounts to only 1.96% airways, and achieves comparable performance with the baseline model that is fully supervised with 100% airways, demonstrating its significant potential in achieving label-efficient segmentation for other tubular structures, such as vessels. | 翻訳日:2024-03-12 19:52:45 公開日:2024-03-11 |
# 単モードX線導波路における集団核励起ダイナミクス Collective nuclear excitation dynamics in mono-modal x-ray waveguides ( http://arxiv.org/abs/2403.06508v1 ) ライセンス: Link先を確認 | Leon M. Lohse, Petar Andreji\'c, Sven Velten, Malte Vassholz, Charlotte Neuhaus, Ankita Negi, Anjali Panchwanee, Ilya Sergeev, Adriana P\'alffy, Tim Salditt, Ralf R\"ohlsberger | (参考訳) 同一の原子の集合体は、それらが埋め込まれた幾何学や環境によって放射線との相互作用において特異な集合性を示す。
共鳴光散乱における集合効果を研究するための驚くほどクリーンで多用途なプラットフォームは、平面X線導波路に置かれるM\"オスバウアー核である。
ここでは、これらの系において、調整可能な加速指数減衰から顕著な発振パターンまで、導波路形状や励起モードによって、実験的に異なる時間放射特性を考案し、実証する。
導波管内の集合的に励起された核状態(核励起子)の観測時空間放出特性は、統一理論モデルによりよく再現される。
本研究は, 硬X線周波数における協調放射の基礎研究から, 集合放射線パターンの工学的手法による狭帯域X線制御に至るまで, 応用の道を開くものである。 Ensembles of identical atoms exhibit peculiar collective properties in their interaction with radiation depending on geometry and environment where they are embedded in. A remarkably clean and versatile platform to study collective effects in resonant light scattering are M\"ossbauer nuclei placed in planar x-ray waveguides. Here we conceive and demonstrate experimentally distinct temporal emission characteristics in these systems, ranging from a tunable accelerated exponential decay all the way to a pronounced oscillatory emission pattern, depending on the waveguide geometry and mode of excitation. The observed temporal and spatial emission characteristics of the collectively excited nuclear state in the waveguide -- the nuclear exciton -- are well reproduced by a unified theoretical model. Our findings pave the way for applications ranging from fundamental studies of cooperative emission at hard x-ray frequencies up to new methods of narrowband x-ray control via the engineering of collective radiation patterns. | 翻訳日:2024-03-12 19:52:17 公開日:2024-03-11 |
# Vosh: リアルタイムビュー合成のためのVoxel-Meshハイブリッド表現 Vosh: Voxel-Mesh Hybrid Representation for Real-Time View Synthesis ( http://arxiv.org/abs/2403.06505v1 ) ライセンス: Link先を確認 | Chenhao Zhang, Yongyang Zhou, Lei Zhang | (参考訳) ニューラル・ラディアンス・フィールド(NeRF)は、新しい視点の現実的なイメージを合成するための顕著な方法論として登場した。
ボクセルやメッシュに基づくニューラルラディアンス表現は、それぞれ異なる利点があり、レンダリング品質または速度に優れるが、それぞれが他の面に制限がある。
そこで我々は,ビュー合成のためのハイブリッドレンダリングにおいて,ボクセルとメッシュをシームレスに組み合わせたVoshというハイブリッド表現を提案する。
VoshはNeRFのボクセルグリッドを最適化し、メッシュに置き換えた選択されたボクセルを戦略的に設計する。
したがって、単純な幾何学やテクスチャをメッシュコンポーネントを通じて高速にレンダリングできると同時に、voxelコンポーネントを利用して複雑な領域で高品質なレンダリングを可能にする。
voshの柔軟性は、ハイブリッド比を調整する機能によって示され、ユーザーはフレキシブルな使用法に基づいてレンダリング品質と速度のバランスを制御することができる。
実験結果から,本手法はレンダリング品質と速度のトレードオフを実現し,モバイルデバイス上でのリアルタイム性能が顕著であることがわかった。 The neural radiance field (NeRF) has emerged as a prominent methodology for synthesizing realistic images of novel views. While neural radiance representations based on voxels or mesh individually offer distinct advantages, excelling in either rendering quality or speed, each has limitations in the other aspect. In response, we propose a pioneering hybrid representation named Vosh, seamlessly combining both voxel and mesh components in hybrid rendering for view synthesis. Vosh is meticulously crafted by optimizing the voxel grid of NeRF, strategically with selected voxels replaced by mesh. Therefore, it excels in fast rendering scenes with simple geometry and textures through its mesh component, while simultaneously enabling high-quality rendering in intricate regions by leveraging voxel component. The flexibility of Vosh is showcased through the ability to adjust hybrid ratios, providing users the ability to control the balance between rendering quality and speed based on flexible usage. Experimental results demonstrates that our method achieves commendable trade-off between rendering quality and speed, and notably has real-time performance on mobile devices. | 翻訳日:2024-03-12 19:52:04 公開日:2024-03-11 |
# 文脈自由文法を用いたpythonプログラムの自動生成 Automatic Generation of Python Programs Using Context-Free Grammars ( http://arxiv.org/abs/2403.06503v1 ) ライセンス: Link先を確認 | Kamel Yamani, Marwa Na\"ir, Riyadh Baghdadi | (参考訳) 近年、データは新しい金として登場し、インテリジェントなシステムを作るための強力なツールとなっている。
しかし、特にコードに関して、高品質なデータを取得することは難しい。
そこで我々は,文脈自由文法を用いてランダムなPythonプログラムを生成するTinyPy Generatorを開発した。
生成されたプログラムは、構築によって正しいことが保証される。
我々のシステムは、コードを再帰的に生成するためにカスタム生産ルール(BNFフォーマット)を使用する。
これにより、代入のみを含むコードから条件付きとループを含むより複雑なコードまで、異なるレベルの複雑さを持つコードを生成することができます。
提案するツールは,広範囲のアプリケーションに対して有効な,無益な大規模pythonコード生成を可能にする。
TinyPy Generatorは特に機械学習の分野で有用であり、Python言語モデルをトレーニングするための大量のPythonコードを生成することができる。
さらに、プログラミング言語を研究している研究者は、このツールを使って実験用のデータセットを作成し、コードインタプリタやコンパイラの堅牢性を検証することができる。
既存の研究とは異なり、我々は実装をオープンソース化しました。
これにより、ユーザニーズに応じたカスタマイズが可能になり、他の言語にも使用可能な拡張が可能になる。 In recent years, data has emerged as the new gold, serving as a powerful tool for creating intelligent systems. However, procuring high-quality data remains challenging, especially for code. To address this, we developed TinyPy Generator, a tool that generates random Python programs using a context-free grammar. The generated programs are guaranteed to be correct by construction. Our system uses custom production rules (in the Backus-Naur Form (BNF) format) to recursively generate code. This allows us to generate code with different levels of complexity, ranging from code containing only assignments to more complex code containing conditionals and loops. Our proposed tool enables effortless large-scale Python code generation, beneficial for a wide range of applications. TinyPy Generator is particularly useful in the field of machine learning, where it can generate substantial amounts of Python code for training Python language models. Additionally, researchers who are studying programming languages can utilize this tool to create datasets for their experiments, which can help validate the robustness of code interpreters or compilers. Unlike existing research, we have open-sourced our implementation. This allows customization according to user needs and extends potential usage to other languages. | 翻訳日:2024-03-12 19:51:44 公開日:2024-03-11 |
# 3次元オブジェクト検出のための3次元意味セグメンテーション駆動表現 3D Semantic Segmentation-Driven Representations for 3D Object Detection ( http://arxiv.org/abs/2403.06501v1 ) ライセンス: Link先を確認 | Hayeon O and Kunsoo Huh | (参考訳) 自律運転では、3D検出は2D検出と比較して、経路計画や動き推定を含む下流タスクにより正確な情報を提供する。
そのため,3次元検出研究の必要性が高まっている。
しかし、カメラから得られた単視点画像と多視点画像と深度マップは、幾何情報がないため、他のモードベース検出器と比較して検出精度は比較的低かった。
提案するマルチモーダル3dオブジェクト検出は,画像から得られた意味的特徴と点雲から得られた幾何学的特徴を組み合わせるが,異なる領域に存在するデータを融合し,それらの間の同期を行う統一表現を定義することは困難である。
本稿では,既存のLiDARのみに基づく3D検出の十分な意味情報を確保するためのプレゼンテーションとして,セサミを提案する。
実験の結果,kittiオブジェクト検出ベンチマークでは,自動車の難易度や性能改善のレベルが従来よりも優れていた。
私たちのコードはhttps://github.com/HAMA-DL-dev/SeSameで利用可能です。 In autonomous driving, 3D detection provides more precise information to downstream tasks, including path planning and motion estimation, compared to 2D detection. Therefore, the need for 3D detection research has emerged. However, although single and multi-view images and depth maps obtained from the camera were used, detection accuracy was relatively low compared to other modality-based detectors due to the lack of geometric information. The proposed multi-modal 3D object detection combines semantic features obtained from images and geometric features obtained from point clouds, but there are difficulties in defining unified representation to fuse data existing in different domains and synchronization between them. In this paper, we propose SeSame : point-wise semantic feature as a new presentation to ensure sufficient semantic information of the existing LiDAR-only based 3D detection. Experiments show that our approach outperforms previous state-of-the-art at different levels of difficulty in car and performance improvement on the KITTI object detection benchmark. Our code is available at https://github.com/HAMA-DL-dev/SeSame | 翻訳日:2024-03-12 19:51:26 公開日:2024-03-11 |
# 格子内における古典的液滴のトポロジー輸送 Topological transport of a classical droplet in a lattice of time ( http://arxiv.org/abs/2403.06500v1 ) ライセンス: Link先を確認 | Tapio Simula, Niels Kj{\ae}rgaard, Tilman Pfau | (参考訳) チューレスチャージポンプ(Thouless charge pump)は、トポロジーに依存する量子機械装置である。
それらは単一の量子精度で空間格子内の量子物質を運ぶ手段を提供する。
連続的な空間変換対称性を自発的に破る空間結晶とは対照的に、時空結晶は時間格子を形成し、離散的な時間変換対称性を破る新しい物質状態として出現している。
空間超格子中の電子と中性原子の位相的に保護された量子化輸送を可能にするthoulessポンプの有用性は、時間結晶に対応するデバイスが存在するかどうかに疑問を呈する。
ここでは, 液体の液滴を時間格子で前後に輸送することにより, 時間固体に対してトポロジカルポンプが実現可能であることを示し, 揚水過程を特徴づけるトポロジカル指標を測定した。
合成時間次元の古典的時間結晶を利用すると、thoulessチャージポンプを支える量子トンネルを回避できる。
この結果は空間ではなく時間を通してトポロジカルポンピングを確立し、時間結晶の応用の道を開いた。 Thouless charge pumps are quantum mechanical devices whose operation relies on topology. They provide the means for transporting quantum matter in space lattices with a single quantum precision. Contrasting space crystals that spontaneously break a continuous spatial translation symmetry and form crystals in space,time crystals have emerged as novel states of matter that organize into time lattices and spontaneously break a discrete time translation symmetry. The utility of Thouless pumps that enable topologically protected quantised transport of electrons and neutral atoms in spatial superlattices leads to the question if corresponding devices exist for time crystals? Here we show that topological pumps can be realized for time solids by transporting droplets of a liquid forward and backward in time lattices and we measure the topological index that characterises such pumping processes. By exploiting a synthetic time dimension classical time crystals can circumvent the quantum tunneling that underpins Thouless charge pumps. Our results establish topological pumping through time instead of space and pave the way for applications of time crystals. | 翻訳日:2024-03-12 19:51:09 公開日:2024-03-11 |
# 離散・混合・連続変数におけるNML符号に基づく観測不能な共通原因の検出 Detection of Unobserved Common Causes based on NML Code in Discrete, Mixed, and Continuous Variables ( http://arxiv.org/abs/2403.06499v1 ) ライセンス: Link先を確認 | Masatoshi Kobayashi, Kohei Miyagichi, Shin Matsushima | (参考訳) 観測データから観察されていない共通の原因が存在する場合の因果発見は重要な問題であるが、難しい問題である。
2つの確率変数間の因果関係を次の4つのカテゴリに分類し、観察されたデータから1つを特定することを目的としている。
この問題に対処するために既存の手法が提案されているが、それらの方程式モデルの形で仮定を満たすためには観測されていない変数が必要である。
先行研究 (kobayashi et al., 2022) では, 個別データと名前付きクラウドに対して, このような仮定を伴わない最初の因果発見法が提案されている。
Normalized Maximum Likelihood (NML) Codeを使用して、CLOUDは、観測されたデータの最小コード長をモデル候補のセットから取得するモデルを選択する。
本稿では、CLOUDを拡張して、離散的、混合的、連続的な様々なデータ型に適用する。
我々はモデル選択の観点からCLOUDの整合性を示す理論的解析を行っただけでなく、CLOUDは合成データと実世界のデータの両方に関する広範な実験によって因果関係を推定する既存の手法よりも効果的であることを示した。 Causal discovery in the presence of unobserved common causes from observational data only is a crucial but challenging problem. We categorize all possible causal relationships between two random variables into the following four categories and aim to identify one from observed data: two cases in which either of the direct causality exists, a case that variables are independent, and a case that variables are confounded by latent confounders. Although existing methods have been proposed to tackle this problem, they require unobserved variables to satisfy assumptions on the form of their equation models. In our previous study (Kobayashi et al., 2022), the first causal discovery method without such assumptions is proposed for discrete data and named CLOUD. Using Normalized Maximum Likelihood (NML) Code, CLOUD selects a model that yields the minimum codelength of the observed data from a set of model candidates. This paper extends CLOUD to apply for various data types across discrete, mixed, and continuous. We not only performed theoretical analysis to show the consistency of CLOUD in terms of the model selection, but also demonstrated that CLOUD is more effective than existing methods in inferring causal relationships by extensive experiments on both synthetic and real-world data. | 翻訳日:2024-03-12 19:50:39 公開日:2024-03-11 |
# Sinusoidal Threshold-based Semi-supervised Methodと骨粗しょう診断のための拡散モデルの導入 Incorporating Improved Sinusoidal Threshold-based Semi-supervised Method and Diffusion Models for Osteoporosis Diagnosis ( http://arxiv.org/abs/2403.06498v1 ) ライセンス: Link先を確認 | Wenchi Ke | (参考訳) オステオポローシス(osteoporosis)は、患者の生活の質に深刻な影響を及ぼす一般的な骨格疾患である。
従来の骨ポローシスの診断方法は高価で複雑である。
本論文で提案する拡散モデルとクラス閾値正弦波崩壊に基づく半教師付きモデルでは, 有用性, 正確性, 低コストの利点を有する患者の画像データに基づいて骨粗しょう症を自動的に診断することができる。
従来の半教師付きモデルとは異なり、この論文で使われるラベルなしのデータはすべて拡散モデルによって生成される。
実際のラベル付きデータと比較すると,拡散モデルにより生成された合成データの性能は向上した。
さらに,半教師付きモデルがより高速に収束し,その性能を向上させるための擬似ラベル閾値調整機構である正弦波閾値減衰法を提案する。
具体的には、749の歯科用パノラマ画像を含むデータセット上で試験を行い、その検出性能を最大とし、80.10%の精度が得られる。 Osteoporosis is a common skeletal disease that seriously affects patients' quality of life. Traditional osteoporosis diagnosis methods are expensive and complex. The semi-supervised model based on diffusion model and class threshold sinusoidal decay proposed in this paper can automatically diagnose osteoporosis based on patient's imaging data, which has the advantages of convenience, accuracy, and low cost. Unlike previous semi-supervised models, all the unlabeled data used in this paper are generated by the diffusion model. Compared with real unlabeled data, synthetic data generated by the diffusion model show better performance. In addition, this paper proposes a novel pseudo-label threshold adjustment mechanism, Sinusoidal Threshold Decay, which can make the semi-supervised model converge more quickly and improve its performance. Specifically, the method is tested on a dataset including 749 dental panoramic images, and its achieved leading detect performance and produces a 80.10% accuracy. | 翻訳日:2024-03-12 19:50:16 公開日:2024-03-11 |
# 自己双対コヒーレントエラーによる非伝統的トポロジカル混合状態遷移と臨界相 Unconventional topological mixed-state transition and critical phase induced by self-dual coherent errors ( http://arxiv.org/abs/2403.06553v1 ) ライセンス: Link先を確認 | Yu-Hsueh Chen and Tarun Grover | (参考訳) 位相相は、エノン凝縮によって駆動される相転移を受けることができる。
そのようなメカニズムに対する潜在的な障害は、非自明な相互統計量を持つオンの間に対称性が存在する場合に生じる。
ここでは、非自明な相互統計値を持つ任意のオンを増殖させるようなエラーを受けるトーリックコードを考える。
三角不等式を用いて、電磁双対性と部分転移対称性が存在する場合、トポロジカル位相からデコヒーレンス誘起相転移は、かなり不規則で、エノン凝縮の標準規則を超えなければならないことを示す。
そのような物理学を探求するために、我々はまずトーリック符号を、クラウス作用素が x+z に比例する自己双対量子チャネルに与える。
二重ヒルベルト空間において密度行列を純粋な状態として見るとき、位相位相相は最大誤差率まで安定であることが分かる。
非慣習的な遷移にアクセスするために、自己双対チャネルに従属する摂動トーリック符号を検討し、臨界誤差率を超えて位相相が破壊され、オンがパワーロー凝縮のみとなる臨界位相が生じるという数値的証拠を見つける。 A topological phase can undergo a phase transition driven by anyon condensation. A potential obstruction to such a mechanism could arise if there exists a symmetry between anyons that have non-trivial mutual statistics. Here we consider toric code subjected to errors that tend to proliferate anyons with non-trivial mutual statistics. Using triangle inequality, we show that in the presence of electromagnetic duality and a partial-transpose symmetry, a decoherence induced phase transition out of the topological phase must be rather unconventional and lie beyond standard rules of anyon condensation. To explore such physics, we first subject toric code to a self-dual quantum channel where Kraus operators are proportional to X+Z. We find that the topological phase is stable up to the maximal error rate, when viewing density matrix as a pure state in the double Hilbert space. To access an unconventional transition, we then consider a perturbed toric code subjected to the self-dual channel, and find numerical evidence that beyond a critical error rate, the topological phase is destroyed resulting in a critical phase where anyons are only power-law condensed. | 翻訳日:2024-03-12 19:45:26 公開日:2024-03-11 |
# サーベイランス映像における物体投下挙動の検出 Detection of Object Throwing Behavior in Surveillance Videos ( http://arxiv.org/abs/2403.06552v1 ) ライセンス: Link先を確認 | Ivo P.C. Kersten, Erkut Akdag, Egor Bondarev, Peter H. N. De With | (参考訳) 異常行動検出はコンピュータビジョンにおける困難な研究領域である。
この領域の進歩は、監視カメラフィードによる危険行動の自動検出を可能にする。
他の研究でしばしば見落とされがちな危険な行動は、公共の安全を高めるスマートシティプロジェクトのユニークな要件の1つである交通流の投球行動である。
本稿では,ディープラーニングを用いた監視ビデオにおける行動検出手法を提案する。
現在、アクションを投げるデータセットは公開されていない。
スマートシティ・プロジェクトのユースケースに対処するため,我々はまず,歩行者,自転車,カードライバーなどの交通参加者が行うスロー動作の271本のビデオと,スローアクションを行わずに130本のビデオからなる,新しい「スロー動作」データセットを作成しました。
第2に,UCF-CrimeおよびThrowing-Actionデータセットにおける異常検出のための特徴抽出器の性能の比較を行った。
提案する特徴抽出器は,Convolutional 3D (C3D) ネットワーク,Inflated 3D ConvNet (I3D) ネットワーク,MFNet (Multi-Fiber Network) である。
最後に,Adadeltaの代わりにAdamオプティマイザを適用し,交通の正常な状況をカバーする平均正規損失関数を提案することにより,異常検出アルゴリズムの性能を向上させる。
どちらの側面も異常検出性能が向上する。
さらに,提案する平均正規損失関数は,複合データセットの誤警報率を低下させる。
実験結果は, 投球動作データセットのroc曲線86.10, 複合データセットの80.13の範囲に到達した。 Anomalous behavior detection is a challenging research area within computer vision. Progress in this area enables automated detection of dangerous behavior using surveillance camera feeds. A dangerous behavior that is often overlooked in other research is the throwing action in traffic flow, which is one of the unique requirements of our Smart City project to enhance public safety. This paper proposes a solution for throwing action detection in surveillance videos using deep learning. At present, datasets for throwing actions are not publicly available. To address the use-case of our Smart City project, we first generate the novel public 'Throwing Action' dataset, consisting of 271 videos of throwing actions performed by traffic participants, such as pedestrians, bicyclists, and car drivers, and 130 normal videos without throwing actions. Second, we compare the performance of different feature extractors for our anomaly detection method on the UCF-Crime and Throwing-Action datasets. The explored feature extractors are the Convolutional 3D (C3D) network, the Inflated 3D ConvNet (I3D) network, and the Multi-Fiber Network (MFNet). Finally, the performance of the anomaly detection algorithm is improved by applying the Adam optimizer instead of Adadelta, and proposing a mean normal loss function that covers the multitude of normal situations in traffic. Both aspects yield better anomaly detection performance. Besides this, the proposed mean normal loss function lowers the false alarm rate on the combined dataset. The experimental results reach an area under the ROC curve of 86.10 for the Throwing-Action dataset, and 80.13 on the combined dataset, respectively. | 翻訳日:2024-03-12 19:45:00 公開日:2024-03-11 |
# OMH: 教師なしセマンティックセグメンテーションのための最適整合階層による構造的疎結合 OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2403.06546v1 ) ライセンス: Link先を確認 | Baran Ozaydin, Tong Zhang, Deblina Bhattacharjee, Sabine S\"usstrunk, Mathieu Salzmann | (参考訳) 教師なしセマンティクスセグメンテーション(unsupervised semantic segmentation、uss)は、事前に定義されたラベルに依存しないイメージセグメンテーションである。
既存の手法では、自己教師付きモデルとクラスタリングの特定の先行機能を利用する。
しかし、彼らのクラスタリングの目標は、トレーニング中の機能の最適化には関わらない。
さらに、USSに明確なクラス定義がないため、その結果のセグメントはクラスタリングの目的とうまく一致しない可能性がある。
本稿では,上記の問題を同時に解決するために,omh(optimizely matched hierarchy)と呼ばれる新しい手法を提案する。
提案手法のコアは特徴空間に構造化された空間を付与することにある。
このスパーシティの構造は、我々の階層構造(omh)に由来する。
これを実現するために,並列クラスタ間のソフトだがスパースな階層構造をOptimal Transportを通して学習する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
我々はOMHの利点を多岐にわたる実験で実証した。
私たちはコードを公開します。 Unsupervised Semantic Segmentation (USS) involves segmenting images without relying on predefined labels, aiming to alleviate the burden of extensive human labeling. Existing methods utilize features generated by self-supervised models and specific priors for clustering. However, their clustering objectives are not involved in the optimization of the features during training. Additionally, due to the lack of clear class definitions in USS, the resulting segments may not align well with the clustering objective. In this paper, we introduce a novel approach called Optimally Matched Hierarchy (OMH) to simultaneously address the above issues. The core of our method lies in imposing structured sparsity on the feature space, which allows the features to encode information with different levels of granularity. The structure of this sparsity stems from our hierarchy (OMH). To achieve this, we learn a soft but sparse hierarchy among parallel clusters through Optimal Transport. Our OMH yields better unsupervised segmentation performance compared to existing USS methods. Our extensive experiments demonstrate the benefits of OMH when utilizing our differentiable paradigm. We will make our code publicly available. | 翻訳日:2024-03-12 19:44:33 公開日:2024-03-11 |
# ReStainGAN: IHC をIF ドメイン変換に活用したインサイリコデータ生成 ReStainGAN: Leveraging IHC to IF Stain Domain Translation for in-silico Data Generation ( http://arxiv.org/abs/2403.06545v1 ) ライセンス: Link先を確認 | Dominik Winter, Nicolas Triltsch, Philipp Plewa, Marco Rosati, Thomas Padel, Ross Hill, Markus Schick, Nicolas Brieu | (参考訳) in-silicoデータセットの作成は、計算病理学において異なる染色パターンを持つ新しいドメインに既存のアノテーションの有用性を広げることができる。
そのため、教師付きディープラーニングモデルをトレーニングするために必要な、大規模かつピクセルの正確なデータセットの構築に関連するコストを大幅に削減する可能性がある。
免疫蛍光 (IF) 画像において, 形態特異的なIHC染色を別の画像チャネルに切り離して, シリカ内免疫組織化学(IHC)画像を生成する新しい手法を提案する。
提案手法は,生成したin-silicoデータセット上での核セグメンテーションモデルのトレーニングによって証明されたベースライン手法を質的かつ定量的に上回る。 The creation of in-silico datasets can expand the utility of existing annotations to new domains with different staining patterns in computational pathology. As such, it has the potential to significantly lower the cost associated with building large and pixel precise datasets needed to train supervised deep learning models. We propose a novel approach for the generation of in-silico immunohistochemistry (IHC) images by disentangling morphology specific IHC stains into separate image channels in immunofluorescence (IF) images. The proposed approach qualitatively and quantitatively outperforms baseline methods as proven by training nucleus segmentation models on the created in-silico datasets. | 翻訳日:2024-03-12 19:44:13 公開日:2024-03-11 |
# 3dref: rgbおよびlidarデータの反射検出のための3dデータセットおよびベンチマーク 3DRef: 3D Dataset and Benchmark for Reflection Detection in RGB and Lidar Data ( http://arxiv.org/abs/2403.06538v1 ) ライセンス: Link先を確認 | Xiting Zhao and S\"oren Schwertfeger | (参考訳) 反射面は、ロボットと自律システムにおける信頼性の高い3dマッピングと認識のための永続的な課題である。
しかし、既存のリフレクションデータセットとベンチマークはスパース2Dデータに限られている。
本稿では, マルチリターンライダー, RGB画像, および2D/3Dセマンティックラベルの5万点以上のサンプルを含む, 様々な反射を伴う屋内環境における最初の大規模3次元反射検出データセットを提案する。
textured 3d ground truth meshsは、ポイントクラウドの自動ラベリングにより、正確な基底真理アノテーションを提供する。
詳細なベンチマークでは、3つのLidarポイントクラウドセグメンテーション手法と、ガラスとミラー検出のための現在の最先端画像セグメンテーションネットワークを評価している。
提案したデータセットは, 高精度なグローバルアライメント, マルチモーダルデータ, 多様な反射物体や材料を備えた総合的なテストベッドを提供することにより, 反射検出を推し進める。
今後、信頼性の高い反射検出に向けた研究が進められる。
データセットはhttp://3dref.github.ioで公開されている。 Reflective surfaces present a persistent challenge for reliable 3D mapping and perception in robotics and autonomous systems. However, existing reflection datasets and benchmarks remain limited to sparse 2D data. This paper introduces the first large-scale 3D reflection detection dataset containing more than 50,000 aligned samples of multi-return Lidar, RGB images, and 2D/3D semantic labels across diverse indoor environments with various reflections. Textured 3D ground truth meshes enable automatic point cloud labeling to provide precise ground truth annotations. Detailed benchmarks evaluate three Lidar point cloud segmentation methods, as well as current state-of-the-art image segmentation networks for glass and mirror detection. The proposed dataset advances reflection detection by providing a comprehensive testbed with precise global alignment, multi-modal data, and diverse reflective objects and materials. It will drive future research towards reliable reflection detection. The dataset is publicly available at http://3dref.github.io | 翻訳日:2024-03-12 19:43:58 公開日:2024-03-11 |
# AIのオープン性を考える: 良いインテントは悪用されるか? On the Consideration of AI Openness: Can Good Intent Be Abused? ( http://arxiv.org/abs/2403.06537v1 ) ライセンス: Link先を確認 | Yeeun Kim, Eunkyung Choi, Hyunjun Kim, Hongseok Oh, Hyunseo Shin, Wonseok Hwang | (参考訳) 開放性は科学の発展に不可欠である。
特に、最近のAIの急速な進歩は、さまざまなオープンソースモデル、データセット、ライブラリによってのみ可能になっている。
しかし、この開放性は、テクノロジーが社会的に有害な目的のために自由に使用できることを意味する。
オープンソースモデルやデータセットは悪意のある目的に使用できるか?
もしそうなら、そのような目標にテクノロジーを適用するのがどのくらい簡単か?
ここでは、個々の決定が社会に重大な影響を及ぼすことのできる領域である法的領域におけるケーススタディを行う。
この目的のために、200の韓国の先例に基づく200の質問とそれに対応する犯罪活動の回答からなるデータセットであるEVEを構築した。
広く受け入れられているオープンソースのLSMは、当初非倫理的な質問に答えることを拒否したが、EVEで簡単に調整でき、犯罪行為に関する非倫理的で情報的な回答を提供できることがわかった。
これは、オープンソース技術が科学の発展に寄与するが、悪質なユースケースを緩和するために注意が必要であることを意味する。
警告: この論文には非倫理的な内容が含まれている。 Openness is critical for the advancement of science. In particular, recent rapid progress in AI has been made possible only by various open-source models, datasets, and libraries. However, this openness also means that technologies can be freely used for socially harmful purposes. Can open-source models or datasets be used for malicious purposes? If so, how easy is it to adapt technology for such goals? Here, we conduct a case study in the legal domain, a realm where individual decisions can have profound social consequences. To this end, we build EVE, a dataset consisting of 200 examples of questions and corresponding answers about criminal activities based on 200 Korean precedents. We found that a widely accepted open-source LLM, which initially refuses to answer unethical questions, can be easily tuned with EVE to provide unethical and informative answers about criminal activities. This implies that although open-source technologies contribute to scientific progress, some care must be taken to mitigate possible malicious use cases. Warning: This paper contains contents that some may find unethical. | 翻訳日:2024-03-12 19:43:41 公開日:2024-03-11 |
# 任意スケール超解像用マルチスケールインプリシット変圧器の再パラメータ化 Multi-Scale Implicit Transformer with Re-parameterize for Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2403.06536v1 ) ライセンス: Link先を確認 | Jinchen Zhu, Mingjian Zhang, Ling Zheng, Shizhuang Weng | (参考訳) 近年,暗黙的ニューラル表現に基づく手法は,任意のスケール超解像(ASSR)に優れた性能を示した。
これらの手法は潜伏符号を生成することで画像の特徴を表現するが、超解像の異なる拡大係数に適応することは困難であり、その性能に深刻な影響を及ぼす。
そこで我々は,MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)を組み合わせたMSIT(Multi-Scale Implicit Transformer)を設計した。
中でもMSNOは,特徴強調,マルチスケール特性抽出,マルチスケール特性マージによるマルチスケール潜在符号を得る。
MSSAは遅延符号のマルチスケール特性をさらに強化し、性能が向上する。
さらに,ネットワークの性能向上のために,ネットワークの学習情報の多様性を向上させるための累積学習戦略と組み合わせたRe-Interaction Module (RIM)を提案する。
提案手法は,asrで初めてマルチスケール特性を導入し,msitの有効性を検証するための広範な実験を行い,任意の超解像タスクにおいて最先端の性能を実現する。 Recently, the methods based on implicit neural representations have shown excellent capabilities for arbitrary-scale super-resolution (ASSR). Although these methods represent the features of an image by generating latent codes, these latent codes are difficult to adapt for different magnification factors of super-resolution, which seriously affects their performance. Addressing this, we design Multi-Scale Implicit Transformer (MSIT), consisting of an Multi-scale Neural Operator (MSNO) and Multi-Scale Self-Attention (MSSA). Among them, MSNO obtains multi-scale latent codes through feature enhancement, multi-scale characteristics extraction, and multi-scale characteristics merging. MSSA further enhances the multi-scale characteristics of latent codes, resulting in better performance. Furthermore, to improve the performance of network, we propose the Re-Interaction Module (RIM) combined with the cumulative training strategy to improve the diversity of learned information for the network. We have systematically introduced multi-scale characteristics for the first time in ASSR, extensive experiments are performed to validate the effectiveness of MSIT, and our method achieves state-of-the-art performance in arbitrary super-resolution tasks. | 翻訳日:2024-03-12 19:43:24 公開日:2024-03-11 |
# 分散・生涯適応型マルチエージェント協調学習 Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning ( http://arxiv.org/abs/2403.06535v1 ) ライセンス: Link先を確認 | Shuo Tang, Rui Ye, Chenxin Xu, Xiaowen Dong, Siheng Chen, Yanfeng Wang | (参考訳) 分散化および生涯適応型マルチエージェント協調学習は、複数のエージェント間のコラボレーションを中央サーバなしで強化することを目的としており、各エージェントは時間とともにさまざまなタスクを解決している。
効率的に協力するためには、エージェントは:
一 自律的に分散的に有益な協力関係を識別すること
二 動的に変化する課題観察に適応すること。
本稿では,動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
自律的な協調関係学習を促進するために,外部の事前情報を必要としない分散グラフ構造学習アルゴリズムを提案する。
動的タスクへの適応を容易にするため,記憶容量を有限に保ちながら,エージェントの蓄積した学習履歴と知識をキャプチャするメモリユニットを設計する。
システムの表現能力と計算効率をさらに強化するため,数理最適化とニューラルネットワークの利点を活かし,アルゴリズムの展開を行う。
これにより、エージェントはトレーニングタスクの監督を通じて‘学習者が協力する’ことができる。
我々の理論的分析は,少数のコミュニケーションラウンドにおいて,エージェント間コラボレーションがコミュニケーション効率が高いことを検証している。
実験結果は,mseの98.80%削減と分類精度の188.87%向上を実現し,協調戦略の発見と動的学習シナリオへの適応を促進する能力を検証する。
当社の作業は,インテリジェントで分散化された動的マルチエージェントシステムに向けた今後の作業を促進する基盤技術として機能することを期待しています。
コードはhttps://github.com/ShuoTang123/DeLAMAで入手できる。 Decentralized and lifelong-adaptive multi-agent collaborative learning aims to enhance collaboration among multiple agents without a central server, with each agent solving varied tasks over time. To achieve efficient collaboration, agents should: i) autonomously identify beneficial collaborative relationships in a decentralized manner; and ii) adapt to dynamically changing task observations. In this paper, we propose DeLAMA, a decentralized multi-agent lifelong collaborative learning algorithm with dynamic collaboration graphs. To promote autonomous collaboration relationship learning, we propose a decentralized graph structure learning algorithm, eliminating the need for external priors. To facilitate adaptation to dynamic tasks, we design a memory unit to capture the agents' accumulated learning history and knowledge, while preserving finite storage consumption. To further augment the system's expressive capabilities and computational efficiency, we apply algorithm unrolling, leveraging the advantages of both mathematical optimization and neural networks. This allows the agents to `learn to collaborate' through the supervision of training tasks. Our theoretical analysis verifies that inter-agent collaboration is communication efficient under a small number of communication rounds. The experimental results verify its ability to facilitate the discovery of collaboration strategies and adaptation to dynamic learning scenarios, achieving a 98.80% reduction in MSE and a 188.87% improvement in classification accuracy. We expect our work can serve as a foundational technique to facilitate future works towards an intelligent, decentralized, and dynamic multi-agent system. Code is available at https://github.com/ShuoTang123/DeLAMA. | 翻訳日:2024-03-12 19:43:03 公開日:2024-03-11 |
# SARDet-100K:大規模SARオブジェクト検出のためのオープンソースベンチマークとツールKitを目指して SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection ( http://arxiv.org/abs/2403.06534v1 ) ライセンス: Link先を確認 | Yuxuan Li, Xiang Li, Weijie Li, Qibin Hou, Li Liu, Ming-Ming Cheng, Jian Yang | (参考訳) SAR(Synthetic Aperture Radar)オブジェクト検出は、置換不能な全天候撮像能力のため、最近注目されている。
しかし、この研究分野は、限られた公開データセット(主にモノカテゴリオブジェクトのみを持つ2K画像を含む)とアクセス不能なソースコードの両方に悩まされている。
これらの課題に対処するため、我々は大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
我々のデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果であり、研究目的のために大規模で多様なデータセットを提供する。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
この高品質なデータセットを用いて、我々は総合的な実験を行い、SARオブジェクト検出において重要な課題を明らかにした。
これらのギャップを埋めるために、データ入力、ドメイン遷移、モデルマイグレーションの観点から問題に取り組む新しいMulti-Stage with Filter Augmentation(MSFA)事前トレーニングフレームワークを提案する。
提案手法は,sarオブジェクト検出モデルの性能を著しく向上させ,多様なモデルにまたがる特異な一般化性と柔軟性を示す。
この研究は、SARオブジェクト検出のさらなる進歩の道を開くことを目的としている。
データセットとコードはhttps://github.com/zcablii/SARDet_100Kで公開されている。 Synthetic Aperture Radar (SAR) object detection has gained significant attention recently due to its irreplaceable all-weather imaging capabilities. However, this research field suffers from both limited public datasets (mostly comprising <2K images with only mono-category objects) and inaccessible source code. To tackle these challenges, we establish a new benchmark dataset and an open-source method for large-scale SAR object detection. Our dataset, SARDet-100K, is a result of intense surveying, collecting, and standardizing 10 existing SAR detection datasets, providing a large-scale and diverse dataset for research purposes. To the best of our knowledge, SARDet-100K is the first COCO-level large-scale multi-class SAR object detection dataset ever created. With this high-quality dataset, we conducted comprehensive experiments and uncovered a crucial challenge in SAR object detection: the substantial disparities between the pretraining on RGB datasets and finetuning on SAR datasets in terms of both data domain and model structure. To bridge these gaps, we propose a novel Multi-Stage with Filter Augmentation (MSFA) pretraining framework that tackles the problems from the perspective of data input, domain transition, and model migration. The proposed MSFA method significantly enhances the performance of SAR object detection models while demonstrating exceptional generalizability and flexibility across diverse models. This work aims to pave the way for further advancements in SAR object detection. The dataset and code is available at https://github.com/zcablii/SARDet_100K. | 翻訳日:2024-03-12 19:42:38 公開日:2024-03-11 |
# 深部視覚表現モデルに基づく脳波信号からの視覚刺激画像の再構成 Reconstructing Visual Stimulus Images from EEG Signals Based on Deep Visual Representation Model ( http://arxiv.org/abs/2403.06532v1 ) ライセンス: Link先を確認 | Hongguang Pan, Zhuoyi Li, Yunpeng Fu, Xuebin Qin, Jianchen Hu | (参考訳) 視覚刺激画像の再構成は神経デコーディングにおいて重要な課題であり、これまでは機能的磁気共鳴画像(fMRI)を信号源とみなす研究がほとんどである。
しかし,fMRIを用いた画像再構成法は,取得装置の複雑さとコストが高いため,広く適用が困難である。
本稿では,脳波取得装置(EEG)の低コスト化と移植性の向上を考慮し,脳波信号に基づく新しい画像再構成手法を提案する。
まず,視覚刺激画像の高認識性を実現するため,視覚刺激画像データセットを構築し,対応する脳波信号収集実験により脳波データセットを得る。
次に、主エンコーダと従属デコーダからなる深部視覚表現モデル(DVRM)を提案し、視覚刺激を再構成する。
エンコーダは脳波信号と視覚刺激画像の分布特性を学習するために残差密度ブロックに基づいて設計され、デコーダは深部ニューラルネットワークに基づいて設計され、学習された深部視覚表現から視覚刺激画像を再構成する。
DVRMは人間の自然状態の深部と多面的な視覚的特徴に適合し、再構成された画像をより正確にすることができる。
最後に、脳波データセット上で生成された画像の品質をDVRMで評価する。
その結果、DVRMは脳波信号から深部視覚表現を学習し、元の画像に非常によく似た写実的な再構成画像を生成するタスクにおいて優れた性能を示した。 Reconstructing visual stimulus images is a significant task in neural decoding, and up to now, most studies consider the functional magnetic resonance imaging (fMRI) as the signal source. However, the fMRI-based image reconstruction methods are difficult to widely applied because of the complexity and high cost of the acquisition equipments. Considering the advantages of low cost and easy portability of the electroencephalogram (EEG) acquisition equipments, we propose a novel image reconstruction method based on EEG signals in this paper. Firstly, to satisfy the high recognizability of visual stimulus images in fast switching manner, we build a visual stimuli image dataset, and obtain the EEG dataset by a corresponding EEG signals collection experiment. Secondly, the deep visual representation model(DVRM) consisting of a primary encoder and a subordinate decoder is proposed to reconstruct visual stimuli. The encoder is designed based on the residual-in-residual dense blocks to learn the distribution characteristics between EEG signals and visual stimulus images, while the decoder is designed based on the deep neural network to reconstruct the visual stimulus image from the learned deep visual representation. The DVRM can fit the deep and multiview visual features of human natural state and make the reconstructed images more precise. Finally, we evaluate the DVRM in the quality of the generated images on our EEG dataset. The results show that the DVRM have good performance in the task of learning deep visual representation from EEG signals and generating reconstructed images that are realistic and highly resemble the original images. | 翻訳日:2024-03-12 19:42:15 公開日:2024-03-11 |
# 仮想深度合成による信頼度対応rgb-d顔認識 Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis ( http://arxiv.org/abs/2403.06529v1 ) ライセンス: Link先を確認 | Zijian Chen, Mei Wang, Weihong Deng, Hongzhi Shi, Dongchao Wen, Yingjie Zhang, Xingchen Cui, Jian Zhao | (参考訳) 2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境で困難に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認識に焦点が当てられている。
しかし、十分なペアリングRGB-Dトレーニングデータの収集は高価で時間を要するため、広範なデプロイメントを妨げる。
本研究では,まず,深度モデル事前学習のための3次元モルファブルモデルにより生成された多様な深度データセットを構築する。
そこで本研究では,事前学習が容易なrgbモデルと奥行きモデルを用いて,再トレーニングのための追加のペアデータを必要とすることなく,別々に顔認識を行うドメイン非依存事前学習フレームワークを提案する。
2つの異なるネットワークをシームレスに統合し、RGBと深度情報の相補的な利点を活用して精度を向上させるために、革新的な適応信頼度重み付け(ACW)を提案する。
このメカニズムは、各モダリティに対する信頼度推定を学習し、スコアレベルでモダリティ融合を達成するように設計されている。
我々の手法はシンプルで軽量であり、バックボーンモデルを超えたACWトレーニングが必要である。
複数の公立RGB-D顔認証ベンチマーク実験では, 従来の手法を上回り, 深度推定と特徴融合による性能評価を行い, 提案手法の有効性を検証した。 2D face recognition encounters challenges in unconstrained environments due to varying illumination, occlusion, and pose. Recent studies focus on RGB-D face recognition to improve robustness by incorporating depth information. However, collecting sufficient paired RGB-D training data is expensive and time-consuming, hindering wide deployment. In this work, we first construct a diverse depth dataset generated by 3D Morphable Models for depth model pre-training. Then, we propose a domain-independent pre-training framework that utilizes readily available pre-trained RGB and depth models to separately perform face recognition without needing additional paired data for retraining. To seamlessly integrate the two distinct networks and harness the complementary benefits of RGB and depth information for improved accuracy, we propose an innovative Adaptive Confidence Weighting (ACW). This mechanism is designed to learn confidence estimates for each modality to achieve modality fusion at the score level. Our method is simple and lightweight, only requiring ACW training beyond the backbone models. Experiments on multiple public RGB-D face recognition benchmarks demonstrate state-of-the-art performance surpassing previous methods based on depth estimation and feature fusion, validating the efficacy of our approach. | 翻訳日:2024-03-12 19:41:49 公開日:2024-03-11 |
# 空気中の適応的フェデレーション学習 Adaptive Federated Learning Over the Air ( http://arxiv.org/abs/2403.06528v1 ) ライセンス: Link先を確認 | Chenhao Wang, Zihan Chen, Nikolaos Pappas, Howard H. Yang, Tony Q. S. Quek, H. Vincent Poor | (参考訳) 本稿では,適応勾配法,特にアダグラード法とアダム法を,空中モデルトレーニングの枠組みで統合した適応勾配法を提案する。
このアプローチは、無線チャネルの固有の重ね合わせ特性を活かし、高速でスケーラブルなパラメータアグリゲーションを促進する。
一方、グローバル勾配更新に応じてステップサイズを動的に調整することにより、モデルトレーニングプロセスの堅牢性を高める。
我々は,非凸損失関数の幅広いスペクトルに対して,チャネルフェージングと干渉の影響を包含する学習アルゴリズムの収束率を導出する。
解析の結果、アダグラードに基づくアルゴリズムは、$\mathcal{o}( \ln{(t)} /{ t^{1\frac{1}{\alpha} } )$で定常点に収束し、ここで$\alpha$は電磁干渉のテール指数を表す。
この結果は、干渉分布の重みのレベルがトレーニング効率において重要な役割を担っていることを示している: テールが重ければ重いほど、アルゴリズムの収束が遅くなる。
対照的に、アダムライクなアルゴリズムは$\mathcal{O}( 1/T )$ rateで収束し、モデルトレーニングプロセスの高速化の利点を示す。
我々は,我々の理論的知見を裏付ける広範な実験を行い,提案した適応勾配法の有効性を確認した。 We propose a federated version of adaptive gradient methods, particularly AdaGrad and Adam, within the framework of over-the-air model training. This approach capitalizes on the inherent superposition property of wireless channels, facilitating fast and scalable parameter aggregation. Meanwhile, it enhances the robustness of the model training process by dynamically adjusting the stepsize in accordance with the global gradient update. We derive the convergence rate of the training algorithms, encompassing the effects of channel fading and interference, for a broad spectrum of nonconvex loss functions. Our analysis shows that the AdaGrad-based algorithm converges to a stationary point at the rate of $\mathcal{O}( \ln{(T)} /{ T^{ 1 - \frac{1}{\alpha} } } )$, where $\alpha$ represents the tail index of the electromagnetic interference. This result indicates that the level of heavy-tailedness in interference distribution plays a crucial role in the training efficiency: the heavier the tail, the slower the algorithm converges. In contrast, an Adam-like algorithm converges at the $\mathcal{O}( 1/T )$ rate, demonstrating its advantage in expediting the model training process. We conduct extensive experiments that corroborate our theoretical findings and affirm the practical efficacy of our proposed federated adaptive gradient methods. | 翻訳日:2024-03-12 19:41:30 公開日:2024-03-11 |
# 運転報酬総額を用いた深層強化学習による自律トラックの戦術的意思決定 Tactical Decision Making for Autonomous Trucks by Deep Reinforcement Learning with Total Cost of Operation Based Reward ( http://arxiv.org/abs/2403.06524v1 ) ライセンス: Link先を確認 | Deepthi Pathare, Leo Laine, Morteza Haghir Chehreghani | (参考訳) 道路シナリオにおける適応クルーズ制御(acc)と車線変更操作に特化した,自律トラックにおける戦術的意思決定のための深層強化学習フレームワークを開発した。
本研究は,高次意思決定プロセスと低次制御動作を物理モデルに基づく強化学習エージェントと低次制御器で分離することが有用であることを示す。
下記の手法を用いて,トラックのトータル・コスト・オペレーティング(TCOP)に基づく現実的かつ多目的的な報酬関数を用いて,報酬成分の正規化とカリキュラム学習手法を用いて,報酬成分に重みを加えることにより,性能を最適化する。 We develop a deep reinforcement learning framework for tactical decision making in an autonomous truck, specifically for Adaptive Cruise Control (ACC) and lane change maneuvers in a highway scenario. Our results demonstrate that it is beneficial to separate high-level decision-making processes and low-level control actions between the reinforcement learning agent and the low-level controllers based on physical models. In the following, we study optimizing the performance with a realistic and multi-objective reward function based on Total Cost of Operation (TCOP) of the truck using different approaches; by adding weights to reward components, by normalizing the reward components and by using curriculum learning techniques. | 翻訳日:2024-03-12 19:41:01 公開日:2024-03-11 |
# 室温ハイブリッドナノアンテナにおけるコロイド量子ドットからの超高速で高濃度の放射偏光光子 Ultrafast and highly collimated radially polarized photons from a colloidal quantum dot in a hybrid nanoantenna at room-temperature ( http://arxiv.org/abs/2403.06523v1 ) ライセンス: Link先を確認 | Alexander Nazarov, Yuval Bloom, Boaz Lubotzky, Hamza Abudayyeh, Annika Mildner, Lorenzo Baldessarini, Yuval Shemla, Eric G. Bowes, Monika Fleischer, Jennifer A. Hollingsworth, Ronen Rapaport | (参考訳) 高次元量子鍵分布(HD-QKD)や量子通信などの応用における放射偏光単一光子のポテンシャルを活用するために,高方向の放射偏光光子を高速度で生成するオンチップ室温デバイスを実証した。
これらの光子は、ハイブリッド金属-誘電性ブルゼーアンテナの中に位置する金属ナノコーンの先端に正確に位置決めされた巨大なCdSe/CdSコロイド量子ドット(gQD)から放出される。
我々は、gQDの平面外光双極子に特有なパーセルの大規模かつ選択的拡張により、発光された光子は、定量値に基づいて非常に高い放射偏光(>93%)を持つことができることを示した。
本研究は, ナノ構造デバイスにおける放射偏光の基本的な理解に寄与し, 構造量子光を用いた実用化への道を開くことによる, 広範囲な実験とシミュレーションを通じて, 最適放射偏光純度に対する正確なgQD位置決めの重要性を強調した。 To harness the potential of radially polarized single photons in applications such as high-dimensional quantum key distribution (HD-QKD) and quantum communication, we demonstrate an on-chip, room-temperature device, which generates highly directional radially polarized photons at very high rates. The photons are emitted from a giant CdSe/CdS colloidal quantum dot (gQD) accurately positioned at the tip of a metal nanocone centered inside a hybrid metal-dielectric bullseye antenna. We show that due to the large and selective Purcell enhancement specifically for the out-of-plane optical dipole of the gQD, the emitted photons can have a very high degree of radial polarization (>93%), based on a quantitative metric. Our study emphasizes the importance of accurate gQD positioning for optimal radial polarization purity through extensive experiments and simulations, which contribute to the fundamental understanding of radial polarization in nanostructured devices and pave the way for implementation of such systems in practical applications using structured quantum light. | 翻訳日:2024-03-12 19:40:47 公開日:2024-03-11 |
# 希薄磁性半導体量子ドットにおける量子絡み合い Quantum Entanglement in a Diluted Magnetic Semiconductor Quantum Dot ( http://arxiv.org/abs/2403.06522v1 ) ライセンス: Link先を確認 | Manish Kumar Mehta, Joseph Thomas Andrews and Pratima Sen | (参考訳) 量子技術に不可欠な希薄磁性半導体量子ドットの絡みについて検討した。
その可能性にもかかわらず、これらのシステムは低い抽出率を示す。
スピン状態に基づく自己組立InGaAs量子ドットについて検討する。
我々の分析は波動関数の定義、密度行列演算子の利用、絡み合いエントロピーの測定を含む。
数値評価では、重要な絡み合いを示す様々な量子ドットの組み合わせの中で有望なペアはほとんど示されていない。
さらに、希薄磁性半導体量子ドットの絡み合いの理論的発展と統計的評価について論じ、量子応用の可能性について考察する。 We investigated the entanglement in a diluted magnetic semiconductor quantum dot, crucial for quantum technologies. Despite their potential, these systems exhibit low extraction rates. We explore self-assembled InGaAs quantum dots, focusing on entanglement between them based on spin states. Our analysis involves defining wavefunctions, employing density matrix operators, and measuring entanglement entropy. Numerical assessments reveal few promising pairs among various quantum dot combinations that exhibit significant entanglement. Additionally, this work discusses theoretical developments and statistical evaluations of entanglement in diluted magnetic semiconductor quantum dots, providing insights into their potential for quantum applications. | 翻訳日:2024-03-12 19:40:26 公開日:2024-03-11 |
# contextgpt: llms知識をニューロシンボリック活動認識モデルに導入する ContextGPT: Infusing LLMs Knowledge into Neuro-Symbolic Activity Recognition Models ( http://arxiv.org/abs/2403.06586v1 ) ライセンス: Link先を確認 | Luca Arrotta, Claudio Bettini, Gabriele Civitarese, Michele Fiori | (参考訳) 文脈認識型ヒューマンアクティビティ認識(HAR)はモバイルコンピューティングにおけるホットな研究分野であり、文献の最も効果的な解決策は教師付きディープラーニングモデルに基づいている。
しかし、これらのシステムの実際の展開は、トレーニングに必要なラベル付きデータの不足によって制限される。
ニューロシンボリックai(nesy)は、人間の活動やそれらの文脈に関する常識的な知識をharディープラーニングの分類器に取り入れることで、この問題を緩和するための興味深い研究方向を提供する。
コンテキスト認識のための既存のnesyメソッドは、新しいアクティビティとコンテキストをキャプチャするために設計、実装、メンテナンスを行う論理ベースのモデル(オントロジーなど)にエンコードされた知識に依存している。
近年の研究では、事前学習された大規模言語モデル(llm)が、人間の活動に関する常識的な知識を効果的にエンコードしていることが示されている。
本稿では,人間の活動と行動の文脈との関係に関するllmsの共通感覚知識から情報を得るための,新しいプロンプトエンジニアリング手法であるcontextgptを提案する。
オントロジーとは異なり、ContextGPTは人間の努力と専門知識の制限を必要とする。
2つのパブリックデータセットで実施された広範囲な評価では、コンテキストgptから共通センス知識を流用したネッシーモデルが、データ不足のシナリオにおいてどのように有効であるかが示されている。 Context-aware Human Activity Recognition (HAR) is a hot research area in mobile computing, and the most effective solutions in the literature are based on supervised deep learning models. However, the actual deployment of these systems is limited by the scarcity of labeled data that is required for training. Neuro-Symbolic AI (NeSy) provides an interesting research direction to mitigate this issue, by infusing common-sense knowledge about human activities and the contexts in which they can be performed into HAR deep learning classifiers. Existing NeSy methods for context-aware HAR rely on knowledge encoded in logic-based models (e.g., ontologies) whose design, implementation, and maintenance to capture new activities and contexts require significant human engineering efforts, technical knowledge, and domain expertise. Recent works show that pre-trained Large Language Models (LLMs) effectively encode common-sense knowledge about human activities. In this work, we propose ContextGPT: a novel prompt engineering approach to retrieve from LLMs common-sense knowledge about the relationship between human activities and the context in which they are performed. Unlike ontologies, ContextGPT requires limited human effort and expertise. An extensive evaluation carried out on two public datasets shows how a NeSy model obtained by infusing common-sense knowledge from ContextGPT is effective in data scarcity scenarios, leading to similar (and sometimes better) recognition rates than logic-based approaches with a fraction of the effort. | 翻訳日:2024-03-12 19:35:44 公開日:2024-03-11 |
# グローバル推定のための最適戦略の厳密な階層:グローバル推定をローカル推定にマッピングする Strict hierarchy of optimal strategies for global estimations: Mapping global estimations into local ones ( http://arxiv.org/abs/2403.06585v1 ) ライセンス: Link先を確認 | Zhao-Yi Zhou, Jing-Tao Qiu, Da-Jian Zhang | (参考訳) 量子力学における重要な課題は、推定戦略で達成可能な最終的な精度を確認することである。
局所的および大域的推定のパラダイムは2つあるが、現在の研究は主に局所的推定に限られており、興味のパラメータがほぼ知られている場合に有用である。
このレターでは,少数の測定データでも確実に動作し,パラメータについて十分な事前知識を持たないグローバル推定へのパラダイムシフトを目標としている。
ここでの鍵となる革新は、仮想想像時間進化と呼ばれる技術を開発することであり、グローバルな見積もりをローカルなものにマッピングすることができる。
これは、局所的な推定に適した強力なツールを活用することで、グローバルな推定領域における課題を克服する興味深い経路を提供する。
我々は,並列,シーケンシャル,無期限-causal-order戦略を含む,異なるグローバル推定戦略に対して達成可能な精度の厳密な階層構造を明らかにする手法について検討する。 A crucial yet challenging issue in quantum metrology is to ascertain the ultimate precision achievable in estimation strategies. While there are two paradigms of estimations, local and global, current research is largely confined to local estimations, which are useful once the parameter of interest is approximately known. In this Letter we target at a paradigm shift towards global estimations, which can operate reliably even with a few measurement data and no substantial prior knowledge about the parameter. The key innovation here is to develop a technique, dubbed virtual imaginary time evolution, capable of mapping global estimations into local ones. This offers an intriguing pathway to surmount challenges in the realm of global estimations by leveraging powerful tools tailored for local estimations. We explore our technique to unveil a strict hierarchy of achievable precision for different global estimation strategies, including parallel, sequential, and indefinite-causal-order strategies. | 翻訳日:2024-03-12 19:35:14 公開日:2024-03-11 |
# 予期せぬ量子不確定性 Unexpected Quantum Indeterminacy ( http://arxiv.org/abs/2403.06584v1 ) ライセンス: Link先を確認 | Andrea Oldofredi | (参考訳) メタフィジカルな不確定性に関する最近の哲学的議論は、科学史上最も成功した物理理論の一つである量子力学が、世界的不確定性の明示的な例を提供するという考えから裏付けられている。
この背景に対して、いくつかの哲学者は、そのような不確定性が空間を持たず、役割を持たない量子論の別の定式化が存在することを主張している。
典型的な例は、その明確な粒子オントロジーによるボヘミア力学である。
後者の主張とは対照的に、本論文は異なるパイロット波理論が実際には様々な形相的不確定性をインスタンス化することを示すことを目的としている。
すなわち、オントロジーや動的法則を排他的に見れば決定できないような、世界情勢に関する諸問題が存在すると私は論じる。
さらに、ボーム力学は新しい形態の様相不確定性を生み出していると主張する。
最後に、存在論的明快さと非決定性は相互排他的ではなく、すなわち両者は同じ理論で共存することができると結論付ける。 Recent philosophical discussions about metaphysical indeterminacy have been substantiated with the idea that quantum mechanics, one of the most successful physical theories in the history of science, provides explicit instances of worldly indefiniteness. Against this background, several philosophers underline that there are alternative formulations of quantum theory in which such indeterminacy has no room and plays no role. A typical example is Bohmian mechanics in virtue of its clear particle ontology. Contrary to these latter claims, this paper aims at showing that different pilot-wave theories do in fact instantiate diverse forms of metaphysical indeterminacy. Namely, I argue that there are various questions about worldly states of affairs that cannot be determined by looking exclusively at their ontologies and dynamical laws. Moreover, it will be claimed that Bohmian mechanics generates a new form of modal indeterminacy. Finally, it will be concluded that ontological clarity and indeterminacy are not mutually exclusive, i.e., the two can coexist in the same theory. | 翻訳日:2024-03-12 19:34:56 公開日:2024-03-11 |
# ドライバ動作認識のためのトランスフォーマーによる2次元位置と時空間埋め込みの融合 Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for Distracted Driver Action Recognition ( http://arxiv.org/abs/2403.06577v1 ) ライセンス: Link先を確認 | Erkut Akdag, Zeqi Zhu, Egor Bondarev, Peter H. N. De With | (参考訳) 運転支援システムや自然主義的運転研究において,運転行動の時間的分類と局所化が重要である。
時間的ローカライゼーションは、堅牢性、信頼性、正確性を必要とするため、難しい。
本研究では,映像動作認識と2次元人格推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
そこで我々は,2次元配置特徴と時空間特徴を効果的に組み合わせたトランスフォーマーベース融合アーキテクチャを設計する。
このモデルは2d-pose特徴をトランスフォーマアーキテクチャの位置埋め込みとして、時空間特徴をトランスフォーマのエンコーダへの主入力として使用する。
提案手法はカメラ数と位置に依存しない汎用的であり、フレームベースのクラス確率を出力とする。
最後に、後処理ステップは、異なるカメラビューからの情報を結合して最終予測を取得し、偽陽性を解消する。
このモデルは、2023年のNVIDIA AI City Challenge for naturalistic driving action recognitionのA2テストセットでうまく機能し、オーガナイザが定義した注意深い運転行動メトリクスのオーバーラップスコア0.5079を達成する。 Classification and localization of driving actions over time is important for advanced driver-assistance systems and naturalistic driving studies. Temporal localization is challenging because it requires robustness, reliability, and accuracy. In this study, we aim to improve the temporal localization and classification accuracy performance by adapting video action recognition and 2D human-pose estimation networks to one model. Therefore, we design a transformer-based fusion architecture to effectively combine 2D-pose features and spatio-temporal features. The model uses 2D-pose features as the positional embedding of the transformer architecture and spatio-temporal features as the main input to the encoder of the transformer. The proposed solution is generic and independent of the camera numbers and positions, giving frame-based class probabilities as output. Finally, the post-processing step combines information from different camera views to obtain final predictions and eliminate false positives. The model performs well on the A2 test set of the 2023 NVIDIA AI City Challenge for naturalistic driving action recognition, achieving the overlap score of the organizer-defined distracted driver behaviour metric of 0.5079. | 翻訳日:2024-03-12 19:34:37 公開日:2024-03-11 |
# FFAD:フーリエ変換とオートエンコーダを利用した生成時系列データの評価方法 FFAD: A Novel Metric for Assessing Generated Time Series Data Utilizing Fourier Transform and Auto-encoder ( http://arxiv.org/abs/2403.06576v1 ) ライセンス: Link先を確認 | Yang Chen, Dustin J. Kempton, Rafal A. Angryk | (参考訳) 深層学習に基づく生成モデルの成功は、リアルな画像、ビデオ、オーディオを生産する上で重要な考慮事項となった:合成サンプルの品質を効果的に評価する方法である。
Fr\'{e}chet Inception Distance (FID) は画像合成における生成モデルを評価する標準的な指標であるが、時系列データに匹敵する指標は特に欠落している。
この評価能力のギャップは、ベンチマーク時系列データセットで事前トレーニングされた広く受け入れられた特徴ベクトル抽出器がないことに起因する。
Fr\'echet Distance(英語版)の文脈において、これらの課題に対処するために、フーリエ変換とオートエンコーダを利用した新しいソリューションを提案し、これをFr\'{e}chet Fourier-transform Auto-Encoder Distance(FFAD)と呼ぶ。
実験により,異なるクラスから効果的にサンプルを識別できるffadの可能性を示した。
本手法は, 生成時系列データ評価の基本的なツールとして登場し, 深層学習に基づく生成モデルの領域における評価手法の強化に寄与している。 The success of deep learning-based generative models in producing realistic images, videos, and audios has led to a crucial consideration: how to effectively assess the quality of synthetic samples. While the Fr\'{e}chet Inception Distance (FID) serves as the standard metric for evaluating generative models in image synthesis, a comparable metric for time series data is notably absent. This gap in assessment capabilities stems from the absence of a widely accepted feature vector extractor pre-trained on benchmark time series datasets. In addressing these challenges related to assessing the quality of time series, particularly in the context of Fr\'echet Distance, this work proposes a novel solution leveraging the Fourier transform and Auto-encoder, termed the Fr\'{e}chet Fourier-transform Auto-encoder Distance (FFAD). Through our experimental results, we showcase the potential of FFAD for effectively distinguishing samples from different classes. This novel metric emerges as a fundamental tool for the evaluation of generative time series data, contributing to the ongoing efforts of enhancing assessment methodologies in the realm of deep learning-based generative models. | 翻訳日:2024-03-12 19:34:17 公開日:2024-03-11 |
# ac-eval: 大言語モデルによる古代中国語理解の評価 AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models ( http://arxiv.org/abs/2403.06574v1 ) ライセンス: Link先を確認 | Yuting Wei, Yuanxing Xu, Xinru Wei, Simin Yang, Yangfu Zhu, Yuqing Li, Di Liu, Bin Wu | (参考訳) 古代中国語が豊かな歴史的・文化的遺産の本質を捉える上で重要であることを考えると、大規模言語モデル(LLM)の急速な進歩は、古代の文脈に対する理解を効果的に評価できるベンチマークを必要とする。
このニーズを満たすために,我々は,古代中国語の文脈においてLLMの高度な知識と推論能力を評価するために設計された,革新的なベンチマークであるAC-EVALを提案する。
AC-EVALは、一般的な歴史的知識、短いテキスト理解、長いテキスト理解という、異なる言語理解の側面を反映する3つの難易度で構成されている。
このベンチマークは、歴史的事実、地理、社会慣習、芸術、哲学、古典詩、散文にまたがる13のタスクで構成され、包括的な評価フレームワークを提供する。
英語と中国語の両方に適合したLLMの広範な評価は、古代のテキスト理解を向上する大きな可能性を秘めている。
llmの強みと弱みを強調することで、ac-evalは古代中国語教育と学術研究の領域での開発と応用を促進することを目指している。
AC-EVALのデータと評価コードはhttps://github.com/yuting-wei/AC-EVALで公開されている。 Given the importance of ancient Chinese in capturing the essence of rich historical and cultural heritage, the rapid advancements in Large Language Models (LLMs) necessitate benchmarks that can effectively evaluate their understanding of ancient contexts. To meet this need, we present AC-EVAL, an innovative benchmark designed to assess the advanced knowledge and reasoning capabilities of LLMs within the context of ancient Chinese. AC-EVAL is structured across three levels of difficulty reflecting different facets of language comprehension: general historical knowledge, short text understanding, and long text comprehension. The benchmark comprises 13 tasks, spanning historical facts, geography, social customs, art, philosophy, classical poetry and prose, providing a comprehensive assessment framework. Our extensive evaluation of top-performing LLMs, tailored for both English and Chinese, reveals a substantial potential for enhancing ancient text comprehension. By highlighting the strengths and weaknesses of LLMs, AC-EVAL aims to promote their development and application forward in the realms of ancient Chinese language education and scholarly research. The AC-EVAL data and evaluation code are available at https://github.com/yuting-wei/AC-EVAL. | 翻訳日:2024-03-12 19:33:54 公開日:2024-03-11 |
# Lander.AI:3次元動的プラットフォームランディングのエキスパートのための適応的ランディング行動エージェント Lander.AI: Adaptive Landing Behavior Agent for Expertise in 3D Dynamic Platform Landings ( http://arxiv.org/abs/2403.06572v1 ) ライセンス: Link先を確認 | Robinroy Peter, Lavanya Ratnabala, Demetros Aschu, Aleksey Fedoseev, Dzmitry Tsetserukou | (参考訳) ダイナミックプラットフォームに自律的なドローンを着陸させることは、予測不可能な速度と、ドッキングプラットフォームの風、地面効果、タービン、プロペラによる外乱による重大な課題を提示する。
本研究では,風の強い状況下でプラットフォーム上での移動と着陸を目的とし,ドローンの自律性と安全性を向上する先進的なDeep Reinforcement Learning(DRL)エージェントであるLander.AIを紹介する。
Lander.AIは、風の乱流を含む現実世界の複雑さを反映し、エージェントの堅牢性と適応性を確保する環境であるジム・ピブル・ドーンシミュレーションで厳格に訓練されている。
エージェントの能力は、様々なテストシナリオでcrazyflie 2.1ドローンで実証的に検証され、シミュレートされた環境と実環境の両方を含む。
実験の結果は、ランダー.AIの高精度着陸と、風による乱れでも移動プラットフォームに適応する能力を示した。
さらに、システム性能は、拡張カルマンフィルタを付加したベースラインPIDコントローラに対してベンチマークされ、着陸精度とエラー回復の大幅な改善が示された。
Lander.AIは、バイオインスパイアされた学習を活用して、鳥のような外部の力に適応し、力の大きさを知らずにドローンの適応性を高める。この研究は、ドローンの着陸技術を進歩させ、検査や緊急用途に欠かせないだけでなく、複雑な空力問題に対処するDRLの可能性も強調している。 Mastering autonomous drone landing on dynamic platforms presents formidable challenges due to unpredictable velocities and external disturbances caused by the wind, ground effect, turbines or propellers of the docking platform. This study introduces an advanced Deep Reinforcement Learning (DRL) agent, Lander.AI, designed to navigate and land on platforms in the presence of windy conditions, thereby enhancing drone autonomy and safety. Lander.AI is rigorously trained within the gym-pybullet-drone simulation, an environment that mirrors real-world complexities, including wind turbulence, to ensure the agent's robustness and adaptability. The agent's capabilities were empirically validated with Crazyflie 2.1 drones across various test scenarios, encompassing both simulated environments and real-world conditions. The experimental results showcased Lander.AI's high-precision landing and its ability to adapt to moving platforms, even under wind-induced disturbances. Furthermore, the system performance was benchmarked against a baseline PID controller augmented with an Extended Kalman Filter, illustrating significant improvements in landing precision and error recovery. Lander.AI leverages bio-inspired learning to adapt to external forces like birds, enhancing drone adaptability without knowing force magnitudes.This research not only advances drone landing technologies, essential for inspection and emergency applications, but also highlights the potential of DRL in addressing intricate aerodynamic challenges. | 翻訳日:2024-03-12 19:33:32 公開日:2024-03-11 |
# coverabilityによるスケーラブルなオンライン探索 Scalable Online Exploration via Coverability ( http://arxiv.org/abs/2403.06571v1 ) ライセンス: Link先を確認 | Philip Amortila, Dylan J. Foster, Akshay Krishnamurthy | (参考訳) 強化学習において、特に関数近似を必要とする高次元領域において、探索は大きな課題である。
我々は,探索研究を体系化する概念的枠組みとして,任意の報酬関数を下流に最大化する政策最適化目標である探索目標を提案する。
本フレームワークでは,従来の探索手法を一般化し,次の3つの基本的なデシラタをサポートする新たな目的である$L_1$-Coverageを導入する。
L_1$-Coverageは構造パラメータである$L_1$-Coverabilityに関連付けられている。
2.効率的な計画。
既知のMDPでは、$L_1$-Coverageを最適化することで、標準ポリシーの最適化を効率的に削減できる。
3.効率的な探索。
l_1$-coverageは、オンライン(reward-freeまたはreward-driven)強化学習のための最初の計算効率の高いモデルベースおよびモデルフリーなアルゴリズムである。
実証的に、$L_1$-Coverageは、オフザシェルフポリシー最適化アルゴリズムを効果的に駆動し、状態空間を探索する。 Exploration is a major challenge in reinforcement learning, especially for high-dimensional domains that require function approximation. We propose exploration objectives -- policy optimization objectives that enable downstream maximization of any reward function -- as a conceptual framework to systematize the study of exploration. Within this framework, we introduce a new objective, $L_1$-Coverage, which generalizes previous exploration schemes and supports three fundamental desiderata: 1. Intrinsic complexity control. $L_1$-Coverage is associated with a structural parameter, $L_1$-Coverability, which reflects the intrinsic statistical difficulty of the underlying MDP, subsuming Block and Low-Rank MDPs. 2. Efficient planning. For a known MDP, optimizing $L_1$-Coverage efficiently reduces to standard policy optimization, allowing flexible integration with off-the-shelf methods such as policy gradient and Q-learning approaches. 3. Efficient exploration. $L_1$-Coverage enables the first computationally efficient model-based and model-free algorithms for online (reward-free or reward-driven) reinforcement learning in MDPs with low coverability. Empirically, we find that $L_1$-Coverage effectively drives off-the-shelf policy optimization algorithms to explore the state space. | 翻訳日:2024-03-12 19:33:02 公開日:2024-03-11 |
# 実会議用話者分散ASRにおける話者アサインメントの改善 Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications ( http://arxiv.org/abs/2403.06570v1 ) ライセンス: Link先を確認 | Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi (MULTISPEECH), Emmanuel Vincent (MULTISPEECH) | (参考訳) エンドツーエンドのミーティングの書き起こしに関する過去の研究は、モデルアーキテクチャに焦点を当てており、主にシミュレーションされたミーティングデータで評価されてきた。
本稿では,音声セグメントの話者割当て改善のためのAMIミーティングコーパスなどの実生活シナリオにおける話者割当て型ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
まず、音声活動検出(VAD)、話者ダイアリゼーション(SD)、SA-ASRを含む実生活アプリケーションに適したパイプラインを提案する。
第2に、vad出力セグメントを用いてsa-asrモデルを微調整することを推奨し、テスト中にvadセグメントにも適用されることを考慮し、この結果が話者誤り率(ser)を28%まで低下させることを示した。
最後に,SA-ASRシステムによる入力として使用される話者埋め込みテンプレートの抽出方法を検討する。
注釈付き話者セグメントではなくSD出力から抽出すると、SERの相対的な削減率が20%になることを示す。 Past studies on end-to-end meeting transcription have focused on model architecture and have mostly been evaluated on simulated meeting data. We present a novel study aiming to optimize the use of a Speaker-Attributed ASR (SA-ASR) system in real-life scenarios, such as the AMI meeting corpus, for improved speaker assignment of speech segments. First, we propose a pipeline tailored to real-life applications involving Voice Activity Detection (VAD), Speaker Diarization (SD), and SA-ASR. Second, we advocate using VAD output segments to fine-tune the SA-ASR model, considering that it is also applied to VAD segments during test, and show that this results in a relative reduction of Speaker Error Rate (SER) up to 28%. Finally, we explore strategies to enhance the extraction of the speaker embedding templates used as inputs by the SA-ASR system. We show that extracting them from SD output rather than annotated speaker segments results in a relative SER reduction up to 20%. | 翻訳日:2024-03-12 19:32:38 公開日:2024-03-11 |
# モデル再プログラミングによる肢喪失者の関節運動予測の促進 Enhancing Joint Motion Prediction for Individuals with Limb Loss Through Model Reprogramming ( http://arxiv.org/abs/2403.06569v1 ) ライセンス: Link先を確認 | Sharmita Dey, Sarath R. Nair | (参考訳) 肢の喪失による運動障害は、世界中の何百万人もの個人が直面する大きな課題である。
人工装具などの高度な補助技術の開発は、切断患者の生活の質を大幅に改善する可能性がある。
このような技術の設計において重要な要素は、欠損肢に対する基準関節運動の正確な予測である。
しかし、この課題は、有能な身体障害者からのかなりの量のデータとは対照的に、切断患者に利用可能な関節運動データの不足によって妨げられている。
これを克服するために,我々はディープラーニングのリプログラミング特性を活用して,モデルのパラメータを変更することなく,トレーニングされたモデルを新たな目標のために再利用する。
データレベルの操作だけで、元々は身体障害者向けに設計されたモデルをアンシュートでの関節運動を予測するように適応させます。
本研究の成果は, 補助技術の進歩と切断者の移動性に有意な影響を及ぼす。 Mobility impairment caused by limb loss is a significant challenge faced by millions of individuals worldwide. The development of advanced assistive technologies, such as prosthetic devices, has the potential to greatly improve the quality of life for amputee patients. A critical component in the design of such technologies is the accurate prediction of reference joint motion for the missing limb. However, this task is hindered by the scarcity of joint motion data available for amputee patients, in contrast to the substantial quantity of data from able-bodied subjects. To overcome this, we leverage deep learning's reprogramming property to repurpose well-trained models for a new goal without altering the model parameters. With only data-level manipulation, we adapt models originally designed for able-bodied people to forecast joint motion in amputees. The findings in this study have significant implications for advancing assistive tech and amputee mobility. | 翻訳日:2024-03-12 19:32:18 公開日:2024-03-11 |
# 任意のパフォーマンス分析によるMaxSATローカルサーチソリューションの理解と構成の改善 Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis ( http://arxiv.org/abs/2403.06568v1 ) ライセンス: Link先を確認 | Furong Ye, Chuan Luo, Shaowei Cai | (参考訳) MaxSAT問題に対して多くの解法が提案され、MaxSAT Evaluationsのようなベンチマーク環境は最先端の解法の比較のためのプラットフォームを提供するが、既存の評価は通常、与えられた実行時間予算内で得られる最良の解の品質に基づいて評価された。
しかしながら、特定の時間予算に関する最終的な解法のみについては、収束過程における解法の挙動の理解を制限できる可能性がある。
本稿では,複数の問題インスタンスと様々な時間予算にまたがって,MaxSATの局所探索性能を比較するために,経験的累積分布関数が利用できることを示す。
この評価は,解解器の性能の差異を明らかにし,解器の長所が異なる実行時間に沿って調整されていることを示す。
この研究は、任意の時間性能の定量的かつ高分散評価により、機械、すなわち自動設定器を誘導し、より良いパラメータ設定を求めることも示している。
実験結果から,高パラメータ最適化ツールであるSMACは,最適解の適合度よりも,任意の性能をコスト関数として用いる場合の局所探索のパラメータ設定が良好であることがわかった。 Though numerous solvers have been proposed for the MaxSAT problem, and the benchmark environment such as MaxSAT Evaluations provides a platform for the comparison of the state-of-the-art solvers, existing assessments were usually evaluated based on the quality, e.g., fitness, of the best-found solutions obtained within a given running time budget. However, concerning solely the final obtained solutions regarding specific time budgets may restrict us from comprehending the behavior of the solvers along the convergence process. This paper demonstrates that Empirical Cumulative Distribution Functions can be used to compare MaxSAT local search solvers' anytime performance across multiple problem instances and various time budgets. The assessment reveals distinctions in solvers' performance and displays that the (dis)advantages of solvers adjust along different running times. This work also exhibits that the quantitative and high variance assessment of anytime performance can guide machines, i.e., automatic configurators, to search for better parameter settings. Our experimental results show that the hyperparameter optimization tool, i.e., SMAC, generally achieves better parameter settings of local search when using the anytime performance as the cost function, compared to using the fitness of the best-found solutions. | 翻訳日:2024-03-12 19:32:05 公開日:2024-03-11 |
# 放射線医学における医用画像検索の基礎モデル活用 Leveraging Foundation Models for Content-Based Medical Image Retrieval in Radiology ( http://arxiv.org/abs/2403.06567v1 ) ライセンス: Link先を確認 | Stefan Denner, David Zimmerer, Dimitrios Bounias, Markus Bujotzek, Shuhan Xiao, Lisa Kausch, Philipp Schader, Tobias Penzkofer, Paul F. J\"ager, Klaus Maier-Hein | (参考訳) コンテンツベース画像検索(cbir)は、放射線医学における診断支援と医学研究を著しく改善する可能性がある。
現在のCBIRシステムは、特定の病態に特化するため、実用性に制限がある。
そこで本研究では,医用画像検索のための特徴抽出器として視覚基盤モデルを提案する。
これらのモデルを4つのモダリティと161の病理にまたがる1.6万の2D画像の総合的なデータセットでベンチマークすることにより、弱い教師付きモデルが優れていると判断し、最大0.594のP@1を達成する。
このパフォーマンスは、特殊なモデルと競合するだけでなく、微調整を必要としない。
病理組織学的構造と解剖学的構造を検索することの難しさをさらに探究し,病理的特徴の正確な検索が困難であることを示す。
これらの課題にも拘わらず,放射線学におけるCBIRの基礎モデルの可能性は大きく,特定のチューニングを必要としない汎用的な医用画像検索システムへの移行が提案されている。 Content-based image retrieval (CBIR) has the potential to significantly improve diagnostic aid and medical research in radiology. Current CBIR systems face limitations due to their specialization to certain pathologies, limiting their utility. In response, we propose using vision foundation models as powerful and versatile off-the-shelf feature extractors for content-based medical image retrieval. By benchmarking these models on a comprehensive dataset of 1.6 million 2D radiological images spanning four modalities and 161 pathologies, we identify weakly-supervised models as superior, achieving a P@1 of up to 0.594. This performance not only competes with a specialized model but does so without the need for fine-tuning. Our analysis further explores the challenges in retrieving pathological versus anatomical structures, indicating that accurate retrieval of pathological features presents greater difficulty. Despite these challenges, our research underscores the vast potential of foundation models for CBIR in radiology, proposing a shift towards versatile, general-purpose medical image retrieval systems that do not require specific tuning. | 翻訳日:2024-03-12 19:31:42 公開日:2024-03-11 |
# スケーリング法則の謎を解く:Part I Unraveling the Mystery of Scaling Laws: Part I ( http://arxiv.org/abs/2403.06563v1 ) ライセンス: Link先を確認 | Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai | (参考訳) 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
これらの原則はモデル事前学習の様々な側面を最適化する上で重要な役割を果たし、最終的にGPT-4、Llama、Geminiといった大規模言語モデルの成功に寄与する。
しかし、OpenAIの当初のスケーリング法論文は、正確なスケーリング法則を導出するために必要な完全な詳細を明らかにしておらず、その結論は15億のパラメータを含むモデルのみに基づいている。
その後の研究では、これらの詳細を明らかにして、より大きなモデルにスケールしようとするが、学習率、コンテキスト長、バッチサイズといった重要な要素のトレーニング依存性を無視することが多く、テスト損失軌跡を予測するための信頼性の高い公式の確立に失敗した。
本稿では,従来のOpenAI論文で提案されたスケーリング法則の定式化が,モデルサイズを最大33億までスケールする場合においても有効であることが確認されるが,これらの公式の定数係数は実験装置によって大きく異なる。
1M~60Mのパラメータしか持たないモデルでトレーニングすることで,有効な因子を慎重に同定し,拡張法則の全ての定数項を推定するための透過的,ステップバイステップの指示を与える。
これらの推定式を用いて,(1) テスト損失の最小値,(2) 特定の損失を達成するために必要最小限のトレーニングステップと処理トークン,(3) 任意の損失値において最適な時間/計算トレードオフを持つ臨界バッチサイズ,(4) 任意のバッチサイズでの完全なテスト損失軌跡など,トレーニング前に最大33bのパラメータを持つモデルの様々な属性を正確に予測する能力を示す。 Scaling law principles indicate a power-law correlation between loss and variables such as model size, dataset size, and computational resources utilized during training. These principles play a vital role in optimizing various aspects of model pre-training, ultimately contributing to the success of large language models such as GPT-4, Llama and Gemini. However, the original scaling law paper by OpenAI did not disclose the complete details necessary to derive the precise scaling law formulas, and their conclusions are only based on models containing up to 1.5 billion parameters. Though some subsequent works attempt to unveil these details and scale to larger models, they often neglect the training dependency of important factors such as the learning rate, context length and batch size, leading to their failure to establish a reliable formula for predicting the test loss trajectory. In this technical report, we confirm that the scaling law formulations proposed in the original OpenAI paper remain valid when scaling the model size up to 33 billion, but the constant coefficients in these formulas vary significantly with the experiment setup. We meticulously identify influential factors and provide transparent, step-by-step instructions to estimate all constant terms in scaling-law formulas by training on models with only 1M~60M parameters. Using these estimated formulas, we showcase the capability to accurately predict various attributes for models with up to 33B parameters before their training, including (1) the minimum possible test loss; (2) the minimum required training steps and processed tokens to achieve a specific loss; (3) the critical batch size with an optimal time/computation trade-off at any loss value; and (4) the complete test loss trajectory with arbitrary batch size. | 翻訳日:2024-03-12 19:31:21 公開日:2024-03-11 |
# カルタン・ハダマード多様体上のスライス・ワッセルシュタイン距離と流れ Sliced-Wasserstein Distances and Flows on Cartan-Hadamard Manifolds ( http://arxiv.org/abs/2403.06560v1 ) ライセンス: Link先を確認 | Cl\'ement Bonet and Lucas Drumetz and Nicolas Courty | (参考訳) 多くの機械学習手法がリーマン多様体上で開発または変換され、既知の非ユークリッド幾何学のデータを扱うが、そのような空間上の最適輸送(ot)法はあまり注目されていない。
これらの空間における主要なOTツールは、計算負荷の重いワッサーシュタイン距離である。
ユークリッド空間では、ある次元でワッサーシュタイン距離の閉形式解を利用するスライテッド=ワッサーシュタイン距離(英語版)(Sliced-Wasserstein distance)があるが、多様体上では利用できない。
本研究では、カルタン・ハダマード多様体上のスライス・ワッサースタイン距離、非正曲率を持つリーマン多様体の一般構成を導出する。
次に、異なるアプリケーションを提案する。
さらに、ワッサーシュタイン勾配流を近似することにより、これらの新しい距離を最小化する非パラメトリックスキームを導出する。 While many Machine Learning methods were developed or transposed on Riemannian manifolds to tackle data with known non Euclidean geometry, Optimal Transport (OT) methods on such spaces have not received much attention. The main OT tool on these spaces is the Wasserstein distance which suffers from a heavy computational burden. On Euclidean spaces, a popular alternative is the Sliced-Wasserstein distance, which leverages a closed-form solution of the Wasserstein distance in one dimension, but which is not readily available on manifolds. In this work, we derive general constructions of Sliced-Wasserstein distances on Cartan-Hadamard manifolds, Riemannian manifolds with non-positive curvature, which include among others Hyperbolic spaces or the space of Symmetric Positive Definite matrices. Then, we propose different applications. Additionally, we derive non-parametric schemes to minimize these new distances by approximating their Wasserstein gradient flows. | 翻訳日:2024-03-12 19:30:47 公開日:2024-03-11 |
# ロボットと人工アバターのキネマティクスにおける情報符号化のためのデータ駆動アーキテクチャ Data-driven architecture to encode information in the kinematics of robots and artificial avatars ( http://arxiv.org/abs/2403.06557v1 ) ライセンス: Link先を確認 | Francesco De Lellis, Marco Coraggio, Nathan C. Foster, Riccardo Villa, Cristina Becchio, Mario di Bernardo | (参考訳) 本稿では,人間の操作者によって駆動されるアバターやロボットの動きにおける感情の有無などの特定の情報をエンコードするために,ロボットや人工アバターのキネマティックスを変更するデータ駆動制御アーキテクチャを提案する。
我々は,ピック・アンド・プレースタスクのリーチ・ツー・グラップフェーズで得られた実験データセット上でのアプローチを検証する。 We present a data-driven control architecture for modifying the kinematics of robots and artificial avatars to encode specific information such as the presence or not of an emotion in the movements of an avatar or robot driven by a human operator. We validate our approach on an experimental dataset obtained during the reach-to-grasp phase of a pick-and-place task. | 翻訳日:2024-03-12 19:30:17 公開日:2024-03-11 |
# 自然換気型校舎におけるCO2の占有検知における空間的特徴 Spatial features of CO2 for occupancy detection in a naturally ventilated school building ( http://arxiv.org/abs/2403.06643v1 ) ライセンス: Link先を確認 | Qirui Huang, Marc Syndicus, J\'er\^ome Frisch, Christoph van Treeck | (参考訳) 正確な占有情報は、建築エネルギー効率と居住快適性を改善するのに役立つ。
低コストで侵入性が低いため,CO2センサを用いた作業検出手法が注目されている。
自然換気建物では, 複雑な換気行動や窓からの実際の空気交換量の測定が困難であるなど, 関連する研究において, co2ベースの占有率検出の精度は一般的に低い。
本研究では,CO2濃度の空間分布に基づく2つの新しい占有検知機能について述べる。
補助ベクトルマシン(SVM)を分類器として定量分析した結果, 自然換気室における占有状態検出の精度は, 基準値に比べて14.8ポイント向上し, 換気情報なしで83.2%(F1スコア0.84)に達した。
換気情報により精度は87.6%に達した(F1スコア0.89)。
占有量検出性能は, 基準線に対して25.3ポイント, 56 %, 根平均二乗誤差(RMSE)は11.44人であり, CO2関連の特徴のみを用いて有意に向上した。
追加の換気情報により性能はさらに61.8%向上した(rmse 9.02)。
空間的特徴を取り入れることで,co2関連特徴のみを用いたモデルが追加換気情報を含むモデルと同様の性能を示した。 Accurate occupancy information helps to improve building energy efficiency and occupant comfort. Occupancy detection methods based on CO2 sensors have received attention due to their low cost and low intrusiveness. In naturally ventilated buildings, the accuracy of CO2-based occupancy detection is generally low in related studies due to the complex ventilation behavior and the difficulty in measuring the actual air exchange through windows. In this study, we present two novel features for occupancy detection based on the spatial distribution of the CO2 concentration. After a quantitative analysis with Support Vector Machine (SVM) as classifier, it was found that the accuracy of occupancy state detection in naturally ventilated rooms could be improved by up to 14.8 percentage points compared to the baseline, reaching 83.2 % (F1 score 0.84) without any ventilation information. With ventilation information, the accuracy reached 87.6 % (F1 score 0.89). The performance of occupancy quantity detection was significantly improved by up to 25.3 percentage points versus baseline, reaching 56 %, with root mean square error (RMSE) of 11.44 occupants, using only CO2-related features. Additional ventilation information further enhanced the performance to 61.8 % (RMSE 9.02 occupants). By incorporating spatial features, the model using only CO2-related features revealed similar performance as the model containing additional ventilation information, resulting in a better low-cost occupancy detection method for naturally ventilated buildings. | 翻訳日:2024-03-12 19:25:34 公開日:2024-03-11 |
# kellmrec: 知識に富んだ大規模言語モデル KELLMRec: Knowledge-Enhanced Large Language Models for Recommendation ( http://arxiv.org/abs/2403.06642v1 ) ライセンス: Link先を確認 | Weiqing Luo, Chonggang Song, Lingling Yi, Gong Cheng | (参考訳) セマンティック情報の利用は、主流のIDベースのアプローチの欠如を補うことを目的としたレコメンデーターシステム分野における重要な研究課題である。
LLMの台頭に伴い、知識基盤として機能する能力とその推論能力は、この研究領域に新たな可能性をもたらし、LLMベースの推薦が新たな研究方向となる。
しかし,LLMを直接使用してレコメンデーションシナリオのセマンティック情報を処理することは,幻覚などの問題により信頼性が低く,準最適である。
これに対処する有望な方法は、外部の知識を使ってllmを助け、真正で使いやすいテキストを生成することである。
以上の動機に着想を得て,知識強化LLMRec法を提案する。
提案手法は,プロンプトにおける外部知識の活用に加えて,学習のための知識ベースのコントラスト学習スキームも含む。
公開データセットと企業内データセットの実験は、提案手法の有効性を検証する。 The utilization of semantic information is an important research problem in the field of recommender systems, which aims to complement the missing parts of mainstream ID-based approaches. With the rise of LLM, its ability to act as a knowledge base and its reasoning capability have opened up new possibilities for this research area, making LLM-based recommendation an emerging research direction. However, directly using LLM to process semantic information for recommendation scenarios is unreliable and sub-optimal due to several problems such as hallucination. A promising way to cope with this is to use external knowledge to aid LLM in generating truthful and usable text. Inspired by the above motivation, we propose a Knowledge-Enhanced LLMRec method. In addition to using external knowledge in prompts, the proposed method also includes a knowledge-based contrastive learning scheme for training. Experiments on public datasets and in-enterprise datasets validate the effectiveness of the proposed method. | 翻訳日:2024-03-12 19:25:09 公開日:2024-03-11 |
# 産業環境における物体検出のためのマイナショット学習のエネルギー効率評価 Evaluating the Energy Efficiency of Few-Shot Learning for Object Detection in Industrial Settings ( http://arxiv.org/abs/2403.06631v1 ) ライセンス: Link先を確認 | Georgios Tsoumplekas, Vladislav Li, Ilias Siniosoglou, Vasileios Argyriou, Sotirios K. Goudos, Ioannis D. Moscholios, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis | (参考訳) 進化を続ける人工知能(ai)の時代において、モデルのパフォーマンスはイノベーションを駆動する重要な指標となり、モデルのサイズと複雑さが指数関数的に向上した。
しかし、サステナビリティとエネルギー効率は、現代の産業環境での展開において重要な要件であり、少数ショット学習のようなデータ効率のアプローチを使う必要がある。
本稿では,長期モデルトレーニングの負担を軽減し,エネルギー消費を最小限に抑えるために,標準物体検出モデルを下流タスクに適応させるための微調整手法について検討する。
次に, 揮発性産業環境からの物体検出ベンチマークデータセットに適用した, 開発モデルのエネルギー需要の徹底したケーススタディと評価を行った。
具体的には, 異なる微調整戦略と, 訓練中の補助評価データの利用について検討し, この低データ体制において, 性能と効率のトレードオフを強調した。
最後に、このトレードオフを、カスタマイズされた効率係数測定によって定量化する新しい方法を紹介する。 In the ever-evolving era of Artificial Intelligence (AI), model performance has constituted a key metric driving innovation, leading to an exponential growth in model size and complexity. However, sustainability and energy efficiency have been critical requirements during deployment in contemporary industrial settings, necessitating the use of data-efficient approaches such as few-shot learning. In this paper, to alleviate the burden of lengthy model training and minimize energy consumption, a finetuning approach to adapt standard object detection models to downstream tasks is examined. Subsequently, a thorough case study and evaluation of the energy demands of the developed models, applied in object detection benchmark datasets from volatile industrial environments is presented. Specifically, different finetuning strategies as well as utilization of ancillary evaluation data during training are examined, and the trade-off between performance and efficiency is highlighted in this low-data regime. Finally, this paper introduces a novel way to quantify this trade-off through a customized Efficiency Factor metric. | 翻訳日:2024-03-12 19:24:54 公開日:2024-03-11 |
# SmartML: スマートコントラクトのためのモデリング言語を目指す SmartML: Towards a Modeling Language for Smart Contracts ( http://arxiv.org/abs/2403.06622v1 ) ライセンス: Link先を確認 | Adele Veschetti, Richard Bubel, Reiner H\"ahnle | (参考訳) smart contractsは現実世界のトランザクションを成文化し、事前定義された条件が満たされると自動的に契約条件を実行する。
本稿では,プラットフォームに依存しない,理解しやすいスマートコントラクトのモデリング言語であるSmartMLを提案する。
フォーマルなセマンティクスと型システムは、セキュリティの脆弱性や攻撃に対処する上での役割に焦点を当てています。
ケーススタディを通じて、分散システム内のスマートコントラクトの信頼性とセキュリティを強化する上で、SmartMLがレジリエンス攻撃の防止にどのように貢献しているかを示す。 Smart contracts codify real-world transactions and automatically execute the terms of the contract when predefined conditions are met. This paper proposes SmartML, a modeling language for smart contracts that is platform independent and easy to comprehend. We detail the formal semantics and the type system, focusing on its role in addressing security vulnerabilities and attacks. Through case studies we show how SmartML contributes to the prevention of reentrancy attacks, illustrating its efficacy in reinforcing the reliability and security of smart contracts within decentralized systems. | 翻訳日:2024-03-12 19:24:37 公開日:2024-03-11 |
# 航空セマンティックセグメンテーションのための森林検査データセットと深さ推定 Forest Inspection Dataset for Aerial Semantic Segmentation and Depth Estimation ( http://arxiv.org/abs/2403.06621v1 ) ライセンス: Link先を確認 | Bianca-Cerasela-Zelia Blaga and Sergiu Nedevschi | (参考訳) 人間はUAVを使って森林環境の変化を監視します。
しかし,森林破壊の程度を評価するのに必要な状況を理解するには,これらの情報は不十分である。
深層学習アルゴリズムは、正確な解釈を出力するために大量のデータに基づいて訓練する必要があるが、注釈付き森林画像の真実記録は利用できない。
そこで本研究では,自然環境の実世界記録と仮想記録の両方を含む森林調査用大規模空中データセットを,異なる照明条件において異なる高度と記録角度で,密に注釈付き意味セグメンテーションラベルと深度マップを用いて紹介する。
セマンティクスセグメンテーションタスク(hrnetとpointflow network)を解決するために、2つのマルチスケールニューラルネットワークの性能をテストし、様々な獲得条件の影響と、仮想データから実データへの学習能力について検討した。
以上の結果から,トレーニングの結果は,データを特定のカテゴリに分割するのではなく,多種多様なシナリオを含むデータセット上で得られることが判明した。
また,森林破壊の程度を評価する枠組みも開発している。 Humans use UAVs to monitor changes in forest environments since they are lightweight and provide a large variety of surveillance data. However, their information does not present enough details for understanding the scene which is needed to assess the degree of deforestation. Deep learning algorithms must be trained on large amounts of data to output accurate interpretations, but ground truth recordings of annotated forest imagery are not available. To solve this problem, we introduce a new large aerial dataset for forest inspection which contains both real-world and virtual recordings of natural environments, with densely annotated semantic segmentation labels and depth maps, taken in different illumination conditions, at various altitudes and recording angles. We test the performance of two multi-scale neural networks for solving the semantic segmentation task (HRNet and PointFlow network), studying the impact of the various acquisition conditions and the capabilities of transfer learning from virtual to real data. Our results showcase that the best results are obtained when the training is done on a dataset containing a large variety of scenarios, rather than separating the data into specific categories. We also develop a framework to assess the deforestation degree of an area. | 翻訳日:2024-03-12 19:24:27 公開日:2024-03-11 |
# 駆動行動の時間的局在化のための密度誘導ラベル平滑化 Density-Guided Label Smoothing for Temporal Localization of Driving Actions ( http://arxiv.org/abs/2403.06616v1 ) ライセンス: Link先を確認 | Tunc Alkanat, Erkut Akdag, Egor Bondarev, Peter H. N. De With | (参考訳) 運転行動の時間的局所化は、先進的な運転支援システムや自然主義運転研究において重要な役割を果たす。
しかし、堅牢性、信頼性、正確なローカライゼーションの厳格な要件のため、これは難しい課題である。
本研究では,映像行動認識ネットワークを効率よく活用し,これらをアクションローカライゼーションの問題に適応させることにより,全体的な性能向上に注力する。
そこで我々はまず,ラベル確率分布に基づく密度誘導型ラベル平滑化手法を開発し,複数のラベルを含む境界ビデオセグメントの学習を容易にする。
第2に,ビデオセグメントと複数のカメラビューからの情報をシーンレベルの予測に効率的に融合し,偽陽性の除去を容易にするポストプロセッシングステップを設計する。
提案手法は,2022年のNVIDIA AI City Challengeにおける自然主義駆動行動認識トラックのA2テストセットにおいて,F1スコア0.271の競合性能を示す。 Temporal localization of driving actions plays a crucial role in advanced driver-assistance systems and naturalistic driving studies. However, this is a challenging task due to strict requirements for robustness, reliability and accurate localization. In this work, we focus on improving the overall performance by efficiently utilizing video action recognition networks and adapting these to the problem of action localization. To this end, we first develop a density-guided label smoothing technique based on label probability distributions to facilitate better learning from boundary video-segments that typically include multiple labels. Second, we design a post-processing step to efficiently fuse information from video-segments and multiple camera views into scene-level predictions, which facilitates elimination of false positives. Our methodology yields a competitive performance on the A2 test set of the naturalistic driving action recognition track of the 2022 NVIDIA AI City Challenge with an F1 score of 0.271. | 翻訳日:2024-03-12 19:24:07 公開日:2024-03-11 |
# データ解析のためのバック対称リーマン幾何学 Pulling back symmetric Riemannian geometry for data analysis ( http://arxiv.org/abs/2403.06612v1 ) ライセンス: Link先を確認 | Willem Diepeveen | (参考訳) データセットは低次元の非線形部分空間に存在する傾向がある。
このようなデータセットに対する理想的なデータ解析ツールは、そのような非線形幾何学を考慮すべきである。
対称リーマン幾何学の設定は、様々な理由に適合することができる。
第一に、古典的非線形埋め込みによる経験的証拠によってデータ幾何を捉えることができることが証明された、幅広い非線形ジオメトリを考慮できる豊富な数学的構造を持つ。
第二に、当初ユークリッド空間のデータのために開発された標準データ解析ツールの多くは、対称リーマン多様体のデータに効率的に一般化することができる。
概念上の課題は、データ空間自体に対称リーマン構造を構築するためのガイドラインの欠如と、データ解析のために対称リーマン多様体上で成功したアルゴリズムを修正するためのガイドラインの欠如である。
本研究は微分同相写像によるプルバックリーマン幾何学の設定におけるこれらの課題を考察する。
論文の第1部では、適切な、安定で効率的なデータ分析をもたらす微分同相を特徴づけている。
第2部では、これらのベストプラクティスを使用して、深層学習を通じて微分同相性の構築を導く。
概念実証として、さまざまな種類のプルバックジオメトリ -- 提案する構成 -- が、いくつかのデータ分析タスクといくつかのトイデータセット上でテストされる。
数値実験は、理論の予測、すなわち、引き戻し幾何を生成する微分同相写像は、データ多様体の局所等方性を維持しながら、引き戻しリーマン多様体の測地部分空間にデータ多様体をマッピングする必要があること、そして、正の曲率を引き戻すことは安定性の観点から問題となることを確認した。 Data sets tend to live in low-dimensional non-linear subspaces. Ideal data analysis tools for such data sets should therefore account for such non-linear geometry. The symmetric Riemannian geometry setting can be suitable for a variety of reasons. First, it comes with a rich mathematical structure to account for a wide range of non-linear geometries that has been shown to be able to capture the data geometry through empirical evidence from classical non-linear embedding. Second, many standard data analysis tools initially developed for data in Euclidean space can also be generalised efficiently to data on a symmetric Riemannian manifold. A conceptual challenge comes from the lack of guidelines for constructing a symmetric Riemannian structure on the data space itself and the lack of guidelines for modifying successful algorithms on symmetric Riemannian manifolds for data analysis to this setting. This work considers these challenges in the setting of pullback Riemannian geometry through a diffeomorphism. The first part of the paper characterises diffeomorphisms that result in proper, stable and efficient data analysis. The second part then uses these best practices to guide construction of such diffeomorphisms through deep learning. As a proof of concept, different types of pullback geometries -- among which the proposed construction -- are tested on several data analysis tasks and on several toy data sets. The numerical experiments confirm the predictions from theory, i.e., that the diffeomorphisms generating the pullback geometry need to map the data manifold into a geodesic subspace of the pulled back Riemannian manifold while preserving local isometry around the data manifold for proper, stable and efficient data analysis, and that pulling back positive curvature can be problematic in terms of stability. | 翻訳日:2024-03-12 19:23:52 公開日:2024-03-11 |
# MedKP:知識向上とクリニカルパスエンコーディングによる医療対話 MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway Encoding ( http://arxiv.org/abs/2403.06611v1 ) ライセンス: Link先を確認 | Jiageng Wu, Xian Wu, Yefeng Zheng, Jie Yang | (参考訳) 適切なデータ選択とトレーニング技術により、LLM(Large Language Models)は、様々な医学的検査や複数選択の質問において、例外的な成功を収めた。
しかし、医療対話生成におけるLLMの適用は、実際の医療実践とより密に一致した課題である。
このギャップは、LLMの不十分な医療知識によるもので、発生した医療応答の不正確さと幻覚情報をもたらす。
本稿では,医療知識グラフを通じて外部知識向上モジュールを統合したMedKP(MedKP)フレームワークと,医療機関や医師の行動を介して内部臨床パスをコードする内部臨床パスについて紹介する。
総合的な測定値を用いて評価し,medkpが複数のベースラインを越え,幻覚の発生を軽減し,新たな最先端の医療コンサルテーションデータセット(meddgとkamed)を2つ構築した。
広範囲にわたるアブレーション研究により、MedKPの各成分の有効性が明らかにされた。
この強化により、LSMを用いた信頼性の高い自動化された医療相談応答の開発が進み、正確かつリアルタイムな医療支援の可能性を広げる。 With appropriate data selection and training techniques, Large Language Models (LLMs) have demonstrated exceptional success in various medical examinations and multiple-choice questions. However, the application of LLMs in medical dialogue generation-a task more closely aligned with actual medical practice-has been less explored. This gap is attributed to the insufficient medical knowledge of LLMs, which leads to inaccuracies and hallucinated information in the generated medical responses. In this work, we introduce the Medical dialogue with Knowledge enhancement and clinical Pathway encoding (MedKP) framework, which integrates an external knowledge enhancement module through a medical knowledge graph and an internal clinical pathway encoding via medical entities and physician actions. Evaluated with comprehensive metrics, our experiments on two large-scale, real-world online medical consultation datasets (MedDG and KaMed) demonstrate that MedKP surpasses multiple baselines and mitigates the incidence of hallucinations, achieving a new state-of-the-art. Extensive ablation studies further reveal the effectiveness of each component of MedKP. This enhancement advances the development of reliable, automated medical consultation responses using LLMs, thereby broadening the potential accessibility of precise and real-time medical assistance. | 翻訳日:2024-03-12 19:23:18 公開日:2024-03-11 |
# 知識種による大規模言語モデルによる臨床推論の指導 Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds ( http://arxiv.org/abs/2403.06609v1 ) ライセンス: Link先を確認 | Jiageng WU, Xian Wu, Jie Yang | (参考訳) 臨床推論は、医師が患者の評価と管理に使用する認知過程を指す。
このプロセスには一般的に必要な検査の提案、患者の病気の診断、適切な治療の決定などが含まれる。
正確な臨床推論には広範な医学知識と豊富な臨床経験が必要であり、医師にとって高い基準となる。
これは、患者が圧倒的に多く、医師のリソースが限られているため、途上国では特に困難であり、世界的な健康の不平等と自動化された臨床推論アプローチの必要性に大きく寄与している。
近年,ChatGPT や GPT-4 などの大型言語モデル (LLM) の出現は臨床推論においてその可能性を示している。
しかし、これらのLSMは幻覚障害を起こしやすいため、LSMの推論過程は医師の臨床的決定経路と一致しない可能性がある。
本研究では,医療知識を用いたllm強化を目的とした新しい枠組みであるインコンテキストパディング(icp)を提案する。
具体的には、重要な臨床理由付け要素(知識種)を推測し、これらをアンカーとしてLLMの生成過程を導出する。
2つの臨床質問データセットの実験により、ICPはLSMの臨床的推論能力を大幅に改善することが示された。 Clinical reasoning refers to the cognitive process that physicians employ in evaluating and managing patients. This process typically involves suggesting necessary examinations, diagnosing patients' diseases, and deciding on appropriate therapies, etc. Accurate clinical reasoning requires extensive medical knowledge and rich clinical experience, setting a high bar for physicians. This is particularly challenging in developing countries due to the overwhelming number of patients and limited physician resources, contributing significantly to global health inequity and necessitating automated clinical reasoning approaches. Recently, the emergence of large language models (LLMs) such as ChatGPT and GPT-4 have demonstrated their potential in clinical reasoning. However, these LLMs are prone to hallucination problems, and the reasoning process of LLMs may not align with the clinical decision path of physicians. In this study, we introduce a novel framework, In-Context Padding (ICP), designed to enhance LLMs with medical knowledge. Specifically, we infer critical clinical reasoning elements (referred to as knowledge seeds) and use these as anchors to guide the generation process of LLMs. Experiments on two clinical question datasets demonstrate that ICP significantly improves the clinical reasoning ability of LLMs. | 翻訳日:2024-03-12 19:22:55 公開日:2024-03-11 |
# Fair Facial Attribute 分類のための分布生成拡張 Distributionally Generative Augmentation for Fair Facial Attribute Classification ( http://arxiv.org/abs/2403.06606v1 ) ライセンス: Link先を確認 | Fengda Zhang, Qianpei He, Kun Kuang, Jiashuo Liu, Long Chen, Chao Wu, Jun Xiao, Hanwang Zhang | (参考訳) Facial Attribute Classification (FAC) は広く応用されている。
しかし、従来の手法で訓練されたFACモデルは、様々なデータサブポピュレーションにまたがる精度の不整合を示すことで不公平である。
この不公平さは主としてデータのバイアスによるもので、いくつかの散発的な属性(例えば男性)はターゲット属性(例えば笑顔)と統計的に相関している。
既存のフェアネスアウェアメソッドのほとんどがスプリアス属性のラベルに依存しており、実際には利用できない可能性がある。
この研究は、新たなアノテーションなしでバイアスデータ上で公正なFACモデルをトレーニングするための、新しい世代ベースの2段階フレームワークを提案する。
まず、生成モデルに基づいて、潜在的にスプリアスな属性を特定する。
特に、画像空間内のスプリアス属性を明示的に示すことで、解釈可能性を高める。
次に、各画像に対して、ターゲット属性を変更せずに、一様分布からサンプリングされたランダムな次数でスプリアス属性を編集する。
そして、これらの拡張に対するモデル不変性を育み、公正なFACモデルを訓練する。
3つの共通データセットに対する大規模な実験は、精度を損なうことなくFACの公平性を促進できることを示す。
コードはhttps://github.com/heqianpei/DiGAにある。 Facial Attribute Classification (FAC) holds substantial promise in widespread applications. However, FAC models trained by traditional methodologies can be unfair by exhibiting accuracy inconsistencies across varied data subpopulations. This unfairness is largely attributed to bias in data, where some spurious attributes (e.g., Male) statistically correlate with the target attribute (e.g., Smiling). Most of existing fairness-aware methods rely on the labels of spurious attributes, which may be unavailable in practice. This work proposes a novel, generation-based two-stage framework to train a fair FAC model on biased data without additional annotation. Initially, we identify the potential spurious attributes based on generative models. Notably, it enhances interpretability by explicitly showing the spurious attributes in image space. Following this, for each image, we first edit the spurious attributes with a random degree sampled from a uniform distribution, while keeping target attribute unchanged. Then we train a fair FAC model by fostering model invariance to these augmentation. Extensive experiments on three common datasets demonstrate the effectiveness of our method in promoting fairness in FAC without compromising accuracy. Codes are in https://github.com/heqianpei/DiGA. | 翻訳日:2024-03-12 19:22:36 公開日:2024-03-11 |
# 画像-グラフ変換器のクロスドメインとクロス次元学習 Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers ( http://arxiv.org/abs/2403.06601v1 ) ライセンス: Link先を確認 | Alexander H. Berger, Laurin Lux, Suprosanna Shit, Ivan Ezhov, Georgios Kaissis, Martin J. Menten, Daniel Rueckert, Johannes C. Paetzold | (参考訳) 直接画像からグラフへの変換は、1つのモデルでオブジェクトの検出と関係予測を解決する困難なタスクである。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットは稀であり、大規模ネットワークのトレーニングを困難にしている。
このデータは、コンピュータビジョンにおける最先端技術に似た事前学習戦略の確立を必要とする。
本研究では,画像間変換器のクロスドメインおよびクロス次元変換学習を実現する手法を提案する。
本研究では,(1)領域間でのオブジェクト関係(エッジ)の最適個数をサンプリングする正規化エッジサンプリング損失,(2)異なる領域の特徴を整列する画像-グラフ変換器のドメイン適応フレームワーク,(3)2次元入力データ上で3次元変換器を事前訓練可能な単純な投影関数を提案する。
2次元および3次元の異なる対象領域に適用する前に、2次元衛星画像上でモデルを事前学習するクロスドメインおよびクロスディメンション実験において,本手法の有用性を実証する。
我々の手法は、網膜や脳血管グラフの抽出など、困難なベンチマークにおいて、一連のベースラインを一貫して上回る。 Direct image-to-graph transformation is a challenging task that solves object detection and relationship prediction in a single model. Due to the complexity of this task, large training datasets are rare in many domains, which makes the training of large networks challenging. This data sparsity necessitates the establishment of pre-training strategies akin to the state-of-the-art in computer vision. In this work, we introduce a set of methods enabling cross-domain and cross-dimension transfer learning for image-to-graph transformers. We propose (1) a regularized edge sampling loss for sampling the optimal number of object relationships (edges) across domains, (2) a domain adaptation framework for image-to-graph transformers that aligns features from different domains, and (3) a simple projection function that allows us to pretrain 3D transformers on 2D input data. We demonstrate our method's utility in cross-domain and cross-dimension experiments, where we pretrain our models on 2D satellite images before applying them to vastly different target domains in 2D and 3D. Our method consistently outperforms a series of baselines on challenging benchmarks, such as retinal or whole-brain vessel graph extraction. | 翻訳日:2024-03-12 19:22:17 公開日:2024-03-11 |
# BEV2PR:構造的キューを用いたBEVによる視覚的位置認識 BEV2PR: BEV-Enhanced Visual Place Recognition with Structural Cues ( http://arxiv.org/abs/2403.06600v1 ) ライセンス: Link先を確認 | Fudong Ge, Yiwei Zhang, Shuhan Shen, Yue Wang, Weiming Hu, Jin Gao | (参考訳) 本稿では,単一単眼カメラから鳥眼ビュー(BEV)の構造的手がかりを利用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
動機は、VPRに関する2つの重要な観察から生じる。
1)カメラとLiDARの両方をベースとした手法では,ロボットシステムへのLiDARの統合がコストの増大につながっており,センサ間のデータのアライメントも大きな課題となっている。
2)RGB画像とその派生した変種(擬似深度画像や擬似3D点雲など)の統合を含む他の画像・カメラベースの手法では、異なるオブジェクト間の空間的関係を効果的に利用できないなど、いくつかの制限がある。
上記の課題に対処するため,視覚的手がかりと空間認識を両立させた複合ディスクリプタを1台のカメラで生成できる新しいBEV拡張型VPRフレームワークであるBEV2PRを設計した。
ビジュアルなキューでは、RGBグローバル機能用の一般的なアグリゲーションモジュールは、私たちのフレームワークに統合できます。
主なポイントは次のとおりである。
1)グローバルな機能構築における構造知識の明確な源として,BEVセグメンテーション機能を用いる。
2)VPRの視覚的および構造的ストリームに対して,BEVマップ生成からの事前学習したバックボーンの下位層を共有し,視覚的ストリームの微細な局所的特徴の学習を容易にする。
3)視覚的特徴と構造的特徴は共同でVPR性能を向上させることができる。
我々のBEV2PRフレームワークは、カメラベースのVPRアグリゲーションモジュールを統合する際の一貫したパフォーマンス向上を可能にする。
収集したVPR-NuScenesデータセットの実験では、強力なConv-APベースラインであるRecall@1では2.47%が絶対的に向上し、私たちの設定で最高のパフォーマンスを実現しています。 In this paper, we propose a new image-based visual place recognition (VPR) framework by exploiting the structural cues in bird's-eye view (BEV) from a single monocular camera. The motivation arises from two key observations about VPR: 1) For the methods based on both camera and LiDAR sensors, the integration of LiDAR in robotic systems has led to increased expenses, while the alignment of data between different sensors is also a major challenge. 2) Other image-/camera-based methods, involving integrating RGB images and their derived variants (e.g., pseudo depth images, pseudo 3D point clouds), exhibit several limitations, such as the failure to effectively exploit the explicit spatial relationships between different objects. To tackle the above issues, we design a new BEV-enhanced VPR framework, nemely BEV2PR, which can generate a composite descriptor with both visual cues and spatial awareness solely based on a single camera. For the visual cues, any popular aggregation module for RGB global features can be integrated into our framework. The key points lie in: 1) We use BEV segmentation features as an explicit source of structural knowledge in constructing global features. 2) The lower layers of the pre-trained backbone from BEV map generation are shared for visual and structural streams in VPR, facilitating the learning of fine-grained local features in the visual stream. 3) The complementary visual features and structural features can jointly enhance VPR performance. Our BEV2PR framework enables consistent performance improvements over several popular camera-based VPR aggregation modules when integrating them. The experiments on our collected VPR-NuScenes dataset demonstrate an absolute gain of 2.47% on Recall@1 for the strong Conv-AP baseline to achieve the best performance in our setting, and notably, a 18.06% gain on the hard set. | 翻訳日:2024-03-12 19:21:56 公開日:2024-03-11 |
# llmウォーターマークの著作と政治・倫理 Authorship and the Politics and Ethics of LLM Watermarks ( http://arxiv.org/abs/2403.06593v1 ) ライセンス: Link先を確認 | Tim R\"az | (参考訳) 近年,機械や人間が生成するテキストを識別するために,大規模言語モデル(LLM)の透かし方式が提案されている。
本稿では,透かし方式の実践と活用の哲学的・政治的・倫理的影響について考察する。
機械(llm)と人間(human)の両方を含む著者の定義が背景として提案されている。
民間の透かしは、従来の著作者決定の基準とは相容れない、著作者決定のための徹底的な権利を民間企業に与える可能性があると論じられている。
そこで,透かし機構のいわゆるエントロピー依存性の解明の可能性を探る。
エントロピーは異なる、社会的に健全なグループによって異なるかもしれないと論じられている。
これは、マシンが生成したテキストが検出されるグループ依存率につながる可能性がある。
特に、低エントロピーテキストに関心のあるグループは、それらに興味のあるマシン生成テキストを検出するのが難しいという課題に直面するかもしれない。 Recently, watermarking schemes for large language models (LLMs) have been proposed to distinguish text generated by machines and by humans. The present paper explores philosophical, political, and ethical ramifications of implementing and using watermarking schemes. A definition of authorship that includes both machines (LLMs) and humans is proposed to serve as a backdrop. It is argued that private watermarks may provide private companies with sweeping rights to determine authorship, which is incompatible with traditional standards of authorship determination. Then, possible ramifications of the so-called entropy dependence of watermarking mechanisms are explored. It is argued that entropy may vary for different, socially salient groups. This could lead to group dependent rates at which machine generated text is detected. Specifically, groups more interested in low entropy text may face the challenge that it is harder to detect machine generated text that is of interest to them. | 翻訳日:2024-03-12 19:21:22 公開日:2024-03-11 |
# ディープフェイク検出ビデオ検出のための爆発型潜水流 Exploiting Style Latent Flows for Generalizing Deepfake Detection Video Detection ( http://arxiv.org/abs/2403.06592v1 ) ライセンス: Link先を確認 | Jongwook Choi, Taehoon Kim, Yonghyun Jeong, Seungryul Baek, Jongwon Choi | (参考訳) 本稿では,生成した映像の時間変化におけるスタイル潜伏ベクトルの解析と異常挙動に基づいて,偽映像の検出を行う新しい手法を提案する。
その結果,生成した顔映像は,表情や幾何学的変換の時間的安定な映像の生成において必然的に避けられない,潜伏ベクトルの時間的変化の時間的特徴に苦しむことがわかった。
我々のフレームワークは、スタイル潜在ベクトルの動的特性を表現するために、コントラスト学習によって訓練されたStyleGRUモジュールを利用する。
さらに,StyleGRU生成機能とコンテンツベース機能を統合し,視覚的および時間的アーティファクトの検出を可能にするスタイルアテンションモジュールを導入する。
ディープフェイク検出における様々なベンチマークシナリオにまたがるアプローチを実証し,クロスデータセットおよびクロスマニピュレーションシナリオにおけるその優位性を示す。
さらに,ディープフェイク映像検出の汎用性を向上させるために,潜伏ベクトルの時間的変化を用いた場合の重要性を検証した。 This paper presents a new approach for the detection of fake videos, based on the analysis of style latent vectors and their abnormal behavior in temporal changes in the generated videos. We discovered that the generated facial videos suffer from the temporal distinctiveness in the temporal changes of style latent vectors, which are inevitable during the generation of temporally stable videos with various facial expressions and geometric transformations. Our framework utilizes the StyleGRU module, trained by contrastive learning, to represent the dynamic properties of style latent vectors. Additionally, we introduce a style attention module that integrates StyleGRU-generated features with content-based features, enabling the detection of visual and temporal artifacts. We demonstrate our approach across various benchmark scenarios in deepfake detection, showing its superiority in cross-dataset and cross-manipulation scenarios. Through further analysis, we also validate the importance of using temporal changes of style latent vectors to improve the generality of deepfake video detection. | 翻訳日:2024-03-12 19:21:09 公開日:2024-03-11 |
# 学術的知的LLMは必ずしも社会的知的ではない Academically intelligent LLMs are not necessarily socially intelligent ( http://arxiv.org/abs/2403.06591v1 ) ライセンス: Link先を確認 | Ruoxi Xu, Hongyu Lin, Xianpei Han, Le Sun, Yingfei Sun | (参考訳) 大規模言語モデルの学術的知性(llm)は近年著しく進歩しているが、その社会的知性のパフォーマンスはいまだに不明である。
特にダニエル・ゴールマン(英語版)の社会知能理論(英語版)の確立した社会知能フレームワークに触発され、現実の社会的シナリオに基づく標準化された社会知能テストを開発し、社会知能の状況評価(SESI)と呼ばれるLLMの社会的知能を包括的に評価した。
sesiの最近の人気および最先端のllmエージェント13名を対象に広範な評価を行った。
その結果、LLMの社会的知性は依然として改善の余地があり、表面的には親しみがエラーの主な原因であることがわかった。
さらに,社会知能と学術知能との間には相対的に低い相関関係が存在し,社会知能と学術知能との相関関係が示唆された。
加えて、LLMは社会的知能とは何か「理解」できないが、その社会的知能は人間のものと類似しており、社会的要因の影響を受けている。 The academic intelligence of large language models (LLMs) has made remarkable progress in recent times, but their social intelligence performance remains unclear. Inspired by established human social intelligence frameworks, particularly Daniel Goleman's social intelligence theory, we have developed a standardized social intelligence test based on real-world social scenarios to comprehensively assess the social intelligence of LLMs, termed as the Situational Evaluation of Social Intelligence (SESI). We conducted an extensive evaluation with 13 recent popular and state-of-art LLM agents on SESI. The results indicate the social intelligence of LLMs still has significant room for improvement, with superficially friendliness as a primary reason for errors. Moreover, there exists a relatively low correlation between the social intelligence and academic intelligence exhibited by LLMs, suggesting that social intelligence is distinct from academic intelligence for LLMs. Additionally, while it is observed that LLMs can't ``understand'' what social intelligence is, their social intelligence, similar to that of humans, is influenced by social factors. | 翻訳日:2024-03-12 19:20:49 公開日:2024-03-11 |
# 長距離量子系におけるアンサンブル不等式 Ensemble inequivalence in long-range quantum systems ( http://arxiv.org/abs/2403.06673v1 ) ライセンス: Link先を確認 | Nicol\`o Defenu, David Mukamel, Stefano Ruffo | (参考訳) アンサンブルの非等価性、すなわち系を記述する統計的アンサンブルに依存する異なる熱力学的性質を観測する可能性(英語版)は、多くの古典系で実証されてきた長距離物理学の要点の一つである。
ここでは、長距離量子強磁性体のアンサンブル不等値の例を示す。
t=0$ マイクロカノニカル量子位相図は正準アンサンブルのそれと一致するが、2つのアンサンブルの位相図は有限温度で異なる。
これは、熱力学特性が異なるアンサンブルによって記述されるマクロ力学系と一致するような短距離相互作用を持つ系の統計力学の一般的な軌跡とは対照的である。
原子、分子、光学(AMO)セットアップの文脈におけるこれらの発見の結果は、明らかにされている。 Ensemble inequivalence, i.e. the possibility of observing different thermodynamic properties depending on the statistical ensemble which describes the system, is one of the hallmarks of long-range physics, which has been demonstrated in numerous classical systems. Here, an example of ensemble inequivalence of a long-range quantum ferromagnet is presented. While the $T=0$ microcanonical quantum phase-diagram coincides with that in the canonical ensemble, the phase-diagrams of the two ensembles are different at finite temperature. This is in contrast with the common lore of statistical mechanics of systems with short-range interactions where thermodynamic properties are bound to coincide for macroscopic systems described by different ensembles. The consequences of these findings in the context of atomic, molecular and optical (AMO) setups are delineated. | 翻訳日:2024-03-12 19:15:53 公開日:2024-03-11 |
# プライバシーに敏感なドメインにおけるフェデレーション学習による有望な相互利益 Provable Mutual Benefits from Federated Learning in Privacy-Sensitive Domains ( http://arxiv.org/abs/2403.06672v1 ) ライセンス: Link先を確認 | Nikita Tsoy, Anna Mihalkova, Teodora Todorova, Nikola Konstantinov | (参考訳) cross-silo federated learning(fl)は、データオーナが互いにプライベートなデータセットを活用して、正確なマシンラーニングモデルをトレーニング可能にする。
残念ながら、コラボレーションのモデル精度の利点は、しばしばプライバシー保護によって損なわれます。
したがって、プライバシーに敏感なドメインへのクライアントの参加を促進するために、FLプロトコルはプライバシー保証とエンドモデル精度の微妙なバランスをとる必要がある。
本稿では,サーバがFLプロトコルをいつ,どのように設計できるかという課題について検討する。
まず、平均推定と凸確率最適化の文脈において相互に有益なプロトコルが存在するための必要十分条件を与える。
また、対称的なプライバシー設定を条件として、クライアント全体の利便性を最大化するプロトコルも導出します。
最後に、エンドモデル精度を最大化するプロトコルを設計し、それらの利点を合成実験で示す。 Cross-silo federated learning (FL) allows data owners to train accurate machine learning models by benefiting from each others private datasets. Unfortunately, the model accuracy benefits of collaboration are often undermined by privacy defenses. Therefore, to incentivize client participation in privacy-sensitive domains, a FL protocol should strike a delicate balance between privacy guarantees and end-model accuracy. In this paper, we study the question of when and how a server could design a FL protocol provably beneficial for all participants. First, we provide necessary and sufficient conditions for the existence of mutually beneficial protocols in the context of mean estimation and convex stochastic optimization. We also derive protocols that maximize the total clients' utility, given symmetric privacy preferences. Finally, we design protocols maximizing end-model accuracy and demonstrate their benefits in synthetic experiments. | 翻訳日:2024-03-12 19:15:39 公開日:2024-03-11 |
# ガウス混合のアンタングリング Untangling Gaussian Mixtures ( http://arxiv.org/abs/2403.06671v1 ) ライセンス: Link先を確認 | Eva Fluck, Sandra Kiefer, Christoph Standke | (参考訳) タングルはもともとグラフの高接続領域を形式化する概念として導入された。
近年では、構造グラフ理論とデータ科学の結びつきとして発見されており、データセットの類似性を点間の接続性として解釈する場合、データ内のクラスタを見つけることは本質的に、基礎となるグラフの三角形を見つけることに相当する。
本稿では,クラスタの形式的研究の手段として,データセットにおけるタングルの可能性についても検討する。
現実世界のデータはしばしば正規分布に従う。
そこで本研究では,ガウス混合系から得られたデータセットにおけるタングルの定量理論を考案する。
この目的のために、データに点間の類似性をモデル化し、データに接線理論を適用することができるグラフ構造を具備する。
境界ガウス分布に付随する接点が漸近的にほぼ確実に存在する明示的な条件を与える。
これは、データ内のクラスタの分離可能性に対する十分な形式的基準と考えることができる。 Tangles were originally introduced as a concept to formalize regions of high connectivity in graphs. In recent years, they have also been discovered as a link between structural graph theory and data science: when interpreting similarity in data sets as connectivity between points, finding clusters in the data essentially amounts to finding tangles in the underlying graphs. This paper further explores the potential of tangles in data sets as a means for a formal study of clusters. Real-world data often follow a normal distribution. Accounting for this, we develop a quantitative theory of tangles in data sets drawn from Gaussian mixtures. To this end, we equip the data with a graph structure that models similarity between the points and allows us to apply tangle theory to the data. We provide explicit conditions under which tangles associated with the marginal Gaussian distributions exist asymptotically almost surely. This can be considered as a sufficient formal criterion for the separabability of clusters in the data. | 翻訳日:2024-03-12 19:15:25 公開日:2024-03-11 |
# CEAT: 初等中等教育用連続拡張吸収変圧器 CEAT: Continual Expansion and Absorption Transformer for Non-Exemplar Class-Incremental Learnin ( http://arxiv.org/abs/2403.06670v1 ) ライセンス: Link先を確認 | Xinyuan Gao, Songlin Dong, Yuhang He, Xing Wei, Yihong Gong | (参考訳) 現実のアプリケーションでは、動的シナリオは、古い知識を忘れずに新しいタスクを継続的に学習する能力を持つ必要がある。
Experience-Replayメソッドは、ジョイントトレーニングのために古いイメージのサブセットを格納する。
より厳格なプライバシー保護のシナリオでは、古い画像を保存することは不可能になり、より厳しい可塑性安定ジレンマと分類子バイアスにつながる。
上記の課題を克服するため,我々は連続膨張吸収トランスフォーマ(ceat)という新しいアーキテクチャを提案する。
このモデルは、凍結した前のパラメータと平行に拡散層を拡張することで、新しい知識を学ぶことができる。
タスクが終了すると、拡張されたパラメータをバックボーンに損失なく吸収して、パラメータ数が一定になるようにします。
モデルの学習能力を向上させるために,特徴空間における古クラスと新クラスの重複を低減するために,新しいプロトタイプを設計した。
さらに,新しいクラスに対する分類子バイアスに対処するために,分類子を補正する擬似機能を生成する新しい手法を提案する。
本手法を3つの標準非例クラスインクリメンタルラーニングベンチマーク(necil)を用いて実験した。
広範な実験により,cifar-100,tinyimagenet,imagenet-subsetの5.38%,5.20%,4.92%の改善を達成した。 In real-world applications, dynamic scenarios require the models to possess the capability to learn new tasks continuously without forgetting the old knowledge. Experience-Replay methods store a subset of the old images for joint training. In the scenario of more strict privacy protection, storing the old images becomes infeasible, which leads to a more severe plasticity-stability dilemma and classifier bias. To meet the above challenges, we propose a new architecture, named continual expansion and absorption transformer~(CEAT). The model can learn the novel knowledge by extending the expanded-fusion layers in parallel with the frozen previous parameters. After the task ends, we losslessly absorb the extended parameters into the backbone to ensure that the number of parameters remains constant. To improve the learning ability of the model, we designed a novel prototype contrastive loss to reduce the overlap between old and new classes in the feature space. Besides, to address the classifier bias towards the new classes, we propose a novel approach to generate the pseudo-features to correct the classifier. We experiment with our methods on three standard Non-Exemplar Class-Incremental Learning~(NECIL) benchmarks. Extensive experiments demonstrate that our model gets a significant improvement compared with the previous works and achieves 5.38%, 5.20%, and 4.92% improvement on CIFAR-100, TinyImageNet, and ImageNet-Subset. | 翻訳日:2024-03-12 19:15:09 公開日:2024-03-11 |
# PeerAiD:特化ピアチュータによる対向蒸留の改善 PeerAiD: Improving Adversarial Distillation from a Specialized Peer Tutor ( http://arxiv.org/abs/2403.06668v1 ) ライセンス: Link先を確認 | Jaewon Jung, Hongsun Jang, Jaeyong Song, Jinho Lee | (参考訳) ニューラルネットワークの敵対的堅牢性は、セキュリティクリティカルなドメインに適用される場合に重要な関心事である。
このような状況下では,教師ネットワークのロバスト性を蒸留し,小学生ネットワークのロバスト性を向上することを目的とした,対人蒸留が有望な選択肢である。
従来の研究は教師ネットワークを事前訓練し、それ自身が目指す敵の例に頑丈にしている。
しかし、敵の例はターゲットネットワークのパラメータに依存する。
固定教師ネットワークは、必然的に、逆蒸留過程において学生ネットワークのパラメータを対象とする、無防備な転向例に対する頑健性を低下させる。
本稿では,PierAiDを提案することで,ピアネットワークが学生ネットワークの対角的な例を学習できるようにする。
peeraid(ピアエイド)は、ピアネットワークと学生ネットワークを同時に訓練し、ピアネットワークを学生ネットワークの防御に特化する逆蒸留である。
このようなピアネットワークは,事前学習された教師ネットワークの頑健さを,学生が攻撃した敵対的サンプルに対して上回っていた。
このピアネットワークと逆蒸留により、peeraidはオートアタック(aa)精度を1.66%まで向上させ、resnet-18とtinyimagenetデータセットで学生ネットワークの自然精度を4.72%pまで向上させる。 Adversarial robustness of the neural network is a significant concern when it is applied to security-critical domains. In this situation, adversarial distillation is a promising option which aims to distill the robustness of the teacher network to improve the robustness of a small student network. Previous works pretrain the teacher network to make it robust to the adversarial examples aimed at itself. However, the adversarial examples are dependent on the parameters of the target network. The fixed teacher network inevitably degrades its robustness against the unseen transferred adversarial examples which targets the parameters of the student network in the adversarial distillation process. We propose PeerAiD to make a peer network learn the adversarial examples of the student network instead of adversarial examples aimed at itself. PeerAiD is an adversarial distillation that trains the peer network and the student network simultaneously in order to make the peer network specialized for defending the student network. We observe that such peer networks surpass the robustness of pretrained robust teacher network against student-attacked adversarial samples. With this peer network and adversarial distillation, PeerAiD achieves significantly higher robustness of the student network with AutoAttack (AA) accuracy up to 1.66%p and improves the natural accuracy of the student network up to 4.72%p with ResNet-18 and TinyImageNet dataset. | 翻訳日:2024-03-12 19:14:44 公開日:2024-03-11 |
# フォトニック量子ウォークを用いた普遍量子ゲートと6量子状態の実験的実現 Experimental realization of universal quantum gates and six-qubit state using photonic quantum walk ( http://arxiv.org/abs/2403.06665v1 ) ライセンス: Link先を確認 | Kanad Sengupta, K. Muhammed Shafi, S. P. Dinesh, Soumya Asokan, C. M. Chandrashekar | (参考訳) 制御された量子ウォークは、様々な量子アルゴリズムと量子シミュレーションスキームの基礎を形成する。
量子ウォークを用いた普遍量子計算を実現するための理論的提案もあるが、ゲートの普遍的な集合の実験的な実証は報告されていない。
本稿では,フォトニック量子ウォークを用いた量子ゲートの普遍集合の実験的実現について述べる。
離散時間量子ウォーク形式からヒントを得て、光子の分極と自由度を用いて複数の量子ビットを符号化し、量子状態トモグラフィで特徴付けられる100\%の成功確率と高い忠実度を持つ普遍的なゲート集合の実現を実証する。
3量子ビット系では、第1量子ビットに$H$と$V-$の光子と第2および第3量子ビットの経路情報の分極を符号化する。
6量子系を生成し、6量子GHZ状態を示すために、2つの3量子系の源として絡み合った光子対を用いる。
また、光子の量子ウォーク操作への量子回路のマッピングや、リソース的にスケールする方法に関する洞察も提供する。
この研究は、量子コンピューティングにフォトニック量子ウォークを使用するための大きな進歩を示している。
また、マルチキュービットゲート演算の成功率を高めるために、光子の少ない数と経路自由度を組み合わせたフォトニック量子コンピューティングのためのフレームワークも提供する。 Controlled quantum walk forms the basis for various quantum algorithm and quantum simulation schemes. Though theoretical proposals are also available to realize universal quantum computation using quantum walks, no experimental demonstration of universal set of gates has been reported. Here we report the experimental realize of universal set of quantum gates using photonic quantum walk. Taking cue from the discrete-time quantum walk formalism, we encode multiple qubits using polarization and paths degree of freedom for photon and demonstrate realization of universal set of gates with 100\% success probability and high fidelity, as characterised by quantum state tomography. For a 3-qubit system we encode first qubit with $H$ and $V-$polarization of photon and path information for the second and third qubit, closely resembling a Mach-Zehnder interference setup. To generate a 6-qubit system and demonstrate 6-qubit GHZ state, entangled photon pairs are used as source to two 3-qubit systems. We also provide insights into the mapping of quantum circuits to quantum walk operations on photons and way to resourcefully scale. This work marks a significant progress towards using photonic quantum walk for quantum computing. It also provides a framework for photonic quantum computing using lesser number of photons in combination with path degree of freedom to increase the success rate of multi-qubit gate operations. | 翻訳日:2024-03-12 19:14:19 公開日:2024-03-11 |
# スマートインフィニティ:実システムにおけるニアストレージ処理を用いた高速大規模言語モデルトレーニング Smart-Infinity: Fast Large Language Model Training using Near-Storage Processing on a Real System ( http://arxiv.org/abs/2403.06664v1 ) ライセンス: Link先を確認 | Hongsun Jang, Jaeyong Song, Jaewon Jung, Jaeyoung Park, Youngsok Kim, and Jinho Lee | (参考訳) 最近のLarge Language Models (LLM) の大きな進歩は、主にパラメータの数の増加によって引き起こされている。
これによりメモリ容量が大幅に要求され、容量を満たすために数十のgpuを使用する必要が生じた。
これに対する一般的な解決策のひとつは、拡張メモリ階層としてホストメモリとストレージを使用するstorage-offloaded trainingである。
しかし、ストレージデバイスはGPUデバイスのメモリに比べて帯域幅が桁違いに低いため、ストレージ帯域幅のボトルネックとなることは明らかだ。
筆者らのsmart-infinityは,実システムにおけるストレージオフロードllmトレーニングのストレージ帯域幅ボトルネックに対処する。
Smart-Infinityの主なコンポーネントはSmartUpdateで、カスタムのニアストレージアクセラレータのパラメータ更新を実行する。
ストレージ側へのパラメータの移動は、ほとんどのストレージトラフィックを削除します。
さらに,スマートインフィニティのためのシステム統合問題に対処する効率的なデータ転送ハンドラ構造を提案する。
ハンドラはデバイスバッファを再利用することで、固定メモリ消費で重なり合うデータ転送を可能にする。
最後に,スマートインフィニティのスケーラビリティを高めるために,加速器による勾配圧縮・減圧縮を提案する。
複数のニアストレージ処理デバイスにスケーリングする場合、共有チャネル上の書き込みトラフィックがボトルネックとなる。
これを軽減するため、GPU上の勾配を圧縮し、アクセル上で圧縮する。
交通量を減らすことでさらに加速する。
その結果、Smart-Infinityはベースラインに比べて大幅に高速化された。
注目すべきなのは、Smart-Infinityは、実際のシステム上でPyTorchに完全に統合された、使いやすいアプローチであることだ。
当社はSmart-Infinityをオープンソースとして公開します。 The recent huge advance of Large Language Models (LLMs) is mainly driven by the increase in the number of parameters. This has led to substantial memory capacity requirements, necessitating the use of dozens of GPUs just to meet the capacity. One popular solution to this is storage-offloaded training, which uses host memory and storage as an extended memory hierarchy. However, this obviously comes at the cost of storage bandwidth bottleneck because storage devices have orders of magnitude lower bandwidth compared to that of GPU device memories. Our work, Smart-Infinity, addresses the storage bandwidth bottleneck of storage-offloaded LLM training using near-storage processing devices on a real system. The main component of Smart-Infinity is SmartUpdate, which performs parameter updates on custom near-storage accelerators. We identify that moving parameter updates to the storage side removes most of the storage traffic. In addition, we propose an efficient data transfer handler structure to address the system integration issues for Smart-Infinity. The handler allows overlapping data transfers with fixed memory consumption by reusing the device buffer. Lastly, we propose accelerator-assisted gradient compression/decompression to enhance the scalability of Smart-Infinity. When scaling to multiple near-storage processing devices, the write traffic on the shared channel becomes the bottleneck. To alleviate this, we compress the gradients on the GPU and decompress them on the accelerators. It provides further acceleration from reduced traffic. As a result, Smart-Infinity achieves a significant speedup compared to the baseline. Notably, Smart-Infinity is a ready-to-use approach that is fully integrated into PyTorch on a real system. We will open-source Smart-Infinity to facilitate its use. | 翻訳日:2024-03-12 19:13:56 公開日:2024-03-11 |
# epsilon-mesh attack: 表情認識のための表面ベースの対向点クラウド攻撃 epsilon-Mesh Attack: A Surface-based Adversarial Point Cloud Attack for Facial Expression Recognition ( http://arxiv.org/abs/2403.06661v1 ) ライセンス: Link先を確認 | Batuhan Cengiz, Mert Gulsen, Yusuf H. Sahin, Gozde Unal | (参考訳) ポイントクラウドとメッシュは多くのコンピュータビジョンアプリケーションで広く使われている3Dデータ構造である。
メッシュは物体の表面を表すが、点雲は、LiDARやRGB-Dカメラのような現代のセンサーの出力でもある表面から採取された点を表す。
ポイントクラウドの広い適用領域と近年のディープニューラルネットワークの進歩により、3dポイントクラウドデータのロバストな分類に焦点を当てた研究が出現した。
ディープ分類器ネットワークのロバスト性を評価するためには、勾配方向を追従して入力をわずかに変更する逆攻撃を用いる方法が一般的である。
敵攻撃に関するこれまでの研究は、一般的に毎日の物体の点雲上で評価されている。
しかし、3D顔を考えると、これらの敵対的攻撃は、所望の量よりも人の顔構造に影響を与え、誤形成を引き起こす傾向にある。
特に表情に関しては、小さな敵対的攻撃でさえ、顔の構造に大きな影響を及ぼす可能性がある。
本稿では,メッシュ表面上の摂動を制限することで,点クラウドデータを操作する「$\epsilon$-Mesh Attack」という逆攻撃を提案する。
また、摂動メッシュをスケールするために$\epsilon$で攻撃をパラメータ化します。
我々の面ベース攻撃は、ユニットボールで動作する$L_2$と$L_\infty$ノルム境界攻撃と比較して、より厳しい摂動境界を持つ。
私たちの手法にはさらなる制約がありますが、CoMA、Bosphorus、FaceWarehouseのデータセットの実験では、訓練済みのDGCNNとPointNetモデルの99.72\%と9.06\%の時間を、顔の変形を区別できないまま混乱させることに成功したのです。
コードはhttps://github.com/batuceng/e-mesh-attackで入手できる。 Point clouds and meshes are widely used 3D data structures for many computer vision applications. While the meshes represent the surfaces of an object, point cloud represents sampled points from the surface which is also the output of modern sensors such as LiDAR and RGB-D cameras. Due to the wide application area of point clouds and the recent advancements in deep neural networks, studies focusing on robust classification of the 3D point cloud data emerged. To evaluate the robustness of deep classifier networks, a common method is to use adversarial attacks where the gradient direction is followed to change the input slightly. The previous studies on adversarial attacks are generally evaluated on point clouds of daily objects. However, considering 3D faces, these adversarial attacks tend to affect the person's facial structure more than the desired amount and cause malformation. Specifically for facial expressions, even a small adversarial attack can have a significant effect on the face structure. In this paper, we suggest an adversarial attack called $\epsilon$-Mesh Attack, which operates on point cloud data via limiting perturbations to be on the mesh surface. We also parameterize our attack by $\epsilon$ to scale the perturbation mesh. Our surface-based attack has tighter perturbation bounds compared to $L_2$ and $L_\infty$ norm bounded attacks that operate on unit-ball. Even though our method has additional constraints, our experiments on CoMA, Bosphorus and FaceWarehouse datasets show that $\epsilon$-Mesh Attack (Perpendicular) successfully confuses trained DGCNN and PointNet models $99.72\%$ and $97.06\%$ of the time, with indistinguishable facial deformations. The code is available at https://github.com/batuceng/e-mesh-attack. | 翻訳日:2024-03-12 19:13:32 公開日:2024-03-11 |
# fashionregen: llmによるファッションレポート生成 FashionReGen: LLM-Empowered Fashion Report Generation ( http://arxiv.org/abs/2403.06660v1 ) ライセンス: Link先を確認 | Yujuan Ding, Yunshan Ma, Wenqi Fan, Yige Yao, Tat-Seng Chua, Qing Li | (参考訳) ファッション分析(英: Fashion analysis)とは、ファッション業界におけるトレンド、スタイル、要素を調べて、その現状を理解し、解釈し、ファッションレポートを生成する過程である。
伝統的にファッション専門家は、彼らの専門知識と経験に基づいて、高い労働コストを要し、少数の人々に大きく依存する偏見のある結果をもたらす可能性がある。
本稿では,Fashion Report Generation (FashionReGen) 課題に対処するため,GPT-FAR として記述された高度なLarge Language Models (LLM) に基づくインテリジェントFashion Analyzing and Reporting システムを提案する。
具体的には、効果的なキャットウォーク分析に基づくファッションレゲンの提供を試みており、キャットウォークの理解、集団組織と分析、レポート生成など、いくつかの重要な手順を備えている。
FashionReGenのこのようなオープンで複雑でドメイン固有のタスクのポーズと探索によって、ファッションドメインにおけるLLMの一般的な能力をテストすることができる。
また、他の領域における工業的重要性を持つより高度なタスクの探索にも刺激を与えている。
GPT-FARのビデオイラストや資料はhttps://github.com/CompFashion/FashionReGenにある。 Fashion analysis refers to the process of examining and evaluating trends, styles, and elements within the fashion industry to understand and interpret its current state, generating fashion reports. It is traditionally performed by fashion professionals based on their expertise and experience, which requires high labour cost and may also produce biased results for relying heavily on a small group of people. In this paper, to tackle the Fashion Report Generation (FashionReGen) task, we propose an intelligent Fashion Analyzing and Reporting system based the advanced Large Language Models (LLMs), debbed as GPT-FAR. Specifically, it tries to deliver FashionReGen based on effective catwalk analysis, which is equipped with several key procedures, namely, catwalk understanding, collective organization and analysis, and report generation. By posing and exploring such an open-ended, complex and domain-specific task of FashionReGen, it is able to test the general capability of LLMs in fashion domain. It also inspires the explorations of more high-level tasks with industrial significance in other domains. Video illustration and more materials of GPT-FAR can be found in https://github.com/CompFashion/FashionReGen. | 翻訳日:2024-03-12 19:12:59 公開日:2024-03-11 |
# マルチモーダル学習とテストタイム臨床知識強化によるゼロショット心電図分類 Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement ( http://arxiv.org/abs/2403.06659v1 ) ライセンス: Link先を確認 | Che Liu, Zhongwei Wan, Cheng Ouyang, Anand Shah, Wenjia Bai, Rossella Arcucci | (参考訳) 心電図(Electrocardiograms:ECGs)は、心臓不整脈疾患の臨床的診断に不可欠な非侵襲的診断ツールである。
ECG Self-supervised Learning (eSSL) 法は、注釈のないECGデータからの表現学習において有望であるが、レポートに見られる臨床知識を見落としていることが多い。
この監視とダウンストリームタスクのアノテーション付きサンプルの要求は、eSSLの汎用性を制限する。
本稿では,これらの課題をMERL(Multimodal ECG Representation Learning)フレームワークを用いて解決する。
マルチモーダルなECGレコードと関連するレポートの学習を通じて、MERLはテキストプロンプトでゼロショットECG分類を実行でき、下流のタスクでデータをトレーニングする必要がなくなる。
臨床知識向上技術 (CKEPE) アプローチは,外部の専門知識データベースを利用した大規模言語モデル (LLM) を用いて,より記述的なプロンプトを生成し,LCM生成したコンテンツの幻覚を低減し,ゼロショット分類を促進する。
MERLに基づいて6つのパブリックECGデータセットに対して最初のベンチマークを行い、eSSL法と比較してMERLの優れた性能を示す。
特にmerlは、ゼロショット分類(トレーニングデータなし)で平均75.2%のaucスコアを達成しており、リニアプローブessl法より3.2%高く、6つのデータセットの平均値が10\%アノテートトレーニングデータである。 Electrocardiograms (ECGs) are non-invasive diagnostic tools crucial for detecting cardiac arrhythmic diseases in clinical practice. While ECG Self-supervised Learning (eSSL) methods show promise in representation learning from unannotated ECG data, they often overlook the clinical knowledge that can be found in reports. This oversight and the requirement for annotated samples for downstream tasks limit eSSL's versatility. In this work, we address these issues with the Multimodal ECG Representation Learning (MERL}) framework. Through multimodal learning on ECG records and associated reports, MERL is capable of performing zero-shot ECG classification with text prompts, eliminating the need for training data in downstream tasks. At test time, we propose the Clinical Knowledge Enhanced Prompt Engineering (CKEPE) approach, which uses Large Language Models (LLMs) to exploit external expert-verified clinical knowledge databases, generating more descriptive prompts and reducing hallucinations in LLM-generated content to boost zero-shot classification. Based on MERL, we perform the first benchmark across six public ECG datasets, showing the superior performance of MERL compared against eSSL methods. Notably, MERL achieves an average AUC score of 75.2% in zero-shot classification (without training data), 3.2% higher than linear probed eSSL methods with 10\% annotated training data, averaged across all six datasets. | 翻訳日:2024-03-12 19:12:37 公開日:2024-03-11 |
# ゼロショット解釈可能な人間認識を目指して:2D-3D登録フレームワーク Towards Zero-Shot Interpretable Human Recognition: A 2D-3D Registration Framework ( http://arxiv.org/abs/2403.06658v1 ) ライセンス: Link先を確認 | Henrique Jesus and Hugo Proen\c{c}a | (参考訳) ディープラーニングアーキテクチャに基づく大規模ビジョンモデルは、バイオメトリック認識の最先端を一貫して前進させてきた。
しかし、このようなアプローチでは3つの弱点が一般的に報告されている。
1) 学習データの観点からの極端な要求
2)異なる領域間の一般化の難しさ
3) 法学・法学上の目的(裁判所など)に使用可能な証拠を提供することが重要であるため,生体認証が特に関心を持つ,解釈可能性・説明性の欠如。
本稿では,3つの弱点を同時に解決することを目的とした,最初の認識フレームワーク/戦略について述べる。
当初は、学習目的のために合成サンプルのみに頼っている。
対象ごとに多種多様なサンプルを必要とする代わりに、そのアイデアはアイデンティティごとに3dポイントクラウドを排他的に登録することである。
そして、生成戦略を用いて、所望のすべての共変量(例えば、衣服、距離、視点、照明、オクルージョン、...)を含む非常に大きな(潜在的に無限の)サンプルを合成する。
合成法を用いると、一般化の目的を考慮に入れた異なる種類の領域に正確に適応することができる。
このようなデータは、画像ペア間の局所的な登録を行うモデルを学ぶために使用され、認識(濃度と分布による)だけでなく、その応答の解釈可能な記述を提供するために、鍵となる身体部分間の正の対応を確立する(例:「両方のサンプルは、顔の形、髪の色、足の厚みが似ているため、同一人物から来ている」)。 Large vision models based in deep learning architectures have been consistently advancing the state-of-the-art in biometric recognition. However, three weaknesses are commonly reported for such kind of approaches: 1) their extreme demands in terms of learning data; 2) the difficulties in generalising between different domains; and 3) the lack of interpretability/explainability, with biometrics being of particular interest, as it is important to provide evidence able to be used for forensics/legal purposes (e.g., in courts). To the best of our knowledge, this paper describes the first recognition framework/strategy that aims at addressing the three weaknesses simultaneously. At first, it relies exclusively in synthetic samples for learning purposes. Instead of requiring a large amount and variety of samples for each subject, the idea is to exclusively enroll a 3D point cloud per identity. Then, using generative strategies, we synthesize a very large (potentially infinite) number of samples, containing all the desired covariates (poses, clothing, distances, perspectives, lighting, occlusions,...). Upon the synthesizing method used, it is possible to adapt precisely to different kind of domains, which accounts for generalization purposes. Such data are then used to learn a model that performs local registration between image pairs, establishing positive correspondences between body parts that are the key, not only to recognition (according to cardinality and distribution), but also to provide an interpretable description of the response (e.g.: "both samples are from the same person, as they have similar facial shape, hair color and legs thickness"). | 翻訳日:2024-03-12 19:12:09 公開日:2024-03-11 |
# Krylov Basisの熱化 Thermalization in Krylov Basis ( http://arxiv.org/abs/2403.06655v1 ) ライセンス: Link先を確認 | Mohsen Alishahiha, Mohammad Javad Vasli | (参考訳) クリャロフ基底における閉可積分量子系の熱化について研究する。
固有状態熱化仮説(eigenstate thermalization hypothesis)のアイデアに従い、クリロフ基底における局所作用素の行列要素に条件を課すクリロフ基底熱化仮説を導入することができる。
この文脈では、熱化の性質はクリロフ複雑性の無限時間平均で探ることが出来る。
またLaczos係数の分散を計算し、熱化の性質を調べるために別の量を与えることができる。
複雑性の無限時間平均の挙動と初期状態の逆参加比の振舞いには直接的な関係があることが分かる。 We study thermalization for closed non-integrable quantum systems in the Krylov basis. Following the idea of the eigenstate thermalization hypothesis, one may introduce Krylov basis thermalization hypothesis which imposes a condition on the matrix elements of local operators in the Krylov basis. In this context, the nature of thermalization may be probed by the infinite time average of the Krylov complexity. We also compute the variance of Lanczos coefficients which may provide another quantity to examine the nature of thermalization. We will see that there is a direct relation between the behavior of the infinite time average of complexity and that of the inverse participation ratio of initial states. | 翻訳日:2024-03-12 19:11:43 公開日:2024-03-11 |
# 拡張ボース・ハバードモデルにおけるボンドオーダー密度波位相 Bond-Order Density Wave Phases in Dimerized Extended Bose-Hubbard Models ( http://arxiv.org/abs/2403.06649v1 ) ライセンス: Link先を確認 | Zeki Zeybek, Peter Schmelcher, Rick Mukherjee | (参考訳) ボース・ハッバードモデル(BHM)は相互作用するボソンの強相関挙動の深い理解を深めるために広く研究されている。
量子シミュレーターは、BHMの探索を許可するだけでなく、複数の順序のギャップのある位相や位相位相のような興味深い現象を持つモデルにも拡張する。
本研究では,長距離相互作用型ハードコアボソンの2次元モデルを含む拡張ボース・ハッバードモデルについて検討した。
ボンドオーダー密度波位相(BODW)はその対称性の破れと位相特性の点で特徴づけられる。
ある充填では、二量化ホッピングと相互作用を組み合わせると、bodw相につながる創発的な対称性が破れ、対称性の明示的な破れを必要とする非相互作用モデルと異なる。
特に、$\rho=1/3$ を満たすbodw相は、対称性破壊性および単位細胞構造の観点から非相互作用モデルにおいて類似性を持たない。
ダイマー化パターンを変更すると、システムは位相的に自明なBODW位相を実現する。
オンサイト密度変調は$\rho=1/4$を満たすと位相bodw位相を安定化する。
我々の研究は相互作用BODW相と非相互作用BODW相の橋渡しを提供し、非相互作用モデルに存在しない独自のBODW相を示すことにより、二量体格子における長距離相互作用の重要性を強調する。 The Bose-Hubbard model (BHM) has been widely explored to develop a profound understanding of the strongly correlated behavior of interacting bosons. Quantum simulators not only allow the exploration of the BHM but also extend it to models with interesting phenomena such as gapped phases with multiple orders and topological phases. In this work, an extended Bose-Hubbard model involving a dimerized one-dimensional model of long-range interacting hard-core bosons is studied. Bond-order density wave phases (BODW) are characterized in terms of their symmetry breaking and topological properties. At certain fillings, interactions combined with dimerized hoppings give rise to an emergent symmetry-breaking leading to BODW phases, which differs from the case of non-interacting models that require an explicit breaking of the symmetry. Specifically, the BODW phase at filling $\rho=1/3$ possesses no analogue in the non-interacting model in terms of its symmetry-breaking properties and the unit cell structure. Upon changing the dimerization pattern, the system realizes topologically trivial BODW phases. At filling $\rho=1/4$, on-site density modulations are shown to stabilize the topological BODW phase. Our work provides the bridge between interacting and non-interacting BODW phases and highlights the significance of long-range interactions in a dimerized lattice by showing unique BODW phases that do not exist in the non-interacting model. | 翻訳日:2024-03-12 19:11:33 公開日:2024-03-11 |
# アルツハイマー病に対するリッチフローを用いた脳表面共分散ディスクリプタ Ricci flow-based brain surface covariance descriptors for Alzheimer disease ( http://arxiv.org/abs/2403.06645v1 ) ライセンス: Link先を確認 | Fatemeh Ahmadi, Mohamad Ebrahim Shiri, Behroz Bidabad, Maral Sedaghat, Pooran Memari | (参考訳) MRI脳スキャンによる特徴の自動抽出とアルツハイマー病の診断は、現在進行中の課題である。
3D画像技術の進歩により、3Dデータ取得は2D画像よりも実用的で効率的になっている。
本稿では, 特徴ベクトルを用いるのではなく, 初めて, リッチエネルギー最適化を用いて, 皮質表面から新しい共分散に基づく記述子を抽出するパイプラインを提案する。
共分散記述子は対称正定値行列の非線形多様体の構成であり、ガウス半径基底関数を用いて多様体に基づく分類を三次元形状問題に適用する。
この新しいシグネチャを異常な皮質脳形態計測の分析に適用すると、アルツハイマー病の診断が可能になる。
アルツハイマー病神経画像イニシアチブ(ADNI)データセットから収集された約200個の3次元MRI脳モデルに関する実験的研究により、顕著な分類精度を達成する上で、記述子の有効性が示された。 Automated feature extraction from MRI brain scans and diagnosis of Alzheimer's disease are ongoing challenges. With advances in 3D imaging technology, 3D data acquisition is becoming more viable and efficient than its 2D counterpart. Rather than using feature-based vectors, in this paper, for the first time, we suggest a pipeline to extract novel covariance-based descriptors from the cortical surface using the Ricci energy optimization. The covariance descriptors are components of the nonlinear manifold of symmetric positive-definite matrices, thus we focus on using the Gaussian radial basis function to apply manifold-based classification to the 3D shape problem. Applying this novel signature to the analysis of abnormal cortical brain morphometry allows for diagnosing Alzheimer's disease. Experimental studies performed on about two hundred 3D MRI brain models, gathered from Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset demonstrate the effectiveness of our descriptors in achieving remarkable classification accuracy. | 翻訳日:2024-03-12 19:11:10 公開日:2024-03-11 |
# elephants never forget: 表データの記憶のための言語モデルのテスト Elephants Never Forget: Testing Language Models for Memorization of Tabular Data ( http://arxiv.org/abs/2403.06644v1 ) ライセンス: Link先を確認 | Sebastian Bordt, Harsha Nori, Rich Caruana | (参考訳) 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題はしばしば注目されている。
本稿では,表データに対する懸念について述べる。
llmが特徴の名前と値を知っているかどうかの単純な定性テストから始め、条件分布モデリングの統計的テストや記憶を識別する4つのテストなど、汚染度を評価する様々な手法を導入する。
調査の結果,LLMは多数の一般的な表付きデータセット上で事前学習されていることがわかった。
この露出は、LLMが事実上テストセットに適合するため、下流タスクにおける不正なパフォーマンス評価につながる可能性がある。
興味深いことに、言語モデルがデータの重要な統計を再現するが、データセットの冗長性を再現できない状態も特定する。
これらのデータセットでは、トレーニング中に見られるが、ダウンストリームタスクのパフォーマンスはオーバーフィットによるものではない。
LLMを用いた機械学習タスクにおいて,データの整合性を確保する必要性が示唆された。
今後の研究を容易にするため,メモリ化の様々なテストを行うオープンソースツールを,LLM-Tabular-Memorization-Checker} として公開した。 While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Starting with simple qualitative tests for whether an LLM knows the names and values of features, we introduce a variety of different techniques to assess the degrees of contamination, including statistical tests for conditional distribution modeling and four tests that identify memorization. Our investigation reveals that LLMs are pre-trained on many popular tabular datasets. This exposure can lead to invalid performance evaluation on downstream tasks because the LLMs have, in effect, been fit to the test set. Interestingly, we also identify a regime where the language model reproduces important statistics of the data, but fails to reproduce the dataset verbatim. On these datasets, although seen during training, good performance on downstream tasks might not be due to overfitting. Our findings underscore the need for ensuring data integrity in machine learning tasks with LLMs. To facilitate future research, we release an open-source tool that can perform various tests for memorization \url{https://github.com/interpretml/LLM-Tabular-Memorization-Checker}. | 翻訳日:2024-03-12 19:10:52 公開日:2024-03-11 |
# システム開発におけるプロセスの標準化記述のためのSysMLプロファイル A SysML Profile for the Standardized Description of Processes during System Development ( http://arxiv.org/abs/2403.06723v1 ) ライセンス: Link先を確認 | Lasse Beers, Hamied Nabizada, Maximilian Weigand, Felix Gehlhoff, Alexander Fay | (参考訳) モデルベースシステムエンジニアリング(MBSE)を用いた生産システムのモデル作成における重要な側面は、システム機能の記述にある。
形式化されたプロセス記述(FPD)のためのVDI/VDE 3682標準は、プロセスのシンプルで分かりやすい表現を提供する。
これらのプロセスはシステムモデル内の関数として概念化することができ、FPDは要求される関数の標準化された表現に特に適している。
したがって、このコントリビューションは、VDI/VDE 3682をシステムモデリング言語(SysML)に統合するための、ドメイン特化モデリング言語(DSML)の開発に焦点を当てている。
提案手法は、従来のsysmlをドメイン固有の要件で拡張するだけでなく、オブジェクト制約言語(ocl)でモデル化された制約によるモデル検証を容易にする。
さらに、Velocity Template Language (VTL)を使用して、プロセス記述を拡張可能なマークアップ言語(XML)に自動シリアライズできる。
このシリアライズにより、mbse以外のアプリケーションでプロセスモデリングを使用できる。
このアプローチは、航空機製造における主要な部品組立における首輪ねじりの使用事例を用いて検証された。 A key aspect in creating models of production systems with the use of model-based systems engineering (MBSE) lies in the description of system functions. These functions shouldbe described in a clear and standardized manner.The VDI/VDE 3682 standard for Formalised Process De-scription (FPD) provides a simple and easily understandable representation of processes. These processes can be conceptualized as functions within the system model, making the FPD particularly well-suited for the standardized representation ofthe required functions. Hence, this contribution focuses on thedevelopment of a Domain-Specific Modeling Language(DSML) that facilitates the integration of VDI/VDE 3682 into the Systems Modeling Language (SysML). The presented approach not onlyextends classical SysML with domain-specific requirements but also facilitates model verification through constraints modeled in Object Constraint Language (OCL). Additionally, it enables automatic serialization of process descriptions into the Extensible Markup Language (XML) using the Velocity Template Language (VTL). This serialization enables the use of process modeling in applications outside of MBSE. The approach was validated using an collar screwing use case in the major component assembly in aircraft production. | 翻訳日:2024-03-12 19:07:56 公開日:2024-03-11 |
# 直接クロスモーダルマッピングと幾何正規化によるテキストから3次元への高速顔生成と操作 Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization ( http://arxiv.org/abs/2403.06702v1 ) ライセンス: Link先を確認 | Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji | (参考訳) text-to-3d-aware face (t3d face) 生成と操作は、機械学習における新たな研究のホットスポットである。
本稿では,e^3$-facenetと呼ばれる,高速かつ高精度なt3d顔生成と操作のためのエンドツーエンドで効率的なネットワークを提案する。
既存の複雑な生成パラダイムとは異なり、$e^3$-facenetはテキスト命令から3d対応の視覚空間に直接マッピングする。
我々は,多視点世代間の一貫性を維持するために,新しいスタイルコードエンハンサーを導入し,モジュール間のセマンティックアライメントを強化する。
3つのベンチマークデータセットの大規模な実験により、$E^3$-FaceNetは画像のような3D顔の生成と操作を達成できるだけでなく、桁違いの推測速度も改善できることが示された。
たとえば、Latent3Dと比較すると、$E^3$-FaceNetは5世代をほぼ470倍スピードアップするが、それでも世代品質は上回っている。
私たちのコードはhttps://github.com/Aria-Zhangjl/E3-FaceNetで公開されています。 Text-to-3D-aware face (T3D Face) generation and manipulation is an emerging research hot spot in machine learning, which still suffers from low efficiency and poor quality. In this paper, we propose an End-to-End Efficient and Effective network for fast and accurate T3D face generation and manipulation, termed $E^3$-FaceNet. Different from existing complex generation paradigms, $E^3$-FaceNet resorts to a direct mapping from text instructions to 3D-aware visual space. We introduce a novel Style Code Enhancer to enhance cross-modal semantic alignment, alongside an innovative Geometric Regularization objective to maintain consistency across multi-view generations. Extensive experiments on three benchmark datasets demonstrate that $E^3$-FaceNet can not only achieve picture-like 3D face generation and manipulation, but also improve inference speed by orders of magnitudes. For instance, compared with Latent3D, $E^3$-FaceNet speeds up the five-view generations by almost 470 times, while still exceeding in generation quality. Our code are released at https://github.com/Aria-Zhangjl/E3-FaceNet. | 翻訳日:2024-03-12 19:07:37 公開日:2024-03-11 |
# 量子アニーリングによる羊毛織物産業における分散型フレキシブルジョブショップスケジューリング問題の解法 Solving Distributed Flexible Job Shop Scheduling Problems in the Wool Textile Industry with Quantum Annealing ( http://arxiv.org/abs/2403.06699v1 ) ライセンス: Link先を確認 | Lilia Toma, Markus Zajac and Uta St\"orl | (参考訳) 現代の製造業の多くは単一生産地から多工場生産環境へと発展し、地理的に分散した生産順序と多工場生産手順の両方を扱わなければならない。
工場間で同じ作業や出荷時間を行える様々な場所でのマシンの可用性は、従来のジョブショップスケジューリング問題(JSSP)から分散フレキシブルジョブショップスケジューリング問題(DFJSP)へと変化した。
その結果,生産計画の複雑さが著しく増大した。
我々の研究では、DFJSPを解決するためにQuantum Annealing (QA)を使用します。
生産現場への生産発注の割り当てに加えて、生産現場への生産工程の割り当ても行われる。
この要件は、ウール織物メーカーの実際のユースケースに基づいている。
この手法を大規模問題に適用する可能性を調べるため、50変数から250変数までの問題を定式化し、d波量子アニーラ量子処理ユニット(qpu)に組み込むことができる最大の問題を解いた。
特に,定性的非拘束バイナリ最適化(QUBO)モデルとQPU構成パラメータのラグランジュパラメータの決定に焦点が当てられている。
得られた解は、溶液品質と計算時間の両方の観点から、シミュレートアニーリング(sa)によって得られた解と比較される。
その結果、QAは業界固有の大きな問題インスタンスを解決できる可能性が示された。 Many modern manufacturing companies have evolved from a single production site to a multi-factory production environment that must handle both geographically dispersed production orders and their multi-site production steps. The availability of a range of machines in different locations capable of performing the same operation and shipping times between factories have transformed planning systems from the classic Job Shop Scheduling Problem (JSSP) to Distributed Flexible Job Shop Scheduling Problem (DFJSP). As a result, the complexity of production planning has increased significantly. In our work, we use Quantum Annealing (QA) to solve the DFJSP. In addition to the assignment of production orders to production sites, the assignment of production steps to production sites also takes place. This requirement is based on a real use case of a wool textile manufacturer. To investigate the applicability of this method to large problem instances, problems ranging from 50 variables up to 250 variables, the largest problem that could be embedded into a D-Wave quantum annealer Quantum Processing Unit (QPU), are formulated and solved. Special attention is dedicated to the determination of the Lagrange parameters of the Quadratic Unconstrained Binary Optimization (QUBO) model and the QPU configuration parameters, as these factors can significantly impact solution quality. The obtained solutions are compared to solutions obtained by Simulated Annealing (SA), both in terms of solution quality and calculation time. The results demonstrate that QA has the potential to solve large problem instances specific to the industry. | 翻訳日:2024-03-12 19:07:15 公開日:2024-03-11 |
# PCLD: 逆浄化のためのポイントクラウド層拡散 PCLD: Point Cloud Layerwise Diffusion for Adversarial Purification ( http://arxiv.org/abs/2403.06698v1 ) ライセンス: Link先を確認 | Mert Gulsen, Batuhan Cengiz, Yusuf H. Sahin, Gozde Unal | (参考訳) ポイントクラウドは、ロボティクス、自動運転、拡張現実など、さまざまな現実のアプリケーションで広く使われている。
近年のポイントクラウドニューラルネットワークの成功、特に安全クリティカルなタスクにもかかわらず、モデルの堅牢性を保証することも不可欠である。
モデルの堅牢性を評価する典型的な方法は、モデルを欺くための勾配に基づいて、テストタイムの例が生成されるような敵攻撃によるものである。
多くの異なる防御機構が2Dで研究されているが、3Dポイント雲の研究は学術分野で比較的限られている。
拡散によってネットワークの入力を識別するPointDPから着想を得て,層状拡散に基づく3次元クラウド防衛戦略であるPoint Cloud Layerwise Diffusion (PCLD)を提案する。
点dpと異なり,各層後の拡散分別を伝播させ,結果の漸進的向上を図る。
我々は,その堅牢性を評価するために,多種多様なポイントクラウドモデルと敵攻撃に適用する。
本実験は,提案手法が既存手法に匹敵する,あるいは超越した結果を達成し,新しい手法により堅牢性を確立したことを示す。
コードはhttps://github.com/batuceng/diffusion-layer-robustness-pcで入手できる。 Point clouds are extensively employed in a variety of real-world applications such as robotics, autonomous driving and augmented reality. Despite the recent success of point cloud neural networks, especially for safety-critical tasks, it is essential to also ensure the robustness of the model. A typical way to assess a model's robustness is through adversarial attacks, where test-time examples are generated based on gradients to deceive the model. While many different defense mechanisms are studied in 2D, studies on 3D point clouds have been relatively limited in the academic field. Inspired from PointDP, which denoises the network inputs by diffusion, we propose Point Cloud Layerwise Diffusion (PCLD), a layerwise diffusion based 3D point cloud defense strategy. Unlike PointDP, we propagated the diffusion denoising after each layer to incrementally enhance the results. We apply our defense method to different types of commonly used point cloud models and adversarial attacks to evaluate its robustness. Our experiments demonstrate that the proposed defense method achieved results that are comparable to or surpass those of existing methodologies, establishing robustness through a novel technique. Code is available at https://github.com/batuceng/diffusion-layer-robustness-pc. | 翻訳日:2024-03-12 19:06:50 公開日:2024-03-11 |
# 周期変調による地中キラル電流 Ground-state chiral current via periodic modulation ( http://arxiv.org/abs/2403.06688v1 ) ライセンス: Link先を確認 | Shuyue Wang, Wuji Zhang, Chunfang Sun, Chunfeng Wu, X. Q. Shao and Gangcheng Wang | (参考訳) 本研究では,光子を介するDzyaloshinskii-Moriya相互作用を設計し,量子場と古典場によって駆動される3レベル原子に基づく基底状態キラル電流をエミュレートする。
我々は、励起状態の有限寿命から生じる課題に対処できる、2レベル系の効果的なジアロシンスキー・モリヤ相互作用を導出するために、断熱除去技術を用いる。
さらに,原子基底状態に対する周期変調の実装により,所望のダイナミクスを実現することができる。
また、適切な駆動周波数と位相を選択することで、三状態および多状態キラル電流を得ることができる。
また, トグルフレームに基づく他のコンポーネントに対するdzyaloshinskii-moriyaインタラクションも設計した。
さらに, 数値シミュレーションの結果から, 完全信頼性の高い基底状態カイラル電流を生成し, 量子状態転移の可能性と将来の量子ネットワークの発展を示唆する。 In this study, we engineer the Dzyaloshinskii-Moriya interaction mediated by photons to emulate ground-state chiral current based on three-level atoms driven by quantum and classical fields. We employ adiabatic elimination techniques to derive an effective Dzyaloshinskii-Moriya interaction Hamiltonian of two-level systems, which can address the challenges arising from the finite lifetime of excited states. Furthermore, we can ensure to achieve desired dynamics through the implementation of periodic modulation on the atomic ground states. Besides, three-state and multi-state chiral current can be obtained by choosing appropriate driving frequencies and phases. We also design the Dzyaloshinskii-Moriya interaction for the other components based on a toggling frame. The numerical simulation results further indicate that our proposal can generate a perfectly reliable ground-state chiral current and open up possibilities for quantum state transfer and the development of future quantum networks. | 翻訳日:2024-03-12 19:06:29 公開日:2024-03-11 |
# HL-HGATによるグラフニューラルネットワークの高度化:不均一グラフ構造化データのホッジラプラシアン・アテンション機構アプローチ Advancing Graph Neural Networks with HL-HGAT: A Hodge-Laplacian and Attention Mechanism Approach for Heterogeneous Graph-Structured Data ( http://arxiv.org/abs/2403.06687v1 ) ライセンス: Link先を確認 | Jinghan Huang, Qiufeng Chen, Yijun Bian, Pengli Zhu, Nanguang Chen, Moo K. Chung, Anqi Qiu | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ内のノード間の関係を捉えるのに有効であることが証明されている。
本研究では,グラフを簡素な複体として,ノード,エッジ,三角形,および$k$簡約を包含し,任意の$k$簡約上のグラフ構造データを定義することによる,新たな視点を提案する。
我々の貢献はHodge-Laplacian heterogeneous graph attention network (HL-HGAT) であり、$k$-simplicesで異種信号表現を学習するために設計された。
HL-HGATには、HL畳み込みフィルタ(HL-filter)、simplicial projection(SP)、simplicial attention pooling(SAP)演算子($k$-simplices)の3つの重要なコンポーネントが含まれている。
HLフィルタは、Hodge-Laplacian (HL)演算子によって符号化された$k$-simplicesのユニークな位相を利用し、$k$-th HL演算子のスペクトル領域内で動作する。
計算課題に対処するために,hlフィルタの多項式近似を導入し,空間的局所化特性を示す。
さらに,複数次元の単純さにまたがる位相的相互干渉を捉えることで,自己注意機構とSP演算子による相互注意機構を組み合わさって,$k$-simplicesを疎結合するプーリング演算子を提案する。
HL-HGATは、NPハード問題、グラフマルチラベルと分類問題、ロジスティクス、コンピュータビジョン、生物学、化学、神経科学におけるグラフ回帰タスクなど、様々なグラフアプリケーションで包括的に評価されている。
その結果、幅広いグラフベースのシナリオを扱う上で、モデルの有効性と汎用性を示した。 Graph neural networks (GNNs) have proven effective in capturing relationships among nodes in a graph. This study introduces a novel perspective by considering a graph as a simplicial complex, encompassing nodes, edges, triangles, and $k$-simplices, enabling the definition of graph-structured data on any $k$-simplices. Our contribution is the Hodge-Laplacian heterogeneous graph attention network (HL-HGAT), designed to learn heterogeneous signal representations across $k$-simplices. The HL-HGAT incorporates three key components: HL convolutional filters (HL-filters), simplicial projection (SP), and simplicial attention pooling (SAP) operators, applied to $k$-simplices. HL-filters leverage the unique topology of $k$-simplices encoded by the Hodge-Laplacian (HL) operator, operating within the spectral domain of the $k$-th HL operator. To address computation challenges, we introduce a polynomial approximation for HL-filters, exhibiting spatial localization properties. Additionally, we propose a pooling operator to coarsen $k$-simplices, combining features through simplicial attention mechanisms of self-attention and cross-attention via transformers and SP operators, capturing topological interconnections across multiple dimensions of simplices. The HL-HGAT is comprehensively evaluated across diverse graph applications, including NP-hard problems, graph multi-label and classification challenges, and graph regression tasks in logistics, computer vision, biology, chemistry, and neuroscience. The results demonstrate the model's efficacy and versatility in handling a wide range of graph-based scenarios. | 翻訳日:2024-03-12 19:06:13 公開日:2024-03-11 |
# NLP4REツール: 分類、概要、管理 NLP4RE Tools: Classification, Overview, and Management ( http://arxiv.org/abs/2403.06685v1 ) ライセンス: Link先を確認 | Julian Frattini, Michael Unterkalmsteiner, Davide Fucci, Daniel Mendez | (参考訳) ツールは、要求工学(NLP4RE)研究のための自然言語処理に不可欠な貢献である。
これらは、研究を実用的かつ実用的なものにするための実行可能な道具である。
本章ではまず,NLP4REツールを体系的に分類し,それらのタイプや特性の理解を改善する。
そして、2019年4月から2023年6月までに発行された126のNLP4REツールを体系的にまとめて、既存のツールの再利用と進化を容易にするために、既存の概要を拡張します。
最後に、より厳密な管理と普及を支援するため、NLP4REツールの作成、保守、普及方法の指示を提供する。 Tools constitute an essential contribution to natural language processing for requirements engineering (NLP4RE) research. They are executable instruments that make research usable and applicable in practice. In this chapter, we first introduce a systematic classification of NLP4RE tools to improve the understanding of their types and properties. Then, we extend an existing overview with a systematic summary of 126 NLP4RE tools published between April 2019 and June 2023 to ease reuse and evolution of existing tools. Finally, we provide instructions on how to create, maintain, and disseminate NLP4RE tools to support a more rigorous management and dissemination. | 翻訳日:2024-03-12 19:05:35 公開日:2024-03-11 |
# 時間的整合性を伴う手術視への相対的単眼深度移動 Transferring Relative Monocular Depth to Surgical Vision with Temporal Consistency ( http://arxiv.org/abs/2403.06683v1 ) ライセンス: Link先を確認 | Charlie Budd and Tom Vercauteren | (参考訳) 相対的な単分子深度は、1つの画像からシフトとスケールの深さを推定し、活発な研究トピックである。
大規模で多様なメタデータセットに基づいて訓練された最近のディープラーニングモデルは、自然画像の領域で優れたパフォーマンスを提供する。
しかし、内視鏡画像に真実の深さを与えるデータセットはほとんど存在せず、そのようなモデルをスクラッチからトレーニングすることは不可能である。
本研究は,これらのモデルの外科領域への移動について検討し,時間的整合性自己監督を用いて標準監督を改善する効果的な方法を提案する。
時間的整合性は内視鏡の低データ状態に移行する際の指導訓練単独で有意に改善し,本課題の自己監督技術よりも優れていた。
さらに,本手法は内視鏡領域内から最先端の手法を大幅に上回ることを示す。
私たちはまた、コード、モデル、アンサンブルされたメタデータセット、Meta-MEDをリリースし、将来の作業のための強力なベンチマークを確立しました。 Relative monocular depth, inferring depth up to shift and scale from a single image, is an active research topic. Recent deep learning models, trained on large and varied meta-datasets, now provide excellent performance in the domain of natural images. However, few datasets exist which provide ground truth depth for endoscopic images, making training such models from scratch unfeasible. This work investigates the transfer of these models into the surgical domain, and presents an effective and simple way to improve on standard supervision through the use of temporal consistency self-supervision. We show temporal consistency significantly improves supervised training alone when transferring to the low-data regime of endoscopy, and outperforms the prevalent self-supervision technique for this task. In addition we show our method drastically outperforms the state-of-the-art method from within the domain of endoscopy. We also release our code, model and ensembled meta-dataset, Meta-MED, establishing a strong benchmark for future work. | 翻訳日:2024-03-12 19:05:23 公開日:2024-03-11 |
# 古代イデオグラフの復元 - マルチモーダル・マルチタスクニューラルネットワークアプローチ Restoring Ancient Ideograph: A Multimodal Multitask Neural Network Approach ( http://arxiv.org/abs/2403.06682v1 ) ライセンス: Link先を確認 | Siyu Duan, Jun Wang, Qi Su | (参考訳) 文化遺産は人間の思考と歴史の持続的な記録となっている。
文化財の保存に多大な努力を払ったにもかかわらず、多くの古代の工芸品は自然の劣化と人間の行動によって不可逆的に破壊されてきた。
深層学習技術は、古代のテキスト復元など、さまざまな文化的遺産を復元するための貴重なツールとして登場した。
これまでの研究は、視覚的あるいはテキスト的視点から古代のテキスト復元にアプローチしており、しばしばマルチモーダル情報の相乗化の可能性を見落としてきた。
本稿では,古文書,特にイデオグラフを強調するマルチモーダルマルチタスク復元モデル(mmrm)を提案する。
このモデルは、コンテキスト理解と損傷した古代遺物の残像情報を組み合わせて、損傷した文字を予測し、同時に復元された画像を生成する。
シミュレーションデータセットと真正銘文の両方で実施した実験により,mmrmモデルの検証を行った。
提案手法はシミュレーション実験と実世界のシナリオの両方において洞察に富んだ復元を提案する。
我々の知る限り、この研究は、デジタル人文科学分野における古代社会と文化の理解に寄与する、古代のテキスト復元におけるマルチモーダル深層学習の先駆的な応用である。 Cultural heritage serves as the enduring record of human thought and history. Despite significant efforts dedicated to the preservation of cultural relics, many ancient artefacts have been ravaged irreversibly by natural deterioration and human actions. Deep learning technology has emerged as a valuable tool for restoring various kinds of cultural heritages, including ancient text restoration. Previous research has approached ancient text restoration from either visual or textual perspectives, often overlooking the potential of synergizing multimodal information. This paper proposes a novel Multimodal Multitask Restoring Model (MMRM) to restore ancient texts, particularly emphasising the ideograph. This model combines context understanding with residual visual information from damaged ancient artefacts, enabling it to predict damaged characters and generate restored images simultaneously. We tested the MMRM model through experiments conducted on both simulated datasets and authentic ancient inscriptions. The results show that the proposed method gives insightful restoration suggestions in both simulation experiments and real-world scenarios. To the best of our knowledge, this work represents the pioneering application of multimodal deep learning in ancient text restoration, which will contribute to the understanding of ancient society and culture in digital humanities fields. | 翻訳日:2024-03-12 19:05:03 公開日:2024-03-11 |
# 分散検出を用いた信頼度の高い部分ラベル学習 Trustworthy Partial Label Learning with Out-of-distribution Detection ( http://arxiv.org/abs/2403.06681v1 ) ライセンス: Link先を確認 | Jintao Huang and Yiu-Ming Cheung | (参考訳) 部分ラベル学習(PLL)は、明瞭にラベル付けされたデータから学習し、画像認識などの分野でうまく応用されている。
それでも、従来のPLL法はクローズドワールドの仮定に依存しており、これはオープンワールドのシナリオで制限され、モデルの性能と一般化に悪影響を及ぼす可能性がある。
これらの課題に対処するため,PLLフレームワークにOOD検出を組み込んだ新しい手法であるPLL-OODを紹介した。
PLL-OODは、自己教師付き学習と部分ラベル損失を併用し、OOD検出のための部分エネルギー(PE)スコアを開拓することにより、モデルの適応性と精度を著しく向上させる。
このアプローチはデータ特徴表現を改善し、動的ラベル信頼行列を用いて予測を洗練する。
ラベル信頼度によって調整されたPEスコアは、OODインスタンスを正確に識別し、分散データに対するモデルトレーニングを最適化する。
この革新的な手法は、オープンワールド環境でのPLLモデルの堅牢性と性能を著しく向上させる。
我々は,既存のPLLモデルとCIFAR-10およびCIFAR-100データセットの複数のOODスコアを組み合わせた総合的な比較実験を行った。
その結果,提案するPLL-OODフレームワークは有効性が高く,既存のモデルよりも優れており,その優位性と有効性を示している。 Partial Label Learning (PLL) grapples with learning from ambiguously labelled data, and it has been successfully applied in fields such as image recognition. Nevertheless, traditional PLL methods rely on the closed-world assumption, which can be limiting in open-world scenarios and negatively impact model performance and generalization. To tackle these challenges, our study introduces a novel method called PLL-OOD, which is the first to incorporate Out-of-Distribution (OOD) detection into the PLL framework. PLL-OOD significantly enhances model adaptability and accuracy by merging self-supervised learning with partial label loss and pioneering the Partial-Energy (PE) score for OOD detection. This approach improves data feature representation and effectively disambiguates candidate labels, using a dynamic label confidence matrix to refine predictions. The PE score, adjusted by label confidence, precisely identifies OOD instances, optimizing model training towards in-distribution data. This innovative method markedly boosts PLL model robustness and performance in open-world settings. To validate our approach, we conducted a comprehensive comparative experiment combining the existing state-of-the-art PLL model with multiple OOD scores on the CIFAR-10 and CIFAR-100 datasets with various OOD datasets. The results demonstrate that the proposed PLL-OOD framework is highly effective and effectiveness outperforms existing models, showcasing its superiority and effectiveness. | 翻訳日:2024-03-12 19:04:42 公開日:2024-03-11 |
# キー・オーディオ・ビジュアル・クレームを付加したテキストによる質問に対する回答 Answering Diverse Questions via Text Attached with Key Audio-Visual Clues ( http://arxiv.org/abs/2403.06679v1 ) ライセンス: Link先を確認 | Qilang Ye and Zitong Yu and Xin Liu | (参考訳) 音声-視覚的質問応答(AVQA)は、ビデオの内容と聴覚情報を参照し、次に最も正確な回答を予測するための質問を関連付ける。
音声・視覚情報のより深い層をマイニングすることで、マルチモーダル融合プロセスが容易になるが、音声・視覚パラメータの冗長性は、推論エンジンを1つのビデオで複数の質問・回答ペアに一般化する傾向がある。
実際、音声とテキストの自然な異種関係は、ハイレベルな音声視覚意味論がネットワークの多様な質問タイプへの適応性を弱めるのを防ぐために、完全融合を困難にするため、相互相関蒸留(MCD)を行うための枠組みを提案する。
MCDは3つの主要なステップに分けられる。
1) まず, 残差構造を利用して自己アテンションに基づく視聴覚ソフトアソシエーションを強化し, 質問コンテキストに関連する重要な局所視聴覚特徴を共有アグリゲータによって階層的に捉え, 特定の質問ベクトルを用いた手がかりの形で結合する。
2) 知識蒸留は, 音声-視覚-テキスト対を共有潜在空間に整列させ, モーダル間のセマンティックギャップを狭める。
3) そして最後に、決定レベルの統合を破棄することで、オーディオと視覚の依存関係を分離する。
提案手法は,複数の問合せペア,すなわち Music-AVQA と AVQA を含む2つの公開データセットに対して評価する。
実験の結果,提案手法は他の最先端手法よりも優れており,推論中に深い視覚的特徴を除去することで,オーバーフィッティングを効果的に軽減できることがわかった。
ソースコードはhttp://github.com/rikeilong/MCD-forAVQAで公開されている。 Audio-visual question answering (AVQA) requires reference to video content and auditory information, followed by correlating the question to predict the most precise answer. Although mining deeper layers of audio-visual information to interact with questions facilitates the multimodal fusion process, the redundancy of audio-visual parameters tends to reduce the generalization of the inference engine to multiple question-answer pairs in a single video. Indeed, the natural heterogeneous relationship between audiovisuals and text makes the perfect fusion challenging, to prevent high-level audio-visual semantics from weakening the network's adaptability to diverse question types, we propose a framework for performing mutual correlation distillation (MCD) to aid question inference. MCD is divided into three main steps: 1) firstly, the residual structure is utilized to enhance the audio-visual soft associations based on self-attention, then key local audio-visual features relevant to the question context are captured hierarchically by shared aggregators and coupled in the form of clues with specific question vectors. 2) Secondly, knowledge distillation is enforced to align audio-visual-text pairs in a shared latent space to narrow the cross-modal semantic gap. 3) And finally, the audio-visual dependencies are decoupled by discarding the decision-level integrations. We evaluate the proposed method on two publicly available datasets containing multiple question-and-answer pairs, i.e., Music-AVQA and AVQA. Experiments show that our method outperforms other state-of-the-art methods, and one interesting finding behind is that removing deep audio-visual features during inference can effectively mitigate overfitting. The source code is released at http://github.com/rikeilong/MCD-forAVQA. | 翻訳日:2024-03-12 19:04:15 公開日:2024-03-11 |
# リーマン領域の合理化:ループレス分散還元による効率的なリーマン最適化 Streamlining in the Riemannian Realm: Efficient Riemannian Optimization with Loopless Variance Reduction ( http://arxiv.org/abs/2403.06677v1 ) ライセンス: Link先を確認 | Yury Demidovich, Grigory Malinovsky, Peter Richt\'arik | (参考訳) 本研究では,リーマン多様体の確率的最適化について検討し,ユークリッドとリーマンの設定において重要な分散還元機構に着目した。
リーマン分散還元法は通常二重ループ構造を含み、各ループの開始時に全勾配を計算する。
最適内側ループ長の決定は、しばしば未知あるいは推定が難しい強い凸性や滑らか性定数に依存するため、実際には困難である。
ユークリッド法を用いて,Riemannian Loopless SVRG(R-LSVRG)法とPAGE(R-PAGE)法を導入する。
これらの方法は、各反復においてコインフリップによって引き起こされる確率的勾配計算に置換され、より単純な証明、効率的なハイパーパラメータ選択、鋭い収束を保証する。
R-PAGEを非凸リーマン最適化のフレームワークとして使用し、様々な重要な設定に適用可能であることを示す。
例えば、通信圧縮を伴う分散設定に対してリーマン行列(R-MARINA)を導出し、リーマン多様体上の非凸分散最適化に対して最も理論的な通信複雑性を保証する。
実験結果は我々の理論的知見を支持する。 In this study, we investigate stochastic optimization on Riemannian manifolds, focusing on the crucial variance reduction mechanism used in both Euclidean and Riemannian settings. Riemannian variance-reduced methods usually involve a double-loop structure, computing a full gradient at the start of each loop. Determining the optimal inner loop length is challenging in practice, as it depends on strong convexity or smoothness constants, which are often unknown or hard to estimate. Motivated by Euclidean methods, we introduce the Riemannian Loopless SVRG (R-LSVRG) and PAGE (R-PAGE) methods. These methods replace the outer loop with probabilistic gradient computation triggered by a coin flip in each iteration, ensuring simpler proofs, efficient hyperparameter selection, and sharp convergence guarantees. Using R-PAGE as a framework for non-convex Riemannian optimization, we demonstrate its applicability to various important settings. For example, we derive Riemannian MARINA (R-MARINA) for distributed settings with communication compression, providing the best theoretical communication complexity guarantees for non-convex distributed optimization over Riemannian manifolds. Experimental results support our theoretical findings. | 翻訳日:2024-03-12 19:03:40 公開日:2024-03-11 |
# camを振り返る: 弱い教師付きオブジェクトローカライズの観点から見た大規模カーネルcnn CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective ( http://arxiv.org/abs/2403.06676v1 ) ライセンス: Link先を確認 | Shunsuke Yasuki, Masato Taki | (参考訳) 近年、大きなカーネルを持つ畳み込みニューラルネットワーク(CNN)は、ビジョントランスフォーマーの成功に続き、コンピュータビジョン分野において多くの注目を集めている。
大規模なカーネルCNNは、下流の視覚タスクや分類性能でよく機能することが報告されている。
ダウンストリームタスクにおける大規模なカーネルCNNの高性能化の理由は、大規模なカーネルによって生成される大規模な有効受容フィールド(ERF)に起因するが、この見解は十分に検証されていない。
そこで我々は、ダウンストリームタスクにおける大規模カーネルCNNの性能を再考し、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに焦点を当てた。
WSOLは、完全に教師されない難しいダウンストリームタスクであり、大きなカーネルCNNの機能を調べるための新しいアングルを提供する。
本研究では,現在のカーネルCNNであるConvNeXt,RepLKNet,SLaKを比較し,ERFサイズがダウンストリームタスクの性能向上に重要であることを示す。
ハイパフォーマンスに寄与する要因の分析は、特徴マップの改善が主な要因である、異なる視点を提供する。
さらに,最近のCNNは,WSOLで長年議論されてきた局所的なオブジェクト領域のCAM問題に対して堅牢であることがわかった。
CAMは最も古典的なWSOL法であるが、上記の問題により、しばしば比較の基準となる方法として使用される。
しかし、CUB-200-2011データセットの実験では、CNNベースの最新のWSOL法に匹敵するパフォーマンス(90.99%のMaxBoxAcc)を、大規模なカーネルCNN、CAM、単純なデータ拡張メソッドを組み合わせるだけで達成できることが示されている。
コードはhttps://github.com/snskysk/cam-back-againで入手できる。 Recently, convolutional neural networks (CNNs) with large size kernels have attracted much attention in the computer vision field, following the success of the Vision Transformers. Large kernel CNNs have been reported to perform well in downstream vision tasks as well as in classification performance. The reason for the high-performance of large kernel CNNs in downstream tasks has been attributed to the large effective receptive field (ERF) produced by large size kernels, but this view has not been fully tested. We therefore revisit the performance of large kernel CNNs in downstream task, focusing on the weakly supervised object localization (WSOL) task. WSOL, a difficult downstream task that is not fully supervised, provides a new angle to explore the capabilities of the large kernel CNNs. Our study compares the modern large kernel CNNs ConvNeXt, RepLKNet, and SLaK to test the validity of the naive expectation that ERF size is important for improving downstream task performance. Our analysis of the factors contributing to high performance provides a different perspective, in which the main factor is feature map improvement. Furthermore, we find that modern CNNs are robust to the CAM problems of local regions of objects being activated, which has long been discussed in WSOL. CAM is the most classic WSOL method, but because of the above-mentioned problems, it is often used as a baseline method for comparison. However, experiments on the CUB-200-2011 dataset show that simply combining a large kernel CNN, CAM, and simple data augmentation methods can achieve performance (90.99% MaxBoxAcc) comparable to the latest WSOL method, which is CNN-based and requires special training or complex post-processing. The code is available at https://github.com/snskysk/CAM-Back-Again. | 翻訳日:2024-03-12 19:03:17 公開日:2024-03-11 |
# un-repairing codeによる毒殺プログラム:ai生成コードのセキュリティ懸念 Poisoning Programs by Un-Repairing Code: Security Concerns of AI-generated Code ( http://arxiv.org/abs/2403.06675v1 ) ライセンス: Link先を確認 | Cristina Improta | (参考訳) AIベースのコードジェネレータは、自然言語(NL)からソフトウェアを書く開発者を支援する上で、基本的な役割を担っている。
しかし、これらの大きな言語モデルは信頼性の低いオンラインソース(GitHub、Hugging Faceなど)から収集された大量のデータに基づいて訓練されているため、AIモデルはデータ中毒攻撃の標的となり、攻撃者は少量の毒を注入することでトレーニングデータを破損させる。
本稿では,脆弱なコードを生成する新たなデータ中毒攻撃を識別することで,aiコード生成器のセキュリティ問題に対処する。
次に、これらの攻撃がコード生成の最先端モデルにどのように影響するかを広範囲に評価する。
最後に、この脅威を克服する潜在的な解決策について議論する。 AI-based code generators have gained a fundamental role in assisting developers in writing software starting from natural language (NL). However, since these large language models are trained on massive volumes of data collected from unreliable online sources (e.g., GitHub, Hugging Face), AI models become an easy target for data poisoning attacks, in which an attacker corrupts the training data by injecting a small amount of poison into it, i.e., astutely crafted malicious samples. In this position paper, we address the security of AI code generators by identifying a novel data poisoning attack that results in the generation of vulnerable code. Next, we devise an extensive evaluation of how these attacks impact state-of-the-art models for code generation. Lastly, we discuss potential solutions to overcome this threat. | 翻訳日:2024-03-12 19:02:21 公開日:2024-03-11 |
# 自動車損傷検出とパッチ・ツー・パッチ自己監視画像アライメント Car Damage Detection and Patch-to-Patch Self-supervised Image Alignment ( http://arxiv.org/abs/2403.06674v1 ) ライセンス: Link先を確認 | Hanxiao Chen | (参考訳) ほとんどのコンピュータビジョンアプリケーションは、シーン内のピクセルを識別し、様々な目的のためにそれらを使用する。
興味深い応用の1つは、旅行前の画像とポストトリップ画像を比較して自動車の損傷を検知する保険会社の自動車損傷検出である。
(i)自動車の損傷検出
(ii)画像アライメント。
まず,カスタム画像の車両損傷を検出するマスクr-cnnモデルを実装した。
画像アライメントセクションでは,従来のコンピュータビジョン法を除いて,車前・後レンタカー画像間の視点変換を求めるために,パッチ・パッチ・パッチ・シムclrをインスパイアした新しい自己教師付きアライメント手法を提案する。 Most computer vision applications aim to identify pixels in a scene and use them for diverse purposes. One intriguing application is car damage detection for insurance carriers which tends to detect all car damages by comparing both pre-trip and post-trip images, even requiring two components: (i) car damage detection; (ii) image alignment. Firstly, we implemented a Mask R-CNN model to detect car damages on custom images. Whereas for the image alignment section, we especially propose a novel self-supervised Patch-to-Patch SimCLR inspired alignment approach to find perspective transformations between custom pre/post car rental images except for traditional computer vision methods. | 翻訳日:2024-03-12 19:01:55 公開日:2024-03-11 |
# EarthLoc: 宇宙から地球をインデクシングする宇宙写真 EarthLoc: Astronaut Photography Localization by Indexing Earth from Space ( http://arxiv.org/abs/2403.06758v1 ) ライセンス: Link先を確認 | Gabriele Berton, Alex Stoken, Barbara Caputo, Carlo Masone | (参考訳) 人類の宇宙飛行の60年にわたる宇宙写真は、科学研究と災害対応の両方に非常に価値のある独自の地球観測データセットを提示している。
その重要性にもかかわらず、これらの画像の地理的範囲を正確にローカライズすることは効果的な利用に不可欠であり、大きな課題となっている。
現在の手動ローカライズ作業は時間を要する作業であり、自動化ソリューションの必要性を動機付けている。
本稿では,この課題を効果的に解決するために,画像検索を活用した新しいアプローチを提案する。
我々は,高パフォーマンスモデルである EarthLoc の開発に寄与する,Year-Wise Data Augmentation や Neutral-Aware Multi-Similarity Loss など,革新的なトレーニング手法を導入する。
6つの評価データセットを開発し,既存の手法と比較した総合ベンチマークを行い,その優れた効率と精度を示す。
弊社のアプローチは、宇宙飛行士の写真のローカライゼーションを自動化し、地球観測データの重大なギャップを埋めるのに役立ちます。
コードとデータセットはhttps://github.com/gmberton/EarthLocで入手できる。 Astronaut photography, spanning six decades of human spaceflight, presents a unique Earth observations dataset with immense value for both scientific research and disaster response. Despite its significance, accurately localizing the geographical extent of these images, crucial for effective utilization, poses substantial challenges. Current manual localization efforts are time-consuming, motivating the need for automated solutions. We propose a novel approach - leveraging image retrieval - to address this challenge efficiently. We introduce innovative training techniques, including Year-Wise Data Augmentation and a Neutral-Aware Multi-Similarity Loss, which contribute to the development of a high-performance model, EarthLoc. We develop six evaluation datasets and perform a comprehensive benchmark comparing EarthLoc to existing methods, showcasing its superior efficiency and accuracy. Our approach marks a significant advancement in automating the localization of astronaut photography, which will help bridge a critical gap in Earth observations data. Code and datasets are available at https://github.com/gmberton/EarthLoc | 翻訳日:2024-03-12 18:57:02 公開日:2024-03-11 |
# 確率時系列予測のためのクープマンアンサンブル Koopman Ensembles for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2403.06757v1 ) ライセンス: Link先を確認 | Anthony Frion, Lucas Drumetz, Guillaume Tochon, Mauro Dalla Mura, Albdeldjalil A\"issa El Bey | (参考訳) 動的システムを表すデータ駆動モデルの人気が高まっている状況において、koopman演算子の機械学習ベースの実装の多くが最近提案されている。
しかし、これらの研究の大部分は決定論的予測に限られており、気象学や気候学といった分野では不確実性に関する知識が重要である。
本研究では,確率出力を生成するためのモデルのアンサンブルの訓練について検討する。
我々は,個別に訓練されたモデルのアンサンブルが極めて過度に信頼されている実リモートセンシング画像時系列の実験を通じて,モデル間のばらつきの高い予測をメンバーに明示的に促すトレーニング基準を用いることで,アンサンブルの不確かさの定量化が大幅に向上することを示す。 In the context of an increasing popularity of data-driven models to represent dynamical systems, many machine learning-based implementations of the Koopman operator have recently been proposed. However, the vast majority of those works are limited to deterministic predictions, while the knowledge of uncertainty is critical in fields like meteorology and climatology. In this work, we investigate the training of ensembles of models to produce stochastic outputs. We show through experiments on real remote sensing image time series that ensembles of independently trained models are highly overconfident and that using a training criterion that explicitly encourages the members to produce predictions with high inter-model variances greatly improves the uncertainty quantification of the ensembles. | 翻訳日:2024-03-12 18:56:43 公開日:2024-03-11 |
# ALaRM:階層的リワードモデリングによるアライン言語モデル ALaRM: Align Language Models via Hierarchical Rewards Modeling ( http://arxiv.org/abs/2403.06754v1 ) ライセンス: Link先を確認 | Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei | (参考訳) ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。
このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する現在のアライメントアプローチの限界に対処する。
この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。
一貫性に基づいて複数の報酬をフィルタし結合する方法論を採用することで、このフレームワークはモデルアライメントを改善するための信頼性の高いメカニズムを提供する。
我々は,長文質問応答と機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善したことを示す。
本研究は,人間嗜好アライメントを改善するためのllm訓練プロセスの洗練における階層的報酬モデリングの有効性を強調する。
コードをhttps://ALaRM-fdu.github.ioでリリースします。 We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io. | 翻訳日:2024-03-12 18:56:27 公開日:2024-03-11 |
# タスク非依存コミュニケーションによるマルチエージェント協調の一般化 Generalising Multi-Agent Cooperation through Task-Agnostic Communication ( http://arxiv.org/abs/2403.06750v1 ) ライセンス: Link先を確認 | Dulhan Jayalath, Steven Morad, Amanda Prorok | (参考訳) 協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。
与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。
我々は,タスク固有の報酬ガイダンスを使わずに,設定されたオートエンコーダを用いてコミュニケーション戦略を事前訓練する。
我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。
軽度の仮定では、潜在表現を用いたポリシーが収束することを保証し、マルコフ状態近似によって導入された値誤差を上限とする。
本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境における配布外事象を検出する。
多様なMARLシナリオに関する実証的な結果は、未確認タスクにおけるタスク固有のコミュニケーション戦略を超越して、我々のアプローチの有効性を検証する。
この実装はhttps://github.com/proroklab/task-agnostic-commsで利用可能です。 Existing communication methods for multi-agent reinforcement learning (MARL) in cooperative multi-robot problems are almost exclusively task-specific, training new communication strategies for each unique task. We address this inefficiency by introducing a communication strategy applicable to any task within a given environment. We pre-train the communication strategy without task-specific reward guidance in a self-supervised manner using a set autoencoder. Our objective is to learn a fixed-size latent Markov state from a variable number of agent observations. Under mild assumptions, we prove that policies using our latent representations are guaranteed to converge, and upper bound the value error introduced by our Markov state approximation. Our method enables seamless adaptation to novel tasks without fine-tuning the communication strategy, gracefully supports scaling to more agents than present during training, and detects out-of-distribution events in an environment. Empirical results on diverse MARL scenarios validate the effectiveness of our approach, surpassing task-specific communication strategies in unseen tasks. Our implementation of this work is available at https://github.com/proroklab/task-agnostic-comms. | 翻訳日:2024-03-12 18:55:49 公開日:2024-03-11 |
# 医用画像セグメンテーションにおけるショートカット学習 Shortcut Learning in Medical Image Segmentation ( http://arxiv.org/abs/2403.06748v1 ) ライセンス: Link先を確認 | Manxi Lin, Nina Weng, Kamil Mikolaj, Zahra Bashir, Morten Bo S{\o}ndergaard Svendsen, Martin Tolsgaard, Anders Nymark Christensen, Aasa Feragen | (参考訳) 近道学習は、機械学習モデルが学習を優先する現象であり、トレーニングセットを超えてうまく一般化しないデータからのヒントを誤解させる可能性がある。
既存の研究は主に画像分類の分野で研究されているが、本研究は近道学習を医学的画像分割に応用する。
本研究では,キャリパーズなどの臨床アノテーションや,ゼロパッド畳み込みとデータセット内のセンターカットされたトレーニングセットの組み合わせが,不注意に近道となり,セグメンテーション精度に影響を及ぼすことを実証する。
2つの異なる医用画像分割作業において,ショートカット学習を識別し,評価する。
さらに,ショートカット学習の影響を緩和し,セグメンテーションモデルの一般化性を向上させる戦略を提案する。
医療画像セグメンテーションにおけるショートカットの存在と意義を明らかにすることで,この広汎な課題を評価し克服するための洞察と方法論を提供し,セグメンテーションにおける近道を求めるコミュニティの注意を喚起する。 Shortcut learning is a phenomenon where machine learning models prioritize learning simple, potentially misleading cues from data that do not generalize well beyond the training set. While existing research primarily investigates this in the realm of image classification, this study extends the exploration of shortcut learning into medical image segmentation. We demonstrate that clinical annotations such as calipers, and the combination of zero-padded convolutions and center-cropped training sets in the dataset can inadvertently serve as shortcuts, impacting segmentation accuracy. We identify and evaluate the shortcut learning on two different but common medical image segmentation tasks. In addition, we suggest strategies to mitigate the influence of shortcut learning and improve the generalizability of the segmentation models. By uncovering the presence and implications of shortcuts in medical image segmentation, we provide insights and methodologies for evaluating and overcoming this pervasive challenge and call for attention in the community for shortcuts in segmentation. | 翻訳日:2024-03-12 18:55:28 公開日:2024-03-11 |
# 多言語ニューラルマシン翻訳のためのACT-MNMT自動制約変換 ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2403.06745v1 ) ライセンス: Link先を確認 | Shaojie Dai, Xin Liu, Ping Luo and Yue Yu | (参考訳) 大規模言語モデル(LLM)は、ゼロ/ファウショットプロンプトやプロンプトチューニングによる多言語機械翻訳タスクにおいて有望な性能を達成した。
しかし、LLMの事前学習中に多言語データが混在しているため、LLMベースの翻訳モデルは、命令誤解、間違った言語による翻訳、過剰生成といった一連の現象を含む、プロンプトベースの手法の両方において、ターゲット外問題に直面している。
本稿では,従来のプロンプトベースの手法と直交する新しい微調整機構であるtextbf{\underline{A}}uto-\textbf{\underline{C}}onstriction \textbf{\underline{T}}urning mechanism for \textbf{\underline{M}}ultilingual \textbf{\underline{N}}eural \textbf{\underline{M}}achine \textbf{\underline{T}}ranslation (\model)を紹介する。
この方法では、ターゲット側に制約付きテンプレートを自動で構築し、トリガートークンを基底真理に先立って追加する。
さらにトリガートークンは、異なるタスクセマンティクスを表現するために自由に配置され、組み合わせることができ、ラベルの確率を最大化するために反復的に更新することができる。
複数の指標を用いてWMTテストセット上で実験を行い, 実験結果から, 複数方向の変換性能が大幅に向上し, 翻訳におけるオフターゲット現象の低減が図られた。 Large language model (LLM) has achieved promising performance in multilingual machine translation tasks through zero/few-shot prompts or prompt-tuning. However, due to the mixture of multilingual data during the pre-training of LLM, the LLM-based translation models face the off-target issue in both prompt-based methods, including a series of phenomena, namely instruction misunderstanding, translation with wrong language and over-generation. For this issue, this paper introduces an \textbf{\underline{A}}uto-\textbf{\underline{C}}onstriction \textbf{\underline{T}}urning mechanism for \textbf{\underline{M}}ultilingual \textbf{\underline{N}}eural \textbf{\underline{M}}achine \textbf{\underline{T}}ranslation (\model), which is a novel supervised fine-tuning mechanism and orthogonal to the traditional prompt-based methods. In this method, \model automatically constructs a constrained template in the target side by adding trigger tokens ahead of the ground truth. Furthermore, trigger tokens can be arranged and combined freely to represent different task semantics, and they can be iteratively updated to maximize the label likelihood. Experiments are performed on WMT test sets with multiple metrics, and the experimental results demonstrate that \model achieves substantially improved performance across multiple translation directions and reduce the off-target phenomena in the translation. | 翻訳日:2024-03-12 18:55:11 公開日:2024-03-11 |
# 拡散モデルを用いた分散認識データ拡張 Distribution-Aware Data Expansion with Diffusion Models ( http://arxiv.org/abs/2403.06741v1 ) ライセンス: Link先を確認 | Haowei Zhu, Ling Yang, Jun-Hai Yong, Wentao Zhang, Bin Wang | (参考訳) データセットのスケールと品質は、ディープモデルのパフォーマンスに大きな影響を与えます。
しかし、大規模な注釈付きデータセットの取得はコストも時間もかかる作業である。
この課題に対処するため、データセット拡張技術はデータセットを自動的に拡張し、深層モデルの可能性を最大限に活用することを目指している。
現在のデータ拡張手法は、画像変換ベースと合成ベースを包含する。
変換に基づく手法は局所的な変化のみを導入し、結果として多様性は低下する。
画像合成に基づく手法は、全く新しいコンテンツを作成できるが、情報性が著しく向上する。
しかし、既存の合成手法は分布偏差のリスクを負い、分散サンプルでモデル性能を低下させる可能性がある。
本稿では,分散対応拡散モデルに基づく効率的なデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、階層的なプロトタイプを構築し、実際のデータ分布を近似し、階層的なエネルギー誘導による拡散モデル内の潜在データポイントを最適化する。
分散一貫性のあるサンプルを生成する能力を示し、データ拡張タスクを大幅に改善する。
具体的には、追加のトレーニングなしで、ディストディフは6つの画像データセットでトレーニングされたモデルと比較して30.7%の精度向上と、最先端の拡散ベース法と比較して9.8%の改善を達成している。
私たちのコードはhttps://github.com/haoweiz23/DistDiffで利用可能です。 The scale and quality of a dataset significantly impact the performance of deep models. However, acquiring large-scale annotated datasets is both a costly and time-consuming endeavor. To address this challenge, dataset expansion technologies aim to automatically augment datasets, unlocking the full potential of deep models. Current data expansion methods encompass image transformation-based and synthesis-based methods. The transformation-based methods introduce only local variations, resulting in poor diversity. While image synthesis-based methods can create entirely new content, significantly enhancing informativeness. However, existing synthesis methods carry the risk of distribution deviations, potentially degrading model performance with out-of-distribution samples. In this paper, we propose DistDiff, an effective data expansion framework based on the distribution-aware diffusion model. DistDiff constructs hierarchical prototypes to approximate the real data distribution, optimizing latent data points within diffusion models with hierarchical energy guidance. We demonstrate its ability to generate distribution-consistent samples, achieving substantial improvements in data expansion tasks. Specifically, without additional training, DistDiff achieves a 30.7% improvement in accuracy across six image datasets compared to the model trained on original datasets and a 9.8% improvement compared to the state-of-the-art diffusion-based method. Our code is available at https://github.com/haoweiz23/DistDiff | 翻訳日:2024-03-12 18:54:31 公開日:2024-03-11 |
# V3D:ビデオ拡散モデルが有効な3Dジェネレータ V3D: Video Diffusion Models are Effective 3D Generators ( http://arxiv.org/abs/2403.06738v1 ) ライセンス: Link先を確認 | Zilong Chen, Yikai Wang, Feng Wang, Zhengyi Wang, Huaping Liu | (参考訳) 自動3D生成は近年広く注目を集めている。
近年の手法では生成速度が大幅に向上しているが, モデル容量や3次元データに制限があるため, 精度の低いオブジェクトを生成することが多い。
近年の映像拡散モデルの発展にともなうV3Dは,事前学習した映像拡散モデルの世界シミュレーション能力を活用して3D生成を容易にする。
映像拡散の可能性を完全に解き放つために,幾何学的整合性を導入するとともに,映像拡散モデルを多視点一貫した3Dジェネレータに拡張する。
これにより、最先端のビデオ拡散モデルを微調整して、1枚の画像が与えられた物体を取り囲む360度の軌道フレームを生成することができる。
カスタマイズされた再構築パイプラインによって、高品質なメッシュや3Dガウスを3分で生成できます。
さらに,提案手法をシーンレベルの新規ビュー合成に拡張でき,入力ビューの少ないカメラパスを高精度に制御できる。
広範な実験は、特に生成品質とマルチビュー一貫性の観点から、提案手法の優れた性能を示す。
私たちのコードはhttps://github.com/heheyas/V3Dで利用可能です。 Automatic 3D generation has recently attracted widespread attention. Recent methods have greatly accelerated the generation speed, but usually produce less-detailed objects due to limited model capacity or 3D data. Motivated by recent advancements in video diffusion models, we introduce V3D, which leverages the world simulation capacity of pre-trained video diffusion models to facilitate 3D generation. To fully unleash the potential of video diffusion to perceive the 3D world, we further introduce geometrical consistency prior and extend the video diffusion model to a multi-view consistent 3D generator. Benefiting from this, the state-of-the-art video diffusion model could be fine-tuned to generate 360degree orbit frames surrounding an object given a single image. With our tailored reconstruction pipelines, we can generate high-quality meshes or 3D Gaussians within 3 minutes. Furthermore, our method can be extended to scene-level novel view synthesis, achieving precise control over the camera path with sparse input views. Extensive experiments demonstrate the superior performance of the proposed approach, especially in terms of generation quality and multi-view consistency. Our code is available at https://github.com/heheyas/V3D | 翻訳日:2024-03-12 18:54:11 公開日:2024-03-11 |
# 人間フィードバックによる強化学習による画像キャプション生成の促進 Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2403.06735v1 ) ライセンス: Link先を確認 | Adarsh N L, Arun P V, Aravindh N L | (参考訳) 人間/人間の予測されたアウトプットを生成する生成モデルの研究は、近年大きく貢献している。
テキストと画像生成モデルの間では、特に人間の好みに合わせて画像のキャプションを作成するために、テキストベースの生成モデルに焦点を絞りました。
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討した。
これは、Flickr8kデータセットを使用して、Supervised Learning and Reinforcement Learning with Human Feedback (RLHF)を統合することで実現された。
また、人間のフィードバックに基づいてモデルを最適化できる新たな損失関数を導入する。
本稿では,人間の協調型生成AIモデルの分野における継続的な進歩に寄与することを願って,我々のアプローチと成果の簡潔なスケッチを提供する。 Research on generative models to produce human-aligned / human-preferred outputs has seen significant recent contributions. Between text and image-generative models, we narrowed our focus to text-based generative models, particularly to produce captions for images that align with human preferences. In this research, we explored a potential method to amplify the performance of the Deep Neural Network Model to generate captions that are preferred by humans. This was achieved by integrating Supervised Learning and Reinforcement Learning with Human Feedback (RLHF) using the Flickr8k dataset. Also, a novel loss function that is capable of optimizing the model based on human feedback is introduced. In this paper, we provide a concise sketch of our approach and results, hoping to contribute to the ongoing advances in the field of human-aligned generative AI models. | 翻訳日:2024-03-12 18:53:53 公開日:2024-03-11 |
# 救急医療におけるリアルタイムマルチモーダル認知アシスタント Real-Time Multimodal Cognitive Assistant for Emergency Medical Services ( http://arxiv.org/abs/2403.06734v1 ) ライセンス: Link先を確認 | Keshara Weerasinghe, Saahith Janapati, Xueren Ge, Sion Kim, Sneha Iyer, John A. Stankovic, Homa Alemzadeh | (参考訳) 救急医療サービス(EMS)の対応者は、しばしば時間に敏感な条件下で活動し、認知的過負荷と固有のリスクに直面し、批判的思考と迅速な意思決定に不可欠なスキルを必要とする。
本稿では,Augmented Reality(AR)スマートグラスを用いて,救急現場からのマルチモーダルデータのリアルタイム取得と解析に携わる仮想パートナーとして機能する,エンドツーエンドのウェアラブル認知アシスタントシステムであるCognitiveEMSを提案する。
cognitiveemsはデータの連続的なストリームをリアルタイムで処理し、エッジコンピューティングを利用してemsプロトコルの選択と介入認識を支援する。
3つの新しい要素を導入することで、リアルタイム認知支援における重要な技術的課題に対処する。
一 大規模言語モデル(LLM)により生成された合成データを付加した模擬EMS音声記録を用いて現実の救急医療会話を微調整した音声認識モデル
(ii)グラフに基づく注意機構を用いた最先端(sota)小言語モデルとemsドメイン知識を組み合わせたemsプロトコル予測モデル
(iii)マルチモーダル音声・映像データ及びプロトコル予測を利用して、インシデントシーンにおける応答者による介入・処理動作を推定するemsアクション認識モジュール。
以上の結果から,音声認識は会話データにおけるsoma (wer of 0.290 vs. 0.618) よりも優れた性能が得られることがわかった。
我々のプロトコル予測コンポーネントはSOTA(トップ3の精度0.800対0.200)を著しく上回り、アクション認識は0.727の精度を実現し、エッジ上のプロトコル予測には3.78秒、サーバ上では0.31秒のレイテンシを維持する。 Emergency Medical Services (EMS) responders often operate under time-sensitive conditions, facing cognitive overload and inherent risks, requiring essential skills in critical thinking and rapid decision-making. This paper presents CognitiveEMS, an end-to-end wearable cognitive assistant system that can act as a collaborative virtual partner engaging in the real-time acquisition and analysis of multimodal data from an emergency scene and interacting with EMS responders through Augmented Reality (AR) smart glasses. CognitiveEMS processes the continuous streams of data in real-time and leverages edge computing to provide assistance in EMS protocol selection and intervention recognition. We address key technical challenges in real-time cognitive assistance by introducing three novel components: (i) a Speech Recognition model that is fine-tuned for real-world medical emergency conversations using simulated EMS audio recordings, augmented with synthetic data generated by large language models (LLMs); (ii) an EMS Protocol Prediction model that combines state-of-the-art (SOTA) tiny language models with EMS domain knowledge using graph-based attention mechanisms; (iii) an EMS Action Recognition module which leverages multimodal audio and video data and protocol predictions to infer the intervention/treatment actions taken by the responders at the incident scene. Our results show that for speech recognition we achieve superior performance compared to SOTA (WER of 0.290 vs. 0.618) on conversational data. Our protocol prediction component also significantly outperforms SOTA (top-3 accuracy of 0.800 vs. 0.200) and the action recognition achieves an accuracy of 0.727, while maintaining an end-to-end latency of 3.78s for protocol prediction on the edge and 0.31s on the server. | 翻訳日:2024-03-12 18:53:38 公開日:2024-03-11 |
# 量子発振器と相互作用する量子ビットに対する非可換グラフに対応する量子チャネルの構成について On the construction of a quantum channel corresponding to non-commutative graph for a qubit interacting with quantum oscillator ( http://arxiv.org/abs/2403.06733v1 ) ライセンス: Link先を確認 | G.G. Amosov, A.S. Mokeev, A.N. Pechen | (参考訳) 量子振動子と相互作用する量子ビットのモデルについて,非可換グラフの理論に基づく誤差補正を考える。
複合系のダイナミクスは、系のダイナミクスに対して正の演算子値測度(povm)を生成するシュル=オディンガー方程式によって制御される。
我々はPOVMの線形エンベロープとして非可換グラフを生成する量子チャネルを構築する。
このアイデアは、フォン・ノイマン代数の装置を用いて量子チャネルの一般化バージョンを適用することに基づいている。
量子振動子と相互作用する量子ビットによって生成される非可換グラフについて解析を行う。
このモデルでは、誤差補正部分空間を決定する量子斜めは明示的な表現を持つ。 We consider error correction, based on the theory of non-commutative graphs, for a model of a qubit interacting with quantum oscillator. The dynamics of the composite system is governed by the Schr\"odinger equation which generates positive operator-valued measure (POVM) for the system dynamics. We construct a quantum channel generating the non-commutative graph as a linear envelope of the POVM. The idea is based on applying a generalized version of a quantum channel using the apparatus of von Neumann algebras. The results are analyzes for a non-commutative graph generated by a qubit interacting with quantum oscillator. For this model the quantum anticlique which determines the error correcting subspace has an explicit expression. | 翻訳日:2024-03-12 18:53:07 公開日:2024-03-11 |
# カーネル関数の近似について On the Approximation of Kernel functions ( http://arxiv.org/abs/2403.06731v1 ) ライセンス: Link先を確認 | Paul Dommel and Alois Pichler | (参考訳) 統計学習における様々な手法は、ヒルベルト空間の再現において考慮されたカーネルの上に構築される。
アプリケーションでは、カーネルは問題とデータの特徴に基づいて選択されることが多い。
このカーネルは、説明データが観測されていない地点で応答変数を推測するために使われる。
ここで考慮されたデータは高次元のコンパクトな集合に位置し、論文はカーネル自体の近似に対処する。
新しいアプローチでは、ラジアル核関数のテイラー級数近似を考える。
単位立方体上のガウス核に対して、この論文は関連する固有関数の上界を確立し、指数に関して多項式的にしか成長しない。
この新しいアプローチは、文献で考慮されるよりも小さな正規化パラメータを置換し、全体としてはより良い近似をもたらす。
この改良により、Nystr\"om法のような低階近似法が確かめられる。 Various methods in statistical learning build on kernels considered in reproducing kernel Hilbert spaces. In applications, the kernel is often selected based on characteristics of the problem and the data. This kernel is then employed to infer response variables at points, where no explanatory data were observed. The data considered here are located in compact sets in higher dimensions and the paper addresses approximations of the kernel itself. The new approach considers Taylor series approximations of radial kernel functions. For the Gauss kernel on the unit cube, the paper establishes an upper bound of the associated eigenfunctions, which grows only polynomially with respect to the index. The novel approach substantiates smaller regularization parameters than considered in the literature, overall leading to better approximations. This improvement confirms low rank approximation methods such as the Nystr\"om method. | 翻訳日:2024-03-12 18:52:56 公開日:2024-03-11 |
# 臨床品質強化学習による大規模X線診断レポートの作成 Large Model driven Radiology Report Generation with Clinical Quality Reinforcement Learning ( http://arxiv.org/abs/2403.06728v1 ) ライセンス: Link先を確認 | Zijian Zhou, Miaojing Shi, Meng Wei, Oluwatosin Alabi, Zijie Yue, Tom Vercauteren | (参考訳) 放射線学報告生成(RRG)は,放射線科医の作業量削減の可能性から注目されている。
現在のRRGアプローチは、まだ臨床標準に満足できない。
本稿では, 臨床品質向上学習と大規模モデル(LM)を統合し, 胸部X線診断を高精度かつ包括的に行う新しいRRG法である「textbf{LM-RRG}」を提案する。
まず,胸部x線画像の異なる領域を解析・解釈するための大規模言語モデル駆動特徴抽出器の設計を行い,医学的意義を強調する。
次に,大規模モデルのデコーダに基づいて,視覚特徴からのマルチモーダルプロンプトとテキストインストラクションを活用したマルチモーダルレポート生成装置を開発し,自己回帰的なラジオロジーレポートを作成する。
最後に, 放射線科医が通常報告する臨床的に有意かつ重要でない誤りを反映するために, 新たな臨床品質強化学習戦略を導入する。
学習過程における報酬関数として,放射線診断報告臨床品質指標(RadCliQ)を用いる。
mimic-cxr と iu-xray データセットに関する広範囲な実験により,本手法の最先端性が示された。 Radiology report generation (RRG) has attracted significant attention due to its potential to reduce the workload of radiologists. Current RRG approaches are still unsatisfactory against clinical standards. This paper introduces a novel RRG method, \textbf{LM-RRG}, that integrates large models (LMs) with clinical quality reinforcement learning to generate accurate and comprehensive chest X-ray radiology reports. Our method first designs a large language model driven feature extractor to analyze and interpret different regions of the chest X-ray image, emphasizing specific regions with medical significance. Next, based on the large model's decoder, we develop a multimodal report generator that leverages multimodal prompts from visual features and textual instruction to produce the radiology report in an auto-regressive way. Finally, to better reflect the clinical significant and insignificant errors that radiologists would normally assign in the report, we introduce a novel clinical quality reinforcement learning strategy. It utilizes the radiology report clinical quality (RadCliQ) metric as a reward function in the learning process. Extensive experiments on the MIMIC-CXR and IU-Xray datasets demonstrate the superiority of our method over the state of the art. | 翻訳日:2024-03-12 18:52:45 公開日:2024-03-11 |
# 長期視覚認識のための確率的コントラスト学習 Probabilistic Contrastive Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2403.06726v1 ) ライセンス: Link先を確認 | Chaoqun Du, Yulin Wang, Shiji Song, and Gao Huang | (参考訳) 長い尾の分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
このような不均衡問題は、主にバランスの取れたトレーニングセット用に設計された標準教師付き学習アルゴリズムの性能を著しく損なう。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する可能性を示していることが示されている。
しかし、教師付きコントラスト学習のパフォーマンスは、すべてのカテゴリをカバーするコントラストペアを構築するために、十分な量のトレーニングデータのバッチを必要とするが、この要件は、クラス不均衡なデータのコンテキストでは達成が困難である。
この障害を克服するために,特徴空間の各クラスからのサンプルデータ分布を推定する確率的コントラスト学習アルゴリズム(ProCo)を提案し,それに応じてコントラストペアをサンプリングする。
実際、小さなバッチ、特に不均衡データにおける機能を使って、すべてのクラスの分布を推定することは不可能である。
我々のキーとなる考え方は、対照的な学習における正規化された特徴が単位空間上のvon Mises-Fisher(vMF)分布の混合に従うという合理的で単純な仮定を導入することである。
まず、分布パラメータを第1サンプルモーメントのみを用いて推定し、異なるバッチ間でオンライン的に効率的に計算することができる。
第二に、推定分布に基づいて、vMF分布は無限個のコントラスト対をサンプリングし、予測されるコントラスト損失の閉形式を導出し、効率的な最適化を行う。
私たちのコードはhttps://github.com/LeapLabTHU/ProCoで利用可能です。 Long-tailed distributions frequently emerge in real-world data, where a large number of minority categories contain a limited number of samples. Such imbalance issue considerably impairs the performance of standard supervised learning algorithms, which are mainly designed for balanced training sets. Recent investigations have revealed that supervised contrastive learning exhibits promising potential in alleviating the data imbalance. However, the performance of supervised contrastive learning is plagued by an inherent challenge: it necessitates sufficiently large batches of training data to construct contrastive pairs that cover all categories, yet this requirement is difficult to meet in the context of class-imbalanced data. To overcome this obstacle, we propose a novel probabilistic contrastive (ProCo) learning algorithm that estimates the data distribution of the samples from each class in the feature space, and samples contrastive pairs accordingly. In fact, estimating the distributions of all classes using features in a small batch, particularly for imbalanced data, is not feasible. Our key idea is to introduce a reasonable and simple assumption that the normalized features in contrastive learning follow a mixture of von Mises-Fisher (vMF) distributions on unit space, which brings two-fold benefits. First, the distribution parameters can be estimated using only the first sample moment, which can be efficiently computed in an online manner across different batches. Second, based on the estimated distribution, the vMF distribution allows us to sample an infinite number of contrastive pairs and derive a closed form of the expected contrastive loss for efficient optimization. Our code is available at https://github.com/LeapLabTHU/ProCo. | 翻訳日:2024-03-12 18:52:24 公開日:2024-03-11 |
# 事前学習と重要メカニズムの微調整による低リソース知識追跡タスクの改善 Improving Low-Resource Knowledge Tracing Tasks by Supervised Pre-training and Importance Mechanism Fine-tuning ( http://arxiv.org/abs/2403.06725v1 ) ライセンス: Link先を確認 | Hengyuan Zhang, Zitao Liu, Shuyan Huang, Chenming Shang, Bojun Zhan, Yong Jiang | (参考訳) 知識追跡(KT)は、学生の歴史的相互作用に基づいて、学生の知識習得を推定することを目的としている。
近年、深層学習に基づくKT(DLKT)アプローチは、KTタスクにおいて顕著なパフォーマンスを実現している。
これらのDLKTモデルは、利用可能な多数の学生相互作用に大きく依存している。
しかしながら、予算制約やプライバシー上の懸念といった様々な理由により、観測された相互作用は、低リソースのKTデータセットなど、多くの現実のシナリオにおいて非常に限定されている。
低リソースのKTデータセット上でDLKTモデルを直接トレーニングすることは、過度な適合につながる可能性がある。
そこで本稿では,上記の課題に対処するため,LoReKTと呼ばれる低リソースKTフレームワークを提案する。
事前学習および微調整」パラダイムに着想を得た我々は、事前学習段階において、リッチリソースKTデータセットから転送可能なパラメータと表現を学習し、その後、低リソースKTデータセットへの効果的な適応を容易にすることを目指している。
具体的には,既存のDLKTモデルアーキテクチャを純粋にトランスフォーマーデコーダのスタックで単純化する。
我々は,複数のktデータソースからの学生インタラクションを組み込むエンコーディング機構を設計し,微調整段階では重要でないパラメータを制約しながら,重要度の高いパラメータの更新を優先する重要機構を開発する。
6つのパブリックKTデータセット上でLoReKTを評価し,AUCと精度の観点からアプローチの優位性を実証した。
再現可能な研究を促進するため、データとコードをhttps://anonymous.4open.science/r/lorekt-c619で公開しています。 Knowledge tracing (KT) aims to estimate student's knowledge mastery based on their historical interactions. Recently, the deep learning based KT (DLKT) approaches have achieved impressive performance in the KT task. These DLKT models heavily rely on the large number of available student interactions. However, due to various reasons such as budget constraints and privacy concerns, observed interactions are very limited in many real-world scenarios, a.k.a, low-resource KT datasets. Directly training a DLKT model on a low-resource KT dataset may lead to overfitting and it is difficult to choose the appropriate deep neural architecture. Therefore, in this paper, we propose a low-resource KT framework called LoReKT to address above challenges. Inspired by the prevalent "pre-training and fine-tuning" paradigm, we aim to learn transferable parameters and representations from rich-resource KT datasets during the pre-training stage and subsequently facilitate effective adaptation to low-resource KT datasets. Specifically, we simplify existing sophisticated DLKT model architectures with purely a stack of transformer decoders. We design an encoding mechanism to incorporate student interactions from multiple KT data sources and develop an importance mechanism to prioritize updating parameters with high importance while constraining less important ones during the fine-tuning stage. We evaluate LoReKT on six public KT datasets and experimental results demonstrate the superiority of our approach in terms of AUC and Accuracy. To encourage reproducible research, we make our data and code publicly available at https://anonymous.4open.science/r/LoReKT-C619. | 翻訳日:2024-03-12 18:51:54 公開日:2024-03-11 |
# 医用画像分類における動的摂動適応学習 Dynamic Perturbation-Adaptive Adversarial Training on Medical Image Classification ( http://arxiv.org/abs/2403.06798v1 ) ライセンス: Link先を確認 | Shuai Li, Xiaoguang Ma, Shancheng Jiang, and Lu Meng | (参考訳) 近年、医用画像分類(MIC)において、主に畳み込みニューラルネットワーク(CNN)の幅広い応用により顕著な成功を収めた。
しかし、敵対的な例(AE)は生データと不可避な類似性を示し、ネットワークの堅牢性に対する深刻な懸念を引き起こした。
対人訓練(adversarial training, at)は,強靭性向上のための効果的なアプローチとして認識されたが,atによるネットワークの一般化の低下を克服することが困難であった。
本稿では,強固さを保ちつつ高い一般化を保ちながら,動的摂動適応逆向訓練(dpaat)法を提案し,動的学習環境において適応的データレベルの摂動を生成し,従来のat法における固定摂動サイズの不利と外部伝達依存性に対処するために,損失情報収集による動的に更新された基準を与えた。
総合的なdermatology ham10000データセットのテストにより、dpaatはロバスト性の向上と一般化保存を達成しただけでなく、様々なcnnの平均精度と解釈性を大幅に向上し、micにおける一般的な敵対的訓練法として大きな可能性を示した。 Remarkable successes were made in Medical Image Classification (MIC) recently, mainly due to wide applications of convolutional neural networks (CNNs). However, adversarial examples (AEs) exhibited imperceptible similarity with raw data, raising serious concerns on network robustness. Although adversarial training (AT), in responding to malevolent AEs, was recognized as an effective approach to improve robustness, it was challenging to overcome generalization decline of networks caused by the AT. In this paper, in order to reserve high generalization while improving robustness, we proposed a dynamic perturbation-adaptive adversarial training (DPAAT) method, which placed AT in a dynamic learning environment to generate adaptive data-level perturbations and provided a dynamically updated criterion by loss information collections to handle the disadvantage of fixed perturbation sizes in conventional AT methods and the dependence on external transference. Comprehensive testing on dermatology HAM10000 dataset showed that the DPAAT not only achieved better robustness improvement and generalization preservation but also significantly enhanced mean average precision and interpretability on various CNNs, indicating its great potential as a generic adversarial training method on the MIC. | 翻訳日:2024-03-12 18:45:59 公開日:2024-03-11 |
# 磁気画像分類におけるモデルの内部表現の活用 Leveraging Internal Representations of Model for Magnetic Image Classification ( http://arxiv.org/abs/2403.06797v1 ) ライセンス: Link先を確認 | Adarsh N L, Arun P V, Alok Porwal, Malcolm Aranha | (参考訳) エッジデバイスが生成するデータは、さまざまなドメインにわたってインテリジェントな自律システムをトレーニングする可能性がある。
さまざまな機械学習アプローチが出現し、プライバシの懸念に対処し、分散データを活用する一方で、異なる場所でのデータシャードが機密に格納されているため、セキュリティ上の問題は続く。
本稿では,単一の磁気画像と対応するラベル画像のみを含むシナリオを想定した機械学習モデルトレーニングのための画期的なパラダイムを提案する。
私たちはDeep Learningの能力を活用して、データの不足を克服することを目的として、簡潔で情報に富んだサンプルを生成します。
深層学習の内部表現を活用し,データ不足問題に効率的に対処し,有意義な結果を生み出すことを目的とする。
この方法論は、最小限のデータで機械学習モデルをトレーニングするための有望な道を示す。 Data generated by edge devices has the potential to train intelligent autonomous systems across various domains. Despite the emergence of diverse machine learning approaches addressing privacy concerns and utilizing distributed data, security issues persist due to the sensitive storage of data shards in disparate locations. This paper introduces a potentially groundbreaking paradigm for machine learning model training, specifically designed for scenarios with only a single magnetic image and its corresponding label image available. We harness the capabilities of Deep Learning to generate concise yet informative samples, aiming to overcome data scarcity. Through the utilization of deep learning's internal representations, our objective is to efficiently address data scarcity issues and produce meaningful results. This methodology presents a promising avenue for training machine learning models with minimal data. | 翻訳日:2024-03-12 18:45:34 公開日:2024-03-11 |
# defaults: 共通資源を統治する二重刃の剣 Defaults: a double-edged sword in governing common resources ( http://arxiv.org/abs/2403.06796v1 ) ライセンス: Link先を確認 | Eladio Montero-Porras, R\'emi Suchon, Tom Lenaerts and Elias Fern\'andez Domingos | (参考訳) 共有資源を抽出するには、個人利益と持続可能性のバランスをとる必要がある。
本稿では,有限資源からのデフォルト抽出を操作した行動実験の結果を示す。
参加者は、社会的あるいは自己維持的抽出デフォルトの2つの治療法と、デフォルトのないコントロールにさらされた。
5ラウンド後のデフォルトを削除することで,これらのヌッジの持続性を検討した。
その結果,自己維持型デフォルトが平均抽出量を増加させたのに対し,社会寄りのデフォルトは最初の2ラウンドの抽出を減少させた。
特に、デフォルトの影響は個人の傾向に依存し、協力的な個人は自給自足のデフォルトの下でより多く抽出し、利己的な個人は社会的なデフォルトよりも少ない。
デフォルトの除去後,コントロール治療と有意な差は認められなかった。
本研究は、持続可能性を高めるための費用対効果ツールとしてのデフォルトの可能性を強調し、悪影響を避けるための注意深い使用を推奨する。 Extracting from shared resources requires making choices to balance personal profit and sustainability. We present the results of a behavioural experiment wherein we manipulate the default extraction from a finite resource. Participants were exposed to two treatments -- pro-social or self-serving extraction defaults -- and a control without defaults. We examined the persistence of these nudges by removing the default after five rounds. Results reveal that a self-serving default increased the average extraction while present, whereas a pro-social default only decreased extraction for the first two rounds. Notably, the influence of defaults depended on individual inclinations, with cooperative individuals extracting more under a self-serving default, and selfish individuals less under a pro-social default. After the removal of the default, we observed no significant differences with the control treatment. Our research highlights the potential of defaults as cost-effective tools for promoting sustainability, while also advocating for a careful use to avoid adverse effects. | 翻訳日:2024-03-12 18:45:20 公開日:2024-03-11 |
# 事前訓練モデルによる画像復元の促進 Boosting Image Restoration via Priors from Pre-trained Models ( http://arxiv.org/abs/2403.06793v1 ) ライセンス: Link先を確認 | Xiaogang Xu, Shu Kong, Tao Hu, Zhe Liu, Hujun Bao | (参考訳) CLIPやStable Diffusionのような大規模トレーニングデータを持つ事前学習モデルは、画像理解や言語記述からの生成など、様々なハイレベルなコンピュータビジョンタスクにおいて顕著な性能を示している。
しかし、画像復元のような低レベルのタスクへの可能性は比較的未解明のままである。
本稿では,画像復元のためのモデルについて検討する。
既訓練モデルからのオフ・ザ・シェルフ機能(OSF)は直接画像復元に役立たないため,OSFを用いたターゲット復元ネットワークの復元結果を改善するために,Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習することを提案する。
PTG-RMは、PTG-SVE(Pre-Train-Guided Space-Varying Enhancement)とPTG-CSA(Pre-Train-Guided Channel-Spatial Attention)の2つのコンポーネントから構成される。
PTG-SVEは最適な短距離および長距離神経操作を可能にし、PTG-CSAは修復関連学習のための空間チャネルの注意を高める。
PTG-RMの小型化($1M)は, 低照度向上, デラライニング, 脱臭, 脱臭など, 各種モデルの復元性能を効果的に向上することを示した。 Pre-trained models with large-scale training data, such as CLIP and Stable Diffusion, have demonstrated remarkable performance in various high-level computer vision tasks such as image understanding and generation from language descriptions. Yet, their potential for low-level tasks such as image restoration remains relatively unexplored. In this paper, we explore such models to enhance image restoration. As off-the-shelf features (OSF) from pre-trained models do not directly serve image restoration, we propose to learn an additional lightweight module called Pre-Train-Guided Refinement Module (PTG-RM) to refine restoration results of a target restoration network with OSF. PTG-RM consists of two components, Pre-Train-Guided Spatial-Varying Enhancement (PTG-SVE), and Pre-Train-Guided Channel-Spatial Attention (PTG-CSA). PTG-SVE enables optimal short- and long-range neural operations, while PTG-CSA enhances spatial-channel attention for restoration-related learning. Extensive experiments demonstrate that PTG-RM, with its compact size ($<$1M parameters), effectively enhances restoration performance of various models across different tasks, including low-light enhancement, deraining, deblurring, and denoising. | 翻訳日:2024-03-12 18:45:02 公開日:2024-03-11 |
# SPLADE-v3: SPLADEの新しいベースライン SPLADE-v3: New baselines for SPLADE ( http://arxiv.org/abs/2403.06789v1 ) ライセンス: Link先を確認 | Carlos Lassance, Herv\'e D\'ejean, Thibault Formal, St\'ephane Clinchant | (参考訳) SPLADEライブラリの最新バージョンのリリースに付属する。
トレーニング構造の変更を説明し、最新のモデルであるSPLADE-v3を提示する。
この新バージョンをbm25、splade++、および再ランク付けツールと比較し、40以上のクエリセットのメタ分析を通じてその効果を示す。
SPLADE-v3 はさらに SPLADE モデルの限界を押し上げ、BM25 や SPLADE++ よりも統計的にはるかに効果的であると同時に、クロスエンコーダのリランカと比較する。
具体的には、MS MARCO開発セットで40 MRR@10以上を取得し、BEIRベンチマークのドメイン外の結果の2%改善する。 A companion to the release of the latest version of the SPLADE library. We describe changes to the training structure and present our latest series of models -- SPLADE-v3. We compare this new version to BM25, SPLADE++, as well as re-rankers, and showcase its effectiveness via a meta-analysis over more than 40 query sets. SPLADE-v3 further pushes the limit of SPLADE models: it is statistically significantly more effective than both BM25 and SPLADE++, while comparing well to cross-encoder re-rankers. Specifically, it gets more than 40 MRR@10 on the MS MARCO dev set, and improves by 2% the out-of-domain results on the BEIR benchmark. | 翻訳日:2024-03-12 18:44:36 公開日:2024-03-11 |
# Sim-to-Realデータ拡張設計のための遺伝的学習 Genetic Learning for Designing Sim-to-Real Data Augmentations ( http://arxiv.org/abs/2403.06786v1 ) ライセンス: Link先を確認 | Bram Vanherle, Nick Michiels, Frank Van Reeth | (参考訳) データ拡張は、合成データのトレーニング時にsim-to-realドメインギャップを閉じるのに役立つ。
これは、トレーニングデータの分散を広げ、モデルが他のドメインにもっと一般化するよう促すためです。
多くの画像増強技術があり、強度や確率などの異なる設定でパラメータ化されている。
これにより、さまざまな拡張ポリシの空間が生まれる。
いくつかのポリシーは、特定のデータセットのsim-to-realギャップを克服するために、他のポリシーよりもうまく機能する。
本稿では,オブジェクト検出に焦点をあてて,ある拡張ポリシーが特定のsim-to-real設定に対してどの程度うまく機能するかを予測するために組み合わせることができる2つの異なる解釈可能な指標を提案する。
我々は、異なる拡張ポリシーで多くのモデルをトレーニングし、実データのパフォーマンスと強い相関関係を示すことで、メトリクスを検証する。
さらに、これらのメトリクスを活用する遺伝的プログラミング手法であるGenematicAugmentを導入し、モデルをトレーニングすることなく、特定のデータセットに対する拡張ポリシーを自動的に設計する。 Data augmentations are useful in closing the sim-to-real domain gap when training on synthetic data. This is because they widen the training data distribution, thus encouraging the model to generalize better to other domains. Many image augmentation techniques exist, parametrized by different settings, such as strength and probability. This leads to a large space of different possible augmentation policies. Some policies work better than others for overcoming the sim-to-real gap for specific datasets, and it is unclear why. This paper presents two different interpretable metrics that can be combined to predict how well a certain augmentation policy will work for a specific sim-to-real setting, focusing on object detection. We validate our metrics by training many models with different augmentation policies and showing a strong correlation with performance on real data. Additionally, we introduce GeneticAugment, a genetic programming method that can leverage these metrics to automatically design an augmentation policy for a specific dataset without needing to train a model. | 翻訳日:2024-03-12 18:44:23 公開日:2024-03-11 |
# ZX計算におけるパラメトリック書き換えによる量子回路の高速古典シミュレーション Fast classical simulation of quantum circuits via parametric rewriting in the ZX-calculus ( http://arxiv.org/abs/2403.06777v1 ) ライセンス: Link先を確認 | Matthew Sutcliffe and Aleks Kissinger | (参考訳) zx-計算(zx-calculus)は、単純なグラフィカルな書き換え規則によって量子計算を単純化する代数的形式論である。
近年, "sum-over-cliffords" の手法と組み合わせると, zx-calculus は量子回路の古典的シミュレーションのための強力なツールとなることが示されている。
しかし、1つの量子回路の多くの測定結果に関連する確率の計算など、いくつかの重要な古典的シミュレーションタスクにおいて、この手法は、同じ計算作業が繰り返される多くの非常に類似したダイアグラムの削減をもたらす。
本稿では,boolean freeパラメータを持つダイアグラム上でパラメトリックに動作可能な削減戦略を開発することにより,この作業の大半をブランチ間で共有できることを示す。
単純化作業の大部分が完了した後のみ、パラメータを修正する必要があるため、高速なGPU並列性を利用して古典シミュレーションの最終段階を実行することが可能であることが示される。
これらの手法を用いて, 古典的シミュレーションタスクに対して, 非パラメトリックアプローチと比較して100倍の高速化を示す。 The ZX-calculus is an algebraic formalism that allows quantum computations to be simplified via a small number of simple graphical rewrite rules. Recently, it was shown that, when combined with a family of "sum-over-Cliffords" techniques, the ZX-calculus provides a powerful tool for classical simulation of quantum circuits. However, for several important classical simulation tasks, such as computing the probabilities associated with many measurement outcomes of a single quantum circuit, this technique results in reductions over many very similar diagrams, where much of the same computational work is repeated. In this paper, we show that the majority of this work can be shared across branches, by developing reduction strategies that can be run parametrically on diagrams with boolean free parameters. As parameters only need to be fixed after the bulk of the simplification work is already done, we show that it is possible to perform the final stage of classical simulation quickly utilising a high degree of GPU parallelism. Using these methods, we demonstrate speedups upwards of 100x for certain classical simulation tasks vs. the non-parametric approach. | 翻訳日:2024-03-12 18:44:07 公開日:2024-03-11 |
# FaceChain-SuDe: ワンショットの主観駆動生成のためのカテゴリ属性を継承する派生クラスを構築する FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation ( http://arxiv.org/abs/2403.06775v1 ) ライセンス: Link先を確認 | Pengchong Qiao, Lei Shang, Chang Liu, Baigui Sun, Xiangyang Ji, Jie Chen | (参考訳) 近年、テキスト対画像生成のパーソナライズ機能により、主題駆動生成が大きな関心を集めている。
典型的な作品は、新しい主題の個人的な属性を学ぶことに焦点を当てている。
しかしながら、対象が孤立した新しい概念ではなく、事前訓練されたモデルにおける特定のカテゴリーの特殊化であるべきという重要な事実は、真に捉えられていない。
その結果、対象者はカテゴリの属性を包括的に継承できず、属性関連世代が貧弱になる。
本稿では,オブジェクト指向プログラミングに動機づけられた基本クラスが意味圏である派生クラスとして対象をモデル化する。
このモデリングにより、被験者はそのカテゴリからパブリック属性を継承し、ユーザが提供する例からプライベート属性を学習することができる。
具体的には,プラグイン・アンド・プレイ方式であるSubject-Derived regularization (SuDe)を提案する。
被写体駆動生成画像が被写体のカテゴリに意味的に属すように制約することにより、基底となるクラスモデリングを構築する。
3つのベースラインと2つのバックボーンによる広範囲な実験により、SuDeは、被験者の忠実さを維持しながら、想像上の属性関連世代を可能にした。
コードはまもなくFaceChain(https://github.com/modelscope/facechain)でオープンソース化される。 Subject-driven generation has garnered significant interest recently due to its ability to personalize text-to-image generation. Typical works focus on learning the new subject's private attributes. However, an important fact has not been taken seriously that a subject is not an isolated new concept but should be a specialization of a certain category in the pre-trained model. This results in the subject failing to comprehensively inherit the attributes in its category, causing poor attribute-related generations. In this paper, motivated by object-oriented programming, we model the subject as a derived class whose base class is its semantic category. This modeling enables the subject to inherit public attributes from its category while learning its private attributes from the user-provided example. Specifically, we propose a plug-and-play method, Subject-Derived regularization (SuDe). It constructs the base-derived class modeling by constraining the subject-driven generated images to semantically belong to the subject's category. Extensive experiments under three baselines and two backbones on various subjects show that our SuDe enables imaginative attribute-related generations while maintaining subject fidelity. Codes will be open sourced soon at FaceChain (https://github.com/modelscope/facechain). | 翻訳日:2024-03-12 18:43:48 公開日:2024-03-11 |
# 時間データにおけるイベントタイプの再定義とグループ進化 Redefining Event Types and Group Evolution in Temporal Data ( http://arxiv.org/abs/2403.06771v1 ) ライセンス: Link先を確認 | Andrea Failla and R\'emy Cazabet and Giulio Rossetti and Salvatore Citraro | (参考訳) ポイントのクラスタやノードのコミュニティといったグループは、さまざまなデータマイニングタスクに取り組む上で基本です。
In temporal data, the predominant approach for characterizing group evolution has been through the identification of ``events". However, the events usually described in the literature, e.g., shrinks/growths, splits/merges, are often arbitrarily defined, creating a gap between such theoretical/predefined types and real-data group observations. Moving beyond existing taxonomies, we think of events as ``archetypes" characterized by a unique combination of quantitative dimensions that we call ``facets".
群動力学はファセット空間内のそれらの位置によって定義され、そこではアーチ型イベントが四肢を占める。
したがって、厳密なイベントタイプを強制するのではなく、複数のアーチタイプにグループ近接を含むダイナミクスのハイブリッド記述を可能にする。
いくつかの対面相互作用データセットからグループを進化させ,特に群が複雑な関係にある場合に,よりリッチで信頼性の高いグループダイナミクスのキャラクタリゼーションを可能にする。
また,適切な集約尺度の選択,パーティショニング安定性の定量化,イベント品質の評価など,動的グループ分析に関連する共通タスクに対する直感的なソリューションを提供する。 Groups -- such as clusters of points or communities of nodes -- are fundamental when addressing various data mining tasks. In temporal data, the predominant approach for characterizing group evolution has been through the identification of ``events". However, the events usually described in the literature, e.g., shrinks/growths, splits/merges, are often arbitrarily defined, creating a gap between such theoretical/predefined types and real-data group observations. Moving beyond existing taxonomies, we think of events as ``archetypes" characterized by a unique combination of quantitative dimensions that we call ``facets". Group dynamics are defined by their position within the facet space, where archetypal events occupy extremities. Thus, rather than enforcing strict event types, our approach can allow for hybrid descriptions of dynamics involving group proximity to multiple archetypes. We apply our framework to evolving groups from several face-to-face interaction datasets, showing it enables richer, more reliable characterization of group dynamics with respect to state-of-the-art methods, especially when the groups are subject to complex relationships. Our approach also offers intuitive solutions to common tasks related to dynamic group analysis, such as choosing an appropriate aggregation scale, quantifying partition stability, and evaluating event quality. | 翻訳日:2024-03-12 18:43:28 公開日:2024-03-11 |
# 強さは違う!
階層型戦略計画による効果的な非協調対話に向けて Strength Lies in Differences! Towards Effective Non-collaborative Dialogues via Tailored Strategy Planning ( http://arxiv.org/abs/2403.06769v1 ) ライセンス: Link先を確認 | Tong Zhang, Chen Huang, Yang Deng, Hongru Liang, Jia Liu, Zujie Wen, Wenqiang Lei, Tat-Seng Chua | (参考訳) 我々は,多様なユーザを対象とした適切な戦略計画に携わる非協力的対話エージェントについて検討する。
これは、ユーザ固有の特徴を戦略的計画に統合できないことと、多様なユーザに一般化可能な戦略的プランナーを作成できないことの2つの主な理由から、既存の対話エージェントに課題を提起する。
これらの課題に対処するため,我々は,ユーザ対応の戦略計画モジュールと人口ベースの訓練パラダイムを組み込んだ,戦略計画の調整能力向上のためのトリップを提案する。
協調的でない対話タスクのベンチマーク実験を通じて,多様なユーザを対象に,TRIPの有効性を示す。 We investigate non-collaborative dialogue agents that must engage in tailored strategic planning for diverse users to secure a favorable agreement. This poses challenges for existing dialogue agents due to two main reasons: their inability to integrate user-specific characteristics into their strategic planning and their training paradigm's failure to produce strategic planners that can generalize to diverse users. To address these challenges, we propose TRIP to enhance the capability in tailored strategic planning, incorporating a user-aware strategic planning module and a population-based training paradigm. Through experiments on benchmark non-collaborative dialogue tasks, we demonstrate the effectiveness of TRIP in catering to diverse users. | 翻訳日:2024-03-12 18:43:10 公開日:2024-03-11 |
# XB-MAML:広いタスクカバレッジを持つ効果的なメタラーニングのための拡張可能な基底パラメータの学習 XB-MAML: Learning Expandable Basis Parameters for Effective Meta-Learning with Wide Task Coverage ( http://arxiv.org/abs/2403.06768v1 ) ライセンス: Link先を確認 | Jae-Jun Lee, Sung Whan Yoon | (参考訳) 効果的な初期化モデルを追求するメタラーニングは、目に見えないタスクを扱うための有望なアプローチとして浮上した。
しかし、メタリーナーがさまざまなタスク分散(例えば、識別されたデータセットやドメインを学習するなど)を包含しようとすると、制限が明確になる。
近年,複数のモデル初期化を用いて広範囲なタスクをカバーしようとする研究が試みられているが,適応的に初期化が拡張されることは限られている。
本稿では,拡張可能な基底パラメータを学習するXB-MAMLを紹介する。
xb-mamlは基底にまたがるベクトル空間と微調整パラメータとのずれを観察し、基底を拡大するかどうかを決定する。
提案手法は,マルチドメインメタラーニングベンチマークにおける既存の成果を超越し,多種多様な帰納的バイアスを得るためのメタラーニングの新たな可能性を開く。 Meta-learning, which pursues an effective initialization model, has emerged as a promising approach to handling unseen tasks. However, a limitation remains to be evident when a meta-learner tries to encompass a wide range of task distribution, e.g., learning across distinctive datasets or domains. Recently, a group of works has attempted to employ multiple model initializations to cover widely-ranging tasks, but they are limited in adaptively expanding initializations. We introduce XB-MAML, which learns expandable basis parameters, where they are linearly combined to form an effective initialization to a given task. XB-MAML observes the discrepancy between the vector space spanned by the basis and fine-tuned parameters to decide whether to expand the basis. Our method surpasses the existing works in the multi-domain meta-learning benchmarks and opens up new chances of meta-learning for obtaining the diverse inductive bias that can be combined to stretch toward the effective initialization for diverse unseen tasks. | 翻訳日:2024-03-12 18:42:59 公開日:2024-03-11 |
# ConspEmoLLM:感情に基づく大言語モデルを用いた陰謀理論の検出 ConspEmoLLM: Conspiracy Theory Detection Using an Emotion-Based Large Language Model ( http://arxiv.org/abs/2403.06765v1 ) ライセンス: Link先を確認 | Zhiwei Liu, Boyang Liu, Paul Thompson, Kailai Yang, Raghav Jain, Sophia Ananiadou | (参考訳) インターネットは社会に利益と害をもたらした。
後者の典型的な例は、ウェブを浸水させる陰謀論を含む誤情報である。
近年の自然言語処理,特に大規模言語モデル(LLM)の出現により,正確な誤情報検出の可能性が向上した。
しかし、LLMに基づく陰謀論の検出へのほとんどのアプローチは、二項分類のみに焦点を当て、誤情報と感情的特徴(感情と感情)の間の重要な関係を説明できない。
共謀文を包括的に分析し,その特徴的な情緒的特徴を明らかにすることにより,共謀論に関連する多様なタスクを遂行できる初のオープンソースllmであるconspemollmを提案する。
これらのタスクには共謀理論の検出だけでなく、理論の種類や関連する議論(例えば理論に対する意見)の分類も含まれる。
ConspEmoLLMは、我々の新しいConDIDデータセットを用いて感情指向のLLMに基づいて微調整され、LLMのチューニングと評価をサポートする5つのタスクを含む。
これらのタスクに適用した場合、ConspEmoLLMはいくつかのオープンソース汎用ドメイン LLM や ChatGPT よりも優れており、また、ConDID を用いて微調整されているが、情緒的な機能を使用しない LLM も優れている。
このプロジェクトはhttps://github.com/lzw108/ConspEmoLLM/でリリースされる。 The internet has brought both benefits and harms to society. A prime example of the latter is misinformation, including conspiracy theories, which flood the web. Recent advances in natural language processing, particularly the emergence of large language models (LLMs), have improved the prospects of accurate misinformation detection. However, most LLM-based approaches to conspiracy theory detection focus only on binary classification and fail to account for the important relationship between misinformation and affective features (i.e., sentiment and emotions). Driven by a comprehensive analysis of conspiracy text that reveals its distinctive affective features, we propose ConspEmoLLM, the first open-source LLM that integrates affective information and is able to perform diverse tasks relating to conspiracy theories. These tasks include not only conspiracy theory detection, but also classification of theory type and detection of related discussion (e.g., opinions towards theories). ConspEmoLLM is fine-tuned based on an emotion-oriented LLM using our novel ConDID dataset, which includes five tasks to support LLM instruction tuning and evaluation. We demonstrate that when applied to these tasks, ConspEmoLLM largely outperforms several open-source general domain LLMs and ChatGPT, as well as an LLM that has been fine-tuned using ConDID, but which does not use affective features. This project will be released on https://github.com/lzw108/ConspEmoLLM/. | 翻訳日:2024-03-12 18:42:40 公開日:2024-03-11 |
# レイヤー2後の1/2トークン画像:大規模視覚言語モデルのためのプラグアンドプレイ推論高速化 An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models ( http://arxiv.org/abs/2403.06764v1 ) ライセンス: Link先を確認 | Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang | (参考訳) 本研究では,LLaVA-1.5,QwenVL-Chat,Video-LLaVAなどの顕著なモデルにおいて,LVLM(Large Vision-Language Models)における非効率な注意現象を同定する。
視覚的トークンに対する注意計算は、一般的なLVLMの深層では極めて非効率であることが判明し、テキストデータ処理と比較してスペーサーアプローチの必要性が示唆された。
そこで本研究では,早い層で適応的注意パターンを学習し,その後で視覚的トークンを刈り取ることで計算効率を最適化する汎用プラグイン・アンド・プレイ方式であるfastvを提案する。
我々の評価は、幅広い画像・映像理解タスクの性能を犠牲にすることなく、計算コストを劇的に削減するFastVの能力(例:LLaVA-1.5-13BのFLOPを45削減)を示す。
fastvの計算効率と性能トレードオフは高度にカスタマイズ可能でパレート効率が高い。
13BパラメータモデルのFLOPを圧縮して、7BパラメータモデルのFLOPよりも低い予算を達成するが、優れた性能は維持できる。
我々は、FastVがエッジデバイスや商用モデルにLVLMを配備する上で、実用的な価値を持っていると考えている。
コードはhttps://github.com/pkunlp-icler/fastvでリリースされる。 In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV. | 翻訳日:2024-03-12 18:42:15 公開日:2024-03-11 |
# 高強度レーザーによる光間散乱測定のための暗視野設定 A dark-field setup for the measurement of light-by-light scattering with high-intensity lasers ( http://arxiv.org/abs/2403.06762v1 ) ライセンス: Link先を確認 | Fabian Sch\"utze, Leonard Doyle, J\"org Schreiber, Matt Zepf, Felix Karbstein | (参考訳) 我々は、ペタワット級レーザーシステムを操作する最先端高磁場施設において、2つの光高強度レーザービームの衝突時の光散乱を測定するための具体的な実験装置を提出した。
我々の装置は、両レーザビームが衝突するのと同じ集束光学を用いており、大きな背景が存在する場合の単一光子レベルの非線形量子真空応答を検出するために暗視野アプローチを採用している。
衝突するレーザー場の高度なモデリングに基づいて、様々なレーザー偏光のために暗視野に散乱する信号光子の予測数の信頼性の高い推定を行う。 We put forward a concrete experimental setup allowing to measure light-by-light scattering in the collision of two optical high-intensity laser beams at state-of-the-art high-field facilities operating petawatt class laser systems. Our setup uses the same focusing optics for both laser beams to be collided and employs a dark-field approach for the detection of the single-photon-level nonlinear quantum vacuum response in the presence of a large background. Based on an advanced modeling of the colliding laser fields, we in particular provide reliable estimates for the prospective numbers of signal photons scattered into the dark-field for various laser polarizations. | 翻訳日:2024-03-12 18:41:51 公開日:2024-03-11 |
# 平均校正誤差:画像セグメンテーションにおける信頼性向上のための微分損失 Average Calibration Error: A Differentiable Loss for Improved Reliability in Image Segmentation ( http://arxiv.org/abs/2403.06759v1 ) ライセンス: Link先を確認 | Theodore Barfoot and Luis Garcia-Peraza-Herrera and Ben Glocker and Tom Vercauteren | (参考訳) 医用画像セグメンテーションのためのディープニューラルネットワークは、しばしば経験的観測とミスマッチした自信過剰な結果を生み出す。
このような誤訳は、臨床翻訳に挑戦する。
本稿では,L1平均キャリブレーション誤差(mL1-ACE)を新たな補助損失関数として用いて,セグメンテーション品質を損なうことなく画素ワイドキャリブレーションを改善することを提案する。
この損失は、ハード・ビンニングを用いても直接微分可能であり、近似的ではあるが微分可能なサロゲートやソフト・ビンニングのアプローチを回避できることが示される。
また,データセットレベルで集約された意味セグメンテーションにおけるキャリブレーションの高精度な視覚的評価のための標準信頼性図を一般化した,データセット信頼性ヒストグラムの概念も紹介する。
mL1-ACEを用いて平均校正誤差と最大校正誤差をそれぞれ45%と55%削減し、BraTS 2021データセットのDiceスコアを87%保持する。
コードを以下に公開します。 https://github.com/cai4cai/ACE-DLIRIS Deep neural networks for medical image segmentation often produce overconfident results misaligned with empirical observations. Such miscalibration, challenges their clinical translation. We propose to use marginal L1 average calibration error (mL1-ACE) as a novel auxiliary loss function to improve pixel-wise calibration without compromising segmentation quality. We show that this loss, despite using hard binning, is directly differentiable, bypassing the need for approximate but differentiable surrogate or soft binning approaches. Our work also introduces the concept of dataset reliability histograms which generalises standard reliability diagrams for refined visual assessment of calibration in semantic segmentation aggregated at the dataset level. Using mL1-ACE, we reduce average and maximum calibration error by 45% and 55% respectively, maintaining a Dice score of 87% on the BraTS 2021 dataset. We share our code here: https://github.com/cai4cai/ACE-DLIRIS | 翻訳日:2024-03-12 18:41:42 公開日:2024-03-11 |
# 強化学習のための文脈内探索-探索 In-context Exploration-Exploitation for Reinforcement Learning ( http://arxiv.org/abs/2403.06826v1 ) ライセンス: Link先を確認 | Zhenwen Dai, Federico Tomasi, Sina Ghiassian | (参考訳) In-context Learningはオフライン強化学習(RL)手法のオンラインポリシー学習において有望なアプローチであり、勾配最適化なしで推論時に実現できる。
しかし、この手法は、大規模な訓練軌道集合の収集と大きなトランスフォーマーモデルを訓練する必要性により、計算コストが大幅に低下する。
我々は,コンテキスト内ポリシ学習の効率を最適化するicee(in-context exploration-exploitation)アルゴリズムを導入することで,この課題に対処した。
既存のモデルとは異なり、ICEEは明確なベイズ推論を必要とせず、トランスフォーマーモデル内で推論時に探索・探索のトレードオフを実行する。
その結果、ICEEはガウス過程の偏りと同様に効率よくベイズ最適化を解くことができるが、時間的にはかなり少ない。
グリッドワールド環境での実験を通じて、ICEEは数十エピソードのみを使用して新しいRLタスクを学習できることを示し、以前のインコンテキスト学習法で必要とされる数百エピソードよりも大幅に改善されていることを示す。 In-context learning is a promising approach for online policy learning of offline reinforcement learning (RL) methods, which can be achieved at inference time without gradient optimization. However, this method is hindered by significant computational costs resulting from the gathering of large training trajectory sets and the need to train large Transformer models. We address this challenge by introducing an In-context Exploration-Exploitation (ICEE) algorithm, designed to optimize the efficiency of in-context policy learning. Unlike existing models, ICEE performs an exploration-exploitation trade-off at inference time within a Transformer model, without the need for explicit Bayesian inference. Consequently, ICEE can solve Bayesian optimization problems as efficiently as Gaussian process biased methods do, but in significantly less time. Through experiments in grid world environments, we demonstrate that ICEE can learn to solve new RL tasks using only tens of episodes, marking a substantial improvement over the hundreds of episodes needed by the previous in-context learning method. | 翻訳日:2024-03-12 18:38:53 公開日:2024-03-11 |
# 透明なAI開示義務:誰、いつ、どこで、なぜ、どのように Transparent AI Disclosure Obligations: Who, What, When, Where, Why, How ( http://arxiv.org/abs/2403.06823v1 ) ライセンス: Link先を確認 | Abdallah El Ali, Karthikeya Puttur Venkatraj, Sophie Morosoli, Laurens Naudts, Natali Helberger, Pablo Cesar | (参考訳) 生成人工知能(AI)の進歩は、人間が生成したコンテンツと(ほぼ)区別できない、AI生成メディア出力をもたらす。
これはユーザーとメディアセクターに大きな影響を与える可能性がある。
現在議論されている欧州AI法は、52条の透明性義務を通じてこれらのリスクに対処することを目的としているが、その解釈と意味は明確ではない。
本稿では,第52条の開示義務に基づく重要な質問を導出するために,参加型AIアプローチを採用する。
参加者は5W1Hフレームワークを用いて52条の関連条項をデコンストラクションした。
149の質問を5つのテーマと18のサブテーマにまとめた。
我々は、これらが、第52条の今後の法的発展と解釈を知らせるだけでなく、人間中心のAIレンズからの情報開示の透明性を(再)検査するための人間-コンピュータインタラクション研究の出発点となると考えている。 Advances in Generative Artificial Intelligence (AI) are resulting in AI-generated media output that is (nearly) indistinguishable from human-created content. This can drastically impact users and the media sector, especially given global risks of misinformation. While the currently discussed European AI Act aims at addressing these risks through Article 52's AI transparency obligations, its interpretation and implications remain unclear. In this early work, we adopt a participatory AI approach to derive key questions based on Article 52's disclosure obligations. We ran two workshops with researchers, designers, and engineers across disciplines (N=16), where participants deconstructed Article 52's relevant clauses using the 5W1H framework. We contribute a set of 149 questions clustered into five themes and 18 sub-themes. We believe these can not only help inform future legal developments and interpretations of Article 52, but also provide a starting point for Human-Computer Interaction research to (re-)examine disclosure transparency from a human-centered AI lens. | 翻訳日:2024-03-12 18:38:34 公開日:2024-03-11 |
# ターゲットメッセージはより効果的か? Are Targeted Messages More Effective? ( http://arxiv.org/abs/2403.06817v1 ) ライセンス: Link先を確認 | Martin Grohe, Eran Rosenbluth | (参考訳) グラフニューラルネットワーク(GNN)は、グラフのためのディープラーニングアーキテクチャである。
基本的に、GNNは分散メッセージパッシングアルゴリズムであり、データから学んだパラメータによって制御される。
各イテレーションにおいて、頂点はそれぞれのエッジでメッセージを受信し、これらのメッセージを集約し、現在の状態と集約されたメッセージに基づいて状態を更新する。
GNNの表現性は、カウントを伴う一階述語論理の断片とWeisfeiler-Lehmanアルゴリズムによって特徴づけられる。
gnnのコアアーキテクチャは2つの異なるバージョンがある。
最初のバージョンでは、メッセージはソース頂点の状態にのみ依存するが、第2バージョンではソースの状態とターゲット頂点にのみ依存する。
実際には、どちらのバージョンも使われているが、これまでのGNNの理論は主に最初のバージョンに焦点を当てている。
論理的側面では、2つのバージョンは1階述語論理の2つの断片に対応する。
2つのバージョンが表現性に違いがあるかどうかという問題は、GNNの文献では概ね見過ごされ、最近になって質問されただけである(Grohe, licS'23)。
私たちはここでこの質問に答える。
その結果、答えは予想されるほど単純ではないことがわかった。
数える一階述語論理のモーダルおよびガードされた断片がラベル付けされた無向グラフに対して同じ表現性を持つことを示すことにより、2つのGNNバージョンが同じ表現性を持つことを示す。
しかし、均一な設定では、第2版の方が厳密に表現可能であることも証明する。 Graph neural networks (GNN) are deep learning architectures for graphs. Essentially, a GNN is a distributed message passing algorithm, which is controlled by parameters learned from data. It operates on the vertices of a graph: in each iteration, vertices receive a message on each incoming edge, aggregate these messages, and then update their state based on their current state and the aggregated messages. The expressivity of GNNs can be characterised in terms of certain fragments of first-order logic with counting and the Weisfeiler-Lehman algorithm. The core GNN architecture comes in two different versions. In the first version, a message only depends on the state of the source vertex, whereas in the second version it depends on the states of the source and target vertices. In practice, both of these versions are used, but the theory of GNNs so far mostly focused on the first one. On the logical side, the two versions correspond to two fragments of first-order logic with counting that we call modal and guarded. The question whether the two versions differ in their expressivity has been mostly overlooked in the GNN literature and has only been asked recently (Grohe, LICS'23). We answer this question here. It turns out that the answer is not as straightforward as one might expect. By proving that the modal and guarded fragment of first-order logic with counting have the same expressivity over labelled undirected graphs, we show that in a non-uniform setting the two GNN versions have the same expressivity. However, we also prove that in a uniform setting the second version is strictly more expressive. | 翻訳日:2024-03-12 18:38:14 公開日:2024-03-11 |
# 大規模非スムース最大エントロピーモデルの効率的一階アルゴリズムとワイルドファイア科学への応用 Efficient first-order algorithms for large-scale, non-smooth maximum entropy models with application to wildfire science ( http://arxiv.org/abs/2403.06816v1 ) ライセンス: Link先を確認 | Gabriel P. Langlois, Jatan Buch and J\'er\^ome Darbon | (参考訳) 最大エントロピーモデル(maximum entropy model)は、データから確率分布を推定するために最大エントロピー原理を用いる統計モデルである。
現代のデータセットのサイズのため、Maxentモデルは、ビッグデータアプリケーションにうまくスケールするために効率的な最適化アルゴリズムが必要である。
しかし、maxentモデルの最先端のアルゴリズムは、元々はビッグデータを扱うように設計されていなかった;これらのアルゴリズムは、信頼性の低い数値結果をもたらす技術機器に依存するか、スケールが悪く、または多くの実用的なmaxentモデルに欠けている滑らかさの仮定を必要とする。
本稿では,大規模非スムースマクセントモデルを学習するための最先端アルゴリズムの欠点を克服する新しい最適化アルゴリズムを提案する。
提案アルゴリズムはKullback-Leibler分散を利用して,大規模および非滑らかなMaxentモデルを効率的に学習する。
サンプルから構築された$n$要素の離散確率分布を持つMaxentモデルでは、それぞれ$m$特徴を含み、アルゴリズムのステップ化パラメータ推定と反復は$O(mn)$演算の順にスケールし、自明に並列化することができる。
さらに、Kulback-Leibler分散の強い$\ell_{1}$凸性により、より大きなステップ化パラメータが可能となり、アルゴリズムの収束速度が向上する。
新たなアルゴリズムの効率性を説明するため,西部アメリカのMTBS-Interagency山火事データセットの生態的特徴の関数として,火災発生確率を推定する問題を考察した。
その結果,我々のアルゴリズムは,ワイルドファイア発生の物理モデルや過去のワイルドファイアドライバの統計解析と一致する1桁のマグニチュードと降伏率で芸術の状態を上回っていることがわかった。 Maximum entropy (Maxent) models are a class of statistical models that use the maximum entropy principle to estimate probability distributions from data. Due to the size of modern data sets, Maxent models need efficient optimization algorithms to scale well for big data applications. State-of-the-art algorithms for Maxent models, however, were not originally designed to handle big data sets; these algorithms either rely on technical devices that may yield unreliable numerical results, scale poorly, or require smoothness assumptions that many practical Maxent models lack. In this paper, we present novel optimization algorithms that overcome the shortcomings of state-of-the-art algorithms for training large-scale, non-smooth Maxent models. Our proposed first-order algorithms leverage the Kullback-Leibler divergence to train large-scale and non-smooth Maxent models efficiently. For Maxent models with discrete probability distribution of $n$ elements built from samples, each containing $m$ features, the stepsize parameters estimation and iterations in our algorithms scale on the order of $O(mn)$ operations and can be trivially parallelized. Moreover, the strong $\ell_{1}$ convexity of the Kullback--Leibler divergence allows for larger stepsize parameters, thereby speeding up the convergence rate of our algorithms. To illustrate the efficiency of our novel algorithms, we consider the problem of estimating probabilities of fire occurrences as a function of ecological features in the Western US MTBS-Interagency wildfire data set. Our numerical results show that our algorithms outperform the state of the arts by one order of magnitude and yield results that agree with physical models of wildfire occurrence and previous statistical analyses of wildfire drivers. | 翻訳日:2024-03-12 18:37:47 公開日:2024-03-11 |
# パーキンソン病治療のための深部脳刺激の「epsilon」-ニューラル・トンプソンサンプリング法 {\epsilon}-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment ( http://arxiv.org/abs/2403.06814v1 ) ライセンス: Link先を確認 | Hao-Lun Hsu, Qitong Gao, Miroslav Pajic | (参考訳) 深部脳刺激(DBS)はパーキンソン病(PD)の運動症状を緩和するための効果的な介入である。
従来の商用DBSデバイスは、脳の基底神経節(BG)領域、すなわち連続DBS(cDBS)に固定周波数周期パルスを供給できるだけである。
しかし、一般的にはエネルギーの非効率や言語障害などの副作用に苦しむ。
最近の研究は、cDBSの限界を解決するための適応DBS(aDBS)に焦点を当てている。
具体的には, エネルギー効率と治療効果の両方を達成するために, 刺激の頻度を適応させるために強化学習(rl)ベースの手法が開発されている。
しかし、一般にRLアプローチは大量のトレーニングデータと計算資源を必要とするため、DBSに必要なリアルタイム組み込みシステムにRLポリシーを統合するのが難しくなる。
対照的に、コンテクスト・マルチアーム・バンディット(cmab)は一般に、rlよりもサンプル効率が良い。
本研究では,aDBSに対するCMABソリューションを提案する。
具体的には、bg領域における不規則なニューロンの発射活動(すなわちベータバンドのパワースペクトル密度)を捉える信号と定義し、各腕は刺激の(離散化された)パルス周波数を示す。
さらに、古典的なトンプソンサンプリング法の上に探索戦略を導入し、学習されたCMABポリシーがBG環境の探索と利用のバランスを良くするアルゴリズムを {\epsilon}-Neural Thompson sample ({\epsilon}-NeuralTS) と呼ぶ。
{\epsilon}-NeuralTSアルゴリズムは、PD患者の脳内の神経活動を捉える計算BGモデルを用いて評価される。
その結果,本手法は既存のcDBS法とCMABベースラインよりも優れていることがわかった。 Deep Brain Stimulation (DBS) stands as an effective intervention for alleviating the motor symptoms of Parkinson's disease (PD). Traditional commercial DBS devices are only able to deliver fixed-frequency periodic pulses to the basal ganglia (BG) regions of the brain, i.e., continuous DBS (cDBS). However, they in general suffer from energy inefficiency and side effects, such as speech impairment. Recent research has focused on adaptive DBS (aDBS) to resolve the limitations of cDBS. Specifically, reinforcement learning (RL) based approaches have been developed to adapt the frequencies of the stimuli in order to achieve both energy efficiency and treatment efficacy. However, RL approaches in general require significant amount of training data and computational resources, making it intractable to integrate RL policies into real-time embedded systems as needed in aDBS. In contrast, contextual multi-armed bandits (CMAB) in general lead to better sample efficiency compared to RL. In this study, we propose a CMAB solution for aDBS. Specifically, we define the context as the signals capturing irregular neuronal firing activities in the BG regions (i.e., beta-band power spectral density), while each arm signifies the (discretized) pulse frequency of the stimulation. Moreover, an {\epsilon}-exploring strategy is introduced on top of the classic Thompson sampling method, leading to an algorithm called {\epsilon}-Neural Thompson sampling ({\epsilon}-NeuralTS), such that the learned CMAB policy can better balance exploration and exploitation of the BG environment. The {\epsilon}-NeuralTS algorithm is evaluated using a computation BG model that captures the neuronal activities in PD patients' brains. The results show that our method outperforms both existing cDBS methods and CMAB baselines. | 翻訳日:2024-03-12 18:37:13 公開日:2024-03-11 |
# モノトーンの個性 Monotone Individual Fairness ( http://arxiv.org/abs/2403.06812v1 ) ライセンス: Link先を確認 | Yahav Bechavod | (参考訳) オンライン学習者は、類似した個人が同じように扱われることを確実にしながら、予測精度を最大化しようと試みる。
我々はまず,多数の監査者からのフィードバックを集約可能な監査スキームを,リッチクラスでモノトン集約関数(monotone aggregate function)と呼ぶことから検討し,まず,公正違反に関する人間の監査者からのフィードバックに依存するGillen et al. (2018), Bechavod et al. (2020) のフレームワークを拡張した。
そして、このような監査方式の特徴を実証し、複数の監査者による個別の公正度に対する監査の分析を、(インスタンス固有の)単一監査者による監査と比較する。
一般化された枠組みを用いて、後悔と公正な違反の数に対してそれぞれ$(\mathcal{O}(T^{1/2+2b}),\mathcal{O}(T^{3/4-b})$の上限フロンティアを達成するオラクル効率アルゴリズムを、$0\leq b \leq 1/4$に対して提示する。
次に、正に予測された個人のみにラベルフィードバックが利用できるオンライン分類環境について検討し、その上界フロンティアが$(\mathcal{O}(T^{2/3+2b}),\mathcal{O}(T^{5/6-b})$に対して$0\leq b \leq 1/6$となるようなオラクル効率のアルゴリズムを提示する。
両方の設定において、我々のアルゴリズムはオラクル効率のアルゴリズムの最もよく知られた境界を改善している。
さらに、本アルゴリズムは計算効率を大幅に改善し、1ラウンドあたりの(オフライン)最適化オラクルへの要求呼び出し数を大幅に削減し、全情報設定で$\tilde{\mathcal{o}}(\alpha^{-2})$、部分情報設定で$\tilde{\mathcal{o}}(\alpha^{-2} + k^2t^{1/3})$となり、$\alpha$はフェアネス違反を報告するための感度であり、$k$はラウンド内の個人数である。 We revisit the problem of online learning with individual fairness, where an online learner strives to maximize predictive accuracy while ensuring that similar individuals are treated similarly. We first extend the frameworks of Gillen et al. (2018); Bechavod et al. (2020), which rely on feedback from human auditors regarding fairness violations, as we consider auditing schemes that are capable of aggregating feedback from any number of auditors, using a rich class we term monotone aggregation functions. We then prove a characterization for such auditing schemes, practically reducing the analysis of auditing for individual fairness by multiple auditors to that of auditing by (instance-specific) single auditors. Using our generalized framework, we present an oracle-efficient algorithm achieving an upper bound frontier of $(\mathcal{O}(T^{1/2+2b}),\mathcal{O}(T^{3/4-b}))$ respectively for regret, number of fairness violations, for $0\leq b \leq 1/4$. We then study an online classification setting where label feedback is available for positively-predicted individuals only, and present an oracle-efficient algorithm achieving an upper bound frontier of $(\mathcal{O}(T^{2/3+2b}),\mathcal{O}(T^{5/6-b}))$ for regret, number of fairness violations, for $0\leq b \leq 1/6$. In both settings, our algorithms improve on the best known bounds for oracle-efficient algorithms. Furthermore, our algorithms offer significant improvements in computational efficiency, greatly reducing the number of required calls to an (offline) optimization oracle per round, to $\tilde{\mathcal{O}}(\alpha^{-2})$ in the full information setting, and $\tilde{\mathcal{O}}(\alpha^{-2} + k^2T^{1/3})$ in the partial information setting, where $\alpha$ is the sensitivity for reporting fairness violations, and $k$ is the number of individuals in a round. | 翻訳日:2024-03-12 18:36:20 公開日:2024-03-11 |
# ビデオデータにおける人間の行動認識のためのディープラーニングアプローチ Deep Learning Approaches for Human Action Recognition in Video Data ( http://arxiv.org/abs/2403.06810v1 ) ライセンス: Link先を確認 | Yufei Xie | (参考訳) ビデオにおける人間の行動認識は、監視、スポーツ分析、医療など、多くのアプリケーションに重要な意味を持つ重要なタスクである。
課題は、認識能力が正確で、実用に十分な効率のモデルを作成することだ。
本研究は,この課題に対処するために,様々な深層学習モデルの詳細な分析を行う。
UCF101 Videosデータセットのサブセットを利用することで、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究は, cnnが空間的特徴を効果的に捉え, rnnが時間的シーケンスを符号化するのに対して, 時間的次元と時間的次元を統合することにより, 2-stream convnetが優れた性能を示すことを示す。
これらの知見は、精度、精度、リコール、F1スコアの評価指標から抽出される。
本研究の成果は,人間の行動認識の堅牢化における複合モデルの可能性を強調し,実世界展開のためのモデル最適化に向けた今後の研究への道筋を示唆するものである。 Human action recognition in videos is a critical task with significant implications for numerous applications, including surveillance, sports analytics, and healthcare. The challenge lies in creating models that are both precise in their recognition capabilities and efficient enough for practical use. This study conducts an in-depth analysis of various deep learning models to address this challenge. Utilizing a subset of the UCF101 Videos dataset, we focus on Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Two-Stream ConvNets. The research reveals that while CNNs effectively capture spatial features and RNNs encode temporal sequences, Two-Stream ConvNets exhibit superior performance by integrating spatial and temporal dimensions. These insights are distilled from the evaluation metrics of accuracy, precision, recall, and F1-score. The results of this study underscore the potential of composite models in achieving robust human action recognition and suggest avenues for future research in optimizing these models for real-world deployment. | 翻訳日:2024-03-12 18:35:13 公開日:2024-03-11 |
# 多段階一貫性モデル Multistep Consistency Models ( http://arxiv.org/abs/2403.06807v1 ) ライセンス: Link先を確認 | Jonathan Heek, Emiel Hoogeboom, Tim Salimans | (参考訳) 拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。
一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。
本稿では,一貫性モデル(song et al., 2023)と分布モデル(berthelot et al., 2023)の間を補間可能な連続性モデル(song et al., 2023)の統一化,すなわちサンプリング速度とサンプリング品質のトレードオフを提案する。
具体的には、1ステップの一貫性モデルは従来の一貫性モデルであるが、$\infty$-stepの一貫性モデルは拡散モデルであることを示す。
マルチステップ一貫性モデルは実際とてもうまく機能します。
サンプル予算を1ステップから2~8ステップに増やすことで、サンプリング速度のメリットの多くを保持しながら、より高い品質のサンプルを生成するモデルをより容易にトレーニングすることが可能になります。
注目すべき結果は、imagenet 64 1.4 fid を 8 ステップ、imagenet128 を 2.1 fid を 8 ステップ、一貫性蒸留を行ったことである。
また,本手法はテキストから画像への拡散モデルにスケールし,元のモデルの品質に非常に近いサンプルを生成する。 Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas we show that a $\infty$-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation. We also show that our method scales to a text-to-image diffusion model, generating samples that are very close to the quality of the original model. | 翻訳日:2024-03-12 18:34:42 公開日:2024-03-11 |
# 平均報酬マルコフ決定過程における政策勾配のグローバル収束について On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes ( http://arxiv.org/abs/2403.06806v1 ) ライセンス: Link先を確認 | Navdeep Kumar, Yashaswini Murthy, Itai Shufaro, Kfir Y. Levy, R. Srikant and Shie Mannor | (参考訳) 無限水平平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の有限時間大域収束解析について述べる。
具体的には,有限状態および作用空間を持つエルゴード表型MDPに着目した。
我々の分析によれば、ポリシー勾配は、$O\left({\frac{1}{T}}\right) のサブラインレートで最適ポリシーに収束し、$O\left({\log(T)}\right) に変換され、$T$ は反復数を表す。
割引報酬MDPの性能限界に関する以前の研究は、有効地平線の5番目のパワーに比例して増大するため、平均報酬MDPにまで拡張することはできない。
したがって、ポリシー勾配アルゴリズムが平均逆 MDP に対して収束し、有限時間の性能保証を得ることを示すのが主な貢献である。
既存の割引報酬性能バウンダリとは対照的に、我々の性能バウンダリは、基礎となるMDPの複雑さを捉える定数に明示的に依存する。
この観察に感銘を受けて、割引報酬MDPの既存の性能限界を再検討し、改善する。
また,平均報酬政策勾配アルゴリズムの性能を実証的に評価するシミュレーションを行った。 We present the first finite time global convergence analysis of policy gradient in the context of infinite horizon average reward Markov decision processes (MDPs). Specifically, we focus on ergodic tabular MDPs with finite state and action spaces. Our analysis shows that the policy gradient iterates converge to the optimal policy at a sublinear rate of $O\left({\frac{1}{T}}\right),$ which translates to $O\left({\log(T)}\right)$ regret, where $T$ represents the number of iterations. Prior work on performance bounds for discounted reward MDPs cannot be extended to average reward MDPs because the bounds grow proportional to the fifth power of the effective horizon. Thus, our primary contribution is in proving that the policy gradient algorithm converges for average-reward MDPs and in obtaining finite-time performance guarantees. In contrast to the existing discounted reward performance bounds, our performance bounds have an explicit dependence on constants that capture the complexity of the underlying MDP. Motivated by this observation, we reexamine and improve the existing performance bounds for discounted reward MDPs. We also present simulations to empirically evaluate the performance of average reward policy gradient algorithm. | 翻訳日:2024-03-12 18:34:07 公開日:2024-03-11 |
# 矛盾対象に対する語彙選択のロバスト性について On the Robustness of Lexicase Selection to Contradictory Objectives ( http://arxiv.org/abs/2403.06805v1 ) ライセンス: Link先を確認 | Shakiba Shahbandegan, Emily Dolson | (参考訳) レキシケースとエプシロン・レキシラーゼの選択は、複数の選択基準を含む問題の親選択技術の現状である。
もともとは、これらの選択基準が互いに矛盾しない場合にレキシケース選択が開発されたが、予備的な研究は、非常に効果的な多目的最適化アルゴリズムであることを示唆している。
しかし、これらの結果が一般化するかどうかを予測するためには、矛盾する目的に対するレキシケースの選択のパフォーマンスを理解する必要がある。
この質問に対する先行研究は、さまざまな結果を示している。
そこで我々は,レキシケースの選択が成功するか,パレート最適解を見つけるのに失敗する状況を特定する理論を開発する。
この分析を困難にするために、我々は最大矛盾する目的を持つ理論的問題に調査を限定する。
最終的に、レキシケースとエプシロン・レキシラーゼの選択は、それぞれが相反する目的を最適化できないパラメータ空間の領域を持つことが分かる。
しかし、この地域以外では矛盾する目的が存在するにもかかわらずうまく機能する。
これらの結果に基づき,パラメータ選択のための理論的に裏付けられたガイドラインを提案する。
さらに,多目的最適化の問題がレキシケースやエプシロン・レキシカーゼの選択に適合するかどうかに影響を与える可能性のある他の性質を同定する。 Lexicase and epsilon-lexicase selection are state of the art parent selection techniques for problems featuring multiple selection criteria. Originally, lexicase selection was developed for cases where these selection criteria are unlikely to be in conflict with each other, but preliminary work suggests it is also a highly effective many-objective optimization algorithm. However, to predict whether these results generalize, we must understand lexicase selection's performance on contradictory objectives. Prior work has shown mixed results on this question. Here, we develop theory identifying circumstances under which lexicase selection will succeed or fail to find a Pareto-optimal solution. To make this analysis tractable, we restrict our investigation to a theoretical problem with maximally contradictory objectives. Ultimately, we find that lexicase and epsilon-lexicase selection each have a region of parameter space where they are incapable of optimizing contradictory objectives. Outside of this region, however, they perform well despite the presence of contradictory objectives. Based on these findings, we propose theoretically-backed guidelines for parameter choice. Additionally, we identify other properties that may affect whether a many-objective optimization problem is a good fit for lexicase or epsilon-lexicase selection. | 翻訳日:2024-03-12 18:33:31 公開日:2024-03-11 |
# shape non-rigid kinematics (snk): 教師なし機能マップ正規化による非剛性形状マッチングのためのゼロショット法 Shape Non-rigid Kinematics (SNK): A Zero-Shot Method for Non-Rigid Shape Matching via Unsupervised Functional Map Regularized Reconstruction ( http://arxiv.org/abs/2403.06804v1 ) ライセンス: Link先を確認 | Souhaib Attaiki, Maks Ovsjanikov | (参考訳) 本研究では,非剛体形状マッチングのための新しいゼロショット法であるShape Non-rigid Kinematics (SNK)を提案する。
SNKは1対の形状で動作し、エンコーダ・デコーダアーキテクチャを用いて再構成ベースの戦略を採用している。
この過程で、教師なし機能マップが予測され、ポイントツーポイントマップに変換され、再構築の監督機構となる。
トレーニングを支援するために,スムーズでリアルな変形を生成する新しいデコーダアーキテクチャを設計した。
SNKは従来のベンチマークで競合する結果を示し、精度を損なうことなく形状マッチングプロセスを単純化する。
私たちのコードはオンラインで見ることができる。 https://github.com/pvnieo/SNK We present Shape Non-rigid Kinematics (SNK), a novel zero-shot method for non-rigid shape matching that eliminates the need for extensive training or ground truth data. SNK operates on a single pair of shapes, and employs a reconstruction-based strategy using an encoder-decoder architecture, which deforms the source shape to closely match the target shape. During the process, an unsupervised functional map is predicted and converted into a point-to-point map, serving as a supervisory mechanism for the reconstruction. To aid in training, we have designed a new decoder architecture that generates smooth, realistic deformations. SNK demonstrates competitive results on traditional benchmarks, simplifying the shape-matching process without compromising accuracy. Our code can be found online: https://github.com/pvnieo/SNK | 翻訳日:2024-03-12 18:32:52 公開日:2024-03-11 |
# データ独立演算子:deepfake検出を一般化するトレーニングフリーアーティファクト表現抽出器 Data-Independent Operator: A Training-Free Artifact Representation Extractor for Generalizable Deepfake Detection ( http://arxiv.org/abs/2403.06803v1 ) ライセンス: Link先を確認 | Chuangchuang Tan, Ping Liu, RenShuai Tao, Huan Liu, Yao Zhao, Baoyuan Wu, Yunchao Wei | (参考訳) 近年,様々な生成的対向ネットワークが生み出す現実的な合成画像の拡散は,誤用リスクを高めている。
そのため、偽画像を正確に認識する汎用検出器を開発する必要がある。
従来の方法は、多様なトレーニングソースや大きな事前トレーニングモデルの生成に依存している。
本研究では,より一般的なアーティファクト表現をキャプチャするには,小型でトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
本フレームワークでは,手作りフィルタとランダム初期化畳み込み層をトレーニング不要なアーティファクト表現抽出器として,優れた結果が得られる。
resnet50のような一般的な分類器のデータ独立オペレータでは、ベルやホイッスルなしで新しい最先端に到達できる。
DALLEやMidjourneyでさえも,第33世代モデルにおけるDIOの有効性を評価する。
我々の検出器は13.3 %の大幅な改善を実現し、新しい最先端の性能を確立した。
DIOとその拡張は、将来のメソッドの強力なベースラインとして機能する。
コードは \url{https://github.com/chuangchuangtan/data-independent-operator} で入手できる。 Recently, the proliferation of increasingly realistic synthetic images generated by various generative adversarial networks has increased the risk of misuse. Consequently, there is a pressing need to develop a generalizable detector for accurately recognizing fake images. The conventional methods rely on generating diverse training sources or large pretrained models. In this work, we show that, on the contrary, the small and training-free filter is sufficient to capture more general artifact representations. Due to its unbias towards both the training and test sources, we define it as Data-Independent Operator (DIO) to achieve appealing improvements on unseen sources. In our framework, handcrafted filters and the randomly-initialized convolutional layer can be used as the training-free artifact representations extractor with excellent results. With the data-independent operator of a popular classifier, such as Resnet50, one could already reach a new state-of-the-art without bells and whistles. We evaluate the effectiveness of the DIO on 33 generation models, even DALLE and Midjourney. Our detector achieves a remarkable improvement of $13.3\%$, establishing a new state-of-the-art performance. The DIO and its extension can serve as strong baselines for future methods. The code is available at \url{https://github.com/chuangchuangtan/Data-Independent-Operator}. | 翻訳日:2024-03-12 18:32:29 公開日:2024-03-11 |
# CT2Rep:3Dメディカルイメージングのための自動放射線診断レポート CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging ( http://arxiv.org/abs/2403.06801v1 ) ライセンス: Link先を確認 | Ibrahim Ethem Hamamci, Sezgin Er, Bjoern Menze | (参考訳) 医療画像は診断において重要な役割を担い、放射線診断報告は重要な文書として機能する。
レポート生成の自動化は、放射線科医の作業負荷を軽減するための重要なニーズとして現れてきた。
機械学習は2D医療画像のレポート生成を促進する一方で、これを3Dに拡張することは、計算の複雑さとデータの不足のために未解明である。
胸部CTボリュームを対象とする3次元医用画像の放射線診断レポート作成法について紹介する。
比較方法の欠如を考慮し,医療画像における先進的3次元視覚エンコーダを用いたベースラインを確立し,新しい自己回帰因果変換器を用いた手法の有効性を実証する。
さらに, 過去の訪問情報を活用する利点を認識し, クロスアテンションベースのマルチモーダル融合モジュールと階層メモリによりCT2Repを増強し, 縦型マルチモーダルデータの取り込みを可能にする。
コードへのアクセス: https://github.com/ibrahimethemhamamci/ct2rep Medical imaging plays a crucial role in diagnosis, with radiology reports serving as vital documentation. Automating report generation has emerged as a critical need to alleviate the workload of radiologists. While machine learning has facilitated report generation for 2D medical imaging, extending this to 3D has been unexplored due to computational complexity and data scarcity. We introduce the first method to generate radiology reports for 3D medical imaging, specifically targeting chest CT volumes. Given the absence of comparable methods, we establish a baseline using an advanced 3D vision encoder in medical imaging to demonstrate our method's effectiveness, which leverages a novel auto-regressive causal transformer. Furthermore, recognizing the benefits of leveraging information from previous visits, we augment CT2Rep with a cross-attention-based multi-modal fusion module and hierarchical memory, enabling the incorporation of longitudinal multimodal data. Access our code at: https://github.com/ibrahimethemhamamci/CT2Rep | 翻訳日:2024-03-12 18:32:08 公開日:2024-03-11 |
# MambaMIL:計算病理学におけるシーケンス並べ替えによるロングシーケンスモデリングの強化 MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in Computational Pathology ( http://arxiv.org/abs/2403.06800v1 ) ライセンス: Link先を確認 | Shu Yang, Yihui Wang, Hao Chen | (参考訳) MIL(Multiple Instance Learning)は、WSI(Whole Slide Images)内の識別的特徴表現を計算病理学で抽出する主要なパラダイムとして登場した。
目立った進歩を遂げたにもかかわらず、既存のMILアプローチは、インスタンス間の包括的かつ効率的なインタラクションを促進するための制限と、時間を要する計算と過度な適合に関する課題に悩まされている。
本稿では,マルチインスタンス学習 (mil) に選択的スキャン空間状態逐次モデル (mamba) を組み込んで,線形複雑度を持つ長いシーケンスモデリングを行い,mambamil と呼ぶ。
バニラ・マンバの能力を継承することで、MambaMILは、インスタンスの長いシーケンスを包括的に理解し、知覚する能力を示す。
さらに、長いシーケンスに埋め込まれた固有価値情報を利用する、インスタンスの順序と分布を意識したシーケンスリオーダー・マンバ(SR-Mamba)を提案する。
SR-Mambaをコアコンポーネントとして、MambaMILはより差別的な特徴を効果的に捉え、オーバーフィットと高い計算オーバーヘッドに関連する課題を軽減する。
9つの多様なデータセットにまたがる2つの公開課題に関する大規模な実験により、提案フレームワークは最先端のMIL手法に対して好適に機能することを示した。
コードはhttps://github.com/isyangshu/mambamilでリリースされている。 Multiple Instance Learning (MIL) has emerged as a dominant paradigm to extract discriminative feature representations within Whole Slide Images (WSIs) in computational pathology. Despite driving notable progress, existing MIL approaches suffer from limitations in facilitating comprehensive and efficient interactions among instances, as well as challenges related to time-consuming computations and overfitting. In this paper, we incorporate the Selective Scan Space State Sequential Model (Mamba) in Multiple Instance Learning (MIL) for long sequence modeling with linear complexity, termed as MambaMIL. By inheriting the capability of vanilla Mamba, MambaMIL demonstrates the ability to comprehensively understand and perceive long sequences of instances. Furthermore, we propose the Sequence Reordering Mamba (SR-Mamba) aware of the order and distribution of instances, which exploits the inherent valuable information embedded within the long sequences. With the SR-Mamba as the core component, MambaMIL can effectively capture more discriminative features and mitigate the challenges associated with overfitting and high computational overhead. Extensive experiments on two public challenging tasks across nine diverse datasets demonstrate that our proposed framework performs favorably against state-of-the-art MIL methods. The code is released at https://github.com/isyangshu/MambaMIL. | 翻訳日:2024-03-12 18:31:50 公開日:2024-03-11 |
# 信頼性・アクセシブル介護言語モデル(CaLM)の開発 Development of a Reliable and Accessible Caregiving Language Model (CaLM) ( http://arxiv.org/abs/2403.06857v1 ) ライセンス: Link先を確認 | Bambang Parmanto, Bayu Aryoyudanta, Wilbert Soekinto, I Made Agus Setiawan, Yuhan Wang, Haomin Hu, Andi Saptono, Yong K. Choi | (参考訳) 専門の介護者とは異なり、家族の介護者は正式な準備や訓練なしにこの役割を引き受けることが多い。
このため,家族介護者の質の高いケア能力の向上が急務である。
大規模な言語モデルは、介護者を教育ツールとして支援するための基礎技術として、あるいはケアの補助として使用できる可能性がある。
本研究の目的は、FMと介護知識ベースを用いて、信頼性の高い介護言語モデル(CaLM)を開発し、少ない計算資源を必要とする小さなFMを用いてアクセス可能なCaLMを開発し、大規模FMと比較してモデルの性能を評価することである。
本研究では, FMファインチューニングと組み合わせて, 介護知識ベースでモデルを構築し, FM応答の質を向上させるために, RAG(Retrieval Augmented Generation)フレームワークを用いたCaLMを開発した。
そこで我々は,CaLM(LLaMA-2とFalcon 7Bパラメータ)のFM候補として2つの小さなFMと,ベンチマークとしてより大きなFM GPT-3.5を使用した。
インターネットから様々な種類の文書を収集し,介護知識基盤を構築した。
本研究ではアルツハイマー病関連認知症患者の介護者について検討した。
言語モデルの評価によく用いられるベンチマークメトリクスと、その信頼性を用いて、モデルのパフォーマンスを評価し、回答の正確な参照を提供する。
RAGフレームワークは、この研究で使用されるすべてのFMの性能を改善した。
予想通り、大きなFMはすべてのメトリクスで小さなFMよりも性能が良かった。
最も興味深い結果として、RAGを用いた小型の微調整FMは、すべての測定値においてGPT3.5よりも大幅に向上した。
微調整されたllama-2 small fm は gpt 3.5 よりも優れた結果を得た(rag も)。
本研究は,介護領域に特有の知識ベースを持つ小型FMを用いて,信頼性の高いCaLMを開発可能であることを示す。 Unlike professional caregivers, family caregivers often assume this role without formal preparation or training. Because of this, there is an urgent need to enhance the capacity of family caregivers to provide quality care. Large language models can potentially be used as a foundation technology for supporting caregivers as educational tools or as adjunct to care. This study aimed to develop a reliable Caregiving Language Model (CaLM) by using FMs and a caregiving knowledge base, develop an accessible CaLM using a small FM that requires fewer computing resources, and evaluate the performance of the model compared to a large FM. We developed CaLM using the Retrieval Augmented Generation (RAG) framework combined with FM fine-tuning for improving the quality of FM answers by grounding the model on a caregiving knowledge base. We used two small FMs as candidates for the FM of CaLM (LLaMA-2 and Falcon with 7B parameters) and larger FM GPT-3.5 as a benchmark. We developed the caregiving knowledge base by gathering various types of documents from the Internet. In this study, we focused on caregivers of individuals with Alzheimer's Disease Related Dementias. We evaluated the models' performance using the benchmark metrics commonly used in evaluating language models and their reliability to provide accurate references with the answers. The RAG framework improved the performance of all FMs used in this study across all measures. As expected, the large FM performed better than small FMs across all metrics. The most interesting result is that small fine-tuned FMs with RAG performed significantly better than GPT 3.5 across all metrics. The fine-tuned LLaMA-2 small FM performed better than GPT 3.5 (even with RAG) in returning references with the answers. The study shows that reliable and accessible CaLM can be developed by using small FMs with a knowledge base specific to the caregiving domain. | 翻訳日:2024-03-12 18:27:50 公開日:2024-03-11 |
# 逆強化学習の誤識別に対する感度の定量化 Quantifying the Sensitivity of Inverse Reinforcement Learning to Misspecification ( http://arxiv.org/abs/2403.06854v1 ) ライセンス: Link先を確認 | Joar Skalse and Alessandro Abate | (参考訳) 逆強化学習(IRL)は、エージェントの行動(ポリシー$\pi$)からエージェントの好み(報酬関数$R$と表現される)を推論することを目的としている。
これを行うには、$\pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
現在の文献では、最も一般的な行動モデルは最適性、ボルツマン有理性、因果エントロピー最大化である。
しかしながら、人間の好みと行動の間の真の関係は、これらの行動モデルよりもはるかに複雑である。
これは、振る舞いモデルが誤って特定され、実際のデータに適用した場合、体系的なエラーにつながる可能性があるという懸念を引き起こすことを意味する。
本稿では,IRLの問題点が行動モデルの誤特定にどれほど敏感かを分析する。
具体的には、与えられたしきい値以上の誤差を発生させることなく、観測データと想定された行動モデルとの違いを完全に特徴付ける必要十分条件を提供する。
これに加えて、観測されたポリシーの小さな摂動に対して行動モデルが堅牢である条件を特徴付けるとともに、パラメータ値(例えば、割引率)の誤特定に対して、多くの行動モデルがどれほど堅牢であるかを分析する。
分析の結果,IRL問題は非常に軽度なミス種別が推論された報酬関数に非常に大きな誤差をもたらす可能性があるため,ミス種別に非常に敏感であることが示唆された。 Inverse reinforcement learning (IRL) aims to infer an agent's preferences (represented as a reward function $R$) from their behaviour (represented as a policy $\pi$). To do this, we need a behavioural model of how $\pi$ relates to $R$. In the current literature, the most common behavioural models are optimality, Boltzmann-rationality, and causal entropy maximisation. However, the true relationship between a human's preferences and their behaviour is much more complex than any of these behavioural models. This means that the behavioural models are misspecified, which raises the concern that they may lead to systematic errors if applied to real data. In this paper, we analyse how sensitive the IRL problem is to misspecification of the behavioural model. Specifically, we provide necessary and sufficient conditions that completely characterise how the observed data may differ from the assumed behavioural model without incurring an error above a given threshold. In addition to this, we also characterise the conditions under which a behavioural model is robust to small perturbations of the observed policy, and we analyse how robust many behavioural models are to misspecification of their parameter values (such as e.g.\ the discount rate). Our analysis suggests that the IRL problem is highly sensitive to misspecification, in the sense that very mild misspecification can lead to very large errors in the inferred reward function. | 翻訳日:2024-03-12 18:27:21 公開日:2024-03-11 |
# コンテキスト認識コンパイルによる量子コンピュータの相関ノイズ抑制 Suppressing Correlated Noise in Quantum Computers via Context-Aware Compiling ( http://arxiv.org/abs/2403.06852v1 ) ライセンス: Link先を確認 | Alireza Seif, Haoran Liao, Vinay Tripathi, Kevin Krsulich, Moein Malekakhlagh, Mirko Amico, Petar Jurcevic, and Ali Javadi-Abhari | (参考訳) コヒーレントエラー、特に1組の量子ビット間の相関で発生するエラーは、大規模量子コンピューティングにとって有害である。
ノイズの相関は、量子プロセッサ上で実行される命令の空間的および時間的構成の結果生じる。
本稿では,これらの誤差源の多くについて詳細な実験を行い,超伝導量子ビットやゲート演算の物理と理論的に結びつける。
この知識を活かして,回路の他の部分への動的デカップリングやエラー補償を用いて,これらのエラーを抑えるコンパイラ戦略を考案した。
重要なのは、各計算層のコンテキストを考慮した場合、これらの戦略が成功していることだ。qubitsの接続方法、デバイスにどのようなクロストーク用語が存在するか、その層でゲートやアイドル期間が発生するか。
これにより、文脈対応コンパイラはエラーの原因を抑えることができ、エラーの軽減やエラー訂正が大幅にコストを削減できる。
例えば、実験では10量子ビットの回路層に対する層忠実度が18.5\%上昇することを示した。
誤差緩和の指数関数的性質から, 誤差抑制によるこれらの改善は, 適度な数の層からなる回路において, サンプリングオーバヘッドの桁違いの低減に寄与する。 Coherent errors, and especially those that occur in correlation among a set of qubits, are detrimental for large-scale quantum computing. Correlations in noise can occur as a result of spatial and temporal configurations of instructions executing on the quantum processor. In this paper, we perform a detailed experimental characterization of many of these error sources, and theoretically connect them to the physics of superconducting qubits and gate operations. Equipped with this knowledge, we devise compiler strategies to suppress these errors using dynamical decoupling or error compensation into the rest of the circuit. Importantly, these strategies are successful when the context at each layer of computation is taken into account: how qubits are connected, what crosstalk terms exist on the device, and what gates or idle periods occur in that layer. Our context-aware compiler thus suppresses some dominant sources of error, making further error mitigation or error correction substantially less expensive. For example, our experiments show an increase of 18.5\% in layer fidelity for a candidate 10-qubit circuit layer compared to context-unaware suppression. Owing to the exponential nature of error mitigation, these improvements due to error suppression translate to several orders of magnitude reduction of sampling overhead for a circuit consisting of a moderate number of layers. | 翻訳日:2024-03-12 18:26:58 公開日:2024-03-11 |
# DiaLoc: 身体的ダイアログの局在化への反復的アプローチ DiaLoc: An Iterative Approach to Embodied Dialog Localization ( http://arxiv.org/abs/2403.06846v1 ) ライセンス: Link先を確認 | Chao Zhang, Mohan Li, Ignas Budvytis, Stephan Liwicki | (参考訳) マルチモーダル学習は多くの視覚言語タスクのパフォーマンスが向上した。
しかし、具体化ダイアログ研究の既存の作品の多くはナビゲーションに重点を置いており、ローカライズ作業は未検討のままである。
既存のダイアログベースのローカライゼーションアプローチでは,ローカライザイトンよりも前のダイアログ全体の可用性を前提としている。
本稿では,実際の人間の動作に合わせた対話型ローカライズフレームワークDiaLocを提案する。
具体的には、各ダイアログのターン後に現在のポーズを可視化する位置予測を反復的に改善する。
DiaLocはマルチモーダルデータをマルチショットローカライズに有効利用し、融合エンコーダは視覚と対話情報を反復的に融合する。
本研究では,シングルショット (acc5@valunseen で+7.08%) とマルチショット設定 (acc5@valunseen で+10.85%) において,具体化されたダイアログベースのローカライゼーションタスクの最先端結果を得る。
DiaLocはシミュレーションと現実世界のアプリケーションの間のギャップを狭め、将来の共同ローカライゼーションとナビゲーションの研究の扉を開く。 Multimodal learning has advanced the performance for many vision-language tasks. However, most existing works in embodied dialog research focus on navigation and leave the localization task understudied. The few existing dialog-based localization approaches assume the availability of entire dialog prior to localizaiton, which is impractical for deployed dialog-based localization. In this paper, we propose DiaLoc, a new dialog-based localization framework which aligns with a real human operator behavior. Specifically, we produce an iterative refinement of location predictions which can visualize current pose believes after each dialog turn. DiaLoc effectively utilizes the multimodal data for multi-shot localization, where a fusion encoder fuses vision and dialog information iteratively. We achieve state-of-the-art results on embodied dialog-based localization task, in single-shot (+7.08% in Acc5@valUnseen) and multi- shot settings (+10.85% in Acc5@valUnseen). DiaLoc narrows the gap between simulation and real-world applications, opening doors for future research on collaborative localization and navigation. | 翻訳日:2024-03-12 18:26:38 公開日:2024-03-11 |
# DriveDreamer-2:横駆動ビデオ生成のためのLLM拡張ワールドモデル DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation ( http://arxiv.org/abs/2403.06845v1 ) ライセンス: Link先を確認 | Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, Xingang Wang | (参考訳) 世界モデルは、特にマルチビュー駆動ビデオの生成において、自律運転において優位性を示している。
しかし、カスタマイズされた運転ビデオの作成には依然として大きな課題がある。
本稿では,drivedreamerのフレームワークを基盤として,ユーザ定義の駆動ビデオを生成するための大規模言語モデル(llm)を組み込んだdrivedreamer-2を提案する。
具体的には、最初にllmインターフェースが組み込まれて、ユーザのクエリをエージェントのトラジェクタに変換する。
その後、トラジェクトリに基づいて、交通規制を遵守したHDMapが生成される。
最終的に,生成された駆動映像の時間的および空間的コヒーレンスを高めるために,統合マルチビューモデルを提案する。
DriveDreamer-2は、カスタマイズされた運転ビデオを生成する最初の世界モデルであり、ユーザーフレンドリーな方法で非日常的な運転ビデオ(例えば、車両が突然カットされる)を生成することができる。
また,実験により,生成した映像が運転知覚の訓練(3d検出や追跡など)を強化することが示された。
さらに、DriveDreamer-2のビデオ生成品質は他の最先端の手法を超え、FIDとFVDのスコアは11.2と55.7で、30%と50%の相対的な改善を示している。 World models have demonstrated superiority in autonomous driving, particularly in the generation of multi-view driving videos. However, significant challenges still exist in generating customized driving videos. In this paper, we propose DriveDreamer-2, which builds upon the framework of DriveDreamer and incorporates a Large Language Model (LLM) to generate user-defined driving videos. Specifically, an LLM interface is initially incorporated to convert a user's query into agent trajectories. Subsequently, a HDMap, adhering to traffic regulations, is generated based on the trajectories. Ultimately, we propose the Unified Multi-View Model to enhance temporal and spatial coherence in the generated driving videos. DriveDreamer-2 is the first world model to generate customized driving videos, it can generate uncommon driving videos (e.g., vehicles abruptly cut in) in a user-friendly manner. Besides, experimental results demonstrate that the generated videos enhance the training of driving perception methods (e.g., 3D detection and tracking). Furthermore, video generation quality of DriveDreamer-2 surpasses other state-of-the-art methods, showcasing FID and FVD scores of 11.2 and 55.7, representing relative improvements of 30% and 50%. | 翻訳日:2024-03-12 18:26:14 公開日:2024-03-11 |
# 納入室における新生児科医支援のための教育ツールの開発 Towards an educational tool for supporting neonatologists in the delivery room ( http://arxiv.org/abs/2403.06843v1 ) ライセンス: Link先を確認 | Giorgio Leonardi, Clara Maldarizzi, Stefania Montani, Manuel Striani, Mariachiara Martina Strozzi | (参考訳) 今日では、乳児が出生時に安定または蘇生のマニピュアを必要とするリスクを増加させる要因がいくつかあるという証拠がある。
しかし、このリスク要因は完全には分かっておらず、リスクの高い状況を予測するための普遍的適用モデルはまだ入手できない。
これらの限界と出生時の蘇生の必要性の両方を考慮すれば, 産院における新生児介護を担当する医療従事者の定期的な研修は必須である。
本稿では,リスク要因の同定と,実際のデータから発生イベントへの影響を明らかにする機械学習手法を提案する。
我々の最終目標は、高リスク患者に対する適切な介入の認識率と計画を改善することができるユーザフレンドリーなモバイルアプリを設計することです。 Nowadays, there is evidence that several factors may increase the risk, for an infant, to require stabilisation or resuscitation manoeuvres at birth. However, this risk factors are not completely known, and a universally applicable model for predicting high-risk situations is not available yet. Considering both these limitations and the fact that the need for resuscitation at birth is a rare event, periodic training of the healthcare personnel responsible for newborn caring in the delivery room is mandatory. In this paper, we propose a machine learning approach for identifying risk factors and their impact on the birth event from real data, which can be used by personnel to progressively increase and update their knowledge. Our final goal will be the one of designing a user-friendly mobile application, able to improve the recognition rate and the planning of the appropriate interventions on high-risk patients. | 翻訳日:2024-03-12 18:25:52 公開日:2024-03-11 |
# RA-ISF:反復的自己フィードバックによる検索強化からの回答と理解 RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback ( http://arxiv.org/abs/2403.06840v1 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Xuhong Zhang, Weihao Liu, Jianwei Yin, Jiannan Cao, Tianyu Du | (参考訳) 大規模言語モデル(llm)は多くのタスクで例外的なパフォーマンスを示しているが、パラメータに格納された知識に大きく依存している。
さらに、この知識の更新には高いトレーニングコストがかかる。
Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。
モデルは、クエリに関連する知識を取得することで、これまでできなかった質問に答えることができます。
このアプローチは特定のタスクの特定のシナリオのパフォーマンスを改善する。
しかし、無関係なテキストが検索されると、モデルのパフォーマンスを損なう可能性がある。
本稿では,反復的にタスクを分解し,それを3つのサブモジュールで処理し,モデルの問題解決能力を高めるフレームワークであるra-isf(research augmented iterative self-feedback)を提案する。
GPT3.5やLlama2のようなモデルでは,提案手法が既存のベンチマークより優れており,事実推論能力を大幅に向上し,幻覚の低減が図られている。 Large language models (LLMs) demonstrate exceptional performance in numerous tasks but still heavily rely on knowledge stored in their parameters. Moreover, updating this knowledge incurs high training costs. Retrieval-augmented generation (RAG) methods address this issue by integrating external knowledge. The model can answer questions it couldn't previously by retrieving knowledge relevant to the query. This approach improves performance in certain scenarios for specific tasks. However, if irrelevant texts are retrieved, it may impair model performance. In this paper, we propose Retrieval Augmented Iterative Self-Feedback (RA-ISF), a framework that iteratively decomposes tasks and processes them in three submodules to enhance the model's problem-solving capabilities. Experiments show that our method outperforms existing benchmarks, performing well on models like GPT3.5, Llama2, significantly enhancing factual reasoning capabilities and reducing hallucinations. | 翻訳日:2024-03-12 18:25:38 公開日:2024-03-11 |
# ACFIX:スマートコントラクトにおけるアクセス制御脆弱性のコンテキストアウェア修復のための共通RBACプラクティスによるLLM指導 ACFIX: Guiding LLMs with Mined Common RBAC Practices for Context-Aware Repair of Access Control Vulnerabilities in Smart Contracts ( http://arxiv.org/abs/2403.06838v1 ) ライセンス: Link先を確認 | Lyuye Zhang and Kaixuan Li and Kairan Sun and Daoyuan Wu and Ye Liu and Haoye Tian and Yang Liu | (参考訳) スマートコントラクトは、アクセス制御(ac)脆弱性が特に重要であるさまざまなセキュリティ問題に影響を受けやすい。
既存の研究では複数の検出ツールが提案されているが、スマートコントラクトにおけるAC脆弱性の自動的かつ適切な修復は依然として課題である。
通常、テンプレートベースのアプローチで修正されるreentrancyのような既存の修復ツールによって一般的にサポートされている脆弱性タイプとは異なり、acの主な障害は、適切な役割や権限をac以外のソースコードの長いリストの中で特定し、適切なパッチコードを生成することである。
近年の大規模言語モデル (LLM) の進歩を生かして, 最先端の GPT-4 モデルを採用し, ACFIX と呼ばれる新しいアプローチで拡張する。
重要な洞察は、コード機能の主要なカテゴリに対して一般的なacプラクティスを掘り起こして、同じような機能でコードを修正する際にllmをガイドできることです。
この目的のために、ACFIXはオフラインとオンラインの両方のフェーズを含む。
まず、オフラインフェーズにおいて、ACFIXは344,251のオンチェーン契約から、一般的なロールベースのアクセス制御(RBAC)プラクティスの税制オーソノミーをマイニングし、上位1000ペアから49のロールパーミッションペアを分類する。
第2に、ACFIXは、契約全体にわたるAC関連要素を追跡し、このコンテキスト情報とChain-of-Thoughtパイプラインを使用して、対象契約に対する最も適切なロールパーミッションペアを特定し、その後、適切なパッチを生成する。
このパッチは有効性と有効性チェックを受けます。
ACFIXを評価するために、118個の実世界のAC脆弱性のベンチマークデータセットを構築し、ACFIXが94.92%の修正に成功したことを明らかにした。
これは、ベースラインの GPT-4 に比べて大幅に改善され、52.54% しか達成されなかった。 Smart contracts are susceptible to various security issues, among which access control (AC) vulnerabilities are particularly critical. While existing research has proposed multiple detection tools, the automatic and appropriate repair of AC vulnerabilities in smart contracts remains a challenge. Unlike commonly supported vulnerability types by existing repair tools, such as reentrancy, which are usually fixed by template-based approaches, the main obstacle of AC lies in identifying the appropriate roles or permissions amid a long list of non-AC-related source code to generate proper patch code, a task that demands human-level intelligence. Leveraging recent advancements in large language models (LLMs), we employ the state-of-the-art GPT-4 model and enhance it with a novel approach called ACFIX. The key insight is that we can mine common AC practices for major categories of code functionality and use them to guide LLMs in fixing code with similar functionality. To this end, ACFIX involves both offline and online phases. First, during the offline phase, ACFIX mines a tax- onomy of common Role-based Access Control (RBAC) practices from 344,251 on-chain contracts, categorizing 49 role-permission pairs from the top 1,000 pairs mined. Second, during the online phase, ACFIX tracks AC-related elements across the contract and uses this context information along with a Chain-of-Thought pipeline to guide LLMs in identifying the most appropriate role-permission pair for the subject contract and subsequently generating a suitable patch. This patch will then undergo a validity and effectiveness check. To evaluate ACFIX, we built the first benchmark dataset of 118 real-world AC vulnerabilities, and our evaluation revealed that ACFIX successfully repaired 94.92% of them. This represents a significant improvement compared to the baseline GPT-4, which achieved only 52.54%. | 翻訳日:2024-03-12 18:25:23 公開日:2024-03-11 |
# 確率的皮質自己再構築 Stochastic Cortical Self-Reconstruction ( http://arxiv.org/abs/2403.06837v1 ) ライセンス: Link先を確認 | Christian Wachinger, Dennis Hedderich, Fabian Bongratz | (参考訳) MRIは神経変性疾患の診断に重要であるが、軽度の皮質萎縮を正確に評価することは、その微妙さが課題である。
正常な基準範囲と組み合わせた自動大脳皮質再建は、病理萎縮の特定を助けるが、その一般化は画像取得と処理のバイアスによって制限される。
我々は,mri由来の厚みを入力として被写体特異的な健全な参照を生成する確率的皮質自己再構成(scsr)の概念を導入する。
SCSRはランダムに大脳皮質の一部を破壊し、残りの情報から自己再構成する。
健康な個人にのみ訓練され、繰り返し自己再構成は、標準からの逸脱を評価する確率的基準皮質を生成する。
我々は,この概念の3つの実装を提示する: パーセルに適用したXGBoostと頂点レベルの2つのオートエンコーダ - 1つは多層パーセプトロンをベースとし,もう1つは球面U-Netを用いる。
これらのモデルは英国バイオバンクの健康な被験者で訓練され、4つの公的なアルツハイマーのデータセットで評価された。
最後に,偏差マップの高空間分解能が認知症4つのタイプを識別する上で有用である臨床内データにモデルを展開する。 Magnetic resonance imaging (MRI) is critical for diagnosing neurodegenerative diseases, yet accurately assessing mild cortical atrophy remains a challenge due to its subtlety. Automated cortex reconstruction, paired with healthy reference ranges, aids in pinpointing pathological atrophy, yet their generalization is limited by biases from image acquisition and processing. We introduce the concept of stochastic cortical self-reconstruction (SCSR) that creates a subject-specific healthy reference by taking MRI-derived thicknesses as input and, therefore, implicitly accounting for potential confounders. SCSR randomly corrupts parts of the cortex and self-reconstructs them from the remaining information. Trained exclusively on healthy individuals, repeated self-reconstruction generates a stochastic reference cortex for assessing deviations from the norm. We present three implementations of this concept: XGBoost applied on parcels, and two autoencoders on vertex level -- one based on a multilayer perceptron and the other using a spherical U-Net. These models were trained on healthy subjects from the UK Biobank and subsequently evaluated across four public Alzheimer's datasets. Finally, we deploy the model on clinical in-house data, where deviation maps' high spatial resolution aids in discriminating between four types of dementia. | 翻訳日:2024-03-12 18:24:49 公開日:2024-03-11 |
# 微細画像-テキストアライメントと解剖病理プロンプトによる医用画像合成 Medical Image Synthesis via Fine-Grained Image-Text Alignment and Anatomy-Pathology Prompting ( http://arxiv.org/abs/2403.06835v1 ) ライセンス: Link先を確認 | Wenting Chen, Pengyu Wang, Hui Ren, Lichao Sun, Quanzheng Li, Yixuan Yuan, and Xiang Li | (参考訳) データ不足とプライバシに関する懸念は、医用画像合成によって緩和できる高品質な医用画像の公開を制限している。
しかし、現在の医用画像合成法は、しばしば詳細な解剖学的構造と病理状態の複雑さを正確に捉えるのに苦労している。
これらの課題に対処するために, 微細な画像テキストアライメントと解剖学・病理学のプロンプトを利用した医用画像合成モデルを提案する。
本手法は,高度な自然言語処理技術と画像生成モデルを統合し,記述テキストプロンプトと合成画像の解剖学的および病理的詳細との正確なアライメントを可能にする。
提案手法は,解剖病理学的プロンピングモジュールと細粒度アライメントに基づく合成モジュールの2つの主成分から構成される。
解剖病理プロンプトモジュールは、高品質の医用画像に対して記述的なプロンプトを自動的に生成する。
生成したプロンプトから高品質な医用画像をさらに合成する。細粒度アライメントベース合成モジュールは、放射線データセット用のビジュアルコードブックを予め定義し、コードブックと生成されたプロンプトとの細粒度アライメントを実行し、視覚的な手掛かりとしてキーパッチを得ることができ、正確な画像合成を容易にする。
胸部x線データを用いた実験により,提案手法の優位性を検証し,合成画像が正確な意味情報を保存し,様々な医療用途に有用であることを実証した。 Data scarcity and privacy concerns limit the availability of high-quality medical images for public use, which can be mitigated through medical image synthesis. However, current medical image synthesis methods often struggle to accurately capture the complexity of detailed anatomical structures and pathological conditions. To address these challenges, we propose a novel medical image synthesis model that leverages fine-grained image-text alignment and anatomy-pathology prompts to generate highly detailed and accurate synthetic medical images. Our method integrates advanced natural language processing techniques with image generative modeling, enabling precise alignment between descriptive text prompts and the synthesized images' anatomical and pathological details. The proposed approach consists of two key components: an anatomy-pathology prompting module and a fine-grained alignment-based synthesis module. The anatomy-pathology prompting module automatically generates descriptive prompts for high-quality medical images. To further synthesize high-quality medical images from the generated prompts, the fine-grained alignment-based synthesis module pre-defines a visual codebook for the radiology dataset and performs fine-grained alignment between the codebook and generated prompts to obtain key patches as visual clues, facilitating accurate image synthesis. We validate the superiority of our method through experiments on public chest X-ray datasets and demonstrate that our synthetic images preserve accurate semantic information, making them valuable for various medical applications. | 翻訳日:2024-03-12 18:24:26 公開日:2024-03-11 |
# LLMはデータから命令を分離できるのか?
そして、それで何を意味するのか? Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? ( http://arxiv.org/abs/2403.06833v1 ) ライセンス: Link先を確認 | Egor Zverev, Sahar Abdelnabi, Mario Fritz, Christoph H. Lampert | (参考訳) 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用アプリケーションに新たな可能性を開く。
しかし、LSMは、命令とデータの分離や、間接的なプロンプト/コマンドインジェクションなどの第三者による操作や干渉に弱い障害を引き起こすなど、コンピュータ科学の他の領域で確立されている基本的な安全機能を持たない。
さらに悪いことに、これまでのところ、そのような分離が何を意味するのか、どのように違反をテストできるかという明確な定義さえ存在していない。
この作業では、このギャップを縮めることを目指しています。
本稿では,命令データ分離の現象を定量化するための公式測度と,モデルのブラックボックス出力から計算可能な測度の経験的変量を導入する。
また,評価可能な新しいデータセットであるSEP(Should it be Executed or Processed?)を導入し,いくつかの最先端のオープンソースおよびクローズドLCMの結果を報告する。
最後に,評価されたすべてのllmが高い分離を達成することができないことを定量的に示す。
ソースコードとSEPデータセットはhttps://github.com/egozverev/Shold-It-Be-Executed-Or-Processedで公開されている。 Instruction-tuned Large Language Models (LLMs) have achieved breakthrough results, opening countless new possibilities for many practical applications. However, LLMs lack elementary safety features that are established norms in other areas of computer science, such as the separation between instructions and data, causing them to malfunction or rendering them vulnerable to manipulation and interference by third parties e.g., via indirect prompt/command injection. Even worse, so far, there is not even an established definition of what precisely such a separation would mean and how its violation could be tested. In this work, we aim to close this gap. We introduce a formal measure to quantify the phenomenon of instruction-data separation as well as an empirical variant of the measure that can be computed from a model`s black-box outputs. We also introduce a new dataset, SEP (Should it be Executed or Processed?), which allows estimating the measure, and we report results on several state-of-the-art open-source and closed LLMs. Finally, we quantitatively demonstrate that all evaluated LLMs fail to achieve a high amount of separation, according to our measure. The source code and SEP dataset are openly accessible at https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed. | 翻訳日:2024-03-12 18:23:56 公開日:2024-03-11 |
# 雑音のパワー:統一型マルチモーダル知識グラフ表現フレームワークを目指して The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework ( http://arxiv.org/abs/2403.06832v1 ) ライセンス: Link先を確認 | Zhuo Chen, Yin Fang, Yichi Zhang, Lingbing Guo, Jiaoyan Chen, Huajun Chen, Wen Zhang | (参考訳) マルチモーダル事前学習の進歩は、堅牢なマルチモーダル知識グラフ(MMKG)表現学習フレームワークの必要性を強調している。
このフレームワークは構造化された知識を大規模にマルチモーダルなLarge Language Model(LLM)に統合するために不可欠である。
本研究では,MKGC(Multi-modal Knowledge Graph Completion)とMMEA(Multi-modal Entity Alignment)という,MMKG内にエンティティを正確に埋め込むモデルの能力を評価する。
そこで本研究では,マルチモーダル・エンティティ機能をKGに堅牢に統合するために,モダリティレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
MKGCとMMEAの両方に特定のトレーニング目標を組み込むことで、MKGCは3つ、MEMAは7つ)の合計10データセットにわたるSOTA性能を達成し、その堅牢性と汎用性を実証する。
さらに、SNAGはスタンドアロンモデルとして機能するだけでなく、既存のメソッドも強化し、安定したパフォーマンス向上を実現している。
私たちのコードとデータは、https://github.com/zjukg/SNAG.comで公開されています。 The advancement of Multi-modal Pre-training highlights the necessity for a robust Multi-Modal Knowledge Graph (MMKG) representation learning framework. This framework is crucial for integrating structured knowledge into multi-modal Large Language Models (LLMs) at scale, aiming to alleviate issues like knowledge misconceptions and multi-modal hallucinations. In this work, to evaluate models' ability to accurately embed entities within MMKGs, we focus on two widely researched tasks: Multi-modal Knowledge Graph Completion (MKGC) and Multi-modal Entity Alignment (MMEA). Building on this foundation, we propose a novel SNAG method that utilizes a Transformer-based architecture equipped with modality-level noise masking for the robust integration of multi-modal entity features in KGs. By incorporating specific training objectives for both MKGC and MMEA, our approach achieves SOTA performance across a total of ten datasets (three for MKGC and seven for MEMA), demonstrating its robustness and versatility. Besides, SNAG can not only function as a standalone model but also enhance other existing methods, providing stable performance improvements. Our code and data are available at: https://github.com/zjukg/SNAG. | 翻訳日:2024-03-12 18:23:32 公開日:2024-03-11 |
# HDRTransDC:変圧器変形畳み込みを用いた高ダイナミックレンジ画像再構成 HDRTransDC: High Dynamic Range Image Reconstruction with Transformer Deformation Convolution ( http://arxiv.org/abs/2403.06831v1 ) ライセンス: Link先を確認 | Shuaikang Shang and Xuejing Kang and Anlong Ming | (参考訳) 高ダイナミックレンジ(hdr)イメージングは、マルチ露光低ダイナミックレンジ(ldr)画像を用いて、リアルなディテールを持つアーティファクトフリーなhdr画像を生成することを目的としている。
入力されたLDR画像のうち、大きな動きと過度の露光により、HDRイメージングはゴーストアーティファクトや融合歪みに悩まされる。
これらの問題に対処するために,トランスフォーマー変形変換モジュール(TDCAM)と動的重み融合ブロック(DWFB)で構成される高品質なHDR画像を生成するHDR変換変換(HDRTransDC)ネットワークを提案する。
ゴーストアーティファクトを解決するため,提案したTDCAMは,非参照機能全体の参照特徴に類似した長距離コンテンツを抽出する。
融合歪みを解消するために,フレーム間の有用な情報を空間的に適応的に選択し,複数露出特徴を効果的に融合するdwfbを提案する。
広範な実験により,本手法は定量的かつ定性的に最先端の性能を達成することが示された。 High Dynamic Range (HDR) imaging aims to generate an artifact-free HDR image with realistic details by fusing multi-exposure Low Dynamic Range (LDR) images. Caused by large motion and severe under-/over-exposure among input LDR images, HDR imaging suffers from ghosting artifacts and fusion distortions. To address these critical issues, we propose an HDR Transformer Deformation Convolution (HDRTransDC) network to generate high-quality HDR images, which consists of the Transformer Deformable Convolution Alignment Module (TDCAM) and the Dynamic Weight Fusion Block (DWFB). To solve the ghosting artifacts, the proposed TDCAM extracts long-distance content similar to the reference feature in the entire non-reference features, which can accurately remove misalignment and fill the content occluded by moving objects. For the purpose of eliminating fusion distortions, we propose DWFB to spatially adaptively select useful information across frames to effectively fuse multi-exposed features. Extensive experiments show that our method quantitatively and qualitatively achieves state-of-the-art performance. | 翻訳日:2024-03-12 18:23:09 公開日:2024-03-11 |
# 回帰支援としての分類器を用いた変数の構成--実証的評価 Constructing Variables Using Classifiers as an Aid to Regression: An Empirical Assessment ( http://arxiv.org/abs/2403.06829v1 ) ライセンス: Link先を確認 | Colin Troisemaine, Vincent Lemaire | (参考訳) 本稿では,初期入力ベクトルに含まれる情報を補完する変数の自動生成手法を提案する。
この方法は、回帰する変数の連続値が、値しきい値を定義するために使用される一連の間隔に離散化される前処理ステップとして機能する。
その後、分類器は、回帰すべき値がこれらのしきい値に等しいかどうかを予測するように訓練される。
分類器の異なる出力は、回帰問題の初期ベクトルを豊かにする変数の追加ベクトルの形で連結される。
したがって、実装されたシステムは汎用的な前処理ツールと見なすことができる。
提案手法を5種類の回帰器を用いて検証し,33種類の回帰データセットで評価した。
実験結果から,このアプローチへの関心が確認された。 This paper proposes a method for the automatic creation of variables (in the case of regression) that complement the information contained in the initial input vector. The method works as a pre-processing step in which the continuous values of the variable to be regressed are discretized into a set of intervals which are then used to define value thresholds. Then classifiers are trained to predict whether the value to be regressed is less than or equal to each of these thresholds. The different outputs of the classifiers are then concatenated in the form of an additional vector of variables that enriches the initial vector of the regression problem. The implemented system can thus be considered as a generic pre-processing tool. We tested the proposed enrichment method with 5 types of regressors and evaluated it in 33 regression datasets. Our experimental results confirm the interest of the approach. | 翻訳日:2024-03-12 18:22:46 公開日:2024-03-11 |
# NeuPAN: エンド・ツー・エンドモデル学習によるダイレクトポイントロボットナビゲーション NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning ( http://arxiv.org/abs/2403.06828v1 ) ライセンス: Link先を確認 | Ruihua Han, Shuai Wang, Shuaijun Wang, Zeqing Zhang, Jianjun Chen, Shijie Lin, Chengyang Li, Chengzhong Xu, Yonina C. Eldar, Qi Hao, Jia Pan | (参考訳) 乱雑な環境で非ホロノミックロボットをナビゲートするには、衝突回避のための極めて正確な認識と移動が必要である。
本稿では,リアルタイム,高精度,地図不要,ロボット非依存,環境不変のロボットナビゲーションソリューションであるneupanを提案する。
NeuPANは密結合の知覚移動フレームワークを活用し、既存のアプローチと比較して2つの重要なイノベーションを持っている。
1) 生の点を直接学習した多フレーム距離空間にマッピングし,認識から制御への誤り伝播を回避する。
2) エンド・ツー・エンドのモデルベース学習の観点から解釈可能であり、証明可能な収束を可能にする。
NeuPANの要点は、ループ内のニューロンを持つ近位交互最小化ネットワーク(PAN)を用いて、様々な点レベルの制約を持つ高次元のエンドツーエンド数学モデルを解くことである。
これによりneupanは、データエンジンと知識エンジンをシームレスに統合するポイントクラウドから直接、リアルタイム、エンドツーエンド、物理的に解釈可能な動作を生成することができる。
我々は,車載ロボット,車輪脚ロボット,乗用車において,実環境と実環境の両方でNeuPANを評価した。
実験により、NeuPANは、散らかったサンドボックス、オフィス、廊下、駐車場など、様々な環境における精度、効率、堅牢性、一般化能力において、様々なベンチマークを上回っていることが示された。
任意の形状の検知不能オブジェクトを持つ非構造環境では,neupanがうまく機能することを示す。 Navigating a nonholonomic robot in a cluttered environment requires extremely accurate perception and locomotion for collision avoidance. This paper presents NeuPAN: a real-time, highly-accurate, map-free, robot-agnostic, and environment-invariant robot navigation solution. Leveraging a tightly-coupled perception-locomotion framework, NeuPAN has two key innovations compared to existing approaches: 1) it directly maps raw points to a learned multi-frame distance space, avoiding error propagation from perception to control; 2) it is interpretable from an end-to-end model-based learning perspective, enabling provable convergence. The crux of NeuPAN is to solve a high-dimensional end-to-end mathematical model with various point-level constraints using the plug-and-play (PnP) proximal alternating-minimization network (PAN) with neurons in the loop. This allows NeuPAN to generate real-time, end-to-end, physically-interpretable motions directly from point clouds, which seamlessly integrates data- and knowledge-engines, where its network parameters are adjusted via back propagation. We evaluate NeuPAN on car-like robot, wheel-legged robot, and passenger autonomous vehicle, in both simulated and real-world environments. Experiments demonstrate that NeuPAN outperforms various benchmarks, in terms of accuracy, efficiency, robustness, and generalization capability across various environments, including the cluttered sandbox, office, corridor, and parking lot. We show that NeuPAN works well in unstructured environments with arbitrary-shape undetectable objects, making impassable ways passable. | 翻訳日:2024-03-12 18:22:36 公開日:2024-03-11 |
# HiRA-Pro:多モード時空間データの高分解能アライメント:プロセス物理駆動アプローチ HiRA-Pro: High resolution alignment of multimodal spatio-temporal data: a process physics driven approach ( http://arxiv.org/abs/2403.06888v1 ) ライセンス: Link先を確認 | Abhishek Hanchate, Himanshu Balhara, Vishal S. Chindepalli, Satish T.S. Bukkapatnam | (参考訳) 製造機械などの過渡的・非線形確率的ダイナミクスを示す実世界のプロセスやシステムからのマルチモーダル信号を高時空間分解能で整合させる新しい手法であるHiRA-Proを提案する。
これは、これらの異なる信号における突出した運動的および動的事象のプロセスシグネチャの識別と同期に基づいている。
HiRA-Proは、従来のタイムスタンプ、外部トリガー、クロックベースのアライメントメソッドが不足するミリ秒以下の現象とデータを整列するという課題に対処する。
HiRA-Proの有効性は、Optomec-LENS MTS 500ハイブリッドマシン上での3Dプリンティングおよびミリング操作で取得した13以上のチャネルのデータを調整するスマート製造環境で実証されている。
次にアラインされたデータはボクセル化され、生成された部分の物理的なボクセルに対応する0.25秒アラインされたデータチャンクを生成する。
HiRA-Proの優位性はさらに、加法製造におけるケーススタディを通じて示され、精度の高いマルチモーダルデータアライメントによる機械学習ベースの予測性能の向上が示されている。
具体的には、限られたデータであっても、HiRA-Proの適用により、分類精度が約35%向上し、アーティファクトの正確なローカライズが可能になった。
また,提案手法とその適用法,および他のいくつかのアライメント手法との比較定性解析について包括的な議論を行う。
HiRA-Proは、時間空間分解能を10~1000 usと100 umで達成し、3Dプリントで加工した部分の物理ボクセルで登録されたデータセットを生成する。
これらの解像度は、数百ミリ秒の精度を達成する個々のタイムスタンプ、統計相関、コモンクロックを使用する既存のアライメント法よりも少なくとも1桁小さい。 We present HiRA-Pro, a novel procedure to align, at high spatio-temporal resolutions, multimodal signals from real-world processes and systems that exhibit diverse transient, nonlinear stochastic dynamics, such as manufacturing machines. It is based on discerning and synchronizing the process signatures of salient kinematic and dynamic events in these disparate signals. HiRA-Pro addresses the challenge of aligning data with sub-millisecond phenomena, where traditional timestamp, external trigger, or clock-based alignment methods fall short. The effectiveness of HiRA-Pro is demonstrated in a smart manufacturing context, where it aligns data from 13+ channels acquired during 3D-printing and milling operations on an Optomec-LENS MTS 500 hybrid machine. The aligned data is then voxelized to generate 0.25 second aligned data chunks that correspond to physical voxels on the produced part. The superiority of HiRA-Pro is further showcased through case studies in additive manufacturing, demonstrating improved machine learning-based predictive performance due to precise multimodal data alignment. Specifically, testing classification accuracies improved by almost 35% with the application of HiRA-Pro, even with limited data, allowing for precise localization of artifacts. The paper also provides a comprehensive discussion on the proposed method, its applications, and comparative qualitative analysis with a few other alignment methods. HiRA-Pro achieves temporal-spatial resolutions of 10-1000 us and 100 um in order to generate datasets that register with physical voxels on the 3D-printed and milled part. These resolutions are at least an order of magnitude finer than the existing alignment methods that employ individual timestamps, statistical correlations, or common clocks, which achieve precision of hundreds of milliseconds. | 翻訳日:2024-03-12 18:17:34 公開日:2024-03-11 |
# 微視的シミュレーションによる視覚に基づく交通信号制御に向けたホロスティックな枠組み A Holistic Framework Towards Vision-based Traffic Signal Control with Microscopic Simulation ( http://arxiv.org/abs/2403.06884v1 ) ライセンス: Link先を確認 | Pan He and Quanyi Li and Xiaoyong Yuan and Bolei Zhou | (参考訳) 交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚観察によって変調するtscのコンピュータビジョンアプローチについて検討する。
従来の機能ベースアプローチとは異なり、視覚ベースの手法はヒューリスティックや事前定義された機能に依存しず、エンドツーエンドの学習やトラフィック信号の最適化に有望な可能性をもたらす。
そこで我々は,SUMOで提供される微視的トラフィックフローを運転シミュレータMetaDriveに統合することにより,視覚ベースのTSCに向けた交通シミュレーションフレームワークであるTrafficDojoを紹介した。
提案フレームワークは,様々な交通状況やシナリオにわたる交通信号制御装置の詳細な分析と包括的評価を行うために,多様な交通環境を提供する。
従来型および再開発学習(RL)アプローチを含むベースラインアルゴリズムを確立し,比較する。
この研究は、ビジョンベースのtscアプローチの設計と開発に洞察を与え、新しい研究機会を開く。
すべてのコードとベースラインが公開される予定だ。 Traffic signal control (TSC) is crucial for reducing traffic congestion that leads to smoother traffic flow, reduced idling time, and mitigated CO2 emissions. In this study, we explore the computer vision approach for TSC that modulates on-road traffic flows through visual observation. Unlike traditional feature-based approaches, vision-based methods depend much less on heuristics and predefined features, bringing promising potentials for end-to-end learning and optimization of traffic signals. Thus, we introduce a holistic traffic simulation framework called TrafficDojo towards vision-based TSC and its benchmarking by integrating the microscopic traffic flow provided in SUMO into the driving simulator MetaDrive. This proposed framework offers a versatile traffic environment for in-depth analysis and comprehensive evaluation of traffic signal controllers across diverse traffic conditions and scenarios. We establish and compare baseline algorithms including both traditional and Reinforecment Learning (RL) approaches. This work sheds insights into the design and development of vision-based TSC approaches and open up new research opportunities. All the code and baselines will be made publicly available. | 翻訳日:2024-03-12 18:17:00 公開日:2024-03-11 |
# ゴール指向強化学習における幼児の報酬移行の意義 Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning ( http://arxiv.org/abs/2403.06880v1 ) ライセンス: Link先を確認 | Junseok Park, Yoonsung Kim, Hee Bin Yoo, Min Whoo Lee, Kibeom Kim, Won-Seok Choi, Minsu Lee, Byoung-Tak Zhang | (参考訳) 幼児は、疎いフィードバックで自由な探検から、より深い報酬で目標指向の学習に先立つ経験を活用するまで進化する。
このToddler-Inspired Reward Transitionからインスピレーションを得た私たちは,Reinforcement Learning (RL)タスクに組み込まれた場合の,さまざまな報酬遷移の影響について検討した。
調査の中心は、報酬の変化に関係なく最適な戦略を共有する、スパースからポテンシャルに基づく高密度報酬への移行である。
エゴセントリックなナビゲーションやロボットアーム操作といった様々な実験を通じて、適切な報酬遷移がサンプル効率と成功率に大きな影響を及ぼすことがわかった。
特に注目すべきは、幼児にインスパイアされたsparse-to-dense(s2d)遷移の有効性である。
これらの性能指標に加えて、クロスディエンシティ・ビジュアライザ技術を用いて、遷移、特にS2Dはポリシー損失の景観を円滑にし、RLモデルの一般化を促進する広範なミニマを促進することを観察した。 Toddlers evolve from free exploration with sparse feedback to exploiting prior experiences for goal-directed learning with denser rewards. Drawing inspiration from this Toddler-Inspired Reward Transition, we set out to explore the implications of varying reward transitions when incorporated into Reinforcement Learning (RL) tasks. Central to our inquiry is the transition from sparse to potential-based dense rewards, which share optimal strategies regardless of reward changes. Through various experiments, including those in egocentric navigation and robotic arm manipulation tasks, we found that proper reward transitions significantly influence sample efficiency and success rates. Of particular note is the efficacy of the toddler-inspired Sparse-to-Dense (S2D) transition. Beyond these performance metrics, using Cross-Density Visualizer technique, we observed that transitions, especially the S2D, smooth the policy loss landscape, promoting wide minima that enhance generalization in RL models. | 翻訳日:2024-03-12 18:16:39 公開日:2024-03-11 |
# SiLVR: ロボット検査のためのニューラルネットワークを用いたスケーラブルライダー画像再構成 SiLVR: Scalable Lidar-Visual Reconstruction with Neural Radiance Fields for Robotic Inspection ( http://arxiv.org/abs/2403.06877v1 ) ライセンス: Link先を確認 | Yifu Tao, Yash Bhalgat, Lanke Frank Tarimo Fu, Matias Mattamala, Nived Chebrolu, Maurice Fallon | (参考訳) 本稿では、ライダーと視覚データを融合して、幾何学的に正確でリアルなテクスチャを捉えた高品質な再構築システムを提案する。
このシステムは、最先端のニューラル放射場(NeRF)表現に適応し、深さと表面の正常値に強い幾何学的制約を加えるライダーデータも組み込む。
我々は,リアルタイムライダーSLAMシステムからの軌道を利用して,SfM(Structure-from-Motion)手順をブートストラップし,計算時間を著しく短縮し,ライダー深度損失に不可欠な計量尺度を提供する。
ロングトラジェクタでキャプチャされた大規模環境へのシステム拡張にサブマッピングを使用する。
本システムでは, 複数カメラ, ライダー・センサ・スイートを脚付きロボットに装着し, 建物シーンを600mスキャンしながらハンドヘルドし, 複数階の模擬災害現場を探査する空中ロボットを搭載。
ウェブサイト:https://ori-drs.github.io/projects/silvr/ We present a neural-field-based large-scale reconstruction system that fuses lidar and vision data to generate high-quality reconstructions that are geometrically accurate and capture photo-realistic textures. This system adapts the state-of-the-art neural radiance field (NeRF) representation to also incorporate lidar data which adds strong geometric constraints on the depth and surface normals. We exploit the trajectory from a real-time lidar SLAM system to bootstrap a Structure-from-Motion (SfM) procedure to both significantly reduce the computation time and to provide metric scale which is crucial for lidar depth loss. We use submapping to scale the system to large-scale environments captured over long trajectories. We demonstrate the reconstruction system with data from a multi-camera, lidar sensor suite onboard a legged robot, hand-held while scanning building scenes for 600 metres, and onboard an aerial robot surveying a multi-storey mock disaster site-building. Website: https://ori-drs.github.io/projects/silvr/ | 翻訳日:2024-03-12 18:16:20 公開日:2024-03-11 |
# COOD: 大規模階層分類における異常と新しいクラス検出のための複数の尺度を用いたアウト・オブ・ディストリビューション検出の組み合わせ COOD: Combined out-of-distribution detection using multiple measures for anomaly & novel class detection in large-scale hierarchical classification ( http://arxiv.org/abs/2403.06874v1 ) ライセンス: Link先を確認 | L. E. Hogeweg, R. Gangireddy, D. Brunink, V. J. Kalkman, L. Cornelissen, J.W. Kamminga | (参考訳) 異常および新しいクラスであるOOD(High-perform Out-of-distribution)の検出は、分類モデルの実用上重要な前提条件である。
本稿では,大規模データベースに関する画像における種認識タスク,多数の細粒度階層クラス,重度のクラス不均衡,画像品質の変動に着目した。
教師付きモデルを用いて,個々のOOD測度を1つの複合OOD(COOD)測度に組み合わせる枠組みを提案する。
個々の尺度は、いくつかの既存の最先端尺度と、新しいクラス検出と階層的なクラス構造を念頭に開発された新しいOOD尺度である。
COODは3つの大規模(500k以上の画像)生物多様性データセットに対して,異常や新しいクラス検出の文脈で広範囲に評価された。
例えば、iNaturalist 2018データセットでは、画像ネット画像(OOD)の検出が54.3%から85.4%に改善されている。
SHAP(Feature Contribution)分析は,様々なタスクに異なるOOD尺度が不可欠であることを示し,複数のOOD尺度と組み合わせが必要であることを示唆している。
また、元の(種)認識タスクに誤分類されたid画像を明示的に検討することは、高性能なood検出手法の構築や実用的適用において重要であることを示す。
このフレームワークは簡単に拡張でき、他のタスクやメディアのモダリティにも適応できる。 High-performing out-of-distribution (OOD) detection, both anomaly and novel class, is an important prerequisite for the practical use of classification models. In this paper, we focus on the species recognition task in images concerned with large databases, a large number of fine-grained hierarchical classes, severe class imbalance, and varying image quality. We propose a framework for combining individual OOD measures into one combined OOD (COOD) measure using a supervised model. The individual measures are several existing state-of-the-art measures and several novel OOD measures developed with novel class detection and hierarchical class structure in mind. COOD was extensively evaluated on three large-scale (500k+ images) biodiversity datasets in the context of anomaly and novel class detection. We show that COOD outperforms individual, including state-of-the-art, OOD measures by a large margin in terms of TPR@1% FPR in the majority of experiments, e.g., improving detecting ImageNet images (OOD) from 54.3% to 85.4% for the iNaturalist 2018 dataset. SHAP (feature contribution) analysis shows that different individual OOD measures are essential for various tasks, indicating that multiple OOD measures and combinations are needed to generalize. Additionally, we show that explicitly considering ID images that are incorrectly classified for the original (species) recognition task is important for constructing high-performing OOD detection methods and for practical applicability. The framework can easily be extended or adapted to other tasks and media modalities. | 翻訳日:2024-03-12 18:16:00 公開日:2024-03-11 |
# 逐次学習におけるインクリメンタル手法と応用の最後の反復収束 Last Iterate Convergence of Incremental Methods and Applications in Continual Learning ( http://arxiv.org/abs/2403.06873v1 ) ライセンス: Link先を確認 | Xufeng Cai, Jelena Diakonikolas | (参考訳) 増分勾配法と漸進近法は有限和問題を解くために用いられる最適化アルゴリズムの基本クラスであり、文献で広く研究されている。
しかし、収束の保証に関して言えば、一階または近位でないオラクルの複雑性境界は比較的最近まで得られており、概して平均的な反復にのみ適用される。
連続学習の応用に動機づけられ、漸進的勾配法と漸進的近位法の両方の反復法について、一般凸滑らか法と凸リプシッツ法(近位変型法)において、最初の収束保証が得られる。
私たちのoracleの複雑性境界は、メソッドの両クラスにおいて、oracleの複雑さ境界として最もよく知られているもの(つまり、正方形ルートログやログファクタに匹敵する)とほぼ一致します。
さらに,本研究の結果を,最終イテレーションと平均イテレーション保証の補間とみなすことができる重み付きイテレートの加重平均化に一般化する。
さらに,更新の順序を置換した漸進的手法の変種に対して,我々の結果を一般化する方法についても論じる。
これらの結果は, 無限に多くの解を持つ凸二次問題に対応する超パラメータ線形モデルに対してのみ知られていたため, インクリメンタルな手法に対する最後の反復的保証を一般化する。 Incremental gradient methods and incremental proximal methods are a fundamental class of optimization algorithms used for solving finite sum problems, broadly studied in the literature. Yet, when it comes to their convergence guarantees, nonasymptotic (first-order or proximal) oracle complexity bounds have been obtained fairly recently, almost exclusively applying to the average iterate. Motivated by applications in continual learning, we obtain the first convergence guarantees for the last iterate of both incremental gradient and incremental proximal methods, in general convex smooth (for both) and convex Lipschitz (for the proximal variants) settings. Our oracle complexity bounds for the last iterate nearly match (i.e., match up to a square-root-log or a log factor) the best known oracle complexity bounds for the average iterate, for both classes of methods. We further obtain generalizations of our results to weighted averaging of the iterates with increasing weights, which can be seen as interpolating between the last iterate and the average iterate guarantees. Additionally, we discuss how our results can be generalized to variants of studied incremental methods with permuted ordering of updates. Our results generalize last iterate guarantees for incremental methods compared to state of the art, as such results were previously known only for overparameterized linear models, which correspond to convex quadratic problems with infinitely many solutions. | 翻訳日:2024-03-12 18:15:31 公開日:2024-03-11 |
# 大規模非構造化法的文書分類のための大規模言語モデルと階層的枠組みの探索 Exploring Large Language Models and Hierarchical Frameworks for Classification of Large Unstructured Legal Documents ( http://arxiv.org/abs/2403.06872v1 ) ライセンス: Link先を確認 | Nishchal Prasad, Mohand Boughanem, Taoufiq Dkaki | (参考訳) 法的な判断予測は、何万語を超える長い事例文書の問題に悩まされ、一般には、一様でない構造を持つ。
このような文書から判断を下すことは、構造的アノテーションのない文書よりも難しい課題となる。
本研究では,これら大規模法文書の分類と構造情報の欠如について,mescと呼ばれる深層学習に基づく階層的フレームワーク「マルチステージエンコーダに基づく教師付きwith-clustering」を用いて検討する。
具体的には、文書を分割して、カスタムな微調整された大規模言語モデルの最後の4層から埋め込みを抽出し、教師なしクラスタリングによってそれらの構造を近似しようとする。
別のトランスフォーマーエンコーダ層で使用して、chunk間の表現を学習します。
我々は,多ビリオンパラメータ(GPT-Neo,GPT-J)を用いた大規模言語モデル(LLM)の適応性を,MEScの階層的フレームワークを用いて解析し,法的テキスト上でのスタンドアロンのパフォーマンスと比較する。
また, ドメイン内移動学習能力と, 最終層からの埋め込みをMEScに組み込むことの影響について検討した。
これらの手法とその有効性は、インド、欧州連合、米国からの法的文書について、ILDCデータセットとLexGLUEデータセットのサブセットを用いて広範な実験およびアブレーション研究により検証する。
提案手法は,従来の最先端手法に比べて平均2ポイント程度の性能向上を実現している。 Legal judgment prediction suffers from the problem of long case documents exceeding tens of thousands of words, in general, and having a non-uniform structure. Predicting judgments from such documents becomes a challenging task, more so on documents with no structural annotation. We explore the classification of these large legal documents and their lack of structural information with a deep-learning-based hierarchical framework which we call MESc; "Multi-stage Encoder-based Supervised with-clustering"; for judgment prediction. Specifically, we divide a document into parts to extract their embeddings from the last four layers of a custom fine-tuned Large Language Model, and try to approximate their structure through unsupervised clustering. Which we use in another set of transformer encoder layers to learn the inter-chunk representations. We analyze the adaptability of Large Language Models (LLMs) with multi-billion parameters (GPT-Neo, and GPT-J) with the hierarchical framework of MESc and compare them with their standalone performance on legal texts. We also study their intra-domain(legal) transfer learning capability and the impact of combining embeddings from their last layers in MESc. We test these methods and their effectiveness with extensive experiments and ablation studies on legal documents from India, the European Union, and the United States with the ILDC dataset and a subset of the LexGLUE dataset. Our approach achieves a minimum total performance gain of approximately 2 points over previous state-of-the-art methods. | 翻訳日:2024-03-12 18:14:59 公開日:2024-03-11 |
# 教師なし事前学習の一般化能力について On the Generalization Ability of Unsupervised Pretraining ( http://arxiv.org/abs/2403.06871v1 ) ライセンス: Link先を確認 | Yuyang Deng, Junyuan Hong, Jiayu Zhou, Mehrdad Mahdavi | (参考訳) 教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
しかし、ラベルなしデータセットで学習した表現関数が微調整モデルの一般化にどのように影響するかの厳密な理解が不足している。
既存の理論的研究は、事前訓練と微調整段階における分布とタスクの多様性を十分に考慮していない。
このギャップを埋めるため,本論文では,教師なし事前学習中に獲得した知識の伝達性に影響を与える重要な要因を,後続の微調整フェーズに照らし出し,最終的に下流タスクにおける微調整モデルの一般化能力に影響を及ぼす,新たな理論的枠組みを提案する。
本研究では,深層ニューラルネットワークを用いたコンテキストエンコーダの事前学習と,深層トランスフォーマーによるMasked Autoencoderの事前学習と,バイナリ分類タスクによる微調整という,2つの異なるシナリオの一般化境界を分析するための理論的枠組みを適用した。
最後に,本研究の成果に触発されて,事前学習における新たな正規化手法を提案し,微調整モデルの一般化をさらに促進する。
全体としては,教師なし事前学習と微調整のパラダイムをよりよく理解し,より効果的な事前学習アルゴリズムの設計に光を当てることができる。 Recent advances in unsupervised learning have shown that unsupervised pre-training, followed by fine-tuning, can improve model generalization. However, a rigorous understanding of how the representation function learned on an unlabeled dataset affects the generalization of the fine-tuned model is lacking. Existing theoretical research does not adequately account for the heterogeneity of the distribution and tasks in pre-training and fine-tuning stage. To bridge this gap, this paper introduces a novel theoretical framework that illuminates the critical factor influencing the transferability of knowledge acquired during unsupervised pre-training to the subsequent fine-tuning phase, ultimately affecting the generalization capabilities of the fine-tuned model on downstream tasks. We apply our theoretical framework to analyze generalization bound of two distinct scenarios: Context Encoder pre-training with deep neural networks and Masked Autoencoder pre-training with deep transformers, followed by fine-tuning on a binary classification task. Finally, inspired by our findings, we propose a novel regularization method during pre-training to further enhances the generalization of fine-tuned model. Overall, our results contribute to a better understanding of unsupervised pre-training and fine-tuning paradigm, and can shed light on the design of more effective pre-training algorithms. | 翻訳日:2024-03-12 18:14:33 公開日:2024-03-11 |
# 連続学習のための意味的残差プロンプト Semantic Residual Prompts for Continual Learning ( http://arxiv.org/abs/2403.06870v1 ) ライセンス: Link先を確認 | Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara | (参考訳) Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるパラメータベクトルに焦点を合わせる。
これらの手法の多くは、これらのベクトルをキーと値のペアのプールにまとめ、入力イメージをクエリとして使用してプロンプト(値)を検索する。
しかし、タスクの進行中にキーが学習されるため、プロンプト選択戦略自体が破滅的な忘れることになるため、既存のアプローチでは見過ごされがちである。
例えば、新しいタスクに対応するために導入されたプロンプトは、以前の学習したプロンプトと干渉する可能性がある。
選択戦略をより安定させるために,基本モデル (CLIP) に2段階適応機構内のプロンプトを選択するよう依頼する。
具体的には、第1レベルはCLIPテキストエンコーダの標準的なテキストプロンプトを活用し、安定したクラスのプロトタイプに繋がる。
第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。
抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。
そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。
確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方に優れていた。
特に、衛星画像や医療データセットの実験で示されるように、バックボーンモデルの事前学習知識がかなりの領域ギャップを持つデータセットにおいても、我々の発見は事実である。 Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and focus training on a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs, and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we ask a foundational model (CLIP) to select our prompt within a two-level adaptation mechanism. Specifically, the first level leverages standard textual prompts for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets. | 翻訳日:2024-03-12 18:14:09 公開日:2024-03-11 |
# 騒音基礎モデルによる学習 Learning with Noisy Foundation Models ( http://arxiv.org/abs/2403.06869v1 ) ライセンス: Link先を確認 | Hao Chen, Jindong Wang, Zihan Wang, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj | (参考訳) 基礎モデルは通常、大規模なデータセットで事前トレーニングされ、チューニングによってダウンストリームタスクに適応される。
しかし、大規模な事前学習データセットは、しばしばアクセス不能または扱いが難しいため、モデルの一般化に悪影響を及ぼす可能性のあるラベルノイズを包含し、予期しないリスクを引き起こす可能性がある。
本稿は,事前学習データセットにおけるノイズの性質を包括的に理解し分析し,下流タスクへの影響を効果的に軽減する最初の研究である。
具体的には,合成ノイズの多いimagenet-1k,yfcc15m,cc12mデータセット上でのフル教師付きおよびイメージテキストコントラストプレトレーニングの広範な実験を通じて,トレーニングとテストのデータを共有するドメイン内(id)のパフォーマンスにわずかなノイズが寄与するが,トレーニングとテストの分散が著しく異なるドメイン外(ood)パフォーマンスが常に低下することを示す。
これらの観測は、事前トレーニングデータセットのスケール、事前トレーニングノイズタイプ、モデルアーキテクチャ、事前トレーニング目標、下流チューニング方法、ダウンストリームアプリケーションに非依存である。
この背景にある理由は、事前学習されたノイズが特徴空間を異なる形にしているからである。
そこで我々は,騒音の悪影響を緩和し,パラメータ効率とブラックボックス調律の両方に適用可能な一般化を改善するため,特徴空間に適応するチューニング法(NMTune)を提案する。
また,現実的な雑音データに基づいて教師付き,自己教師付きで事前訓練されたAPIを含む,一般的な視覚と言語モデルに関する広範な実験を実施して評価する。
本研究は,この新たな基礎研究の方向性を,ノイズモデル学習と呼ぶことの重要性を実証するものである。 Foundation models are usually pre-trained on large-scale datasets and then adapted to downstream tasks through tuning. However, the large-scale pre-training datasets, often inaccessible or too expensive to handle, can contain label noise that may adversely affect the generalization of the model and pose unexpected risks. This paper stands out as the first work to comprehensively understand and analyze the nature of noise in pre-training datasets and then effectively mitigate its impacts on downstream tasks. Specifically, through extensive experiments of fully-supervised and image-text contrastive pre-training on synthetic noisy ImageNet-1K, YFCC15M, and CC12M datasets, we demonstrate that, while slight noise in pre-training can benefit in-domain (ID) performance, where the training and testing data share a similar distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing distributions are significantly different. These observations are agnostic to scales of pre-training datasets, pre-training noise types, model architectures, pre-training objectives, downstream tuning methods, and downstream applications. We empirically ascertain that the reason behind this is that the pre-training noise shapes the feature space differently. We then propose a tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization, which is applicable in both parameter-efficient and black-box tuning manners. We additionally conduct extensive experiments on popular vision and language models, including APIs, which are supervised and self-supervised pre-trained on realistic noisy data for evaluation. Our analysis and results demonstrate the importance of this novel and fundamental research direction, which we term as Noisy Model Learning. | 翻訳日:2024-03-12 18:13:44 公開日:2024-03-11 |
# quasar: 高度な表現による品質と美学のスコア付け QUASAR: QUality and Aesthetics Scoring with Advanced Representations ( http://arxiv.org/abs/2403.06866v1 ) ライセンス: Link先を確認 | Sergey Kastryulin (1 and 3), Denis Prokopenko (2), Artem Babenko (3), Dmitry V. Dylov (1 and 4) ((1) Skolkovo Institute of Science and Technology, (2) King's Colledge London, (3) Yandex, (4) AIRI) | (参考訳) 本稿では,画像品質と美的評価のための新しいデータ駆動型非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
7つの最先端の自己教師付きモデルの広範な評価を通じて、様々なデータセットとベンチマークで優れたパフォーマンスと堅牢性を示す。
特に、限られたデータでも人間評価と高い一致を達成し、データの性質と前処理パイプラインに対して高い堅牢性を示す。
私たちのコントリビューションは、視覚情報の知覚に関する洞察を提供しながら、画像の評価を合理化するソリューションを提供します。 This paper introduces a new data-driven, non-parametric method for image quality and aesthetics assessment, surpassing existing approaches and requiring no prompt engineering or fine-tuning. We eliminate the need for expressive textual embeddings by proposing efficient image anchors in the data. Through extensive evaluations of 7 state-of-the-art self-supervised models, our method demonstrates superior performance and robustness across various datasets and benchmarks. Notably, it achieves high agreement with human assessments even with limited data and shows high robustness to the nature of data and their pre-processing pipeline. Our contributions offer a streamlined solution for assessment of images while providing insights into the perception of visual information. | 翻訳日:2024-03-12 18:13:10 公開日:2024-03-11 |
# 人工知能時代におけるアフリカの文化遺産の保存について On the Preservation of Africa's Cultural Heritage in the Age of Artificial Intelligence ( http://arxiv.org/abs/2403.06865v1 ) ライセンス: Link先を確認 | Mohamed El Louadi | (参考訳) 本稿では,コミュニケーションと知識伝達の基本要素として,データの歴史的進化を考察する。
本論文は,口頭伝承からデジタル時代への知識の普及の過程を辿り,言語の重要性と文化の多様性を強調した。
また、デジタル技術が記憶、コミュニケーション、文化の保存に与える影響を探求し、アフリカなどにおけるデジタル文化(デジタル文化ではなく)の文化の促進の必要性を強調している。
さらに、AI開発においてデータバイアスがもたらす課題と機会について論じ、同値表現のための多様なデータセットを作成することの重要性を強調している。
我々は,デジタルリテラシー,経済発展,そして何よりも,デジタル時代の文化的保存を育成するための重要な原材料として,データへの投資を提唱する。 In this paper we delve into the historical evolution of data as a fundamental element in communication and knowledge transmission. The paper traces the stages of knowledge dissemination from oral traditions to the digital era, highlighting the significance of languages and cultural diversity in this progression. It also explores the impact of digital technologies on memory, communication, and cultural preservation, emphasizing the need for promoting a culture of the digital (rather than a digital culture) in Africa and beyond. Additionally, it discusses the challenges and opportunities presented by data biases in AI development, underscoring the importance of creating diverse datasets for equitable representation. We advocate for investing in data as a crucial raw material for fostering digital literacy, economic development, and, above all, cultural preservation in the digital age. | 翻訳日:2024-03-12 18:12:58 公開日:2024-03-11 |
# 頭部センサを用いたリアルタイムシミュレーションアバター Real-Time Simulated Avatar from Head-Mounted Sensors ( http://arxiv.org/abs/2403.06862v1 ) ライセンス: Link先を確認 | Zhengyi Luo, Jinkun Cao, Rawal Khirodkar, Alexander Winkler, Kris Kitani, Weipeng Xu | (参考訳) 我々はAR/VRヘッドセットから得られた情報(ヘッドセットポーズとカメラ)からシミュレーションアバターを制御するSimXRを提案する。
頭部搭載カメラの難易度から、人体はしばしば視界から切り離され、伝統的な画像に基づく自発的なポーズ推定が困難になる。
一方、ヘッドセットのポーズは全身の動きに関する貴重な情報を提供するが、手や足の詳細は明らかになっていない。
カメラでヘッドセットのポーズを合成するために、人型ロボットを制御してヘッドセットの動きを追跡し、入力画像を分析して身体の動きを決定する。
体の一部が見えると、手足の動きは画像によって案内され、見えない場合は物理法則が制御器を誘導して可塑性運動を発生させる。
我々は,中間表現に依存しないエンドツーエンドの手法を設計し,画像やヘッドセットのポーズから直接ヒューマノイド制御信号にマップする方法を学習する。
また,本手法を学習するために,市販のvrヘッドセット(quest2)と互換性のあるカメラ構成を用いて作成した大規模合成データセットを提案し,実世界の撮影に有望な結果を示す。
フレームワークの適用性を実証するため、前方カメラを備えたARヘッドセットでもテストしています。 We present SimXR, a method for controlling a simulated avatar from information (headset pose and cameras) obtained from AR / VR headsets. Due to the challenging viewpoint of head-mounted cameras, the human body is often clipped out of view, making traditional image-based egocentric pose estimation challenging. On the other hand, headset poses provide valuable information about overall body motion, but lack fine-grained details about the hands and feet. To synergize headset poses with cameras, we control a humanoid to track headset movement while analyzing input images to decide body movement. When body parts are seen, the movements of hands and feet will be guided by the images; when unseen, the laws of physics guide the controller to generate plausible motion. We design an end-to-end method that does not rely on any intermediate representations and learns to directly map from images and headset poses to humanoid control signals. To train our method, we also propose a large-scale synthetic dataset created using camera configurations compatible with a commercially available VR headset (Quest 2) and show promising results on real-world captures. To demonstrate the applicability of our framework, we also test it on an AR headset with a forward-facing camera. | 翻訳日:2024-03-12 18:12:45 公開日:2024-03-11 |
# 駆動散逸凝縮体の量子熱力学 Quantum thermodynamics of driven-dissipative condensates ( http://arxiv.org/abs/2403.06861v1 ) ライセンス: Link先を確認 | Luisa Toledo Tude and Paul R. Eastham | (参考訳) ポラリトン凝縮は、熱と粒子が貯水池と継続的に交換される開放系において熱平衡から離れて起こる。
これらの現象は、運動方程式の観点から広く分析されている。
これらのシミュレーションと実験によって得られたポラリトン運動学に関する知識の収集に基づき,ポラリトンの地上人口の蓄積に関わる主要な過程を捉えた,少数のモデルを構築した。
これにより凝縮は熱エンジンの出力として理解でき、その発生に関する熱力学的制約を露呈する。
このモデルは、磁場と相互作用し、非共鳴ポンプと格子フォノンを表す高温および冷水貯留層に接続された3レベルシステムで構成されている。
このサブシステムは、偏光子-偏光子散乱を通じて凝縮体を駆動することができ、微小キャビティからのコヒーレント発光という形で作用する。
2つの浴槽の温度の関数として相図を求め,凝縮相につながる相転移の可能性について検討した。 Polariton condensates occur away from thermal equilibrium, in an open system where heat and particles are continually exchanged with reservoirs. These phenomena have been extensively analyzed in terms of kinetic equations. Based on the collection of knowledge about polariton kinetics provided by these simulations and by experimental works, we constructed a few-level model that captures the main processes involved in the buildup of a ground-state population of polaritons. This allows condensation to be understood as the output of a heat engine and exposes the thermodynamic constraints on its occurrence. The model consists of a three-level system interacting with a field and connected to a hot and a cold thermal reservoir that represent a non-resonant pump and the lattice phonons. This subsystem can drive a condensate, through polariton-polariton scattering, which produces work in the form of coherent light emission from the microcavity. We obtain a phase diagram as a function of the temperatures of the two baths and investigate the possible types of phase transition that lead to the condensate phase. | 翻訳日:2024-03-12 18:12:24 公開日:2024-03-11 |
# アフリカにおける砂漠のロカスト繁殖地予測への地理空間的アプローチ A Geospatial Approach to Predicting Desert Locust Breeding Grounds in Africa ( http://arxiv.org/abs/2403.06860v1 ) ライセンス: Link先を確認 | Ibrahim Salihu Yusuf, Mukhtar Opeyemi Yusuf, Kobby Panford-Quainoo, Arnu Pretorius | (参考訳) 砂漠の群れは農業と食料安全保障に大きな脅威をもたらす。
この課題に対して本研究では,早期警戒システムと目標制御対策を強化する可能性を秘めたロカスト繁殖地予測のための運用可能なモデルを構築した。
国連食糧農業機関(UN-FAO)のロカスト観測記録から得られたデータセットを収集し、リモートセンシングされた環境・気候データとマルチスペクトル地球観測画像の2種類の時空間入力特徴を用いて分析した。
Jakubikらによって最近リリースされたPrithviとともに、カスタムディープラーニングモデル(3次元およびLSTMに基づく再帰的畳み込みネットワーク)を採用した。
これらのモデルはprithviベースのモデルで、nasaのharmonized landsatとsentinel-2(hls)データセットのマルチスペクトル画像を微調整し、f1とroc-aucスコア(それぞれ83.03%、81.53%、87.69%)の最高精度を達成した。
本研究から得られた重要な発見は,マルチスペクトル地球観測画像だけでは,気候や環境の特徴を明示的に組み込む必要がなく,効果的な地中繁殖予測に十分であるということである。 Desert locust swarms present a major threat to agriculture and food security. Addressing this challenge, our study develops an operationally-ready model for predicting locust breeding grounds, which has the potential to enhance early warning systems and targeted control measures. We curated a dataset from the United Nations Food and Agriculture Organization's (UN-FAO) locust observation records and analyzed it using two types of spatio-temporal input features: remotely-sensed environmental and climate data as well as multi-spectral earth observation images. Our approach employed custom deep learning models (three-dimensional and LSTM-based recurrent convolutional networks), along with the geospatial foundational model Prithvi recently released by Jakubik et al., 2023. These models notably outperformed existing baselines, with the Prithvi-based model, fine-tuned on multi-spectral images from NASA's Harmonized Landsat and Sentinel-2 (HLS) dataset, achieving the highest accuracy, F1 and ROC-AUC scores (83.03%, 81.53% and 87.69%, respectively). A significant finding from our research is that multi-spectral earth observation images alone are sufficient for effective locust breeding ground prediction without the need to explicitly incorporate climatic or environmental features. | 翻訳日:2024-03-12 18:12:05 公開日:2024-03-11 |
# DNGaussian:グローバルローカル深さ正規化によるスパースビュー3次元ガウス放射場最適化 DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization ( http://arxiv.org/abs/2403.06912v1 ) ライセンス: Link先を確認 | Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu | (参考訳) radianceフィールドは、少ない入力ビューから新しいビューを合成する素晴らしい性能を示しているが、一般的な方法は高いトレーニングコストと遅い推論速度に苦しめられている。
本稿では,DNGaussianについて紹介する。DNGaussianは3次元ガウス放射場に基づく奥行き規則化フレームワークで,低コストでリアルタイムかつ高品質なノベルショットビュー合成を提供する。
我々のモチベーションは、入力ビューが減少すると幾何劣化に遭遇するにもかかわらず、最近の3次元ガウス散乱の非常に効率的な表現と驚くべき品質に由来する。
ガウス放射場において、シーン幾何学におけるこの劣化は主にガウス原始体の位置決めに関係しており、深さ制約によって緩和できる。
その結果,粗い単眼深度監視下での正確なシーン形状を再現し,きめ細かい色調を維持しつつ,ハード・ソフト深度正規化を提案する。
より精細な幾何再構成を実現するため,グローバル・ローカル深度正規化を導入し,小さな局所深度変化に焦点をあてる。
LLFF、DTU、Blenderのデータセットに対する大規模な実験により、DNGaussianは最先端の手法よりも優れており、メモリコストが大幅に削減され、25 \times$トレーニング時間が短縮され、3000 \times$レンダリング速度が向上した。 Radiance fields have demonstrated impressive performance in synthesizing novel views from sparse input views, yet prevailing methods suffer from high training costs and slow inference speed. This paper introduces DNGaussian, a depth-regularized framework based on 3D Gaussian radiance fields, offering real-time and high-quality few-shot novel view synthesis at low costs. Our motivation stems from the highly efficient representation and surprising quality of the recent 3D Gaussian Splatting, despite it will encounter a geometry degradation when input views decrease. In the Gaussian radiance fields, we find this degradation in scene geometry primarily lined to the positioning of Gaussian primitives and can be mitigated by depth constraint. Consequently, we propose a Hard and Soft Depth Regularization to restore accurate scene geometry under coarse monocular depth supervision while maintaining a fine-grained color appearance. To further refine detailed geometry reshaping, we introduce Global-Local Depth Normalization, enhancing the focus on small local depth changes. Extensive experiments on LLFF, DTU, and Blender datasets demonstrate that DNGaussian outperforms state-of-the-art methods, achieving comparable or better results with significantly reduced memory cost, a $25 \times$ reduction in training time, and over $3000 \times$ faster rendering speed. | 翻訳日:2024-03-12 18:09:10 公開日:2024-03-11 |
# 責任ある人工知能:構造化された文献レビュー Responsible Artificial Intelligence: A Structured Literature Review ( http://arxiv.org/abs/2403.06910v1 ) ライセンス: Link先を確認 | Sabrina Goellner, Marina Tropmann-Frick, Bostjan Brumen | (参考訳) 我々の研究は、EUの政策議論において重要性を増すトピックである責任ある人工知能(AI)の概念を前進させようとしている。
EUは最近、AIに対する信頼の必要性を強調したいくつかの出版物を公表し、AIの二重性は有益なツールと潜在的な武器の両方であると強調した。
この二分法は国際規制の緊急の必要性を強調している。
同時に、AI開発において企業を指導し、そのような規制の遵守を保証するフレームワークも必要である。
我々の研究は、AI規制の進化する風景をナビゲートする上で、議員や機械学習の実践者を支援することを目的としている。
本稿では,責任あるaiに関する最初の統一的な定義を包括的かつ我々の知識に導入する。
構造化された文献レビューを通じて、我々は責任あるAIの現在の理解を解明する。
この分析から,本概念を中心とした将来のフレームワーク開発へのアプローチを提案する。
我々の発見は、人間中心のResponsible AIアプローチを提唱している。
このアプローチは、倫理、モデル説明可能性、プライバシ、セキュリティ、信頼の柱に重点を置いて、AIメソッドの実装を含む。 Our research endeavors to advance the concept of responsible artificial intelligence (AI), a topic of increasing importance within EU policy discussions. The EU has recently issued several publications emphasizing the necessity of trust in AI, underscoring the dual nature of AI as both a beneficial tool and a potential weapon. This dichotomy highlights the urgent need for international regulation. Concurrently, there is a need for frameworks that guide companies in AI development, ensuring compliance with such regulations. Our research aims to assist lawmakers and machine learning practitioners in navigating the evolving landscape of AI regulation, identifying focal areas for future attention. This paper introduces a comprehensive and, to our knowledge, the first unified definition of responsible AI. Through a structured literature review, we elucidate the current understanding of responsible AI. Drawing from this analysis, we propose an approach for developing a future framework centered around this concept. Our findings advocate for a human-centric approach to Responsible AI. This approach encompasses the implementation of AI methods with a strong emphasis on ethics, model explainability, and the pillars of privacy, security, and trust. | 翻訳日:2024-03-12 18:08:39 公開日:2024-03-11 |
# 量子ラビ模型における熱輸送:普遍性と超強結合効果 Heat transport in the quantum Rabi model: Universality and ultrastrong coupling effects ( http://arxiv.org/abs/2403.06909v1 ) ライセンス: Link先を確認 | L. Magazz\`u, E. Paladino, M. Grifoni | (参考訳) 熱浴との弱い相互作用における量子Rabiモデルの熱輸送は、クビット・オシレータ結合によって制御される。
線形コンダクタンスと温度の普遍性は、カップリング依存の近藤様温度である$t\lesssim t_k$である。
低温では、仮想過程によるコヒーレント熱伝達は、準退化の存在下で破壊的干渉を伴う$\sim T^3$の振る舞いをもたらす。
温度が上がると、非コヒーレント発光と吸収が支配され、最大値はT\sim T_K/2$に達する。
量子ビット上のバイアスの存在下では、コンダクタンスは共振器から広いゼロバイアスピーク状態へ遷移する。
パラレルと差は[K]のスピンボソンモデルと比較される。
斎藤と加藤t。 フィス。
Rev. Lett.
ここで、内部のqubit-oscillator結合の代わりにqubit-bath結合が熱輸送を規定する。 Heat transport in the quantum Rabi model at weak interaction with the heat baths is controlled by the qubit-oscillator coupling. Universality of the linear conductance versus the temperature is found for $T\lesssim T_K$, with $T_K$ a coupling-dependent Kondo-like temperature. At low temperature, coherent heat transfer via virtual processes yields a $\sim T^3$ behavior with destructive interference in the presence of quasi-degeneracies in the spectrum. As the temperature increases, incoherent emission and absorption dominate and a maximum is reached at $T\sim T_K/2$. In the presence of a bias on the qubit, the conductance makes a transition from a resonant to a broad, zero-bias peak regime. Parallels and differences are found compared to the spin-boson model in [K. Saito and T. Kato, Phys. Rev. Lett. \textbf{111}, 214301 (2013)], where the qubit-bath coupling instead of the internal qubit-oscillator coupling rules thermal transport. | 翻訳日:2024-03-12 18:08:08 公開日:2024-03-11 |
# fregs:プログレッシブ周波数正規化を用いた3次元ガウススメッティング FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization ( http://arxiv.org/abs/2403.06908v1 ) ライセンス: Link先を確認 | Jiahui Zhang and Fangneng Zhan and Muyu Xu and Shijian Lu and Eric Xing | (参考訳) 3次元ガウシアンスプラッティングは、リアルタイムの新規ビュー合成において非常に優れた性能を発揮している。
しかし、高分散画像領域が少数のガウス像のみに覆われるガウス密度化の際の過度な再構成に悩まされ、描画された画像のぼやけやアーティファクトが生じる。
我々は、周波数空間内のオーバーリコンストラクション問題に取り組むために、プログレッシブ周波数正規化(fregs)手法を設計する。
具体的には、フーリエ空間における低域通過フィルタと高域通過フィルタで容易に抽出できる低域通過周波数成分を利用して、粗大なガウス密度化を行う。
レンダリング画像の周波数スペクトルと対応する基底真実との差を最小化することにより、高品質なガウス密度化を実現し、ガウススプラッティングの過度な再構成を効果的に緩和する。
複数の広く採用されているベンチマーク(例えばMip-NeRF360、Tamps-and-Temples、Deep Blending)に対する実験は、FreGSが優れた新規なビュー合成を達成し、最先端技術よりも一貫して優れていることを示している。 3D Gaussian splatting has achieved very impressive performance in real-time novel view synthesis. However, it often suffers from over-reconstruction during Gaussian densification where high-variance image regions are covered by a few large Gaussians only, leading to blur and artifacts in the rendered images. We design a progressive frequency regularization (FreGS) technique to tackle the over-reconstruction issue within the frequency space. Specifically, FreGS performs coarse-to-fine Gaussian densification by exploiting low-to-high frequency components that can be easily extracted with low-pass and high-pass filters in the Fourier space. By minimizing the discrepancy between the frequency spectrum of the rendered image and the corresponding ground truth, it achieves high-quality Gaussian densification and alleviates the over-reconstruction of Gaussian splatting effectively. Experiments over multiple widely adopted benchmarks (e.g., Mip-NeRF360, Tanks-and-Temples and Deep Blending) show that FreGS achieves superior novel view synthesis and outperforms the state-of-the-art consistently. | 翻訳日:2024-03-12 18:07:39 公開日:2024-03-11 |
# ワークロード制約のある複数のエキスパートに対処するためのコスト感受性学習 Cost-Sensitive Learning to Defer to Multiple Experts with Workload Constraints ( http://arxiv.org/abs/2403.06906v1 ) ライセンス: Link先を確認 | Jean V. Alves, Diogo Leit\~ao, S\'ergio Jesus, Marco O. P. Sampaio, Javier Li\'ebana, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro | (参考訳) L2D(Learning to Defer)は、ML分類器よりも正確である可能性が高いときに、人間に意思決定を延期する方法を学ぶことによって、人間とAIのコラボレーションシステムを改善することを目的としている。
L2Dの既存の研究は、現実のシステムの重要な側面を見落としている。
一 タイプ1及びタイプ2のエラーが異なるコストのかかる費用に敏感なシナリオを無視すること。
二 訓練データセットの各インスタンスの同時予測を必要とすること、及び
三 人間の労働力の制限に対処しないこと。
これらの問題に対処するため、コストとキャパシティ制約の枠組み(DeCCaF)を提案する。
DeCCaFは新しいL2Dアプローチであり、教師付き学習を用いて、制約の少ないデータ要件(インスタンス毎に1つの専門家予測のみ)下でのヒューマンエラーの確率をモデル化し、制約プログラミングを使用して、ワークロード制限によるエラーコストを世界規模で最小化する。
deccafを9人の合成詐欺アナリストのチームによる一連のコストに敏感な不正検出シナリオでテストし、個々の作業能力の制約を満たした。
その結果,提案手法は幅広いシナリオのベースラインよりも優れた性能を示し,誤分類コストの平均8.4%削減を実現している。 Learning to defer (L2D) aims to improve human-AI collaboration systems by learning how to defer decisions to humans when they are more likely to be correct than an ML classifier. Existing research in L2D overlooks key aspects of real-world systems that impede its practical adoption, namely: i) neglecting cost-sensitive scenarios, where type 1 and type 2 errors have different costs; ii) requiring concurrent human predictions for every instance of the training dataset and iii) not dealing with human work capacity constraints. To address these issues, we propose the deferral under cost and capacity constraints framework (DeCCaF). DeCCaF is a novel L2D approach, employing supervised learning to model the probability of human error under less restrictive data requirements (only one expert prediction per instance) and using constraint programming to globally minimize the error cost subject to workload limitations. We test DeCCaF in a series of cost-sensitive fraud detection scenarios with different teams of 9 synthetic fraud analysts, with individual work capacity constraints. The results demonstrate that our approach performs significantly better than the baselines in a wide array of scenarios, achieving an average 8.4% reduction in the misclassification cost. | 翻訳日:2024-03-12 18:07:03 公開日:2024-03-11 |
# 位相検索法によるbiphoton状態再構成 Biphoton State Reconstruction via Phase Retrieval Methods ( http://arxiv.org/abs/2403.06905v1 ) ライセンス: Link先を確認 | Nazanin Dehghan, Alessio D'Errico, Francesco Di Colandrea, Ebrahim Karimi | (参考訳) 2つの相関光子の量子状態の完全な測定には、バイフォトン波動関数の振幅と位相の再構成が必要である。
空間分解された単一光子検出により、自発的なパラメトリックダウン変換によって生成された双光子の空間構造を推測できることを示す。
特に, 2次相関の空間分解解析によりポンプのモジュラーを分離し, 2光子状態への位相整合寄与を明らかにした。
異なる伝搬平面上でこの解析を行う場合、ポンプの自由空間伝播と位相整合が観察される。
この結果、ポンプと位相マッチングの位相を再構築するのに十分な情報を得ることができ、したがって全二光子の波動関数が得られる。
これは、ポンプが軌道角運動量モードの重ね合わせとして、あるいは特異性のない位相構造を持つ滑らかな振幅として形成される異なる例で示される。
対応する位相構造は、最大確率または遺伝的アルゴリズムを用いて検索される。
これらの発見は、ソースの制御を必要としない高速で効率的な量子状態のキャラクタリゼーションに潜在的応用をもたらす。 The complete measurement of the quantum state of two correlated photons requires reconstructing the amplitude and phase of the biphoton wavefunction. We show how, by means of spatially resolved single photon detection, one can infer the spatial structure of bi-photons generated by spontaneous parametric down conversion. In particular, a spatially resolved analysis of the second-order correlations allows us to isolate the moduli of the pump and phasematching contributions to the two-photon states. When carrying this analysis on different propagation planes, the free space propagation of pump and phasematching is observed. This result allows, in principle, to gain enough information to reconstruct also the phase of pump and phasematching, and thus the full biphoton wavefunction. We show this in different examples where the pump is shaped as a superposition of orbital angular momentum modes or as a smooth amplitude with a phase structure with no singularities. The corresponding phase structure is retrieved employing maximum likelihood or genetic algorithms. These findings have potential applications in fast, efficient quantum state characterisation that does not require any control over the source. | 翻訳日:2024-03-12 18:06:27 公開日:2024-03-11 |
# FocusCLIP:人間中心タスクにおけるゼロショット転送のためのマルチモーダルな主観的誘導 FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks ( http://arxiv.org/abs/2403.06904v1 ) ライセンス: Link先を確認 | Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker and Muhammad Zeshan Afzal | (参考訳) 主観レベルのガイダンスを統合したFocusCLIPを提案する。これは、人間中心タスクにおけるゼロショット転送を改善するためのCLIPフレームワークに組み込まれた、ターゲット固有の監視のための特殊なメカニズムである。
私たちの新しいコントリビューションは、視覚とテキストの両面でCLIPを強化します。
視覚面では,人間の視覚注意機構を模倣したroiヒートマップを取り入れ,被写体関連画像領域を強調する。
テキスト側では、人間のポーズ記述を導入し、豊かな文脈情報を提供する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
提案手法は、3つの人間中心のタスクをカバーする5つのデータセットで平均8.61%のクリップを上回った。
FocusCLIPの平均精度は33.65%、CLIPは25.04%だった。
我々は、活動認識の3.98%、年齢分類の14.78%、感情認識の7.06%の改善を観察した。
さらに,提案する単発llmプロンプト戦略を用いて,高品質mpiiポーズ記述データセットをリリースし,人間中心タスクにおけるマルチモーダル学習のさらなる研究を促す。
さらに,人間中心でないタスクに対する課題レベルの監督の有効性を示す。
FocusCLIPはCLIPよりも2.47%改善している。
本研究は,ダウンストリーム性能向上のための一般事前学習手法と主観的指導を統合する可能性を強調した。 We propose FocusCLIP, integrating subject-level guidance--a specialized mechanism for target-specific supervision--into the CLIP framework for improved zero-shot transfer on human-centric tasks. Our novel contributions enhance CLIP on both the vision and text sides. On the vision side, we incorporate ROI heatmaps emulating human visual attention mechanisms to emphasize subject-relevant image regions. On the text side, we introduce human pose descriptions to provide rich contextual information. For human-centric tasks, FocusCLIP is trained with images from the MPII Human Pose dataset. The proposed approach surpassed CLIP by an average of 8.61% across five previously unseen datasets covering three human-centric tasks. FocusCLIP achieved an average accuracy of 33.65% compared to 25.04% by CLIP. We observed a 3.98% improvement in activity recognition, a 14.78% improvement in age classification, and a 7.06% improvement in emotion recognition. Moreover, using our proposed single-shot LLM prompting strategy, we release a high-quality MPII Pose Descriptions dataset to encourage further research in multimodal learning for human-centric tasks. Furthermore, we also demonstrate the effectiveness of our subject-level supervision on non-human-centric tasks. FocusCLIP shows a 2.47% improvement over CLIP in zero-shot bird classification using the CUB dataset. Our findings emphasize the potential of integrating subject-level guidance with general pretraining methods for enhanced downstream performance. | 翻訳日:2024-03-12 18:05:58 公開日:2024-03-11 |
# 適度な入力次元を有するリークReLUネットワークにおけるベニグアオーバーフィッティング Benign overfitting in leaky ReLU networks with moderate input dimension ( http://arxiv.org/abs/2403.06903v1 ) ライセンス: Link先を確認 | Kedar Karhadkar, Erin George, Michael Murray, Guido Mont\'ufar, Deanna Needell | (参考訳) 良性オーバーフィッティングの問題は、モデルがノイズの多いトレーニングデータに完全に適合し、いまだに一般化できるかどうかを問うものである。
二元分類タスクにおけるヒンジ損失を訓練した2層リークReLUネットワークにおけるベニグオーバーフィッティングについて検討した。
入力データを共通の信号の和と、互いに直交する部分空間上のランダムノイズ成分に分解することができる。
特に、SNRが高い場合、良性オーバーフィッティングが発生する場合、逆に、SNRが低い場合、有害オーバーフィッティングが発生する場合、有害オーバーフィッティングが発生する。
我々は、良性および非良性オーバーフィッティングの両方を近似マージン最大化特性とみなし、GD(Gradient Descent)によるヒンジ損失をトレーニングしたリークReLUネットワークがこの特性を満たすことを示す。
特に、入力次元 $d$ とトレーニングサンプルサイズ $n$ に対して、以前の作業は$d = \omega(n^2 \log n)$ のとき漸近的最適誤差を示すが、ここでは$d = \omega\left(n \log \frac{1}{\epsilon}\right)$ で$\epsilon$ の範囲内でエラーを得るには$d = \omega\left(n \log \frac{1}{\epsilon}\right)$ だけが必要である。 The problem of benign overfitting asks whether it is possible for a model to perfectly fit noisy training data and still generalize well. We study benign overfitting in two-layer leaky ReLU networks trained with the hinge loss on a binary classification task. We consider input data which can be decomposed into the sum of a common signal and a random noise component, which lie on subspaces orthogonal to one another. We characterize conditions on the signal to noise ratio (SNR) of the model parameters giving rise to benign versus non-benign, or harmful, overfitting: in particular, if the SNR is high then benign overfitting occurs, conversely if the SNR is low then harmful overfitting occurs. We attribute both benign and non-benign overfitting to an approximate margin maximization property and show that leaky ReLU networks trained on hinge loss with Gradient Descent (GD) satisfy this property. In contrast to prior work we do not require near orthogonality conditions on the training data: notably, for input dimension $d$ and training sample size $n$, while prior work shows asymptotically optimal error when $d = \Omega(n^2 \log n)$, here we require only $d = \Omega\left(n \log \frac{1}{\epsilon}\right)$ to obtain error within $\epsilon$ of optimal. | 翻訳日:2024-03-12 18:05:32 公開日:2024-03-11 |
# 遠隔心拍数推定のための深部適応スペクトルズーム Deep adaptative spectral zoom for improved remote heart rate estimation ( http://arxiv.org/abs/2403.06902v1 ) ライセンス: Link先を確認 | Joaquim Comas, Adria Ruiz, Federico Sukno | (参考訳) データ駆動型アプローチによる遠隔心拍測定の最近の進歩は、特に正確性を高めている。
しかし、これらの改善は主にrPPGシグナルの回復に焦点を合わせ、引き起こした信号から心拍数(HR)を推定する暗黙の課題を見越す。
多くの手法ではHR推定にFast Fourier Transform (FFT) を用いるが、FFTの性能は本質的に限られた周波数分解能の影響を受けている。
対照的に、FFTの一般化形式であるChirp-Z Transform (CZT) は、心拍数に対する狭帯域の利息の範囲までスペクトルを洗練し、頻繁な分解能を改善し、その結果より正確な推定を可能にする。
本稿では、リモートHR推定にCZTを用いる利点を示し、新しいデータ駆動適応型CZT推定器を提案する。
提案モデルの目的は,各データセットセンサの特性に合わせてCZTを調整し,多様なデータセットにまたがる一般化を損なうことなく,rPPG信号からHRをより最適かつ正確に推定することである。
これはスパース行列最適化(SMO)によって達成される。
本モデルの有効性は, UCLA-rPPG, PURE, UBFC-rPPGの3つの公開データセットに対して, イントラデータベースとクロスデータベースのパフォーマンス指標を用いた総合評価により検証した。
その結果, 心拍数推定能力に優れ, rPPG法に対する頑健かつ多目的な評価手法として提案手法が確立された。 Recent advances in remote heart rate measurement, motivated by data-driven approaches, have notably enhanced accuracy. However, these improvements primarily focus on recovering the rPPG signal, overlooking the implicit challenges of estimating the heart rate (HR) from the derived signal. While many methods employ the Fast Fourier Transform (FFT) for HR estimation, the performance of the FFT is inherently affected by a limited frequency resolution. In contrast, the Chirp-Z Transform (CZT), a generalization form of FFT, can refine the spectrum to the narrow-band range of interest for heart rate, providing improved frequential resolution and, consequently, more accurate estimation. This paper presents the advantages of employing the CZT for remote HR estimation and introduces a novel data-driven adaptive CZT estimator. The objective of our proposed model is to tailor the CZT to match the characteristics of each specific dataset sensor, facilitating a more optimal and accurate estimation of HR from the rPPG signal without compromising generalization across diverse datasets. This is achieved through a Sparse Matrix Optimization (SMO). We validate the effectiveness of our model through exhaustive evaluations on three publicly available datasets UCLA-rPPG, PURE, and UBFC-rPPG employing both intra- and cross-database performance metrics. The results reveal outstanding heart rate estimation capabilities, establishing the proposed approach as a robust and versatile estimator for any rPPG method. | 翻訳日:2024-03-12 18:04:59 公開日:2024-03-11 |
# LIBR+:生体力学に基づく変形性レジストレーションの残量学習による肝内レジストレーションの改善 LIBR+: Improving Intraoperative Liver Registration by Learning the Residual of Biomechanics-Based Deformable Registration ( http://arxiv.org/abs/2403.06901v1 ) ライセンス: Link先を確認 | Dingrong Wang, Soheil Azadvar, Jon Heiselman, Xiajun Jiang, Michael Miga, Linwei Wang | (参考訳) 外科的環境は、術前に想像された形状に臓器形状の術中登録に固有の課題を課している。
バイオメカニカルモデルに基づく登録は依然として一般的であるが,術中測定のばらつきや,手術中に得られる臓器の変形が制限されるため,深層学習ソリューションは依然として限られている。
本稿では,線形弾性バイオメカニクスに基づく線形反復境界再構成(libr)法を応用し,深層ニューラルネットワークを用いて地盤変形(libr+)への残留を学習する,新しい \textit{hybrid} 登録手法を提案する。
さらに、二重分岐スプライン残差グラフ畳み込みニューラルネットワーク(SR-GCN)を定式化し、スパースおよび可変術中測定から情報を同化し、3D臓器の幾何学を通して効果的に伝播させる。
大規模な術中肝登録データセットを用いた実験では, LIBR+が既往の剛性, 生体力学的モデルに基づく非剛性, 深層学習に基づく非剛性的肝登録法と比較した。 The surgical environment imposes unique challenges to the intraoperative registration of organ shapes to their preoperatively-imaged geometry. Biomechanical model-based registration remains popular, while deep learning solutions remain limited due to the sparsity and variability of intraoperative measurements and the limited ground-truth deformation of an organ that can be obtained during the surgery. In this paper, we propose a novel \textit{hybrid} registration approach that leverage a linearized iterative boundary reconstruction (LIBR) method based on linear elastic biomechanics, and use deep neural networks to learn its residual to the ground-truth deformation (LIBR+). We further formulate a dual-branch spline-residual graph convolutional neural network (SR-GCN) to assimilate information from sparse and variable intraoperative measurements and effectively propagate it through the geometry of the 3D organ. Experiments on a large intraoperative liver registration dataset demonstrated the consistent improvements achieved by LIBR+ in comparison to existing rigid, biomechnical model-based non-rigid, and deep-learning based non-rigid approaches to intraoperative liver registration. | 翻訳日:2024-03-12 18:04:31 公開日:2024-03-11 |
# 絡み合いの尺度としての文脈的分数 The Contextual Fraction as a Measure of Entanglement ( http://arxiv.org/abs/2403.06896v1 ) ライセンス: Link先を確認 | Tim Chan and Andrei Constantin | (参考訳) abramsky と brandenburger によって導入された文脈分数では、経験モデルに関連する文脈性の定量的測定、すなわち実験シナリオにおける測定結果の確率の表を定義する。
本稿では,文脈分数に依存する絡み合いの尺度を定義する。
まず、測定シナリオに関係なく、分離可能な状態は必ずしもコンテキストではないことを示す。
そして,両分節状態について,有意な経験モデルと,対応する文脈分節が状態の絡み合いエントロピーと正に相関していることを示し,文脈性は絡み合いの洗練と見なすことができることを示唆する。 The contextual fraction introduced by Abramsky and Brandenburger defines a quantitative measure of contextuality associated with empirical models, i.e. tables of probabilities of measurement outcomes in experimental scenarios. In this paper we define a measure of entanglement relying on the contextual fraction. We first show that any separable state is necessarily non-contextual, regardless of the measurement scenario. Then, for bipartite states we associate a distinguished empirical model and show that the corresponding contextual fraction is positively correlated with the entanglement entropy of the state, suggesting that contextuality may be regarded as a refinement of entanglement. | 翻訳日:2024-03-12 18:04:08 公開日:2024-03-11 |
# GRITv2: 効率的かつ軽量な社会関係認識 GRITv2: Efficient and Light-weight Social Relation Recognition ( http://arxiv.org/abs/2403.06895v1 ) ライセンス: Link先を確認 | N K Sagar Reddy, Neeraj Kasera, Avinash Thakur | (参考訳) 本研究は、グラフベースの関係推論変換器(GRIT)の分析と改善に焦点を当て、この分野における重要なベンチマークとして機能する。
PISC-fine データセットを用いて総合的アブレーション研究を行い,GRITv2 の効率と性能の改善について検討した。
本研究は,PISC関係データセットに基づく最先端関係認識モデルを提案する。
GRITモデルにいくつかの機能を導入し、新しいベンチマークをGRITv2-L(大型)とGRITv2-S(小型)の2つのバージョンで分析する。
提案したGRITv2-Lは既存の関係認識手法を超越し,GRITv2-SはGRITv2-Lのモデルサイズとパラメータのわずか0.0625倍である。
さらに,資源制約のあるプラットフォーム上で効率的なモデルをデプロイする上で重要な領域であるモデル圧縮の必要性にも対処する。
量子化技術を適用することで,GRITv2-Sサイズを22MBに効率よく削減し,PISC-fineベンチマークをいまだに超越しているフラッグシップのOnePlus 12モバイルにデプロイした。 Our research focuses on the analysis and improvement of the Graph-based Relation Inference Transformer (GRIT), which serves as an important benchmark in the field. We conduct a comprehensive ablation study using the PISC-fine dataset, to find and explore improvement in efficiency and performance of GRITv2. Our research has provided a new state-of-the-art relation recognition model on the PISC relation dataset. We introduce several features in the GRIT model and analyse our new benchmarks in two versions: GRITv2-L (large) and GRITv2-S (small). Our proposed GRITv2-L surpasses existing methods on relation recognition and the GRITv2-S is within 2% performance gap of GRITv2-L, which has only 0.0625x the model size and parameters of GRITv2-L. Furthermore, we also address the need for model compression, an area crucial for deploying efficient models on resource-constrained platforms. By applying quantization techniques, we efficiently reduced the GRITv2-S size to 22MB and deployed it on the flagship OnePlus 12 mobile which still surpasses the PISC-fine benchmarks in performance, highlighting the practical viability and improved efficiency of our model on mobile devices. | 翻訳日:2024-03-12 18:03:55 公開日:2024-03-11 |
# 量子ドットアレイにおけるスケーラブルなマルチキュービット固有ゲート Scalable multi-qubit intrinsic gates in quantum dot arrays ( http://arxiv.org/abs/2403.06894v1 ) ライセンス: Link先を確認 | Jiaan Qi, Zhi-Hai Liu and Hongqi Xu | (参考訳) 本稿では,半導体量子ドットの一般配列に固有のマルチキュービット量子ゲートについて検討し,スケーラブルな実装方法を検討する。
固有量子ゲートは、直接交換結合の下での量子ビット回転フレームの自然な変形のクラスを指し、スピン量子チップの命令セットとして認識することができる。
摂動的処理を採用することで、結合強度の1次ダイナミクスにより固有ゲートをモデル化できる。
任意の配列接続下でのマルチキュービット内在ゲートの同定に汎用的な定式化が開発された。
マルチキュービット内在ゲートの忠実度に影響を与える要因について論じる。
量子コンピューティングおよび量子誤り訂正における固有ゲートの利点について検討した。
また,結合の動的キャリブレーションを用いた不均一結合の問題を解くための理論的スキームも提案する。
このスキームはさらに、大規模量子コンピュータにおけるマルチキュービットゲートの堅牢な実装のための周期的動的疎結合と組み合わせることができる。 We study the multi-qubit quantum gates intrinsic to a general array of semiconductor quantum dots and investigate how they can be implemented in a scalable way. The intrinsic quantum gates refer to the class of natural-forming transformations in the qubit rotating-frame under direct exchange coupling, and can be recognized as the instruction set of a spin-qubit chip. Adopting an perturbative treatment, we can model intrinsic gates by first-order dynamics in the coupling strength. A general formalism is developed for identifying the multi-qubit intrinsic gates under arbitrary array connectivity. Factors influencing the fidelities of the multi-qubit intrinsic gates are discussed. The advantageous applications of intrinsic gates in quantum computing and quantum error correction are explored. We also propose a theoretical scheme to overcome the problem of inhomogeneous coupling using dynamical calibration of the connecting bonds. This scheme can be further combined with periodic dynamical decoupling for robust implementations of multi-qubit gates in large-scale quantum computers. | 翻訳日:2024-03-12 18:03:32 公開日:2024-03-11 |
# 効率的な核融合ヘッドを用いたリアルタイム変圧器型開ボキャブラリー検出 Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head ( http://arxiv.org/abs/2403.06892v1 ) ライセンス: Link先を確認 | Tiancheng Zhao, Peng Liu, Xuan He, Lu Zhang and Kyusong Lee | (参考訳) detr(end-to-end transformer-based detectors)は、言語モダリティの統合を通じて、クローズドセットとオープンボキャブラリオブジェクト検出(ovd)タスクの両方において例外的な性能を示している。
しかし、それらの要求する計算要件は、リアルタイムオブジェクト検出(od)シナリオにおける実用的な応用を妨げる。
本稿では,OVDEvalベンチマークにおける2つの主要なモデル,OmDet と Grounding-DINO の限界を精査し,OmDet-Turbo を紹介する。
このトランスフォーマーベースのリアルタイムOVDモデルは、OmDetやGrounding-DINOで観測されるボトルネックを軽減するために設計された、革新的なEfficient Fusion Head (EFH)モジュールを備えている。
特に、OmDet-Turbo-Baseは、TensorRTと言語キャッシュ技術を適用した100.2フレーム/秒(FPS)を達成した。
特にCOCOとLVISデータセットのゼロショットシナリオでは、OmDet-Turboは現在の最先端監視モデルとほぼ同等のパフォーマンスレベルを達成する。
さらにODinWとOVDEvalでそれぞれAPが30.1、NMS-APが26.86である最先端のベンチマークを新たに確立した。
産業アプリケーションにおけるOmDet-Turboの実用性は、ベンチマークデータセットでの例外的なパフォーマンスと推論速度の向上により、リアルタイムオブジェクト検出タスクの魅力的な選択肢として位置づけられている。
コード: \url{https://github.com/om-ai-lab/OmDet} End-to-end transformer-based detectors (DETRs) have shown exceptional performance in both closed-set and open-vocabulary object detection (OVD) tasks through the integration of language modalities. However, their demanding computational requirements have hindered their practical application in real-time object detection (OD) scenarios. In this paper, we scrutinize the limitations of two leading models in the OVDEval benchmark, OmDet and Grounding-DINO, and introduce OmDet-Turbo. This novel transformer-based real-time OVD model features an innovative Efficient Fusion Head (EFH) module designed to alleviate the bottlenecks observed in OmDet and Grounding-DINO. Notably, OmDet-Turbo-Base achieves a 100.2 frames per second (FPS) with TensorRT and language cache techniques applied. Notably, in zero-shot scenarios on COCO and LVIS datasets, OmDet-Turbo achieves performance levels nearly on par with current state-of-the-art supervised models. Furthermore, it establishes new state-of-the-art benchmarks on ODinW and OVDEval, boasting an AP of 30.1 and an NMS-AP of 26.86, respectively. The practicality of OmDet-Turbo in industrial applications is underscored by its exceptional performance on benchmark datasets and superior inference speed, positioning it as a compelling choice for real-time object detection tasks. Code: \url{https://github.com/om-ai-lab/OmDet} | 翻訳日:2024-03-12 18:03:16 公開日:2024-03-11 |
# 量子テンソルネットワークのタンパク質分類への応用 Application of Quantum Tensor Networks for Protein Classification ( http://arxiv.org/abs/2403.06890v1 ) ライセンス: Link先を確認 | Debarshi Kundu, Archisman Ghosh, Srinivasan Ekambaram, Jian Wang, Nikolay Dokholyan, Swaroop Ghosh | (参考訳) タンパク質配列は自然言語処理において文と見なすことができ、既存の量子自然言語フレームワークを用いて合理的な量子ビットのパラメータ化された量子回路に解析できることを示した。
我々は、生体情報学における重要な課題である細胞内位置に基づいてタンパク質を分類し、生物学的プロセスや疾患のメカニズムを理解するのに重要である。
量子テンソルネットワーク(Quantum Tensor Networks, QTN)は, タンパク質配列の複雑さと多様性を効果的に扱えることを示す。
本稿では,QTNアーキテクチャをタンパク質データに不規則な要求に適応させる詳細な方法論を提案する。
本稿では、従来のリカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)にインスパイアされた2つの異なるQTNを示し、上記の二項分類課題を解決する。
我々の最高性能量子モデルは、ESM2タンパク質言語モデル埋め込みを用いた古典モデルの性能に匹敵する94%の精度を達成した。
esm2モデルは非常に大きく、最小構成で800万のパラメータが含まれていますが、最良の量子モデルは800のパラメータしか必要としません。
これらのハイブリッドモデルが有望な性能を示すことを実証し,同様の複雑性を持つ古典モデルと競合する可能性を示した。 We show that protein sequences can be thought of as sentences in natural language processing and can be parsed using the existing Quantum Natural Language framework into parameterized quantum circuits of reasonable qubits, which can be trained to solve various protein-related machine-learning problems. We classify proteins based on their subcellular locations, a pivotal task in bioinformatics that is key to understanding biological processes and disease mechanisms. Leveraging the quantum-enhanced processing capabilities, we demonstrate that Quantum Tensor Networks (QTN) can effectively handle the complexity and diversity of protein sequences. We present a detailed methodology that adapts QTN architectures to the nuanced requirements of protein data, supported by comprehensive experimental results. We demonstrate two distinct QTNs, inspired by classical recurrent neural networks (RNN) and convolutional neural networks (CNN), to solve the binary classification task mentioned above. Our top-performing quantum model has achieved a 94% accuracy rate, which is comparable to the performance of a classical model that uses the ESM2 protein language model embeddings. It's noteworthy that the ESM2 model is extremely large, containing 8 million parameters in its smallest configuration, whereas our best quantum model requires only around 800 parameters. We demonstrate that these hybrid models exhibit promising performance, showcasing their potential to compete with classical models of similar complexity. | 翻訳日:2024-03-12 18:02:45 公開日:2024-03-11 |
# リスク予測へのオキュロミクスの適用性:DARTとAutoMorphを用いた網膜フラクタル次元の再現性と堅牢性 Applicability of oculomics for individual risk prediction: Repeatability and robustness of retinal Fractal Dimension using DART and AutoMorph ( http://arxiv.org/abs/2403.06950v1 ) ライセンス: Link先を確認 | Justin Engelmann, Diana Moukaddem, Lucas Gago, Niall Strang, Miguel O. Bernabeu | (参考訳) 目的: フラクタル次元(fd)に基づくオキュロミクスを再現性とロバスト性を評価することにより,個々のリスク予測に使用できるかどうかを検討すること。
方法: 被験者26名, 眼39名, 眼底377名), ブドウ緑内障患者, 緑内障患者106名, 眼196名, 眼392名であった。
追従期間の平均は18.3ヶ月であり、血管が変化するにつれて悲観的な低限度になる。
FDはDARTとAutoMorphで計算された。
画質はQuickQualで評価されたが、当初は除外されなかった。
Pearson, Spearman, Intraclass correlation (ICC) は集団レベルの再現性に用いられた。
個別レベルの再現性については,fd測定の目内標準偏差(sd)である計測ノイズパラメータ {\lambda} を目間sd単位で導入する。
結果: カルドニアでは, DART では 0.8153, AutoMorph では 0.5779, DART では 0.7857/0.7824, AutoMorph では 0.3933/0.6253 であった。
GRAPEでは、Pearson/Spearman相関はDARTでは0.7479/0.7474、AutoMorphでは0.7109/0.7208であった。
除外のないカレドニアの中央値 {\lambda} はダートで3.55\%、オートモルフで12.65\%、クオリティベースで1.67\%と6.64\%に改善した。
品質の排除は、主に大きな異常を緩和した。
眼の最低品質は {\lambda} (pearson 0.5350-0.7550) と強く相関した。
結論: 再現性は異種集団の個体レベルでの予測に十分であった。
DARTはすべてのメトリクスで改善され、小さな縦方向の変化を検出でき、堅牢なメソッドの可能性を強調した。 Purpose: To investigate whether Fractal Dimension (FD)-based oculomics could be used for individual risk prediction by evaluating repeatability and robustness. Methods: We used two datasets: Caledonia, healthy adults imaged multiple times in quick succession for research (26 subjects, 39 eyes, 377 colour fundus images), and GRAPE, glaucoma patients with baseline and follow-up visits (106 subjects, 196 eyes, 392 images). Mean follow-up time was 18.3 months in GRAPE, thus it provides a pessimistic lower-bound as vasculature could change. FD was computed with DART and AutoMorph. Image quality was assessed with QuickQual, but no images were initially excluded. Pearson, Spearman, and Intraclass Correlation (ICC) were used for population-level repeatability. For individual-level repeatability, we introduce measurement noise parameter {\lambda} which is within-eye Standard Deviation (SD) of FD measurements in units of between-eyes SD. Results: In Caledonia, ICC was 0.8153 for DART and 0.5779 for AutoMorph, Pearson/Spearman correlation (first and last image) 0.7857/0.7824 for DART, and 0.3933/0.6253 for AutoMorph. In GRAPE, Pearson/Spearman correlation (first and next visit) was 0.7479/0.7474 for DART, and 0.7109/0.7208 for AutoMorph (all p<0.0001). Median {\lambda} in Caledonia without exclusions was 3.55\% for DART and 12.65\% for AutoMorph, and improved to up to 1.67\% and 6.64\% with quality-based exclusions, respectively. Quality exclusions primarily mitigated large outliers. Worst quality in an eye correlated strongly with {\lambda} (Pearson 0.5350-0.7550, depending on dataset and method, all p<0.0001). Conclusions: Repeatability was sufficient for individual-level predictions in heterogeneous populations. DART performed better on all metrics and might be able to detect small, longitudinal changes, highlighting the potential of robust methods. | 翻訳日:2024-03-12 17:57:49 公開日:2024-03-11 |
# 大規模言語モデルにおける材料科学の展望 Materials science in the era of large language models: a perspective ( http://arxiv.org/abs/2403.06949v1 ) ライセンス: Link先を確認 | Ge Lei, Ronan Docherty, Samuel J. Cooper | (参考訳) 大きな言語モデル(LLM)は、その印象的な自然言語能力によって、複雑なコード生成から組み合わせの問題に対するヒューリスティックな発見まで、ワークフローにおいて、様々な創発的な特性と組み合わせることで、かなりの関心を集めている。
本稿では, 材料科学研究への適用性について考察し, 課題や規律の多岐にわたるあいまいな要求に対処できることは, 研究者を支援する強力なツールになり得ることを論じる。
基礎的llm理論を定性的に検討し,関連する特性や文献の技法と結びつけ,タスク自動化と知識抽出における2つの事例研究を行った。
現段階では、LSMは新たな洞察のオラクルとしてではなく、ドメイン間の探索を加速し統一できるタイヤレス労働者として見るべきだ、と私たちは主張する。
本論文は,これらのツールを自身の研究で活用するために必要な概念を,物質科学研究者に親しみやすくすることを願っている。 Large Language Models (LLMs) have garnered considerable interest due to their impressive natural language capabilities, which in conjunction with various emergent properties make them versatile tools in workflows ranging from complex code generation to heuristic finding for combinatorial problems. In this paper we offer a perspective on their applicability to materials science research, arguing their ability to handle ambiguous requirements across a range of tasks and disciplines mean they could be a powerful tool to aid researchers. We qualitatively examine basic LLM theory, connecting it to relevant properties and techniques in the literature before providing two case studies that demonstrate their use in task automation and knowledge extraction at-scale. At their current stage of development, we argue LLMs should be viewed less as oracles of novel insight, and more as tireless workers that can accelerate and unify exploration across domains. It is our hope that this paper can familiarise material science researchers with the concepts needed to leverage these tools in their own research. | 翻訳日:2024-03-12 17:57:04 公開日:2024-03-11 |
# 明示的・暗黙的事前知識の統合による総合的遠隔生理計測の促進 Advancing Generalizable Remote Physiological Measurement through the Integration of Explicit and Implicit Prior Knowledge ( http://arxiv.org/abs/2403.06947v1 ) ライセンス: Link先を確認 | Yuting Zhang, Hao Lu, Xin Liu, Yingcong Chen, Kaishun Wu | (参考訳) 遠隔プラチスモグラフィー(remote photoplethysmography, RPPG)は、顔ビデオから生理的信号を捉え、医療、感情コンピューティング、バイオセキュリティ認識などに応用できる有望な技術である。
rPPGタスクの需要は、データセット内テストにおける優れた性能を示すものから、クロスデータセットテスト(ドメイン一般化)まで拡大している。
しかし、既存のほとんどの手法は、rPPGの以前の知識を見落としており、一般化能力は劣っている。
本稿では,rPPGタスクにおける暗黙的,暗黙的な事前知識を同時に活用する新しいフレームワークを提案する。
具体的には,様々な領域にまたがるノイズ源(カメラ,照明,スキンタイプ,移動など)の原因を系統的に解析し,これらの知識をネットワークに取り入れる。
さらに,2分岐ネットワークを用いて,暗黙のラベル相関により,雑音から生理的特徴分布を分離する。
実験により,提案手法はRGBのクロスデータセット評価において最先端の手法より優れているだけでなく,RGBのデータセットからNIRのデータセットまでよく一般化できることを示した。
コードはhttps://github.com/keke-nice/greipで入手できる。 Remote photoplethysmography (rPPG) is a promising technology that captures physiological signals from face videos, with potential applications in medical health, emotional computing, and biosecurity recognition. The demand for rPPG tasks has expanded from demonstrating good performance on intra-dataset testing to cross-dataset testing (i.e., domain generalization). However, most existing methods have overlooked the prior knowledge of rPPG, resulting in poor generalization ability. In this paper, we propose a novel framework that simultaneously utilizes explicit and implicit prior knowledge in the rPPG task. Specifically, we systematically analyze the causes of noise sources (e.g., different camera, lighting, skin types, and movement) across different domains and incorporate these prior knowledge into the network. Additionally, we leverage a two-branch network to disentangle the physiological feature distribution from noises through implicit label correlation. Our extensive experiments demonstrate that the proposed method not only outperforms state-of-the-art methods on RGB cross-dataset evaluation but also generalizes well from RGB datasets to NIR datasets. The code is available at https://github.com/keke-nice/Greip. | 翻訳日:2024-03-12 17:56:46 公開日:2024-03-11 |
# split to merge:unsupervised domain adaptationのための分離モダリティの統一 Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.06946v1 ) ライセンス: Link先を確認 | Xinyao Li, Yuke Li, Zhekai Du, Fengling Li, Ke Lu, Jingjing Li | (参考訳) CLIPのような大規模視覚言語モデル(VLM)は、教師なしドメイン適応タスクにおいて優れたゼロショット学習性能を示している。
しかしながら、VLMのほとんどのトランスファーアプローチは、両モード間の微妙な相互作用を見越して、言語または視覚枝に焦点を当てている。
本研究では,教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを提案する。
モダリティギャップ研究から得られた知見を活かして,CLIPの特徴を言語関連および視覚関連コンポーネントに明確に分離する,ジンブルモダリティ分離ネットワークを構築した。
提案手法は,モダリティ固有のニュアンスを維持しつつモダリティ非依存な情報の交換を促進する。
我々は、モダリティ判別器を用いて、ドメイン間で特徴を整列する。
3つのベンチマークの包括的評価により,計算コストを最小に抑える新たな最先端技術が確立された。
コード:https://github.com/TL-UESTC/UniMoS Large vision-language models (VLMs) like CLIP have demonstrated good zero-shot learning performance in the unsupervised domain adaptation task. Yet, most transfer approaches for VLMs focus on either the language or visual branches, overlooking the nuanced interplay between both modalities. In this work, we introduce a Unified Modality Separation (UniMoS) framework for unsupervised domain adaptation. Leveraging insights from modality gap studies, we craft a nimble modality separation network that distinctly disentangles CLIP's features into language-associated and vision-associated components. Our proposed Modality-Ensemble Training (MET) method fosters the exchange of modality-agnostic information while maintaining modality-specific nuances. We align features across domains using a modality discriminator. Comprehensive evaluations on three benchmarks reveal our approach sets a new state-of-the-art with minimal computational costs. Code: https://github.com/TL-UESTC/UniMoS | 翻訳日:2024-03-12 17:56:22 公開日:2024-03-11 |
# 有限温度混合状態のSj$\ddot{\text{o}}$qvist量子幾何テンソル Sj$\ddot{\text{o}}$qvist quantum geometric tensor of finite-temperature mixed states ( http://arxiv.org/abs/2403.06944v1 ) ライセンス: Link先を確認 | Zheng Zhou, Xu-Yang Hou, Xin Wang, Jia-Chen Tang, Hao Guo, and Chih-Chun Chien | (参考訳) 量子幾何学テンソル(qgt)は、局所幾何学的性質と関連する量子状態の位相的情報を明らかにする。
ここで、sj$\ddot{\text{o}}$qvist距離に基づく有限温度における混合量子状態へのqgtの一般化が開発される。
結果の Sj$\ddot{\text{o}}$qvist QGT は個々のスペクトルレベルのゲージ変換の下で不変である。
ピタゴラスのような関係は距離とゲージ変換を結び、平行輸送条件の役割を明らかにする。
QGTの真の部分は自然にフィッシャー・ラオ計量とフビニ・スタディ計量の和に分解され、量子距離への異なる寄与を区別することができる。
QGTの虚部はベリー曲率の重み付け和に比例し、ある条件下での混合状態の幾何学的位相をもたらす。
本稿では,QGTの温度依存性を説明するために,異なる次元の3つの例を示す。 The quantum geometric tensor (QGT) reveals local geometric properties and associated topological information of quantum states. Here a generalization of the QGT to mixed quantum states at finite temperatures based on the Sj$\ddot{\text{o}}$qvist distance is developed. The resulting Sj$\ddot{\text{o}}$qvist QGT is invariant under gauge transformations of individual spectrum levels. A Pythagorean-like relation connects the distances and gauge transformations, which clarifies the role of the parallel-transport condition. The real part of the QGT naturally decomposes into a sum of the Fisher-Rao metric and Fubini-Study metrics, allowing a distinction between different contributions to the quantum distance. The imaginary part of the QGT is proportional to the weighted summation of the Berry curvatures, which leads to a geometric phase for mixed states under certain conditions. We present three examples of different dimensions to illustrate the temperature dependence of the QGT and a discussion on possible implications. | 翻訳日:2024-03-12 17:56:07 公開日:2024-03-11 |
# 連続点波計測と生成AIによるグリッドモニタリングと保護 Grid Monitoring and Protection with Continuous Point-on-Wave Measurements and Generative AI ( http://arxiv.org/abs/2403.06942v1 ) ライセンス: Link先を確認 | Lang Tong, Xinyi Wang, Qing Zhao | (参考訳) 本稿は, 次世代グリッド監視制御システムにおいて, 生成人工知能(AI), 機械学習, 統計的推論の最近の進歩を活用した事例である。
監視制御とデータ取得(SCADA)とシンクロファクタ技術に基づいて構築された広域監視システムの初期世代を超えて、我々は、AIによるデータ圧縮と故障検出による連続点波計測(CPOW)のストリーミングに基づく監視と制御のフレームワークを論じる。
方法と結果: 提案された設計のアーキテクチャは、定常ランダム過程を独立かつ同一の分散ランダム変数を持つ革新シーケンスに変換するランダムプロセスのウィナー・カリアンプルの革新表現に由来する。
この研究は、生成的AIアプローチを示します。
(i)cpow時系列からイノベーションシーケンスを抽出するイノベーションオートエンコーダを学習する。
(ii)イノベーションオートエンコーダとサブバンド符号化でcpowストリーミングデータを圧縮する。
3)非パラメトリックシーケンシャル仮説テストにより未知の欠陥や新しい傾向を検出する。
結論: 本研究は, 従来のSCADAとPMU技術を用いたモニタリングが, インバータベースの再生可能世代と分散エネルギー資源を深く浸透させた将来のグリッドに不適合であると主張している。
CPOWデータストリーミングとAIデータ分析に基づく監視システムは、非常にダイナミックな未来グリッドの状況認識のための基本的なビルディングブロックであるべきです。 Purpose This article presents a case for a next-generation grid monitoring and control system, leveraging recent advances in generative artificial intelligence (AI), machine learning, and statistical inference. Advancing beyond earlier generations of wide-area monitoring systems built upon supervisory control and data acquisition (SCADA) and synchrophasor technologies, we argue for a monitoring and control framework based on the streaming of continuous point-on-wave (CPOW) measurements with AI-powered data compression and fault detection. Methods and Results: The architecture of the proposed design originates from the Wiener-Kallianpur innovation representation of a random process that transforms causally a stationary random process into an innovation sequence with independent and identically distributed random variables. This work presents a generative AI approach that (i) learns an innovation autoencoder that extracts innovation sequence from CPOW time series, (ii) compresses the CPOW streaming data with innovation autoencoder and subband coding, and (iii) detects unknown faults and novel trends via nonparametric sequential hypothesis testing. Conclusion: This work argues that conventional monitoring using SCADA and phasor measurement unit (PMU) technologies is ill-suited for a future grid with deep penetration of inverter-based renewable generations and distributed energy resources. A monitoring system based on CPOW data streaming and AI data analytics should be the basic building blocks for situational awareness of a highly dynamic future grid. | 翻訳日:2024-03-12 17:55:50 公開日:2024-03-11 |
# マイクロサービスアプリケーションのための静的解析アーキテクチャリカバリツールの比較 Comparison of Static Analysis Architecture Recovery Tools for Microservice Applications ( http://arxiv.org/abs/2403.06941v1 ) ライセンス: Link先を確認 | Simon Schneider, Alexander Bakhtin, Xiaozhou Li, Jacopo Soldani, Antonio Brogi, Tomas Cerny, Riccardo Scandariato, Davide Taibi | (参考訳) アーキテクチャ回復ツールは、ソフトウェア開発ライフサイクルのすべてのフェーズにおいて、ソフトウェアエンジニアがソフトウェアシステムの概要を得るのに役立つ。
マイクロサービスアプリケーションにとって特に重要なのは、その分散性によってアーキテクチャの監視がより困難になるからだ。
この作業のための様々なツールや技術が学術文献や灰色文献で紹介されている。
実践者や研究者は、これらのツールとその能力の包括的概要から恩恵を受けることができる。
しかし、特定したツールの実行と有効性に関するアウトプットの評価に基づく、そのような概要は存在しない。
本稿では,まず,マイクロサービスアプリケーションのための静的解析アーキテクチャリカバリツールをマルチボーカル文献レビューを通じて識別し,それを共通データセット上で実行し,アーキテクチャリカバリにおける測定有効性を比較する。
速いペースのCI/CDパイプラインとの統合にも適しているため、静的アプローチに注力します。 Architecture recovery tools help software engineers obtain an overview of their software systems during all phases of the software development lifecycle. This is especially important for microservice applications because their distributed nature makes it more challenging to oversee the architecture. Various tools and techniques for this task are presented in academic and grey literature sources. Practitioners and researchers can benefit from a comprehensive overview of these tools and their abilities. However, no such overview exists that is based on executing the identified tools and assessing their outputs regarding effectiveness. With the study described in this paper, we plan to first identify static analysis architecture recovery tools for microservice applications via a multi-vocal literature review, and then execute them on a common dataset and compare the measured effectiveness in architecture recovery. We will focus on static approaches because they are also suitable for integration into fast-paced CI/CD pipelines. | 翻訳日:2024-03-12 17:55:28 公開日:2024-03-11 |
# 条件付きスコアベース拡散モデルによる皮質厚み軌道予測 Conditional Score-Based Diffusion Model for Cortical Thickness Trajectory Prediction ( http://arxiv.org/abs/2403.06940v1 ) ライセンス: Link先を確認 | Qing Xiao, Siyeop Yoon, Hui Ren, Matthew Tivnan, Lichao Sun, Quanzheng Li, Tianming Liu, Yu Zhang, and Xiang Li | (参考訳) アルツハイマー病(英語: Alzheimer's Disease, AD)は、脳皮質の厚み(CTh)の変化が進行と密接に関連していることが特徴である。
CTh軌道の正確な予測は、早期診断と介入戦略を大幅に強化し、タイムリーなケアを提供する。
しかし、これらの研究に必要な縦断データは、しばしば時間的スパースと不完全さに苦しめられ、疾患の進行を正確にモデル化する上で大きな課題を呈している。
既存のメソッドは限定的であり、主にエントリの欠如やcthの進行に関する事前定義された仮定を必要とするデータセットに焦点を当てている。
これらの障害を克服するために,年齢,性別,初期診断などの基準情報を用いてCThトラジェクトリを生成するための条件付きスコアベース拡散モデルを提案する。
条件拡散モデルでは,トレーニング段階で利用可能なデータをすべて活用し,cth進行の履歴を必要とせず,推論中のベースライン情報のみに基づいて予測を行う。
認知正常,軽度認知障害,AD被験者からなるサブグループを対象に,条件付きスコアベースモデルを用いたCTh予測パイプラインの予測精度を比較した。
Bland-Altman 解析により,拡散に基づく予測モデルは6~36ヶ月のCThに比べて95%の内包間隔が狭いほぼゼロの偏りを持つことが示された。
さらに, 条件拡散モデルには確率的生成特性があり, 複数の実現を通して患者固有のCTh予測の不確かさを実証した。 Alzheimer's Disease (AD) is a neurodegenerative condition characterized by diverse progression rates among individuals, with changes in cortical thickness (CTh) closely linked to its progression. Accurately forecasting CTh trajectories can significantly enhance early diagnosis and intervention strategies, providing timely care. However, the longitudinal data essential for these studies often suffer from temporal sparsity and incompleteness, presenting substantial challenges in modeling the disease's progression accurately. Existing methods are limited, focusing primarily on datasets without missing entries or requiring predefined assumptions about CTh progression. To overcome these obstacles, we propose a conditional score-based diffusion model specifically designed to generate CTh trajectories with the given baseline information, such as age, sex, and initial diagnosis. Our conditional diffusion model utilizes all available data during the training phase to make predictions based solely on baseline information during inference without needing prior history about CTh progression. The prediction accuracy of the proposed CTh prediction pipeline using a conditional score-based model was compared for sub-groups consisting of cognitively normal, mild cognitive impairment, and AD subjects. The Bland-Altman analysis shows our diffusion-based prediction model has a near-zero bias with narrow 95% confidential interval compared to the ground-truth CTh in 6-36 months. In addition, our conditional diffusion model has a stochastic generative nature, therefore, we demonstrated an uncertainty analysis of patient-specific CTh prediction through multiple realizations. | 翻訳日:2024-03-12 17:55:13 公開日:2024-03-11 |
# 分散コンピューティングの量子ユニタリ進化 Distributed computing quantum unitary evolution ( http://arxiv.org/abs/2403.06937v1 ) ライセンス: Link先を確認 | Hui-hui Miao, Yuri Igorevich Ozhigov | (参考訳) 複雑な量子システムモデリングによって引き起こされる次元の呪いを解決するための分散コンピューティング手法について論じる。
キャノンのアルゴリズムの助けを借りて、量子ユニタリ進化をシミュレートする数値法の分散計算変換を実現する。
Tavis-Cummingsモデルに基づいて、スーパーコンピュータプラットフォーム上に実装された高次元量子クローズドシステムを得るために、光学キャビティに多数の原子を付加する。
異なる分散コンピューティング戦略の時間的コストと高速化の比較について論じる。 A distributed computing approach to solve the curse of dimensionality, caused by the complex quantum system modeling, is discussed. With the help of Cannon's algorithm, the distributed computing transformation of numerical method for simulating quantum unitary evolution is achieved. Based on the Tavis-Cummings model, a large number of atoms are added into the optical cavity to obtain a high-dimensional quantum closed system, implemented on the supercomputer platform. The comparison of time cost and speedup of different distributed computing strategies is discussed. | 翻訳日:2024-03-12 17:54:45 公開日:2024-03-11 |
# 知識グラフ埋め込みによる反実的推論 Counterfactual Reasoning with Knowledge Graph Embeddings ( http://arxiv.org/abs/2403.06936v1 ) ライセンス: Link先を確認 | Lena Zellinger, Andreas Stephan, Benjamin Roth | (参考訳) ナレッジグラフ埋め込み(kges)は、元々は、不完全な知識リポジトリの事実を推測するために開発された。
本稿では,知識グラフの補完と,新たなタスクCFKGRによる反実的推論をリンクする。
我々は、元の世界の状態を知識グラフとしてモデル化し、仮説的なシナリオをグラフに追加したエッジとして、論理ルールからの推論としてグラフに実証可能な変化をモデル化する。
対応するベンチマークデータセットを作成し、元の知識グラフと保持すべき事実に対して、妥当な変更を伴う様々な仮説シナリオを含む。
我々は,仮説的な前提で既存の知識グラフ埋め込みを適応させる汎用手法であるCOULDDを開発し,ベンチマークで評価する。
この結果から,KGEは明示的な学習をすることなく,グラフ内のパターンを学習できることがわかった。
さらに、COULDDに適応したKGEが、これらのパターンに従うグラフに対する妥当な反事実変化を確実に検出する。
人間の注釈付きデータに対する評価では、学習した推論ルールに従わないグラフの変更をほとんど認識できないことが判明した。
対照的に、ChatGPTはグラフのもっともらしい変化を検出するのにKGEよりも優れているが、知識の保持は乏しい。
まとめると、CFKGR は KG の完備化と反実理化という、2つの既約領域を接続する。 Knowledge graph embeddings (KGEs) were originally developed to infer true but missing facts in incomplete knowledge repositories. In this paper, we link knowledge graph completion and counterfactual reasoning via our new task CFKGR. We model the original world state as a knowledge graph, hypothetical scenarios as edges added to the graph, and plausible changes to the graph as inferences from logical rules. We create corresponding benchmark datasets, which contain diverse hypothetical scenarios with plausible changes to the original knowledge graph and facts that should be retained. We develop COULDD, a general method for adapting existing knowledge graph embeddings given a hypothetical premise, and evaluate it on our benchmark. Our results indicate that KGEs learn patterns in the graph without explicit training. We further observe that KGEs adapted with COULDD solidly detect plausible counterfactual changes to the graph that follow these patterns. An evaluation on human-annotated data reveals that KGEs adapted with COULDD are mostly unable to recognize changes to the graph that do not follow learned inference rules. In contrast, ChatGPT mostly outperforms KGEs in detecting plausible changes to the graph but has poor knowledge retention. In summary, CFKGR connects two previously distinct areas, namely KG completion and counterfactual reasoning. | 翻訳日:2024-03-12 17:54:37 公開日:2024-03-11 |
# 人間とLLMにおける視覚オブジェクトの命名・記述・定量化 Naming, Describing, and Quantifying Visual Objects in Humans and LLMs ( http://arxiv.org/abs/2403.06935v1 ) ライセンス: Link先を確認 | Alberto Testoni, Juell Sprott, Sandro Pezzelle | (参考訳) 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のVision \&Language Large Language Models(VLLM)がこの言語使用の重要な特徴を模倣できる範囲はオープンな問題である。
これは一般的な日常のオブジェクトにも当てはまるが、カテゴリラベルが欠如したりファジィになったりする珍しいオブジェクトや新しいオブジェクトには特に興味深い。
さらに、人間は「few」や「most」といった、文脈に敏感な表現に対する明確な生産嗜好を示す。
本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて評価した。
これらの結果から,VLLMが人間の命名選好を捉えていることを示すとともに,量化器の割り当てなどの高レベルな推論を必要とするタスクにおいて,全てのモデルが失敗することを示す。 While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision \& Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, humans show clear production preferences for highly context-sensitive expressions, such as the quantifiers `few' or `most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences, with all models failing in tasks that require high-level reasoning such as assigning quantifiers. | 翻訳日:2024-03-12 17:54:14 公開日:2024-03-11 |
# ERA-CoT:エンティティ関係解析による整合性の向上 ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis ( http://arxiv.org/abs/2403.06932v1 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Tianyu Du, Jianwei Yin, Weihao Liu, Xuhong Zhang | (参考訳) 大規模言語モデル(llm)は、様々な自然言語処理タスクで賞賛に値する成果を達成している。
しかし、複数のエンティティを含む複雑なシナリオを扱う場合、llmは依然として重大な課題に直面する。
これらの課題は、多段階の推論を必要とする暗黙的な関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることでLLMの文脈理解を支援する新しいアプローチであるERA-CoTを提案し,CoT(Chain-of-Thoughts)による多様なタスクの推論を支援する。
実験結果から,従来のSOTAベースラインに比べてGPT3.5平均5.1\%の大幅な改善を実現し,提案手法の優れた性能を示した。
分析の結果,ERA-CoT は LLM の実体関係の理解を高め,質問応答の精度を大幅に向上させ,LLM の推論能力を高めることが示唆された。 Large language models (LLMs) have achieved commendable accomplishments in various natural language processing tasks. However, LLMs still encounter significant challenges when dealing with complex scenarios involving multiple entities. These challenges arise from the presence of implicit relationships that demand multi-step reasoning. In this paper, we propose a novel approach ERA-CoT, which aids LLMs in understanding context by capturing relationships between entities and supports the reasoning of diverse tasks through Chain-of-Thoughts (CoT). Experimental results show that ERA-CoT demonstrates the superior performance of our proposed method compared to current CoT prompting methods, achieving a significant improvement of an average of 5.1\% on GPT3.5 compared to previous SOTA baselines. Our analysis indicates that ERA-CoT increases the LLM's understanding of entity relationships, significantly improves the accuracy of question answering, and enhances the reasoning ability of LLMs. | 翻訳日:2024-03-12 17:53:45 公開日:2024-03-11 |
# 低感度関数学習のための変圧器の単純バイアス Simplicity Bias of Transformers to Learn Low Sensitivity Functions ( http://arxiv.org/abs/2403.06925v1 ) ライセンス: Link先を確認 | Bhavya Vasudeva, Deqing Fu, Tianyi Zhou, Elliott Kau, Youqi Huang, Vatsal Sharan | (参考訳) トランスフォーマーは多くのタスクにおいて最先端の精度と堅牢性を達成するが、それらが持つ帰納的バイアスと、それらのバイアスが他のニューラルネットワークアーキテクチャとどのように異なるかを理解することは、まだ解明されていない。
完全連結ネットワークのような様々なニューラルネットワークアーキテクチャは、データの単純な関数に対する単純バイアスを持つことが分かっており、この単純バイアスの1つのバージョンは、フーリエ空間で単純な関数を学ぶためのスペクトルバイアスである。
本研究では,入力のランダムな変化に対するモデルの感度の概念を,データモダリティの異なるトランスフォーマーの単純さとスペクトルバイアスを説明するための統一された指標である単純度バイアスの概念として同定する。
我々は、トランスフォーマーが視覚と言語の両方でLSTM、MLP、CNNなどの代替アーキテクチャよりも感度が低いことを示す。
また,低感度バイアスは頑健性の向上と相関することを示すとともに,変圧器の頑健性向上のための効果的な介入として利用することもできる。 Transformers achieve state-of-the-art accuracy and robustness across many tasks, but an understanding of the inductive biases that they have and how those biases are different from other neural network architectures remains elusive. Various neural network architectures such as fully connected networks have been found to have a simplicity bias towards simple functions of the data; one version of this simplicity bias is a spectral bias to learn simple functions in the Fourier space. In this work, we identify the notion of sensitivity of the model to random changes in the input as a notion of simplicity bias which provides a unified metric to explain the simplicity and spectral bias of transformers across different data modalities. We show that transformers have lower sensitivity than alternative architectures, such as LSTMs, MLPs and CNNs, across both vision and language tasks. We also show that low-sensitivity bias correlates with improved robustness; furthermore, it can also be used as an efficient intervention to further improve the robustness of transformers. | 翻訳日:2024-03-12 17:53:30 公開日:2024-03-11 |
# ソニックおよびフェルミオン貯水池の量子輸送に対するリウヴィル空間の統一ダイアグラム的アプローチ A unified diagrammatic approach in Liouville space to quantum transport for bosonic and fermionic reservoirs ( http://arxiv.org/abs/2403.06923v1 ) ライセンス: Link先を確認 | L. Magazz\`u, E. Paladino, M. Grifoni | (参考訳) 我々は、リウヴィル空間のマスター方程式形式に基づく量子輸送に対する図式的アプローチを示す。
一般多層接合とボソニックあるいはフェルミオンの貯水池に結合する一般多層接合における線形および非線形輸送に適用でき、貯水池とジャンクションの結合の強さに便利な摂動膨張を与える。
レッドフィールド理論は二階に復元され、部分的および完全な世俗的マスター方程式が議論される。
スピン-ボソンモデルにおける低温熱伝導の既知式を多層系に一般化する定常ボソン輸送に対して,解析的近似式を最大4次に設定する。
この形式性は量子ラビモデルによってモデル化された量子共振子接合における熱輸送問題に適用される。
非自明なトランスポート機能は、qubit-oscillatorのデチューニングと結合強度の相互作用の結果生じる。
準縮退スペクトルでは、非有界な定常コヒーレンスが熱伝導率の抑制を引き起こす。 We present a diagrammatic approach to quantum transport based on a master equation formalism in Liouville space. It can be applied to linear and nonlinear transport in generic multi-level junctions coupled to bosonic or fermionic reservoirs and presents a convenient perturbation expansion in the strength of the coupling between the reservoirs and the junction. The Redfield theory is recovered at second order, with the partial and full secular master equations discussed. Analytical, approximate expressions are provided up to fourth order for the steady-state boson transport that generalize to multi-level systems the known formula for the low-temperature thermal conductance in the spin-boson model. The formalism is applied to the problem of heat transport in a qubit-resonator junction modeled by the quantum Rabi model. Nontrivial transport features emerge as a result of the interplay between the qubit-oscillator detuning and coupling strength. For quasi-degenerate spectra, nonvanishing steady-state coherences cause a suppression of the thermal conductance. | 翻訳日:2024-03-12 17:53:12 公開日:2024-03-11 |
# MEND: 効果的なインコンテキスト学習のためのメタdEmonstratioN蒸留 MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning ( http://arxiv.org/abs/2403.06914v1 ) ライセンス: Link先を確認 | Yichuan Li, Xiyao Ma, Sixing Lu, Kyumin Lee, Xiaohu Liu, Chenlei Guo | (参考訳) 大規模言語モデル(llm)は、いくつかの入出力ペア(デーモンストレーション)とともに、llmが与えられたテスト入力の予測を行う、印象的なインコンテキスト学習(icl)能力を示している。
それでも、デモを含めることで、自己認識機構の計算オーバーヘッドが2次的に増加する。
既存の解は、長いデモをコンパクトベクトルに蒸留しようとする。
しかし、それらはしばしばタスク固有のリトレーニングやllmのコンテキスト内学習性能の妥協を必要とする。
これらの課題を緩和するために、言語モデルが新しい下流タスクをリトレーニングすることなく、長いデモをベクトルに蒸留することを学ぶメタデモ蒸留(mend)を提案する。
MEND と LLM のアライメントを高めるために知識蒸留を活用し,効率と有効性を両立させる。
MENDには、メタ蒸留前訓練と微調整を含む2段階のトレーニングプロセスを通じて、蒸留実験のメタ知識が与えられている。
Decoder-only (GPT-2) と encoder-decoder (T5) を用いて、7つの多様な ICL タスクパーティションの総合評価を行った。
マッチするだけでなく、しばしばバニラICLや最先端の蒸留モデルよりも優れ、計算要求を大幅に減少させる。
この革新は、大規模言語モデルの実践的展開のための拡張スケーラビリティと効率を約束する Large Language models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities, where a LLM makes predictions for a given test input together with a few input-output pairs (demonstrations). Nevertheless, the inclusion of demonstrations leads to a quadratic increase in the computational overhead of the self-attention mechanism. Existing solutions attempt to distill lengthy demonstrations into compact vectors. However, they often require task-specific retraining or compromise LLM's in-context learning performance. To mitigate these challenges, we present Meta dEmonstratioN Distillation (MEND), where a language model learns to distill any lengthy demonstrations into vectors without retraining for a new downstream task. We exploit the knowledge distillation to enhance alignment between MEND and LLM, achieving both efficiency and effectiveness simultaneously. MEND is endowed with the meta-knowledge of distilling demonstrations through a two-stage training process, which includes meta-distillation pretraining and fine-tuning. Comprehensive evaluations across seven diverse ICL task partitions using decoder-only (GPT-2) and encoder-decoder (T5) attest to MEND's prowess. It not only matches but often outperforms the Vanilla ICL as well as other state-of-the-art distillation models, while significantly reducing the computational demands. This innovation promises enhanced scalability and efficiency for the practical deployment of large language models | 翻訳日:2024-03-12 17:52:57 公開日:2024-03-11 |
# Attention Prompt Tuning:時空間モデリングのための事前学習モデルのパラメータ効率適応 Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained Models for Spatiotemporal Modeling ( http://arxiv.org/abs/2403.06978v1 ) ライセンス: Link先を確認 | Wele Gedara Chaminda Bandara and Vishal M. Patel | (参考訳) 本稿では,アクション認識などのビデオベースアプリケーションのためのプロンプトチューニングの計算効率のよい変種であるAttention Prompt Tuning (APT)を紹介する。
プロンプトチューニングアプローチでは、バックボーンの凍結を維持しながら微調整中に、学習可能なプロンプトとデータトークンのセットを注入する。
このアプローチは完全なチューニングに比べて学習可能なパラメータの数を大幅に削減する。
イメージベースのダウンストリームタスクの場合、通常、学習可能なプロンプトがフルチューニングのタスクに近い結果を得る。
しかし、より複雑な時空間情報を含むビデオは、合理的に良い結果を得るために数百の調整可能なプロンプトを必要とする。
これにより、画像で観察されるパラメータ効率を低減し、推論中のレイテンシと浮動小数点演算(FLOP)の数を大幅に増加させる。
これらの問題に対処するために,変圧器ブロック内の非局所注意機構のキーと値に直接プロンプトを注入する。
さらに,APTをハイパーパラメータ選択に対してより堅牢にするための新しいプロンプト再パラメータ化手法を提案する。
提案手法は,動作認識のための既存のパラメータ効率チューニング手法であるUCF101, HMDB51, SSv2データセットに対して, FLOPとレイテンシを大幅に削減する。
コードと事前訓練されたモデルはhttps://github.com/wgcban/aptで入手できる。 In this paper, we introduce Attention Prompt Tuning (APT) - a computationally efficient variant of prompt tuning for video-based applications such as action recognition. Prompt tuning approaches involve injecting a set of learnable prompts along with data tokens during fine-tuning while keeping the backbone frozen. This approach greatly reduces the number of learnable parameters compared to full tuning. For image-based downstream tasks, normally a couple of learnable prompts achieve results close to those of full tuning. However, videos, which contain more complex spatiotemporal information, require hundreds of tunable prompts to achieve reasonably good results. This reduces the parameter efficiency observed in images and significantly increases latency and the number of floating-point operations (FLOPs) during inference. To tackle these issues, we directly inject the prompts into the keys and values of the non-local attention mechanism within the transformer block. Additionally, we introduce a novel prompt reparameterization technique to make APT more robust against hyperparameter selection. The proposed APT approach greatly reduces the number of FLOPs and latency while achieving a significant performance boost over the existing parameter-efficient tuning methods on UCF101, HMDB51, and SSv2 datasets for action recognition. The code and pre-trained models are available at https://github.com/wgcban/apt | 翻訳日:2024-03-12 17:48:57 公開日:2024-03-11 |
# videomamba: 効率的なビデオ理解のための状態空間モデル VideoMamba: State Space Model for Efficient Video Understanding ( http://arxiv.org/abs/2403.06977v1 ) ライセンス: Link先を確認 | Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, and Yu Qiao | (参考訳) ローカル冗長性とビデオ理解におけるグローバル依存という2つの課題に対処するため、この作業は、mambaをビデオドメインに革新的に適応させる。
提案するビデオマンバは、既存の3d畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、高解像度の長時間ビデオ理解に欠かせない効率的な長期モデリングを可能にする。
ビデオマンバの4つのコア能力は,(1)新しい自己蒸留技術により,データセットの事前学習を行わない視覚領域のスケーラビリティ,(2)細粒度の動きの違いでも短時間動作を認識する感度,(3)長期ビデオ理解の優位性,従来の機能ベースモデルに対する著しい進歩,(4)他との互換性,マルチモーダルコンテキストにおけるロバスト性を示すこと,の4つである。
これらの異なる利点により、VideoMambaはビデオ理解のための新しいベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供する。
すべてのコードとモデルはhttps://github.com/OpenGVLab/VideoMamba.comで入手できる。 Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks and video transformers. Its linear-complexity operator enables efficient long-term modeling, which is crucial for high-resolution long video understanding. Extensive evaluations reveal VideoMamba's four core abilities: (1) Scalability in the visual domain without extensive dataset pretraining, thanks to a novel self-distillation technique; (2) Sensitivity for recognizing short-term actions even with fine-grained motion differences; (3) Superiority in long-term video understanding, showcasing significant advancements over traditional feature-based models; and (4) Compatibility with other modalities, demonstrating robustness in multi-modal contexts. Through these distinct advantages, VideoMamba sets a new benchmark for video understanding, offering a scalable and efficient solution for comprehensive video understanding. All the code and models are available at https://github.com/OpenGVLab/VideoMamba. | 翻訳日:2024-03-12 17:48:37 公開日:2024-03-11 |
# BrushNet: 2分岐拡散を分解したプラグ・アンド・プレイ画像の塗装モデル BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion ( http://arxiv.org/abs/2403.06976v1 ) ライセンス: Link先を確認 | Xuan Ju, Xian Liu, Xintao Wang, Yuxuan Bian, Ying Shan, Qiang Xu | (参考訳) 劣化した画像の復元過程である画像の塗布は拡散モデル(DM)の出現とともに大きな進歩を遂げた。
これらの進歩にもかかわらず、現在のインパインティングのDM適応はサンプリング戦略の変更やインパインティング固有のDMの開発を含んでおり、しばしば意味的不整合と画像品質の低下に悩まされている。
マスクされた画像の特徴とノイズの多い潜伏を別々の枝に分割するという新しいパラダイムを導入しました。
この分割はモデルの学習負荷を劇的に減少させ、階層的な方法で必須マスキング画像情報のニュアンス化を促進する。
本稿では,画素レベルのマスク付き画像特徴を事前訓練されたDMに埋め込むために設計された,新しいプラグアンドプレイデュアルブランチモデルであるBrushNetについて述べる。
さらに,BushData と BrushBench を導入し,セグメンテーションベースのインペイントトレーニングと性能評価を容易にする。
画像品質,マスク領域の保存,テキストのコヒーレンスといった7つの主要な指標において,既存のモデルよりもブラッシングネットの優れた性能を示す。 Image inpainting, the process of restoring corrupted images, has seen significant advancements with the advent of diffusion models (DMs). Despite these advancements, current DM adaptations for inpainting, which involve modifications to the sampling strategy or the development of inpainting-specific DMs, frequently suffer from semantic inconsistencies and reduced image quality. Addressing these challenges, our work introduces a novel paradigm: the division of masked image features and noisy latent into separate branches. This division dramatically diminishes the model's learning load, facilitating a nuanced incorporation of essential masked image information in a hierarchical fashion. Herein, we present BrushNet, a novel plug-and-play dual-branch model engineered to embed pixel-level masked image features into any pre-trained DM, guaranteeing coherent and enhanced image inpainting outcomes. Additionally, we introduce BrushData and BrushBench to facilitate segmentation-based inpainting training and performance assessment. Our extensive experimental analysis demonstrates BrushNet's superior performance over existing models across seven key metrics, including image quality, mask region preservation, and textual coherence. | 翻訳日:2024-03-12 17:48:12 公開日:2024-03-11 |
# オンライン3dシーン知覚のためのメモリベースアダプタ Memory-based Adapters for Online 3D Scene Perception ( http://arxiv.org/abs/2403.06974v1 ) ライセンス: Link先を確認 | Xiuwei Xu and Chong Xia and Ziwei Wang and Linqing Zhao and Yueqi Duan and Jie Zhou and Jiwen Lu | (参考訳) 本稿では,オンライン3次元シーン知覚のための新しいフレームワークを提案する。
従来の3dシーン知覚手法は、既に再構成済みの3dシーン幾何を入力としてオフラインである。これは、予め収集されたrgb-dビデオから再構成された完全な3dシーンではなく、入力データがrgb-dビデオをストリーミングしているロボットアプリケーションでは適用できない。
データ収集と知覚を同時に行うオンライン3Dシーン認識タスクに対処するために、モデルはフレーム単位で3Dシーンを処理し、時間情報を利用する必要がある。
そこで,我々は,抽出したrgb-d機能をキャッシュして集約するメモリを構築する3dシーン知覚モデルのバックボーンのためのアダプタベースのプラグ・アンド・プレイモジュールを提案する。
具体的には,サポートポイントクラウドと画像特徴をキャッシュする待ち行列メモリ機構を提案する。
次に,メモリ上で直接実行されるアグリゲーションモジュールを考案し,時間情報を現在のフレームに渡す。
さらに,強力なグローバルコンテキストで画像特徴を向上する3D-to-2Dアダプタを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入することができます。
scannetとscenennデータセットに関する広範囲な実験により,既存のオフラインモデルをモデルやタスク固有の設計なしで微調整することによって,3つの3次元シーン知覚タスクにおいて,最先端のオンライン手法と比較して,先行的なパフォーマンスを実現することができた。
https://xuxw98.github.io/Online3D/}{Project page} In this paper, we propose a new framework for online 3D scene perception. Conventional 3D scene perception methods are offline, i.e., take an already reconstructed 3D scene geometry as input, which is not applicable in robotic applications where the input data is streaming RGB-D videos rather than a complete 3D scene reconstructed from pre-collected RGB-D videos. To deal with online 3D scene perception tasks where data collection and perception should be performed simultaneously, the model should be able to process 3D scenes frame by frame and make use of the temporal information. To this end, we propose an adapter-based plug-and-play module for the backbone of 3D scene perception model, which constructs memory to cache and aggregate the extracted RGB-D features to empower offline models with temporal learning ability. Specifically, we propose a queued memory mechanism to cache the supporting point cloud and image features. Then we devise aggregation modules which directly perform on the memory and pass temporal information to current frame. We further propose 3D-to-2D adapter to enhance image features with strong global context. Our adapters can be easily inserted into mainstream offline architectures of different tasks and significantly boost their performance on online tasks. Extensive experiments on ScanNet and SceneNN datasets demonstrate our approach achieves leading performance on three 3D scene perception tasks compared with state-of-the-art online methods by simply finetuning existing offline models, without any model and task-specific designs. \href{https://xuxw98.github.io/Online3D/}{Project page}. | 翻訳日:2024-03-12 17:47:51 公開日:2024-03-11 |
# 3次元形状再構成のためのベイズ拡散モデル Bayesian Diffusion Models for 3D Shape Reconstruction ( http://arxiv.org/abs/2403.06973v1 ) ライセンス: Link先を確認 | Haiyang Xu, Yu Lei, Zeyuan Chen, Xiang Zhang, Yue Zhao, Yilin Wang, Zhuowen Tu | (参考訳) 本稿では,トップダウン(優先)情報とボトムアップ(データ駆動)手続きを結合した予測アルゴリズムであるベイズ拡散モデル(bdm)を提案する。
3次元形状復元作業におけるBDMの有効性を示す。
ペア化された(教師付き)データラベル(イメージポイントクラウドなど)データセットでトレーニングされたプロトタイプのディープラーニングデータ駆動アプローチと比較して、私たちのBDMは、ボトムアップ3D再構築を改善するためにスタンドアロンラベル(ポイントクラウドなど)から豊富な事前情報をもたらします。
推論に明確な事前と可能性を必要とする標準的なベイズフレームワークとは対照的に、BDMは学習した勾配計算ネットワークと結合した拡散過程を介してシームレスな情報融合を行う。
当社のBDMの特長は、それぞれが拡散プロセスであるトップダウンおよびボトムアッププロセスのアクティブかつ効果的な情報交換と融合を行う能力にある。
我々は3次元形状復元のための合成および実世界のベンチマークで最先端の結果を示す。 We present Bayesian Diffusion Models (BDM), a prediction algorithm that performs effective Bayesian inference by tightly coupling the top-down (prior) information with the bottom-up (data-driven) procedure via joint diffusion processes. We show the effectiveness of BDM on the 3D shape reconstruction task. Compared to prototypical deep learning data-driven approaches trained on paired (supervised) data-labels (e.g. image-point clouds) datasets, our BDM brings in rich prior information from standalone labels (e.g. point clouds) to improve the bottom-up 3D reconstruction. As opposed to the standard Bayesian frameworks where explicit prior and likelihood are required for the inference, BDM performs seamless information fusion via coupled diffusion processes with learned gradient computation networks. The specialty of our BDM lies in its capability to engage the active and effective information exchange and fusion of the top-down and bottom-up processes where each itself is a diffusion process. We demonstrate state-of-the-art results on both synthetic and real-world benchmarks for 3D shape reconstruction. | 翻訳日:2024-03-12 17:47:23 公開日:2024-03-11 |
# 予測タスクのクラスのための表現学習ゲーム A representation-learning game for classes of prediction tasks ( http://arxiv.org/abs/2403.06971v1 ) ライセンス: Link先を確認 | Neria Uzan and Nir Weinberger | (参考訳) 本研究では,将来の予測課題に対する事前知識しか得られない場合,特徴ベクトルの次元性表現を学習するためのゲームベースの定式化を提案する。
このゲームでは、第1のプレイヤーが表現を選択し、次に第2のプレイヤーが所定のクラスから予測タスクを選択し、先行知識を表す。
第1のプレイヤーは、最小化することを目的としており、第2のプレイヤーが最大化することを目的としている。
予測と予測に対する応答が全て線形関数であり、平均二乗誤差損失関数の下では、事前知識の有効性を示す純粋戦略における理論的に最適表現と、その表現をランダム化する有用性を示す混合戦略における最適後悔を導出する。
一般表現と損失関数に対して,ランダム化表現を最適化する効率的なアルゴリズムを提案する。
このアルゴリズムは損失関数の勾配のみを必要とし、そのような規則の混合に漸進的に表現規則を追加することに基づいている。 We propose a game-based formulation for learning dimensionality-reducing representations of feature vectors, when only a prior knowledge on future prediction tasks is available. In this game, the first player chooses a representation, and then the second player adversarially chooses a prediction task from a given class, representing the prior knowledge. The first player aims is to minimize, and the second player to maximize, the regret: The minimal prediction loss using the representation, compared to the same loss using the original features. For the canonical setting in which the representation, the response to predict and the predictors are all linear functions, and under the mean squared error loss function, we derive the theoretically optimal representation in pure strategies, which shows the effectiveness of the prior knowledge, and the optimal regret in mixed strategies, which shows the usefulness of randomizing the representation. For general representations and loss functions, we propose an efficient algorithm to optimize a randomized representation. The algorithm only requires the gradients of the loss function, and is based on incrementally adding a representation rule to a mixture of such rules. | 翻訳日:2024-03-12 17:47:02 公開日:2024-03-11 |
# 涙のないMRL解析 : ヘブライ語の場合 MRL Parsing Without Tears: The Case of Hebrew ( http://arxiv.org/abs/2403.06970v1 ) ライセンス: Link先を確認 | Shaltiel Shmidman, Avi Shmidman, Moshe Koppel, Reut Tsarfaty | (参考訳) 構文解析は関係抽出や情報抽出にとって重要なツールであり、特にLLMが欠落している資源に乏しい言語ではなお重要である。
しかし、各トークン内の複数の語彙単位をパーサが識別する必要がある形態学的にリッチな言語(MRL)では、既存のシステムはレイテンシとセットアップの複雑さに悩まされる。
まず、セグメンテーション、次に形態素タグ付け、そして構文解析である。しかし、以前のレイヤのエラーは、前方に伝播する。
他のアーキテクチャでは、すべての置換を一度に評価するためにジョイントアーキテクチャを使用するが、精度は向上するが、明らかに遅い。
それとは対照的に、ヘブライ語をテストケースとして、私たちは新しい"フリップパイプライン(flipped pipeline)"を提示します。
分類器は互いに独立しており、最後にはそれらの予測を合成する。
この驚くほど高速なアプローチは、ヘブライのPOSタグ付けと依存性解析に新たなSOTAを設定し、他のヘブライのNLPタスクではほぼSOTAのパフォーマンスを実現している。
我々のアーキテクチャは言語固有のリソースに依存しないので、他のMRLと同様のパーサを開発するモデルとして機能する。 Syntactic parsing remains a critical tool for relation extraction and information extraction, especially in resource-scarce languages where LLMs are lacking. Yet in morphologically rich languages (MRLs), where parsers need to identify multiple lexical units in each token, existing systems suffer in latency and setup complexity. Some use a pipeline to peel away the layers: first segmentation, then morphology tagging, and then syntax parsing; however, errors in earlier layers are then propagated forward. Others use a joint architecture to evaluate all permutations at once; while this improves accuracy, it is notoriously slow. In contrast, and taking Hebrew as a test case, we present a new "flipped pipeline": decisions are made directly on the whole-token units by expert classifiers, each one dedicated to one specific task. The classifiers are independent of one another, and only at the end do we synthesize their predictions. This blazingly fast approach sets a new SOTA in Hebrew POS tagging and dependency parsing, while also reaching near-SOTA performance on other Hebrew NLP tasks. Because our architecture does not rely on any language-specific resources, it can serve as a model to develop similar parsers for other MRLs. | 翻訳日:2024-03-12 17:46:42 公開日:2024-03-11 |
# カリキュラム強化学習と専門家の混合による多様なスキル獲得 Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts ( http://arxiv.org/abs/2403.06966v1 ) ライセンス: Link先を確認 | Onur Celik, Aleksandar Taranovic, Gerhard Neumann | (参考訳) 強化学習(rl)は、優れたポリシーを得るための強力なアプローチである。
しかし、多種多様なスキルの学習は、一般的に使われているガウス政策パラメータ化のため、RLでは困難である。
そこで本稿では,エキスパートのミキチャーを用いて多種多様なスキルを学習するRL法である「textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL)」を提案する。
Di-SkilLは、各専門家とその関連するコンテキスト分布を最大エントロピー目標に最適化し、同様のコンテキストにおける多様なスキルの学習にインセンティブを与える。
専門家ごとのコンテキスト分布は自動カリキュラム学習を可能にし、各専門家はコンテキスト空間の最も優れたサブリージョンに集中することができる。
環境の未知の文脈確率空間を事前に知ることなく、ハード不連続やマルチモーダルを克服するために、エネルギーベースのモデルを活用して、専門家ごとのコンテキスト分布を表現し、標準ポリシー勾配目標を用いてそれらを効率的に訓練する方法を実証する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。 Reinforcement learning (RL) is a powerful approach for acquiring a good-performing policy. However, learning diverse skills is challenging in RL due to the commonly used Gaussian policy parameterization. We propose \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL), an RL method for learning diverse skills using Mixture of Experts, where each expert formalizes a skill as a contextual motion primitive. Di-SkilL optimizes each expert and its associate context distribution to a maximum entropy objective that incentivizes learning diverse skills in similar contexts. The per-expert context distribution enables automatic curricula learning, allowing each expert to focus on its best-performing sub-region of the context space. To overcome hard discontinuities and multi-modalities without any prior knowledge of the environment's unknown context probability space, we leverage energy-based models to represent the per-expert context distributions and demonstrate how we can efficiently train them using the standard policy gradient objective. We show on challenging robot simulation tasks that Di-SkilL can learn diverse and performant skills. | 翻訳日:2024-03-12 17:46:20 公開日:2024-03-11 |
# 希少言語現象に対する人間-llmコーパスのハイブリッド構築とllm評価 Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare Linguistic Phenomena ( http://arxiv.org/abs/2403.06965v1 ) ライセンス: Link先を確認 | Leonie Weissweiler, Abdullatif K\"oksal, Hinrich Sch\"utze | (参考訳) argument Structure Constructions (ASCs) は最もよく研究されている建設グループの一つであり、コンストラクション文法(CxG)の有用性を示すユニークな機会を提供する。
例えば、引き起こされた運動構造(cmc, ‘she sneezed the foam off her cappuccino'')は、この文脈で 'sneeze' が運動を引き起こすという事実がなければ、構造が意味を持つ必要があることを示している。
我々は,現在最先端のLarge Language Models (LLMs) においても,動詞を原型的動作動詞に置き換えることに基づくテストが可能であるという仮説を定めている。
この検査を統計的に有意な規模で行うためには,適切なCxGコーパスがない場合に,言語学的に注釈付きテキストをNLPで支援する新たなパイプラインを開発する。
本稿では,依存性解析と GPT-3.5 を用いてアノテーションのコストを大幅に削減し,希少な現象のアノテーションを大規模に利用できることを示す。
新たに収集したコーパスを用いて, GPT, Gemini, Llama2 および Mistral モデルの評価を行った。
全てのモデルは、CMCが文に追加する動き成分を理解するのに苦労している。 Argument Structure Constructions (ASCs) are one of the most well-studied construction groups, providing a unique opportunity to demonstrate the usefulness of Construction Grammar (CxG). For example, the caused-motion construction (CMC, ``She sneezed the foam off her cappuccino'') demonstrates that constructions must carry meaning, otherwise the fact that ``sneeze'' in this context causes movement cannot be explained. We form the hypothesis that this remains challenging even for state-of-the-art Large Language Models (LLMs), for which we devise a test based on substituting the verb with a prototypical motion verb. To be able to perform this test at statistically significant scale, in the absence of adequate CxG corpora, we develop a novel pipeline of NLP-assisted collection of linguistically annotated text. We show how dependency parsing and GPT-3.5 can be used to significantly reduce annotation cost and thus enable the annotation of rare phenomena at scale. We then evaluate GPT, Gemini, Llama2 and Mistral models for their understanding of the CMC using the newly collected corpus. We find that all models struggle with understanding the motion component that the CMC adds to a sentence. | 翻訳日:2024-03-12 17:45:55 公開日:2024-03-11 |
# 次世代予測の落とし穴 The pitfalls of next-token prediction ( http://arxiv.org/abs/2403.06963v1 ) ライセンス: Link先を確認 | Gregor Bachmann, Vaishnavh Nagarajan | (参考訳) 人間の知性を忠実にモデル化できるのか?
我々はこの直感的な関心事を結晶化し、文献に断片化している。
出発点として,次回予測の2つの段階 - 自己回帰的推論と教師強制訓練 - を明確に扱う必要があると論じる。
自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。
この仮定は、私たちが公開するより深い根源的な問題を回避します。 タスクの特定のクラスでは、教師による強制は、そもそも、正確な次の分岐予測器を学習できないのです。
教師の強制がいかに失敗するかという一般的なメカニズムを説明し、TransformerとMambaアーキテクチャの両方がその方法で実証的に失敗する最小限の計画タスクを設計する。
複数のトークンを事前に予測するトレーニングにおいて,この障害が解決可能であることを示す予備的証拠を提供する。
この発見が将来の議論の基礎となり、次世代の予測パラダイムを超えて探究を促すことを願っている。
コードをhttps://github.com/gregorbachmann/Next-Token-Failuresで公開しています。 Can a mere next-token predictor faithfully model human intelligence? We crystallize this intuitive concern, which is fragmented in the literature. As a starting point, we argue that the two often-conflated phases of next-token prediction -- autoregressive inference and teacher-forced training -- must be treated distinctly. The popular criticism that errors can compound during autoregressive inference, crucially assumes that teacher-forcing has learned an accurate next-token predictor. This assumption sidesteps a more deep-rooted problem we expose: in certain classes of tasks, teacher-forcing can simply fail to learn an accurate next-token predictor in the first place. We describe a general mechanism of how teacher-forcing can fail, and design a minimal planning task where both the Transformer and the Mamba architecture empirically fail in that manner -- remarkably, despite the task being straightforward to learn. We provide preliminary evidence that this failure can be resolved when training to predict multiple tokens in advance. We hope this finding can ground future debates and inspire explorations beyond the next-token prediction paradigm. We make our code available under https://github.com/gregorbachmann/Next-Token-Failures | 翻訳日:2024-03-12 17:45:30 公開日:2024-03-11 |
# 医療診断のための説明可能なトランスフォーマープロトタイプ Explainable Transformer Prototypes for Medical Diagnoses ( http://arxiv.org/abs/2403.06961v1 ) ライセンス: Link先を確認 | Ugur Demir, Debesh Jha, Zheyuan Zhang, Elif Keles, Bradley Allen, Aggelos K. Katsaggelos, Ulas Bagci | (参考訳) 医療診断における人工知能の展開は、正確性と有効性だけでなく、マシン決定における説明可能性の必要性を強調する信頼も要求している。
自動医療画像診断の最近のトレンドは、その素晴らしい能力によって、トランスフォーマーベースのアーキテクチャの展開に傾いている。
変圧器の自己注意特性は, 分類過程において重要な領域の特定に寄与するため, 手法の信頼性が向上する。
しかし、これらの注意機構の複雑な複雑さは、AI決定に直接影響を及ぼす関心領域を効果的に特定できない可能性がある。
本研究は,「ピクセル」ではなく「領域」間の相関を強調するユニークな注意ブロックを革新することを目指している。
この課題に対処するために,我々は,従来のアドホックな視覚説明手法を越え,理解可能な視覚的洞察を提供する先進的な自己認識機構を特徴とする,プロトタイプ学習に基づく革新的なシステムを提案する。
大規模なNIH胸部X線データセットに対する提案手法の有効性を示すために, 定量的および定性的手法を併用した。
実験結果から,本手法は,より信頼性の高いシステム開発につながる可能性があり,より容易かつ迅速な臨床応用が可能であることが示唆された。
コードはwww.github.com/NUBagcilab/r2r_protoで入手できる。 Deployments of artificial intelligence in medical diagnostics mandate not just accuracy and efficacy but also trust, emphasizing the need for explainability in machine decisions. The recent trend in automated medical image diagnostics leans towards the deployment of Transformer-based architectures, credited to their impressive capabilities. Since the self-attention feature of transformers contributes towards identifying crucial regions during the classification process, they enhance the trustability of the methods. However, the complex intricacies of these attention mechanisms may fall short of effectively pinpointing the regions of interest directly influencing AI decisions. Our research endeavors to innovate a unique attention block that underscores the correlation between 'regions' rather than 'pixels'. To address this challenge, we introduce an innovative system grounded in prototype learning, featuring an advanced self-attention mechanism that goes beyond conventional ad-hoc visual explanation techniques by offering comprehensible visual insights. A combined quantitative and qualitative methodological approach was used to demonstrate the effectiveness of the proposed method on the large-scale NIH chest X-ray dataset. Experimental results showed that our proposed method offers a promising direction for explainability, which can lead to the development of more trustable systems, which can facilitate easier and rapid adoption of such technology into routine clinics. The code is available at www.github.com/NUBagcilab/r2r_proto. | 翻訳日:2024-03-12 17:45:09 公開日:2024-03-11 |
# 新しい2次元ハイブリッド有機無機ペロブスカイトの精密結晶構造予測 Accurate Crystal Structure Prediction of New 2D Hybrid Organic Inorganic Perovskites ( http://arxiv.org/abs/2403.06955v1 ) ライセンス: Link先を確認 | Nima Karimitari, William J. Baldwin, Evan W. Muller, Zachary J. L. Bare, W. Joshua Kennedy, G\'abor Cs\'anyi, Christopher Sutton | (参考訳) 低次元有機-無機ペロブスカイト(HOIPs)は、光吸収と発光の両面において電子的に活性な物質である。
有機カチオンの多様な空間は、異なる無機フレームワークと組み合わせることができるため、HOIPsの設計空間は非常に大きい。
この巨大な設計空間は、電子的および機械的特性を可変化できるだけでなく、候補構造のin silico高スループット解析のための新しいツールの開発も必要である。
本研究では,新しい2次元hoipの構造を予測するためのmlip(machine learning interatomic potential)を提案する。
MACEアーキテクチャを用いて、MLIPは、実験的に報告された86のHOIP構造に基づいて訓練される。
このモデルは73のペロブスカイト組成で試験され、基準電子構造法に関して化学的精度を達成する。
このモデルと単純なランダム構造探索アルゴリズムを組み合わせることで,提案した構成のみを仮定したHOIPの構造を予測する。
成功は、実験的に知られている2Dペロブスカイトの集合の結晶構造を正しく確実に回収することで証明される。
このようなランダムな構造探索は、関連する計算コストのためにab initio法では不可能であるが、メイスポテンシャルでは比較的安価である。
最後に、前述したペロブスカイトを含まない新しい有機カチオンによって形成される構造を予測するためにこの手順が用いられる。
新しいハイブリッドペロブスカイトを実験室で合成し,予測精度を確認した。
この能力は大規模に適用され、有機カチオンと無機層の何千もの組み合わせを効率的にスクリーニングできる。 Low dimensional hybrid organic-inorganic perovskites (HOIPs) represent a promising class of electronically active materials for both light absorption and emission. The design space of HOIPs is extremely large, since a diverse space of organic cations can be combined with different inorganic frameworks. This immense design space allows for tunable electronic and mechanical properties, but also necessitates the development of new tools for in silico high throughput analysis of candidate structures. In this work, we present an accurate, efficient, transferable and widely applicable machine learning interatomic potential (MLIP) for predicting the structure of new 2D HOIPs. Using the MACE architecture, an MLIP is trained on 86 diverse experimentally reported HOIP structures. The model is tested on 73 unseen perovskite compositions, and achieves chemical accuracy with respect to the reference electronic structure method. Our model is then combined with a simple random structure search algorithm to predict the structure of hypothetical HOIPs given only the proposed composition. Success is demonstrated by correctly and reliably recovering the crystal structure of a set of experimentally known 2D perovskites. Such a random structure search is impossible with ab initio methods due to the associated computational cost, but is relatively inexpensive with the MACE potential. Finally, the procedure is used to predict the structure formed by a new organic cation with no previously known corresponding perovskite. Laboratory synthesis of the new hybrid perovskite confirms the accuracy of our prediction. This capability, applied at scale, enables efficient screening of thousands of combinations of organic cations and inorganic layers. | 翻訳日:2024-03-12 17:44:47 公開日:2024-03-11 |
# ゼロショットドメイン転送のための手術シーンの潜在グラフ表現の最適化 Optimizing Latent Graph Representations of Surgical Scenes for Zero-Shot Domain Transfer ( http://arxiv.org/abs/2403.06953v1 ) ライセンス: Link先を確認 | Siddhant Satyanaik, Aditya Murali, Deepak Alapatt, Xin Wang, Pietro Mascagni, Nicolas Padoy | (参考訳) 目的: 深層学習の進歩は, 手術映像解析の有効なモデルとなったが, 外科的ワークフロー, カメラ設定, 患者人口の変動による領域シフトにより, 医療センター全体の一般化に失敗することが多い。
近年,下流の作業性能を向上させるために,手術ツールや解剖学の視覚的・意味的特性の理解・把握・解消に期待できるアプローチとして,オブジェクト指向学習が登場している。
本研究では, 腹腔鏡下胆嚢摘出術における安全性評価のクリティカルビューに着目し, 対象中心アプローチの多点評価ベンチマークを行い, 未確認領域の一般化のための改良アプローチを提案する。
メソッド: ドメイン一般化のための4つのオブジェクト中心のアプローチを評価し, ベースライン性能を確立する。
次に,オブジェクト中心表現の不連続性を生かして,一連のアブレーション(例えば,下流分類の視覚的特徴や意味的特徴を無視する)を通して,これらの手法の1つを分離する。
最後に, これらのアブレーションの結果に基づいて, ドメイン一般化のための最適化手法lg-dgを開発した。
結果: 最適化されたLG-DGは, 最高のベースラインアプローチよりも9.28%向上した。
より広範に、表現学習に対するモジュラーアプローチのおかげで、オブジェクト指向アプローチはドメインの一般化に非常に効果的であることを示す。
結論: ドメインの一般化にオブジェクト中心の手法を用いることについて検討し, 性能に重要な手法に依存しない因子を同定し, 既存の手法を著しく上回る最適化手法を提案する。 Purpose: Advances in deep learning have resulted in effective models for surgical video analysis; however, these models often fail to generalize across medical centers due to domain shift caused by variations in surgical workflow, camera setups, and patient demographics. Recently, object-centric learning has emerged as a promising approach for improved surgical scene understanding, capturing and disentangling visual and semantic properties of surgical tools and anatomy to improve downstream task performance. In this work, we conduct a multi-centric performance benchmark of object-centric approaches, focusing on Critical View of Safety assessment in laparoscopic cholecystectomy, then propose an improved approach for unseen domain generalization. Methods: We evaluate four object-centric approaches for domain generalization, establishing baseline performance. Next, leveraging the disentangled nature of object-centric representations, we dissect one of these methods through a series of ablations (e.g. ignoring either visual or semantic features for downstream classification). Finally, based on the results of these ablations, we develop an optimized method specifically tailored for domain generalization, LG-DG, that includes a novel disentanglement loss function. Results: Our optimized approach, LG-DG, achieves an improvement of 9.28% over the best baseline approach. More broadly, we show that object-centric approaches are highly effective for domain generalization thanks to their modular approach to representation learning. Conclusion: We investigate the use of object-centric methods for unseen domain generalization, identify method-agnostic factors critical for performance, and present an optimized approach that substantially outperforms existing methods. | 翻訳日:2024-03-12 17:44:24 公開日:2024-03-11 |
# SELMA: 自動生成データによるスキル専門のテキスト・画像エキスパートの学習とマージ SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data ( http://arxiv.org/abs/2403.06952v1 ) ライセンス: Link先を確認 | Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal | (参考訳) 最近のtext-to-image (t2i) 生成モデルは、テキスト記述から画像を作成する素晴らしい能力を示している。
しかしながら、これらのT2I生成モデルは、不正確な空間関係や欠落したオブジェクトなど、テキスト入力の詳細と正確に一致する画像を生成するのに不足することが多い。
本稿ではselmaについて紹介する。selma: スキル固有のエキスパート学習と自動生成データとの融合,スキル固有のエキスパート学習とマージを備えた,自動生成されたマルチスキル画像テキストデータセット上でモデルを微調整することにより,t2iモデルの忠実性を向上するための新しいパラダイムである。
まず、selmaはllmのコンテキスト内学習機能を利用して、異なるスキルを習得できるテキストプロンプトの複数のデータセットを生成し、プロンプトに基づいてt2iモデルで画像を生成する。
次に、SELMAは、複数のシングルスキルのLoRA(ローランク適応)エキスパートを学び、その後にエキスパートマージすることで、新しいスキルにT2Iモデルを適用する。
我々の独立した専門家は、異なるスキルのための複数のモデルを専門に調整し、エキスパートマージは、異なるデータセットからの知識の衝突を緩和しながら、さまざまなテキストプロンプトに対して忠実な画像を生成することができる、共同のマルチスキルt2iモデルを構築するのに役立ちます。
SELMAは、複数のベンチマーク(TIFAでは+2.1%、DSGでは+6.9%)、人間の嗜好指標(PickScore、ImageReward、HPS)、および人間の評価において、最先端のT2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示した。
さらに、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上真実データによる微調整に匹敵する性能を示す。
最後に,より弱いT2Iモデルからの画像を微調整することで,より強力なT2Iモデルの生成品質を向上させることができることを示す。 Recent text-to-image (T2I) generation models have demonstrated impressive capabilities in creating images from text descriptions. However, these T2I generation models often fall short of generating images that precisely match the details of the text inputs, such as incorrect spatial relationship or missing objects. In this paper, we introduce SELMA: Skill-Specific Expert Learning and Merging with Auto-Generated Data, a novel paradigm to improve the faithfulness of T2I models by fine-tuning models on automatically generated, multi-skill image-text datasets, with skill-specific expert learning and merging. First, SELMA leverages an LLM's in-context learning capability to generate multiple datasets of text prompts that can teach different skills, and then generates the images with a T2I model based on the prompts. Next, SELMA adapts the T2I model to the new skills by learning multiple single-skill LoRA (low-rank adaptation) experts followed by expert merging. Our independent expert fine-tuning specializes multiple models for different skills, and expert merging helps build a joint multi-skill T2I model that can generate faithful images given diverse text prompts, while mitigating the knowledge conflict from different datasets. We empirically demonstrate that SELMA significantly improves the semantic alignment and text faithfulness of state-of-the-art T2I diffusion models on multiple benchmarks (+2.1% on TIFA and +6.9% on DSG), human preference metrics (PickScore, ImageReward, and HPS), as well as human evaluation. Moreover, fine-tuning with image-text pairs auto-collected via SELMA shows comparable performance to fine-tuning with ground truth data. Lastly, we show that fine-tuning with images from a weaker T2I model can help improve the generation quality of a stronger T2I model, suggesting promising weak-to-strong generalization in T2I models. | 翻訳日:2024-03-12 17:43:55 公開日:2024-03-11 |
# deadiff: 不連続表現を持つ効率的なスタイリゼーション拡散モデル DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations ( http://arxiv.org/abs/2403.06951v1 ) ライセンス: Link先を確認 | Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang Chen, Qian He, Yongdong Zhang | (参考訳) 拡散ベースのテキストから画像へのモデルは、参照スタイルを転送する大きな可能性を秘めている。
しかし、現在のエンコーダベースのアプローチは、スタイルを転送しながらテキストから画像へのモデルのテキスト制御性を著しく損なう。
本稿では,以下の2つの戦略を用いてこの問題に対処するために, \textit{deadiff} を導入する。
1)参照画像のスタイルと意味を分離するメカニズム。
分離された特徴表現は、まず異なるテキスト記述によって指示されるqフォーマによって抽出される。
そして、それらを相互に排他的な相互アテンション層のサブセットに注入して、より良い絡み合うようにします。
2)非再構成学習法。
q-formersは、同一のターゲットではなくペア画像を使用して訓練され、参照画像と接地画像は同じスタイルまたは意味を持つ。
そこで本研究では,DADiffがテキスト・画像モデルに固有のテキスト制御性と,参照画像に類似するスタイルとの最適バランスを,定量的かつ定性的に示すことができることを示す。
私たちのプロジェクトページは~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}です。 The diffusion-based text-to-image model harbors immense potential in transferring reference style. However, current encoder-based approaches significantly impair the text controllability of text-to-image models while transferring styles. In this paper, we introduce \textit{DEADiff} to address this issue using the following two strategies: 1) a mechanism to decouple the style and semantics of reference images. The decoupled feature representations are first extracted by Q-Formers which are instructed by different text descriptions. Then they are injected into mutually exclusive subsets of cross-attention layers for better disentanglement. 2) A non-reconstructive learning method. The Q-Formers are trained using paired images rather than the identical target, in which the reference image and the ground-truth image are with the same style or semantics. We show that DEADiff attains the best visual stylization results and optimal balance between the text controllability inherent in the text-to-image model and style similarity to the reference image, as demonstrated both quantitatively and qualitatively. Our project page is~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}. | 翻訳日:2024-03-12 17:43:15 公開日:2024-03-11 |